wat ziet een zoekmachine?

Overzicht Reageren

Sponsored by: Vacatures door Monsterboard

Ozzie PHP

Ozzie PHP

19/09/2013 21:15:47
Quote Anchor link
Ola vrienden,

Een korte vraag. Wat "ziet" een zoekmachine eigenlijk?

Ziet een zoekmachine alleen bestanden waarnaar vanuit de webpagina's wordt gelinkt? Of ziet een zoekmachine alle bestanden in een directory? Anders gezegd, kan een zoekmachine een directory uitlezen?

Voorbeeld:

We hebben de map public...

Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
5
6
7
8
9
10
/public/
  favicon.ico
  index.php
  page1.php
  page2.php
  secretfile.php
       /images/
          image1.jpg
          image2.jpg
          secretimage.jpg

Stel nu in index.php staan verwijzingen naar page1.php, page2.php en er worden 2 afbeeldingen getoond, namelijk image1.jpg en image2.jpg.

Bovengenoemde bestanden zullen allemaal worden geïndexeerd. Maar hoe zit dat met het bestand secretfile.php en de afbeelding secretimage.jpg. Ziet de zoekmachine die ook? Of weet de zoekmachine niet van hun bestaan, omdat er nergens naar wordt gelinkt?
 
PHP hulp

PHP hulp

28/11/2024 14:37:54
 
- Ariën  -
Beheerder

- Ariën -

19/09/2013 21:27:06
Quote Anchor link
Als een directory geen open-dir is, dan kan de zoekmachine uiteraard niet bij bestanden komen waar niet naar gelinkt is. Wij kunnen die niet zien, dus een zoekmachine ook niet ;-).
 
Ozzie PHP

Ozzie PHP

19/09/2013 21:28:46
Quote Anchor link
Wat bedoel je met open-dir?

De zoekmachine zou het bestand gewoon kunnen aanroepen via www.mijnsite.nl/secretfile.php. Maar mijn vraag is of de zoekmachine weet dat dit bestand bestaat.
 
- Ariën  -
Beheerder

- Ariën -

19/09/2013 21:30:27
Quote Anchor link
Een open dir is een directory die inzichtelijk is:
Bijv. http://www.geenstijl.nl/icons/, om als voorbeeld te noemen.

Als een bestandnaam niet geïndexeerd is, dan bestaat deze niet voor Google.
Gewijzigd op 19/09/2013 21:31:28 door - Ariën -
 
Ozzie PHP

Ozzie PHP

19/09/2013 21:38:20
Quote Anchor link
Ah oke... maar als het nu wel een open-dir is, maar er wordt niet naar het bestand gelinkt, dan weet Google wel of niet dat het bestand bestaat? Gaat Google die directory uitlezen?

Oh ja, stel dat een andere website nu zou linken naar www.mijnsite.nl/secretfile.php. Wordt het bestand dan alsnog geïndexeerd?

p.s. Ik krijg geen mail als jij reageert. Ligt de mailserver eruit?
 
- Ariën  -
Beheerder

- Ariën -

19/09/2013 22:12:24
Quote Anchor link
Als Google een link kan vinden op zijn pad, zonder een blokkade van een http 5xx-header (500, 503 etc..) of een robots.txt, dan gaat hij gewoon door.
 
Roel -

Roel -

19/09/2013 22:25:22
Quote Anchor link
Misschien heeft Google ook wel een aantal keywords met namen zoals bijv. secretfile e.d. waarop hij probeert te matchen.
 
Ozzie PHP

Ozzie PHP

19/09/2013 22:30:01
Quote Anchor link
- Aar - op 19/09/2013 22:12:24:
Als Google een link kan vinden op zijn pad, zonder een blokkade van een http 5xx-header (500, 503 etc..) of een robots.txt, dan gaat hij gewoon door.

Aar, ik snap je nog niet helemaal. Als een directory openstaat, leest Google dan die hele directory uit... OF, wordt alleen gekeken naar de links die in een pagina staan? Dus stel in index.php staat een link naar page2 dan wordt page 2 geïndexeerd. In page2 staat een link naar page3 en vervolgens wordt page3 geïndexeerd enz. Maar als er geen enkele link is naar "secretpage" kan die pagina dan toch worden geïndexeerd?

Roel PHP op 19/09/2013 22:25:22:
Misschien heeft Google ook wel een aantal keywords met namen zoals bijv. secretfile e.d. waarop hij probeert te matchen.

Zou kunnen, maar dan zou ik eerder denken aan bijv. "robots.txt" en niet zozeer aan "secretfile". Alhoewel... tegenwoordig weet je het inderdaad maar nooit :)))
 
- Ariën  -
Beheerder

- Ariën -

19/09/2013 22:34:06
Quote Anchor link
Ik ken Google's zoekalgoritme niet, en die weet niemand, behalve de ontwerper/bouwer die een strikte geheimhoudingscontract zal hebben getekend.

Maar ik denk zelf dat open-dir's ook doorzocht worden. Ik zou zeggen, test het eens uit ;-)
gelukkig staan vaak de open-dir's in Apache uit, en krijg je een 403 voor je kiezen.
 
Ozzie PHP

Ozzie PHP

19/09/2013 22:48:58
Quote Anchor link
Hmmm oke... thanks... ben er nog niet echt veel wijzer van geworden :)

Als iemand meer weet hoor ik het graag!
 
Wouter J

Wouter J

19/09/2013 23:18:54
Quote Anchor link
Voorzover ik weet moet je de google bot zien als een HTMl parser. Hij parsed een HTMl file, haalt er nuttige keywords uit en andere informatie. Vervolgens zoekt hij alle links op en bezoekt die pagina, hier doet hij hetzelfde, etc. Zodra er dus een pagina is waarnaar niet wordt gelinkt zal google deze niet vinden. Stel een andere site linkt erna, dan wordt hij natuurlijk wel gevonden.

Leerzaam filmpje:
 
Ozzie PHP

Ozzie PHP

19/09/2013 23:59:19
Quote Anchor link
Thanks Wouter. Ik dacht inderdaad ook dat het op deze manier werkte, dus dat in een pagina een link staat, en dat die link dan weer wordt gevolgd enz. Maar toch kan ik me ook voorstellen dat een directory compleet wordt uitgelezen, maar dat zou eigenlijk wel raar zijn omdat de zoekmachine zich dan op "onbevoegd terrein" bevindt. Anyhow, ik ga er dan maar vanuit dat uitsluitend pagina's/bestanden waarnaar gelinkt wordt, kunnen worden geïndexeerd. Thanks!
 
Ward van der Put
Moderator

Ward van der Put

20/09/2013 08:30:38
Quote Anchor link
Googlebot is niet je eerste zorg. Er zijn kwaadaardige robots die op zoek zijn naar achterdeuren op basis van bekende lekken in CMS'en, blogsoftware, enzovoort. Er zijn ook robots die uit zijn op het 'oogsten' van specifieke content, bijvoorbeeld mp3's.

Als je toch een soort secretfile.php in een openbare directory zet, zet er dan een strenge toegangscontrole op: IP-whitelist + SSL + inloggen is praktisch waterdicht.
 
Ozzie PHP

Ozzie PHP

20/09/2013 13:23:04
Quote Anchor link
Thanks Ward. Kunnen die robots dan ook een directory uitlezen?

Ik zie in mijn eigen serverlogs inderdaad vaak aanvallen, en dan worden er allerlei versies van phpmyadmin uitgeprobeerd. Wat bedoel je met het 'oogsten' van content. Ze gaan kijken of er mp3's in een directory staan, en die gaan ze dan naar een andere server kopiëren???
 
Ward van der Put
Moderator

Ward van der Put

20/09/2013 13:39:58
Quote Anchor link
Als je geen directorylistings toont, kunnen robots niets lezen. Maar ze gaan anders te werk: ze raden gewoon naar voor de hand liggende bestandsnamen zoals functions.php en config.inc. Of inderdaad, zoals bij jouw phpMyAdmin: naar alle directory- en bestandsnamen die in open-source software worden gebruikt.

Als je een mp3 online zet, wordt die inderdaad vaak gekopieerd naar een server in het oostblok. Kan iemand weer een paar cent verdienen aan betaalde downloads.

Ik heb voor de lol wel eens een simpele honeypot opgezet. In robots.txt had ik het indexeren van een bepaalde directory verboden. En je raadt al waarom: als je een directory noemt in robots.txt, weten kwaadwillende ook dat die directory bestaat. Vervolgens registreerde ik met een PHP-script in de verboden directory welke robots die regel in robots.txt aan hun laars lapten. Leerzaam...
 
Ozzie PHP

Ozzie PHP

20/09/2013 14:06:19
Quote Anchor link
Ah oke... geinig :) Ik zal er eens mee experimenteren :)
 



Overzicht Reageren

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.