wat ziet een zoekmachine?
Een korte vraag. Wat "ziet" een zoekmachine eigenlijk?
Ziet een zoekmachine alleen bestanden waarnaar vanuit de webpagina's wordt gelinkt? Of ziet een zoekmachine alle bestanden in een directory? Anders gezegd, kan een zoekmachine een directory uitlezen?
Voorbeeld:
We hebben de map public...
Code (php)
1
2
3
4
5
6
7
8
9
10
2
3
4
5
6
7
8
9
10
/public/
favicon.ico
index.php
page1.php
page2.php
secretfile.php
/images/
image1.jpg
image2.jpg
secretimage.jpg
favicon.ico
index.php
page1.php
page2.php
secretfile.php
/images/
image1.jpg
image2.jpg
secretimage.jpg
Stel nu in index.php staan verwijzingen naar page1.php, page2.php en er worden 2 afbeeldingen getoond, namelijk image1.jpg en image2.jpg.
Bovengenoemde bestanden zullen allemaal worden geïndexeerd. Maar hoe zit dat met het bestand secretfile.php en de afbeelding secretimage.jpg. Ziet de zoekmachine die ook? Of weet de zoekmachine niet van hun bestaan, omdat er nergens naar wordt gelinkt?
Als een directory geen open-dir is, dan kan de zoekmachine uiteraard niet bij bestanden komen waar niet naar gelinkt is. Wij kunnen die niet zien, dus een zoekmachine ook niet ;-).
De zoekmachine zou het bestand gewoon kunnen aanroepen via www.mijnsite.nl/secretfile.php. Maar mijn vraag is of de zoekmachine weet dat dit bestand bestaat.
Bijv. http://www.geenstijl.nl/icons/, om als voorbeeld te noemen.
Als een bestandnaam niet geïndexeerd is, dan bestaat deze niet voor Google.
Gewijzigd op 19/09/2013 21:31:28 door - Ariën -
Oh ja, stel dat een andere website nu zou linken naar www.mijnsite.nl/secretfile.php. Wordt het bestand dan alsnog geïndexeerd?
p.s. Ik krijg geen mail als jij reageert. Ligt de mailserver eruit?
Als Google een link kan vinden op zijn pad, zonder een blokkade van een http 5xx-header (500, 503 etc..) of een robots.txt, dan gaat hij gewoon door.
Misschien heeft Google ook wel een aantal keywords met namen zoals bijv. secretfile e.d. waarop hij probeert te matchen.
- Aar - op 19/09/2013 22:12:24:
Als Google een link kan vinden op zijn pad, zonder een blokkade van een http 5xx-header (500, 503 etc..) of een robots.txt, dan gaat hij gewoon door.
Aar, ik snap je nog niet helemaal. Als een directory openstaat, leest Google dan die hele directory uit... OF, wordt alleen gekeken naar de links die in een pagina staan? Dus stel in index.php staat een link naar page2 dan wordt page 2 geïndexeerd. In page2 staat een link naar page3 en vervolgens wordt page3 geïndexeerd enz. Maar als er geen enkele link is naar "secretpage" kan die pagina dan toch worden geïndexeerd?
Roel PHP op 19/09/2013 22:25:22:
Misschien heeft Google ook wel een aantal keywords met namen zoals bijv. secretfile e.d. waarop hij probeert te matchen.
Zou kunnen, maar dan zou ik eerder denken aan bijv. "robots.txt" en niet zozeer aan "secretfile". Alhoewel... tegenwoordig weet je het inderdaad maar nooit :)))
Maar ik denk zelf dat open-dir's ook doorzocht worden. Ik zou zeggen, test het eens uit ;-)
gelukkig staan vaak de open-dir's in Apache uit, en krijg je een 403 voor je kiezen.
Als iemand meer weet hoor ik het graag!
Leerzaam filmpje:
Thanks Wouter. Ik dacht inderdaad ook dat het op deze manier werkte, dus dat in een pagina een link staat, en dat die link dan weer wordt gevolgd enz. Maar toch kan ik me ook voorstellen dat een directory compleet wordt uitgelezen, maar dat zou eigenlijk wel raar zijn omdat de zoekmachine zich dan op "onbevoegd terrein" bevindt. Anyhow, ik ga er dan maar vanuit dat uitsluitend pagina's/bestanden waarnaar gelinkt wordt, kunnen worden geïndexeerd. Thanks!
Als je toch een soort secretfile.php in een openbare directory zet, zet er dan een strenge toegangscontrole op: IP-whitelist + SSL + inloggen is praktisch waterdicht.
Ik zie in mijn eigen serverlogs inderdaad vaak aanvallen, en dan worden er allerlei versies van phpmyadmin uitgeprobeerd. Wat bedoel je met het 'oogsten' van content. Ze gaan kijken of er mp3's in een directory staan, en die gaan ze dan naar een andere server kopiëren???
Als je een mp3 online zet, wordt die inderdaad vaak gekopieerd naar een server in het oostblok. Kan iemand weer een paar cent verdienen aan betaalde downloads.
Ik heb voor de lol wel eens een simpele honeypot opgezet. In robots.txt had ik het indexeren van een bepaalde directory verboden. En je raadt al waarom: als je een directory noemt in robots.txt, weten kwaadwillende ook dat die directory bestaat. Vervolgens registreerde ik met een PHP-script in de verboden directory welke robots die regel in robots.txt aan hun laars lapten. Leerzaam...
Ah oke... geinig :) Ik zal er eens mee experimenteren :)