Site Crawler en Checker
steen
26/09/2009 17:37:00Beste PHP'ers,
Ik wil graag een sitecrawler maken/gebruiken om een lijst van Nederlandse site's samen te stellen om deze daarna te controleren op het aanwezig zijn van een bepaald bestand (robots.txt). Om daarna te weergeven welke site's dit hebben. Daarnaast wil ik een ander bestand controleren.
- Hoe kan ik een lijst maken van Nederlandse site's?
- Hoe kan ik controleren of robots.txt niet doorverwijst naar bijvoorbeeld de sitemap of een andere pagina?
Ik wil graag een sitecrawler maken/gebruiken om een lijst van Nederlandse site's samen te stellen om deze daarna te controleren op het aanwezig zijn van een bepaald bestand (robots.txt). Om daarna te weergeven welke site's dit hebben. Daarnaast wil ik een ander bestand controleren.
- Hoe kan ik een lijst maken van Nederlandse site's?
- Hoe kan ik controleren of robots.txt niet doorverwijst naar bijvoorbeeld de sitemap of een andere pagina?
PHP hulp
22/12/2024 18:18:09Jan Willem van der Veer
26/09/2009 18:01:00Ja, hoe maak je een lijst van Nederlandse sites:
De mogelijke oplossingen zijn
- Een bestand met op elke regel een sitename
- In PHP een array maken met de sitenames als inhoud.
- Een tabel in een database...
Hoe je kan checken of er niet doorverwezen wordt:
De status checken van het bestand wat je terug krijgt bij de eerste call. En geen locaties volgen die meegegeven worden. Status 200 laat zien dat het een goed bestand is. Alle andere statussen laten zien dat er iets bijzonders aan de hand is.
De mogelijke oplossingen zijn
- Een bestand met op elke regel een sitename
- In PHP een array maken met de sitenames als inhoud.
- Een tabel in een database...
Hoe je kan checken of er niet doorverwezen wordt:
De status checken van het bestand wat je terug krijgt bij de eerste call. En geen locaties volgen die meegegeven worden. Status 200 laat zien dat het een goed bestand is. Alle andere statussen laten zien dat er iets bijzonders aan de hand is.
steen
26/09/2009 18:04:00Met een lijst maken bedoel ik dus, hoe kom ik aan die webadressen ;)
En hoe kan ik die in de praktijk doen dan?
En hoe kan ik die in de praktijk doen dan?
Jens erd
26/09/2009 18:57:00volgens mij volgt een crawler hyperlinks op site's en creert zo een enorme database aan website's.. echter zal hij wel zoekmachine's moeten negeren, dubbele niet op moeten slaan, meta tags uitlezen enzovoort..
steen
26/09/2009 19:15:00Hoeveel Nederlandse site's zijn er nou eigenlijk ? Een paar miljoen? Dat kan een database wel aan. Het gaat alleen om de TLD en de domeinnaam zelf, dus niet om de content.
remie
26/09/2009 20:04:00steen
26/09/2009 20:31:00En nu komt het: hoe maak ik zo'n lijst automatisch, en het makkelijkst. Welke crawler en hoe in te stellen bijv.