Simple dom werkt niet
Edit:
Code verwijderd.
Laten we niemand wijzer maken dan ze al zijn bij het ongeoorloofd scrapen van telefoonnummers. Niemand heeft hier baat bij...
Laten we niemand wijzer maken dan ze al zijn bij het ongeoorloofd scrapen van telefoonnummers. Niemand heeft hier baat bij...
De eerste keer krijg ik wel wat html, maar uiteindelijk niet meer, geen fouten ook, maar $html is leeg, wat doe ik nu verkeerd?
Ik heb dat alleen met die url andere urls werken wel,
Gewijzigd op 22/11/2018 00:47:58 door - Ariën -
Mogelijk is dit gerelateerd aan beveiligde sites (https) en mis je wat functionaliteit om hiermee te communiceren.
Of moet je je cURL settings wat veranderen. Daar wordt tevens aangehaald dat het uit veiligheidsoverwegingen een slecht idee is om VERIFYHOST en VERIFYPEER uit te schakelen.
Ook wordt daar een andere mogelijkheid aangehaald: de site in kwestie redirect, dus zorg dat FOLLOWLOCATION aan staat.
Dit alles kostte mij minder dan 5 minuten Googlen met de zoekopdracht "php curl cannot read from secure site", bovenstaand artikel was het eerste resultaat...
<div id="distilIdentificationBlock"> </div>
Dit krijg ik terug en is een nieuw beveiligingsmechanisme.
Is dit te omzeilen?
Toevoeging op 21/11/2018 22:24:31:
EN zoals ik zei, het werkt de eerste ker , maar bij een aantal refreshes blijkt het weer dezelfde problemen te geven.
Daniel van Seggelen op 21/11/2018 22:22:02:
Je snapt het niet ... dit heeft te maken met :
<div id="distilIdentificationBlock"> </div>
<div id="distilIdentificationBlock"> </div>
Waarom geef je die informatie dan niet meteen in je beginpost in plaats van te gaan klagen dat iemand 'het niet snapt'. Hoe duidelijker je zelf bent in je vraagstelling, een des te duidelijker antwoord je kunt verwachten.
Je moet niet zelf halve informatie geven en vervolgens gaan roepen dat de ander het niet snapt.
>> Dit krijg ik terug en is een nieuw beveiligingsmechanisme.
Dan is het klaarblijkelijk niet de bedoeling dat jij die informatie gaat lopen scrapen.
Gewijzigd op 21/11/2018 22:31:25 door Ozzie PHP
Daniel van Seggelen op 21/11/2018 22:22:02:
Je snapt het niet, die dingen zijn allemaal al geprobeert, niks te maken met https bijv, dit heeft te maken met :
<div id="distilIdentificationBlock"> </div>
Dit krijg ik terug en is een nieuw beveiligingsmechanisme.
Is dit te omzeilen?
<div id="distilIdentificationBlock"> </div>
Dit krijg ik terug en is een nieuw beveiligingsmechanisme.
Is dit te omzeilen?
En dan vraag ik me af of we hieraan willen meewerken?
De beveiliging is er immers niet voor niks.
Mijn beste advies: Vraag de beheerders van de website om hulp. Wie weet hebben ze wel een verborgen API die je onder bepaalde omstandigheden mag gebruiken.
Omdat ik die informatie pas in de source terugkreeg en daar onderzoek naar ben gaan doen:
Hier staat er ook meer over:
https://www.reddup.co/r/HowToHack/comments/90hvo7/how_to_scrape_web_pages_which_detect_for_bots
Dus voor de huidige update:
Hij werkt via een nieuw ip wel, maar ook maar van korte duur(5 seconde), via proxies in curl niet, uiteindelijk is het geblokt.
gaat gewoon om de telefoongids, in plaats van alle openbare adressen, telefoonnummers etc invoeren, probeer ik de scraper te maken.
Vraag gewoon of ze een API hebben. Anders is het jammer maar helaas. Tenzij je wil dat ze meer stappen gaan ondernemen buiten geautomatiseerd blokkeren.
Daniel van Seggelen op 21/11/2018 23:34:42:
gaat gewoon om de telefoongids, in plaats van alle openbare adressen, telefoonnummers etc invoeren, probeer ik de scraper te maken.
En dat willen ze dus voorkomen, ik weet niet wat je doel is, maar zoiets kan ook misbruikt worden voor telefoonoverlast en dergelijke.
Ik brei er maar een eind aan, want dit moeten we gewoon niet faciliteren op PHPhulp.