Instagram crawler
Het gaat om www.instazip.me.
De bedoeling van de website is dat het een opgegeven instagram-account crawled en van alle (gevonden) Instagram-foto's een zip bestand maakt, dat gedownload kan worden.
Zouden jullie deze website kunnen bekijken en feedback kunnen geven of eventuele verbeteringen opnoemen?
Met vriendelijke groet,
Milan
Scrape je dit echt van instagram of gebruik je een API?
Van de Instagram API wordt geen gebruik gemaakt. De foto's worden gescraped (via een zelf ontwikkelde scraper) van Instagram zelf.
Ik wil de ruimte zoveel mogelijk beperken omdat ik op een later moment er beeldadvertenties op wil plaatsen.
Wat bedoel je met stacken?
Met vriendelijke groet,
Milan
Ik denk dat wes bedoelt dat je pas de kwaliteit kan selecteren als je het aantal fotos hebt geselecteerd.
Check ook even je spelling:
Quote:
Your file will be expire in two days.
Ook dit is een rare zin :
Quote:
You can either download the ZIP-file by clicking the button 'Download' bellow. or?????
Ook vind ik nergens een terug knop als ik de plaatjes eenmaal kan downloaden
Zouden jullie allebei de opties graag onder elkaar zien?
Aan het Engels moet inderdaad nog gewerkt worden. Backlink naar de hoofdpagina is ook een goede tip. Misschien via het klikken van het logo?
Limiet is nu 100 afbeeldingen, maar dat wordt binnenkort naar Unlimited gezet. De reden dat het nog tot maximaal 100 afbeeldingen kan, is omdat ik nog een beperkt aantal schijfruimte heb. Binnenkort worden de zip-files opgeslagen op Amazon S3.
Bedankt voor de reacties.
Met vriendelijke groet,
Milan
Scrapen wordt behoorlijk snel gedetecteerd door sites als instagram, kan zijn dat je hier een harde blokkade op gaat krijgen ooit. Hou daar rekening mee. Instagram heeft gewoon een API voor dit soort dingen.
Zouden jullie nog één kritische blik kunnen geven op mijn website.
Alle aanpassingen die hierboven genoemd zijn, zijn verricht.
Elke mening is welkom.
Scrapen gebeurt trouwens niet via de website van Instagram.
Mvg,
Milan
Gewijzigd op 05/02/2015 10:44:02 door Milan Milan
Daarnaast was eerder al vernoemd dat scrapen al gauw opgemerkt gaat worden door het patroon zeker door grotere bedrijven.
Het probleem van de Instagram API is het volgende:
You cannot use the Instagram API to crawl or store users' media without their express consent.
Nu je van elk instagram profiel de foto's kunt downloaden en opgeslagen wordt (nu op de Amazon S3 server) kunnen ze me de toegang ontzeggen tot de API, omdat ik dan niet volgens de regels werk.
Nu het scrapen via een andere website gebeurt die wel de API gebruikt, maar de foto's niet download. Kan Instagram zelf mijn IP niet zien, maar alleen dat van de website waar ik het vandaan haal.
Kortom volgens mij wordt het traceren moeilijk, maar kan het mis hebben.
Nu ik inderdaad wel afhankelijk ben van een één website probeer ik nog een script te maken voor.een andere website, dus mocht 1 website het niet meer doen dan heb ik nog een backup
Zijn er nog andere reacties m.b.t. de layout?
Mvg,
Milan
Quote:
You cannot use the Instagram API to crawl or store users' media without their express consent.
Als dit er staat mag je dit niet legaal gebruiken, stoppen dus!
Bedankt voor je reactie.
Deze regel geldt alleen wanneer je de API gebruikt. Of deze regel ook zonder API geldt is (mij) niet bekend.
Met vriendelijke groet,
Milan
Toevoeging op 05/02/2015 21:54:07:
Milan Milan op 05/02/2015 21:53:38:
Hoi Victor,
Bedankt voor je reactie.
Deze regel geldt alleen wanneer je de API gebruikt. Of deze regel ook zonder API geldt is (mij) niet bekend. En zie daarbij dus geen aanleiding om te stoppen.
Met vriendelijke groet,
Milan
Bedankt voor je reactie.
Deze regel geldt alleen wanneer je de API gebruikt. Of deze regel ook zonder API geldt is (mij) niet bekend. En zie daarbij dus geen aanleiding om te stoppen.
Met vriendelijke groet,
Milan
Uit de terms of use:
General Conditionslid 10:
Quote:
We prohibit crawling, scraping, caching or otherwise accessing any content on the Service via automated means, including but not limited to, user profiles and photos (except as may be the result of standard search engine protocols or technologies used by a search engine with Instagram's express consent).
Gewijzigd op 05/02/2015 23:29:34 door Victor -
Zoals Victor hierboven dus zegt ... wat jij doet is illegaal. Ik zou óf de API gaan gebruiken, of zsm de site uit de lucht halen. Dit soort bedrijven kunnen zware middelen inzetten om het jou moeilijk te maken. Ik zou het risico niet nemen.
Wat voor consequenties kan dit hebben, mocht dit inderdaad illegaal zijn?
Sommatie met juridische consequenties.
Dat je een schadevergoeding aan je broek kunt krijgen van een bedrag met een paar nullen. Echt, ik zou het risico niet nemen. Tegen zulke grote bedrijven ben jij juridisch gezien als particulier nooit opgewassen.
Vier nullen, om precies te zijn: $ 150.000.
Of maar $ 4.000, maar dan wel per foto.
In ieder geval bedankt voor de reacties/waarschuwingen. Mocht ik het offline halen dan zet ik het op gitbub.
Milan
Toevoeging op 06/02/2015 14:45:14:
Btw nog 1 dingetje...
Instagram zegt dat ze geen recht claimen op de foto's die geüpload zijn door de gebruikers? Hoe kun je dan een juridische procedure beginnen als Instagram zijnde zonder recht op de foto's te hebben/claimen?
Milan Milan op 06/02/2015 14:41:20:
Als 16-jarige ben ik daar inderdaad niet tegen opgewassen.
In ieder geval bedankt voor de reacties/waarschuwingen. Mocht ik het offline halen dan zet ik het op gitbub.
Milan
In ieder geval bedankt voor de reacties/waarschuwingen. Mocht ik het offline halen dan zet ik het op gitbub.
Milan
Ik heb wel eens vaker gelezen dat grote bedrijven dergelijke auteursinbreukmakende scripts bij github kunnen laten verwijderen. Ik weet niet tot hoeverre Instagram (is FaceBook niet de eigenaar?) juridisch zijn recht hierop kan uitoefenen.
Dan is het nog steeds een probleem: een van de Instagram-gebruikers kan je als auteursrechthebbende een proces aandoen.
Er is een berucht Amerikaanse advocatenkantoor dat daarin is gespecialiseerd. Ik zal niet uitleggen hoe ze dat doen, om niemand op ideeën te brengen, maar jouw gebruik van auteursrechtelijk beschermd materiaal is aantrekkelijk voor partijen die op die manier hun brood verdienen.
Het is wel okay als je de app verbouwt: als je de Instagram-API gebruikt en Instagram-gebruikers daarmee kunt laten inloggen (waarbij zij jou toestemming verlenen), dan kan het waarschijnlijk wel door de beugel. Je geeft mensen dan immers toegang tot hun eigen foto's via een systeem dat Instagram daarvoor beschikbaar stelt.
Gewijzigd op 06/02/2015 15:03:21 door Ward van der Put
Klopt dat Facebook de eigenaar is, maar de voorwaarden horen bij Instagram.
Is het volgende dan niet de oplossing?
Wanneer Instagram-gebruikers niet willen dat ze via mijn website gecrawld worden dat ze dan hun instagram-account geven met opgaaf van een geldige reden (zoals privacybezwaren) dat ik het account dan niet meer laat crawlen via mijn website?
Het gaat trouwens wel om accounts die publiekelijk toegankelijk zijn.
En Ward de laatste alinea. Wat je daar zegt bestaat dus al: instaport.me.
Maar dat is dus alleen voor je eigen account. Bij mij gaat het om iedereens account, maar nogmaals dan moet die nog wel publiekelijk toegankelijk zijn.