invoegen van externe URLs in bestaande webpagina's
Stel je hebt een website http://www.whatever.nl/ met hierop enkele pagina's. Vervolgens zie je in je tracking software (denk Google Analytics of equivalent) dat deze of een andere bestaande URL is aangeroepen maar met een toevoeging die nergens op slaat met hierin een volledige URL van een externe website. Ik bedoel hierbij specifiek niet pogingen tot security-gerelateerde injecties zoals SQL injecties of voor het invoegen van externe code, maar misschien is dit een poging tot het meeliften op het "succes" van een site.
Een concreet voorbeeld, in mijn homepage zag ik een recente piek in het aantal bezoekers (van 4 naar 5 bezoekers, lol). Toen ik keek waar deze bezoekers dan specifiek naar keken zag ik het volgende in mijn overzicht:
/?from=http://snip.to/
Deze URL komt dus echt nergens vandaan, ik ken deze hele partij niet en doe hier geen in geen enkele vorm zaken mee.
Het vervelende is, volgens mij doe je hier niets tegen, iedere malloot kan besluiten een bestaande pagina zo aan te roepen want in wezen is dit een valide request. En Google Analytics pikt dit vervolgens op.
Ik ben alleen benieuwd wat de gevolgen hiervan zijn? Omdat ik dit vaker ben tegen gekomen vermoed ik dat dit op een of andere manier lucratief is maar ik kan mij niet voorstellen hoe. Heeft iemand een definitie voor dit fenomeen, of heeft dit zelf ook meegemaakt? Als ik hierop Google kom ik al snel in de injectie/security hoek terecht, maar daar is hier dus geen sprake van.
EDIT: wat mij hier vooral in dwars zit is dat er dus mogelijk een link/associatie gelegd wordt tussen jou en een compleet onbekende partij
Gewijzigd op 18/11/2015 12:06:44 door Thomas van den Heuvel
http://webmasters.stackexchange.com/questions/87099/visits-to-my-site-with-a-weird-url
Aha ... en hier heb ik een mogelijke oplossing gevonden: http://www.ohow.co/snip-to-referral-spam-google-analytics-removal-guide/
Je bent in ieder geval niet de enige: Aha ... en hier heb ik een mogelijke oplossing gevonden: http://www.ohow.co/snip-to-referral-spam-google-analytics-removal-guide/
Wat ik niet begrijp is dat dit blijkbaar mogelijk is by design:
Quote:
The spammer uses the Analytics Measurement Protocol to hit your reports directly without passing through your Site. In normal circumstances this protocol is intended to allow developers to send data directly to Google Analytics Servers.
Dussss, GA heeft een feature die spammers misbruiken, en vervolgens mogen we deze troep zelf opruimen? Nice.
Gewijzigd op 18/11/2015 13:37:54 door Thomas van den Heuvel
Tja ... blijkbaar. In principe pikt GA gewoon de URL op, dus heel verwonderlijk is het niet. Wat je zou kunnen doen (maar of je daar zin in hebt is een tweede) is alvorens de pagina te renderen eerst controleren of er een GET parameter is geset, en zo ja of het een geldige GET parameter is. Als dat laatste niet het geval is, dan een header/forward naar Google.com. Aangezien jouw eigen pagina dan niet wordt gerenderd (en dus je tracker ook niet) komt de info niet in jouw analytics data terecht.
De toevoeging van /?from=http://snip.to/ (klinkt als reclame voor een URL-shortener) zou ik anders oplossen: gebruik een permanente redirect naar de werkelijke URL. Zo voorkom je dat je bezoekers mist, heb je géén duplicate content op verschillende URL's en blijven je statistieken schoon.
@Ward mja, maar dan is het einde ook een beetje zoek, als je er niet van uit kunt gaan dat bezoekers op de gebaande paden blijven :/.
Gewijzigd op 18/11/2015 14:07:56 door Thomas van den Heuvel
Als dat gemanipuleerd kan worden door de site niet eens te bezoeken, maar enkel met het ID van de tracker ... dan zou ik denken 'toedeledokie' Google Analytics. Dat zou namelijk wel héél kansloos zijn.
Voor SEO zie ik hier toch wel een nadeel. Ingaande links zijn daarvoor belangrijk, maar juist de links die nieuwe bezoekers volgen, leiden nu naar een "andere" pagina. All things being equal is het gevolg daarvan dat je twee URL's hebt voor dezelfde content en dan kun je wel raden waaraan Google de voorkeur geeft: die met de meeste ingaande links.
Volgens mij is het ook heel makkelijk om dit soort praktijken tegen te gaan? Hanteer gewoon een soort van same-origin-policy (of is dat in dit geval heel makkelijk te vervalsen, wss wel... meh)? En als je dan toch om een of andere reden extern traffic wilt testen sta je dit alleen toe in combinatie met een extra (geheim) token met beperkte geldigheid? Probleem opgelost?
EDIT: daarmee heb je ook meteen alle "dummy bezoeken" geïdentificeerd. Alles wat niet van hetzelfde domein komt of zo'n token bevat hoef je niet mee te nemen in de normale statistieken (of indexeer je apart).
Gewijzigd op 18/11/2015 14:21:16 door Thomas van den Heuvel