Googlebot komt alleen kijken?
Ik hoop dat hier mensen met SEO kennis zitten die mij wat over Googlebot kunnen uitleggen.
Ik heb een klein projectje online staan waarbij je een datum kan kiezen waarbij je de benodigde knmi gegevens krijgt. Deze staat al jaren online, maar is nu het 'doelwit' van Googlebot.
Googlebot is nou in 4 dagen tijd al 140x komen kijken, maar op Google zelf gebeurt weinig met de gegevens.
Zo is de hoofdpagina het laatst ge-cachet op 9 januari terwijl deze dagelijks wijzigt (Nieuwe knmi gegevens). En zijn er totaal 5 pagina's opgeslagen.
- Wat is Googlebot nou aan het doen? Alleen kijken?
- Waarom wordt het niet weergegeven in Google Search?
pastebin: log
Je kan de domein die door Googlebot wordt bezocht ook aanmelden bij Webmasterstools. Dan heb je meer controle over het zoekgedrag van Google op je site. Verder wordt er niet real-time geindexeerd.
Maak ik een uur geleden een pagina aan, index_beta.php, om wat aanpassingen te doen, krijg ik ook al gelijk bezoek. Hoe weten ze dat ie pagina ineens bestaat?
Misschien moet ik wat meer gaan verdiepen in hoe Crawlen (juiste woord?) werkt.
Quote:
2014-02-05 11:06:59|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:07:05|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:07:10|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:08:01|93.103.82.92|93-103-82-92.dynamic.t-2.net|/index_beta.php|Page view
2014-02-05 11:09:16|94.23.169.100|94-23-169-100.kimsufi.com|/index_beta.php|Page view
2014-02-05 11:10:39|79.175.196.164|ip-79-175-196-164.cable.smsnet.pl|/index_beta.php|Page view
2014-02-05 11:10:03|74.63.210.214|214-210-63-74.static.reverse.lstn.net|/index_beta.php|Page view
2014-02-05 11:07:05|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:07:10|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:08:01|93.103.82.92|93-103-82-92.dynamic.t-2.net|/index_beta.php|Page view
2014-02-05 11:09:16|94.23.169.100|94-23-169-100.kimsufi.com|/index_beta.php|Page view
2014-02-05 11:10:39|79.175.196.164|ip-79-175-196-164.cable.smsnet.pl|/index_beta.php|Page view
2014-02-05 11:10:03|74.63.210.214|214-210-63-74.static.reverse.lstn.net|/index_beta.php|Page view
Wat betreft dat directe bezoek op een nieuwe pagina. Heb je een andere service van Google op je pagina's? Bijvoorbeeld advertenties? Requests voor advertenties worden over het algemeen vrij snel daarna, zoniet direct, gevolgd door een bezoekje van de bot.
Erwin H op 05/02/2014 12:01:42:
Google weet pas of een pagina geindexeerd moet worden als de pagina ook echt bezocht is. Dus als jij links heb naar 20 pagina's dan zal Google die 20 bezoeken. Daaruit kan dan geconcludeerd worden dat het niet nuttig is, maar dat zal na het bezoek zijn.
Dus eerst bekijken, en daarna analyseren of het nuttig is om te indexeren. Duidelijk.
Quote:
Wat betreft dat directe bezoek op een nieuwe pagina. Heb je een andere service van Google op je pagina's? Bijvoorbeeld advertenties? Requests voor advertenties worden over het algemeen vrij snel daarna, zoniet direct, gevolgd door een bezoekje van de bot.
Nee, zoals ik zei was/is het een projectje. Daarbij zijn er geen ads, analytics, of dergelijke toegepast. Er is geen enkele connectie naar buiten, alleen eens per dag ('s ochtends) een request naar knmi om de nieuwe data op te halen. Vreemd bezoek dus.
Ik heb intussen de pagina toegevoegd bij m'n webmastertools. Ik ben nou bezig een dynamische sitemap te maken in de hoop dat dit googles bezoekjes vermindert.
Toevoeging:
Zojuist de sitemap toegevoegd, 41.308 pagina's verzonden, hopelijk is het voor Google nou duidelijk dat ie ze daar mag gaan zoeken ipv alle pagina's zelf langslopen :)
Volgens de statistieken van Webmastertools zijn er al 86 pagina's 'ge-crawlt' op 1 dag.
Gewijzigd op 05/02/2014 14:12:37 door Michael -
In een sitemap kun je het crawlen sturen met <changefreq>. Voor je homepage kun je die bijvoorbeeld op daily zetten, omdat je deze één keer per dag update.
De sitemap is nog steeds in behandeling en Googlebot crawlt intussen nog lekker door.
Toevoeging op 06/02/2014 10:40:56:
Nog een gedeeltelijk relaterende vraag; Kan Google document titels, die door javascript zijn toegevoegd, lezen?
Google gaat intussen nog steeds rustig door met Crawlen. Intussen heb ik de links ook nog weer verandert, gaat hij nou alles opnieuw doen? Van index.php?date=2014-02-06 naar /2014-02-06
aan het crawlen is, zou iemand nog antwoord kunnen geven op de vraag of de een door javascript toegevoegde document titel ook kan lezen?
Daarnaast nog een vraagje; Ik heb 2 links als <a>Vorige</a> <a>Volgende</a>
Nou heeft google dit geindexeerd als "Pagina titel - Vorige", wat ik een beetje vreemd vind lijken. Nou heb de linkjes aangepast naar <a title="Titel">Vorige</a>. Indexeerd google dit dan ook als "Pagina titel- Titel" ?
Terwijl googlebot nog steeds Daarnaast nog een vraagje; Ik heb 2 links als <a>Vorige</a> <a>Volgende</a>
Nou heeft google dit geindexeerd als "Pagina titel - Vorige", wat ik een beetje vreemd vind lijken. Nou heb de linkjes aangepast naar <a title="Titel">Vorige</a>. Indexeerd google dit dan ook als "Pagina titel- Titel" ?
Google voert geen javascript uit.
Bedankt voor je antwoord. Jammer.
Matt Cutts: “Googlebot keeps getting smarter. Now has the ability to execute AJAX/JS to index some dynamic comments.”
Op zich ook logisch: Google wil zien wat internetgebruikers zien. Google heeft daarvoor de techniek in huis, niet alleen in de browserengine voor Chrome, maar bijvoorbeeld ook voor het maken van thumbnails van webpagina's.
En weet je ook hoe dat met a-titles zit?
[example]
<a>klik hier</a> -> Indexeert: Pagina titel - klik hier
<a title="Een passende titel">klik hier</a> -> Indexeert: Pagina titel - Een passende titel ??
[/example]
edit:
volgens deze site worden ze niet meegenomen. En ik las net zelfs dat teveel title attributen juist negatief werkt. De link verwijst naar een bericht uit 2010 dus mogelijk is het allemaal al weer anders.
edit2:
Quote:
Does Google Index The Title Attribute?
No.
There is no proof that Google adds information found in title attributes to its final index of the web.
There is no proof that Google uses text inside the title attribute for retrieval.
There is no proof that Google uses text inside the title attribute for ranking.
Why Not?
Maybe the potential for abuse is too high, a little bit like how using meta keywords quickly became useless for web search engines.
Read more: http://www.searchenginepeople.com/blog/title-attribute.html#ixzz2sdlBlUF2
No.
There is no proof that Google adds information found in title attributes to its final index of the web.
There is no proof that Google uses text inside the title attribute for retrieval.
There is no proof that Google uses text inside the title attribute for ranking.
Why Not?
Maybe the potential for abuse is too high, a little bit like how using meta keywords quickly became useless for web search engines.
Read more: http://www.searchenginepeople.com/blog/title-attribute.html#ixzz2sdlBlUF2
Gewijzigd op 07/02/2014 13:54:57 door Michael -
Wat doen je a-tags? Als je ze meer gebruikt voor functionele links dan voor navigatielinks, kun je overwegen ze te vervangen door buttons.
Gewijzigd op 07/02/2014 14:01:52 door Michael -
Code (php)
1
2
2
<a href="..." rel="prev" title="donderdag 6 februari 2014">Vorige</a>
<a href="..." rel="next" title="zaterdag 8 februari 2014">Volgende</a>
<a href="..." rel="next" title="zaterdag 8 februari 2014">Volgende</a>
Met rel kun je de relatie tussen de huidige pagina en de bestemming ook nog benadrukken.
De title staat er nou in, maar vroeg me dus af of google hier überhaupt iets van aantrekt. Tot nu toe lees ik van niet. Ik zal de 'rel' ook nog even toevoegen.
Ik denk het niet, anders zou je kunnen spammen of iemand een hak kunnen zetten met links zoals <a href"..." title="Viagra">.
Ward van der Put op 07/02/2014 13:21:31:
Googlebot voert wel degelijk JavaScript uit.
Matt Cutts: “Googlebot keeps getting smarter. Now has the ability to execute AJAX/JS to index some dynamic comments.”
Op zich ook logisch: Google wil zien wat internetgebruikers zien. Google heeft daarvoor de techniek in huis, niet alleen in de browserengine voor Chrome, maar bijvoorbeeld ook voor het maken van thumbnails van webpagina's.
Matt Cutts: “Googlebot keeps getting smarter. Now has the ability to execute AJAX/JS to index some dynamic comments.”
Op zich ook logisch: Google wil zien wat internetgebruikers zien. Google heeft daarvoor de techniek in huis, niet alleen in de browserengine voor Chrome, maar bijvoorbeeld ook voor het maken van thumbnails van webpagina's.
Volgens mij is dat heel iets anders. Google kan namelijk wel ajax calls indexeren, mits je je aan een heleboel richtlijnen houdt. In het kort, Google zal links die een ajax call tot gevolg hebben volgen en de response indexeren. Wat jij zal moeten doen is ervoor zorgen dat de link op de een of andere manier een volledige html pagina teruggeeft zoals de pagina eruit zou zien als de ajax call volledig in de pagina was afgehandeld. https://developers.google.com/webmasters/ajax-crawling/
Als jij echter de title van je pagina in willekeurig welke functie met javascript verandert, dan zal Google dat echt niet opmerken. Google voert geen javascript uit, maar volgt alleen links.
Maar toon me mijn ongelijk als dat ergens expliciet te vinden is, kan ik ook weer wat leren :-)
Edit, uit bovenstaande link:
Quote:
But making your application more responsive has come at a huge cost: crawlers are not able to see any content that is created dynamically.
Gewijzigd op 07/02/2014 14:26:18 door Erwin H
Toevoeging op 07/02/2014 14:27:56:
@Erwin, bedankt voor je reactie. Als Google de door javascript gegeven document titel heeft geïndexeerd laat ik 't weten ;) Anders moet ik daar wat anders voor bedenken.
deze longread en de daarin aangehaalde bronnen, waaronder deze case uit 2008, die beschrijft hoe een link die alleen in JavaScript wordt gebruikt, opduikt op plaats 1 bij Google.
Ik ben wel met je eens dat het gissen is hoeveel JavaScript Googlebot nu werkelijk verwerkt. Volgens sommigen is het uitsluitend Ajax, volgens anderen veel meer, bijvoorbeeld elke JavaScript-variabele die op een URL lijkt of zelfs de gehele jQuery-library uit het CDN van Google zelf.
Erwin, bijvoorbeeld Ik ben wel met je eens dat het gissen is hoeveel JavaScript Googlebot nu werkelijk verwerkt. Volgens sommigen is het uitsluitend Ajax, volgens anderen veel meer, bijvoorbeeld elke JavaScript-variabele die op een URL lijkt of zelfs de gehele jQuery-library uit het CDN van Google zelf.
Het uitvoeren van code is juist nodig voor wat Michael wil.