SeznamBot vrací úder
1. January 2008
…aneb legenda pokračuje. Připomeňme si nejdřív základní parametry našeho webu - web je česky, obsah stojí z principu zahovno (co byste ode mě čekali že), průměrně prolinkován, pár odkazů zvenku a celá ta sranda je o ~50k stránkách. Jak si momentálně u mě stojí chlapci z miliardových firem ?
3774 stránek
Googlebot
740 stránek
msnbot
175 stránek
morfeo.centrum
24 stránek
Yahoo! Slurp
9 stránek
SeznamBot
5 stránek
shelob v (WTF!?)
Efektní grafíky si protentokrát odpustím. Pokud bychom brali v potaz pouze “unikátní přístupy” na stránky tak morfeo končí tak 1 level od indexu, hlouběji nejde a to co má pravidelně obnovuje. Pak je tu náš local hero od Seznamu. Jestliže budeme chvilku zkoumat jeho chování, dojdeme k zajímavým závěrům.
První, že mi po stránkách pobíhají dva Seznamy…
SeznamBot/2.0 (+http://fulltext.seznam.cz/)
SeznamBot/2.0-test (+http://fulltext.sblog.cz/)
Že druhý z botů je mírně oprsklejší a už si místo “/” stáhnul i tři stránky okolo, což je sice potěšující, ale ne tolik. Zato můžu mít hřejivý pocit, že v nějaké budoucí produkční verzi se konečne do indexu dostanu :)
Co je horší, že ani jedna verze neumí stáhnout sitemap, ano vidíte správně neumí. Po skoro fantastickém spuštění podpory sitemap selhává boťák na úplném základu. Může v tom být záměr ? Požívat nedotáhnutá XMLka ?
“GET /sitemapGenerate HTTP/1.0″ 200 4389485 “-” “Wget/1.10.2″ (statická generace cca 4.3MB)
“GET /sitemap.xml HTTP/1.1″ 200 8192 “-” “SeznamBot/2.0 (+http://fulltext.seznam.cz/)” (stáhnuto 8kb)
“GET /sitemap.xml HTTP/1.1″ 200 4389485 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
“GET /sitemap.xml HTTP/1.1″ 200 15609 “-” “SeznamBot/2.0-test (+http://fulltext.sblog.cz/)” (stáhnuto 15kb)
tedy - mohli bychom se hypoteticky domnívat, že za pár měsícu se dopracuje k celému fajlu, ovšem jestli to takhle někdo opravdu vymyslel, můžeme Seznamu vřele gratulovat ke skvělému vývojářskému týmu a hodně takových do nového roku ;)

14 January, 2008 [7:40 pm]
LOL ;)
to jsou věci…