SeznamBot vrací úder

1. January 2008

aneb legenda pokračuje. Připomeňme si nejdřív základní parametry našeho webu - web je česky, obsah stojí z principu zahovno (co byste ode mě čekali že), průměrně prolinkován, pár odkazů zvenku a celá ta sranda je o ~50k stránkách. Jak si momentálně u mě stojí chlapci z miliardových firem ?

3774 stránek Googlebot
740 stránek msnbot
175 stránek morfeo.centrum
24 stránek Yahoo! Slurp
9 stránek SeznamBot
5 stránek shelob v (WTF!?)

Efektní grafíky si protentokrát odpustím. Pokud bychom brali v potaz pouze “unikátní přístupy” na stránky tak morfeo končí tak 1 level od indexu, hlouběji nejde a to co má pravidelně obnovuje. Pak je tu náš local hero od Seznamu. Jestliže budeme chvilku zkoumat jeho chování, dojdeme k zajímavým závěrům.

První, že mi po stránkách pobíhají dva Seznamy…

SeznamBot/2.0 (+http://fulltext.seznam.cz/)
SeznamBot/2.0-test (+http://fulltext.sblog.cz/)

Že druhý z botů je mírně oprsklejší a už si místo “/” stáhnul i tři stránky okolo, což je sice potěšující, ale ne tolik. Zato můžu mít hřejivý pocit, že v nějaké budoucí produkční verzi se konečne do indexu dostanu :)

Co je horší, že ani jedna verze neumí stáhnout sitemap, ano vidíte správně neumí. Po skoro fantastickém spuštění podpory sitemap selhává boťák na úplném základu. Může v tom být záměr ? Požívat nedotáhnutá XMLka ?

“GET /sitemapGenerate HTTP/1.0″ 200 4389485 “-” “Wget/1.10.2″ (statická generace cca 4.3MB)
“GET /sitemap.xml HTTP/1.1″ 200 8192 “-” “SeznamBot/2.0 (+http://fulltext.seznam.cz/)” (stáhnuto 8kb)
“GET /sitemap.xml HTTP/1.1″ 200 4389485 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
“GET /sitemap.xml HTTP/1.1″ 200 15609 “-” “SeznamBot/2.0-test (+http://fulltext.sblog.cz/)” (stáhnuto 15kb)

tedy - mohli bychom se hypoteticky domnívat, že za pár měsícu se dopracuje k celému fajlu, ovšem jestli to takhle někdo opravdu vymyslel, můžeme Seznamu vřele gratulovat ke skvělému vývojářskému týmu a hodně takových do nového roku ;)

Řekněme, že spustíte legitimní projekt větších rozměrů, taktak se vejdete do “normy” sitemap.xml (tj. 50k url). Projekt bude v češtině, je vzásadě jedno jestli je na tom kvalitativně dobře či špatně, to pro crawler nehraje roli, ostatně ani nemůže pokud stránku vživotě neviděl. Pustíte do světa pár celkem nevýznamných odkazů jen aby vás binary monkeys našli, splácáte dohromady sitemap a skouknete jestli někde něco nepřebejvá/nechybí, finálně ještě vyplníte formuláře kde to jde. Pak si uvaříte kafe…pustíte porno nebo ještě líp jedno s kamarádkou natočíte. Po pár dnech, řekněme čistě teoreticky po deseti, se mrknete jak si vlastně stojíte vkládajíce velké naděje do seznamu, přec váš superprojekt je výhradně pro české bfu a těm seznam vládne. Jednoduchým skriptíkem pak z logu vyparsujete vše potřebné a to:

seznambot

Pokud to chcete číselně Googlebot - 1582, morfeo.centrum - 49, Yahoo! Slurp - 15, SeznamBot 3. Nutno podotknout, že je to počet přístupů na jednotlivé stránky nikoliv unikátní. Pokud bychom dělali statistiku indexování unikátních stránek tak s ostatníma to takřka nehne, akorát seznambot končí na jedné stránce a to indexu(!). Co víc, v absolutních číslech ho předběhlo i kvantitativně nepotřebné Centrum s morfeem (o yahoo nemluvě), ach, kam ten svět spěje. Objevilo se vůbec nějaké znatelné zlepšení po nasazení seznambota 2.0 ? Osobně jsem žádnou chválu neslyšel a to už na ní času bylo dost, ale samochvály že “jsme lepší než google” už jsem slyšel dost… a v tomhle desetidenním intermezzu už mi od toho “horšího” googlu začínají chodit první lidi.

ps: pokud by někdo chtěl ten propírač logů ;)

#!/usr/bin/perl

use strict;

my $file = shift;
my %se;

open IN, $file or die $!;
while (<IN>) {
    $se{$1}++ if($_ =~  m{((Googlebot|Yahoo\! SmW'6W&G&fV6VG'VҒ֒bbEײ&&G2GG6FV—ғЧЦ66R⓰РЦf"6'BG6WF'G6WFW2W6RТ&B"G6WEBE#Ч




© sh, bw and hosting donated by lidos.cz