Navigation | Seznam.cz a sitemap |

Seznam.cz a sitemap

Je to několik dnů, co na blogu Seznam fulltextu bylo oznámeno, že Seznam.cz se chystá do ostrého provozu spustit podporu sitemap. Já tuto novinku vítám, i když jsem zatím trochu skeptický. Těžko říct, jak se sitemapou bude Seznam nakládat a jaké SEO účinky to bude mít pro danou stránku. Faktem zůstává, že správně udělanou sitemapou nemůžete nic pokazit.

Seznam doteď indexoval podstatně méně do hloubky než Google, Seznamácký index je oproti tomu od Google (ČR) mnohem chudší. Slibovali, že jejich nový robot bude schopný zaindexovat více stránek, tak uvidíme.

Možná trochu provokativně pak přichází Seznam se slovy:

„Z těchto sitemap robot zatím vybírá prioritu stránek, která mu pomáhá v rozhodování, které URL si uživatel spíše přeje zaindexovat.“

Uživatel si samozřejmě přeje zaindexovat všechno. Že by nový robot nebyl až tak schopný projít celý web?

Jak sitemapu vytvořit? Je mnoho způsobů, jak tento XML soubor vygenerovat. Já vám nyní ukážu aplikace, které používám já. Pokud jste bloger a používáte Wordpress, není nic jednoduššího, než si stáhnout plugin Google sitemaps. Ten vám v záložce nastavení vytvoří položku „Sitemap“, kde naleznete veškeré nastavení.

Pokud potřebujete vytvořit sitemapu pro běžný web postavený od základu a nebo pro aplikaci, na kterou takový plugin neexistuje, můžete použít například nástroj Sitemap Generator od Googlu (je to Pythonovský skript). Nebo jednu z více online aplikací na generování sitemap – Google Sitemap Generator .

Vygenerovanou sitemapu si následně uložíte na server a do robots.txt si vložíte řádek: „Sitemap: http://www.stran­ka.cz/sitemap­.xml“ Sitemapu je možné do Googlu přidat i přes Google Webmaster Tools . Seznam prý sitemapu hledá i sám od sebe právě na adrese „http://www.stran­ka.cz/sitemap­.xml“, ale doporučuji taktéž přidat do robots.txt.

Napsal Tweety 10. 11. 2007 do SEO


Jen doplním, jak v robots.txt má info o umístění sitemapy vypadat: "Aby robot sitemapu správně našel a zpracoval, je vhodné mu říct, odkud ji má stahovat. K tomu je možné použít záznam v robots.txt, ve formátu

Sitemap: http://moje.do­mena.cz/sitemap­.xml"

(via http://fulltex­t.sblog.cz/2007/11/­07/8)

Komentář od Tomek — 10. 11. 2007 @ 14.10

> Uživatel si samozřejmě přeje zaindexovat všechno. Že by nový robot
> nebyl až tak schopný projít celý web?

Ono to není jednoduchý. Co to znamená celý web? Definujte to. Představte si e-shop nebo diskuzák, kde valná většina stránek je generovaná. Nebo si představte nějakou online webovou hru. V konečném důsledku na internetu je nekonečné množství stránek a na to by nestačil žádný index žádného vyhledávače. Dokonce jsem někde viděl stránky, jejichž obsah se generoval v závislosti na parametru a součástí stránky byly odkazy na tentýž skript s jiným náhodným parametrem. Vznikl tak web, který měl 4 miliardy stránek. Přitom samotný skriptík mohl být krátký.

Sitemapy mají robotovi pomoci rozhodnout, které stránky mohou pro uživatele nést nějakou informační hodnotu. K čemu je mít v indexu indexované e-shopy, kde jeden výpis zboží existuje v desítkách variant pro různé filtry a řazení. Naopak tyhle stránky zabírají v indexu zbytečně moc místa.

Jak Google, tak Seznam mají nějaká pravidla, podle kterých se rozhoduji, zda přidají do svého indexu další stránku. Rozhoduje spoustu faktorů, od komplexních analýz stránky zda obsahuje něco zajímavého, přes „rankování“ a zpětné odkazy až po prostou, jednoduchou ale velice účinnou náhodu (Čím víckrát narazí robot na odkaz na stránku, tím větší pravděpodobnost, že ji zařadí). Rozdíl mezi Google a Seznamem je v různém nastavení podmínek jak hluboko a kolik toho indexovat. A není to jen o množství a ceně za hardware. Malý index znamená, že často nenajdete nic. Velký index však může znamenat, že najdete spoustu informací, které však nejsou vůbec relevantní (což je často případ právě Googla). Nelze tedy jednoznačně říct, který postup je správný a který je špatný. A vyladění těchto parametrů… to není nic jednoduchého.

Komentář od Bredy — 10. 11. 2007 @ 17.53

„Co to znamená celý web? Definujte to. Představte si e-shop nebo diskuzák, kde valná většina stránek je generovaná. Nebo si představte nějakou online webovou hru.“

Cekal jsem, ze se nekdo s timto ozve. Samozrejme mate uplnou pravdu. Indexovat vsechno je nesmysl a hlavne to neni mozne.

„Velký index však může znamenat, že najdete spoustu informací, které však nejsou vůbec relevantní (což je často případ právě Googla).“

To je problem spis serazovaciho algoritmu.

Komentář od Tweety — 10. 11. 2007 @ 18.02

> Seznam prý sitemapu hledá i sám od sebe právě na adrese
> „http://www.stran­ka.cz/sitemap­.xml“,

Nikoliv „prý“, ale skutečně ji tam hledá – lze jednoduše zjistit například z logu serveru, ze statistik a nebo z chybových hlášení, pokud sitemapa neexistuje a chyby si libovolným způsobem zachytáváme…

> ale doporučuji taktéž přidat do robots.txt

Je jeden jediný rozumný důvod, proč tak činit? Pokud si Seznam třikrát denně pro sitemapu sáhne (lze si to ověřit), tak je naprosto zbytečné mu ji předkládat ještě v robots.txt – něco jiného je ovšem situace, pokud sitemapu máme uloženou pod jiným, Seznamem defaultně nehledaným jménem. Tam pak to smysl má…

Komentář od Pavel Kodýtek — 11. 11. 2007 @ 3.05

a co kdyz mam sitemapu pro google ve formatu sitemap.gz
sahne si pro nej seznam take automaticky jako google?

Komentář od dotat — 14. 4. 2009 @ 21.30

Zanechte vzkaz