Soubor robots.txt: Váš nejdražší single point of failure
Na webech s chybami se měsíčně procrawluje jen 40 % důležitých stránek. Zjistěte, jestli za to může váš robots.txt.

Na webech s chybami se měsíčně procrawluje jen 40 % důležitých stránek. Zjistěte, jestli za to může váš robots.txt.

V roce 2019 přišel HubSpot o obrovské množství návštěvnosti a tržeb kvůli jedinému textovému souboru.
Nešlo o žádný hack ani penalizaci. Byl to poškozený soubor robots.txt, který způsobil, že 10,5 milionu stránek zmizelo z Googlu a dalších vyhledávačů.
Při běžné kontrole zjistili, že velká část jejich webu se stala pro vyhledávače neviditelnou.
Viník? Jednoduchá chyba v konfiguraci souboru robots.txt.
Viděl jsem podobné katastrofy na vlastní oči, a dobrá zpráva je, že jim můžete předejít během pár minut, pokud víte, na co se zaměřit.
Otevřete libovolný prohlížeč a zadejte: yoursite.com/robots.txt
Uvidíte něco, co vypadá jako jednoduchý seznam instrukcí:
User-agent: *
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
Tento soubor funguje jako návod pro webové crawlery. Říká Googlu, Bingu a dalším vyhledávačům, které stránky mohou prozkoumat a které mají přeskočit.
Stačí jediný špatný řádek a můžete zablokovat vyhledávačům přístup k celému webu.
Ztráta návštěvnosti je jen začátek vašich problémů.
Google každý den přiděluje vašemu webu určité množství času na crawling.
Výzkum ukazuje, že neoptimalizované weby tímto cenným zdrojem katastrofálně plýtvají – měsíčně se procrawluje jen 40 % důležitých stránek.
Jeden reálný případ: malá firma skončila se souborem robots.txt o 5 000 řádcích, přičemž z celého webu zůstala zaindexovaná jediná stránka.
Jejich klíčové stránky služeb a obsah generující tržby se staly pro Google neviditelnými.
Vyhledávače jednoduše přestaly jejich poškozený soubor robots.txt zpracovávat.
Plýtvání crawl budgetem vede k pomalejšímu indexování. Pomalejší indexování zdržuje tržby.
Vzhledem k tomu, že přes 60 % návštěvnosti dnes pochází z mobilních zařízení, jediný špatný řádek blokující vaše CSS nebo JavaScript soubory může Googlu naznačit, že váš web na mobilech nefunguje.
Vaše pozice nebudou postupně klesat. Spadnou rovnou.
Existuje jeden zásadní bezpečnostní problém spojený se souborem robots.txt. Váš soubor robots.txt je zcela veřejný. Stačí zadat libovolnou doménu s /robots.txt a vidíte přesně, co se snaží skrýt.
Když zablokujete /admin/ nebo /staging/, tyto adresáře nechráníte. Naopak na ně upozorňujete. Tyto dva konkrétní příklady by asi nebyl takový problém, ale hackeři aktivně skenují soubory robots.txt, aby našli zranitelné cíle. Konkurence je sleduje, aby odhalila vaše připravované produkty.
Při práci s klienty jsem si všiml, že robots.txt vytváří unikátní organizační problém. Ovlivňuje jak marketingový, tak IT tým, ale často propadne mezi zodpovědnostmi.
Marketingové týmy by se o něj měly zajímat, protože řídí návštěvnost z vyhledávačů a tržby. IT týmy by ho měly spravovat, protože jde o technický soubor na serveru. Výsledek? Nikdo se necítí plně zodpovědný.
Ideální nastavení znamená, že marketing sleduje obchodní výsledky, zatímco IT zajišťuje technickou implementaci. Oba týmy by měly společně posoudit změny, než se nasadí do produkce.
Pokud jste spíše obchodně orientovaný čtenář, klidně přeskočte na sekci „Co byste měli udělat hned teď?" níže.
Soubor robots.txt vypadá jednoduše, ale z vlastní zkušenosti vím, že tato jednoduchost může být zrádná.
User-agent: [kterého crawleru se to týká]
Disallow: [stránky, ke kterým nemá přístup]
Allow: [stránky, ke kterým má přístup]
Sitemap: [kde najde vaši sitemapu]
Chyba č. 1: Totální blokáda
Tento kód udělá celý váš web neviditelným:
User-agent: * [všechny crawlery]
Disallow: / [blokuje kořenový adresář]
Tímto říkáte všem crawlerům a vyhledávačům, aby se držely dál od každé stránky. Váš web zmizí z výsledků vyhledávání během několika hodin.
Vidím to, když vývojáři zkopírují nastavení ze stagingového nebo vývojového prostředí a zapomenou je aktualizovat před nasazením do produkce.
Chyba č. 2: Záludné rozlišování velkých a malých písmen
Dokumentace Googlu jasně říká, že cesty rozlišují velká a malá písmena. Tento kód má nenápadný, ale závažný problém:
# Toto blokuje /Admin/, ale NE /admin/
Disallow: /Admin/
Pokud váš web používá URL s malými písmeny, toto pravidlo neudělá vůbec nic.
Chyba č. 3: Katastrofy se zástupnými znaky
Tento nevinně vypadající kód může zničit váš e-shop:
Disallow: /*? [blokuje stránky s parametry v URL]
Chtěli jste zablokovat duplicitní stránky. Místo toho jste zablokovali i:
Před implementací vždy důkladně otestujte vzory se zástupnými znaky.
Chyba č. 4: Blokování souborů potřebných pro vykreslení
Tento kód přesvědčí Google, že váš web je rozbitý:
Disallow: /css/
Disallow: /js/
Google nevidí vaše designové soubory a předpokládá, že váš web na mobilních zařízeních nefunguje. Protože většina vyhledávání pochází z telefonů, prakticky jste svůj web skryli před většinou uživatelů.
1. Vše otestujte před nasazením do produkce
Nikdy neupravujte robots.txt přímo na produkčním webu. Nejdříve si každou změnu ověřte pomocí Google Search Console nebo jiných testovacích nástrojů.
2. Jasně dokumentujte svá pravidla
Vysvětlete, proč každé pravidlo existuje:
# Blokuje testovací obsah - odstranění odhalí testovací stránky
User-agent: *
Disallow: /testing/
3. Udržujte pravidla jednoduchá a srozumitelná
Složitá pravidla se snadno rozbijí. Tento přístup je přehledný i bezpečný:
User-agent: *
Disallow: /api/
Allow: /api/public/
4. Sledujte všechny změny
Nastavte si monitorovací nástroje, které vás upozorní na změny v robots.txt. Každá hodina výpadku stojí peníze. Moderní SEO nástroje umí posílat okamžitá upozornění, když ke změnám dojde.
U větších webů potřebujete vyhledávače strategicky směrovat k vašemu nejhodnotnějšímu obsahu.
# Blokujte stránky, které negenerují tržby
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?filter=
# Upřednostněte důležité sekce
Allow: /products/
Allow: /category/
Allow: /blog/
# Nasměrujte crawlery ke klíčovému obsahu
Sitemap: https://yoursite.com/sitemap-products.xml
Sitemap: https://yoursite.com/sitemap-categories.xml
Otevřete prohlížeč a přejděte na: yoursite.cz/robots.txt
Okamžitě hledejte tyto varovné signály:
Disallow: / (blokuje vše)/css/ nebo /js/Pokud nemáte přístup do Search Console, to je první problém, který musíte vyřešit. Požádejte svého webového vývojáře, ať ho okamžitě nastaví.
Pro malé firmy:
Pro větší organizace:
Základní varianta: Nastavte si týdenní nebo měsíční připomínku v kalendáři pro ruční kontrolu.
Lepší varianta: Nakonfigurujte automatizované monitorovací nástroje:
Nejlepší varianta: Zahrňte ověření robots.txt do svého nasazovacího checklistu a CI/CD pipeline.
Okamžitě zkontrolujte svou analytiku, zda nevidíte tyto příznaky:
Pokud si některého z těchto problémů všimnete, okamžitě zkontrolujte svůj soubor robots.txt.
Pokud objevíte problémy, na koho se obrátit:
Váš soubor robots.txt představuje kritický kontrolní bod celé vaší online přítomnosti. Určuje, zda vyhledávače mohou váš obsah najít, pochopit a správně seřadit. Mezi úspěchem a selháním tu není žádná střední cesta.
Viděl jsem firmy přijít o miliony na tržbách kvůli jedinému špatně umístěnému znaku v tomto souboru. Přesto jsou tyto katastrofy zcela odvrátitelné základní obezřetností. Pětiminutová měsíční kontrola, jasné rozdělení zodpovědností a jednoduché monitorovací nástroje vás mohou ochránit před katastrofou.

Konzultant technického SEO a výkonu webu
S více než 10 lety zkušeností s tvorbou a optimalizací webů jsem se naučil, že technická kvalita je základem úspěchu. Pomáhám firmám maximalizovat potenciál jejich webu prostřednictvím technického SEO a optimalizace výkonu, které přinášejí lepší zkušenosti uživatelům a silnější výsledky firmám.
Získejte praktické strategie, které pomohou majitelům firem a vývojářům vytvářet výjimečné uživatelské zážitky, optimalizovat technické SEO a výkon, a zvyšovat tržby.



Žádný spam. Odhlásit se můžete kdykoli.
Přihlášením souhlasím s Ochrana osobních údajů a Obchodní podmínky.
Získejte bezplatné tipy o technickém SEO a výkonu webu