Přeskočit na hlavní obsah

Soubor robots.txt: Váš nejdražší single point of failure

Na webech s chybami se měsíčně procrawluje jen 40 % důležitých stránek. Zjistěte, jestli za to může váš robots.txt.

Soubor robots.txt: Váš nejdražší single point of failure
Sdílet na LinkedIn

V roce 2019 přišel HubSpot o obrovské množství návštěvnosti a tržeb kvůli jedinému textovému souboru.

Nešlo o žádný hack ani penalizaci. Byl to poškozený soubor robots.txt, který způsobil, že 10,5 milionu stránek zmizelo z Googlu a dalších vyhledávačů.

Při běžné kontrole zjistili, že velká část jejich webu se stala pro vyhledávače neviditelnou.

Viník? Jednoduchá chyba v konfiguraci souboru robots.txt.

Viděl jsem podobné katastrofy na vlastní oči, a dobrá zpráva je, že jim můžete předejít během pár minut, pokud víte, na co se zaměřit.

Co je robots.txt a proč by vás měl zajímat?

Otevřete libovolný prohlížeč a zadejte: yoursite.com/robots.txt

Uvidíte něco, co vypadá jako jednoduchý seznam instrukcí:

User-agent: *
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Tento soubor funguje jako návod pro webové crawlery. Říká Googlu, Bingu a dalším vyhledávačům, které stránky mohou prozkoumat a které mají přeskočit.

Stačí jediný špatný řádek a můžete zablokovat vyhledávačům přístup k celému webu.

Skryté náklady chyb

Ztráta návštěvnosti je jen začátek vašich problémů.

Google každý den přiděluje vašemu webu určité množství času na crawling.

Výzkum ukazuje, že neoptimalizované weby tímto cenným zdrojem katastrofálně plýtvajíměsíčně se procrawluje jen 40 % důležitých stránek.

Jeden reálný případ: malá firma skončila se souborem robots.txt o 5 000 řádcích, přičemž z celého webu zůstala zaindexovaná jediná stránka.

Jejich klíčové stránky služeb a obsah generující tržby se staly pro Google neviditelnými.

Vyhledávače jednoduše přestaly jejich poškozený soubor robots.txt zpracovávat.

Plýtvání crawl budgetem vede k pomalejšímu indexování. Pomalejší indexování zdržuje tržby.

Vzhledem k tomu, že přes 60 % návštěvnosti dnes pochází z mobilních zařízení, jediný špatný řádek blokující vaše CSS nebo JavaScript soubory může Googlu naznačit, že váš web na mobilech nefunguje.

Vaše pozice nebudou postupně klesat. Spadnou rovnou.

Bezpečnostní riziko

Existuje jeden zásadní bezpečnostní problém spojený se souborem robots.txt. Váš soubor robots.txt je zcela veřejný. Stačí zadat libovolnou doménu s /robots.txt a vidíte přesně, co se snaží skrýt.

Když zablokujete /admin/ nebo /staging/, tyto adresáře nechráníte. Naopak na ně upozorňujete. Tyto dva konkrétní příklady by asi nebyl takový problém, ale hackeři aktivně skenují soubory robots.txt, aby našli zranitelné cíle. Konkurence je sleduje, aby odhalila vaše připravované produkty.

Kdo vlastně zodpovídá za tento kritický soubor?

Při práci s klienty jsem si všiml, že robots.txt vytváří unikátní organizační problém. Ovlivňuje jak marketingový, tak IT tým, ale často propadne mezi zodpovědnostmi.

Marketingové týmy by se o něj měly zajímat, protože řídí návštěvnost z vyhledávačů a tržby. IT týmy by ho měly spravovat, protože jde o technický soubor na serveru. Výsledek? Nikdo se necítí plně zodpovědný.

Ideální nastavení znamená, že marketing sleduje obchodní výsledky, zatímco IT zajišťuje technickou implementaci. Oba týmy by měly společně posoudit změny, než se nasadí do produkce.

Technický pohled pro vývojáře

Pokud jste spíše obchodně orientovaný čtenář, klidně přeskočte na sekci „Co byste měli udělat hned teď?" níže.

Pochopení základních komponent

Soubor robots.txt vypadá jednoduše, ale z vlastní zkušenosti vím, že tato jednoduchost může být zrádná.

User-agent: [kterého crawleru se to týká]
Disallow: [stránky, ke kterým nemá přístup]
Allow: [stránky, ke kterým má přístup]
Sitemap: [kde najde vaši sitemapu]

Kritické chyby, které rozbijí všechno

Chyba č. 1: Totální blokáda

Tento kód udělá celý váš web neviditelným:

User-agent: * [všechny crawlery]
Disallow: / [blokuje kořenový adresář]

Tímto říkáte všem crawlerům a vyhledávačům, aby se držely dál od každé stránky. Váš web zmizí z výsledků vyhledávání během několika hodin.

Vidím to, když vývojáři zkopírují nastavení ze stagingového nebo vývojového prostředí a zapomenou je aktualizovat před nasazením do produkce.

Chyba č. 2: Záludné rozlišování velkých a malých písmen

Dokumentace Googlu jasně říká, že cesty rozlišují velká a malá písmena. Tento kód má nenápadný, ale závažný problém:

# Toto blokuje /Admin/, ale NE /admin/
Disallow: /Admin/

Pokud váš web používá URL s malými písmeny, toto pravidlo neudělá vůbec nic.

Chyba č. 3: Katastrofy se zástupnými znaky

Tento nevinně vypadající kód může zničit váš e-shop:

Disallow: /*? [blokuje stránky s parametry v URL]

Chtěli jste zablokovat duplicitní stránky. Místo toho jste zablokovali i:

  • Stránkování (?page=2)
  • Výsledky vyhledávání (?search=shoes)
  • Nezbytné sledovací kódy

Před implementací vždy důkladně otestujte vzory se zástupnými znaky.

Chyba č. 4: Blokování souborů potřebných pro vykreslení

Tento kód přesvědčí Google, že váš web je rozbitý:

Disallow: /css/
Disallow: /js/

Google nevidí vaše designové soubory a předpokládá, že váš web na mobilních zařízeních nefunguje. Protože většina vyhledávání pochází z telefonů, prakticky jste svůj web skryli před většinou uživatelů.

Osvědčené postupy pro implementaci

1. Vše otestujte před nasazením do produkce

Nikdy neupravujte robots.txt přímo na produkčním webu. Nejdříve si každou změnu ověřte pomocí Google Search Console nebo jiných testovacích nástrojů.

2. Jasně dokumentujte svá pravidla

Vysvětlete, proč každé pravidlo existuje:

# Blokuje testovací obsah - odstranění odhalí testovací stránky
User-agent: *
Disallow: /testing/

3. Udržujte pravidla jednoduchá a srozumitelná

Složitá pravidla se snadno rozbijí. Tento přístup je přehledný i bezpečný:

User-agent: *
Disallow: /api/
Allow: /api/public/

4. Sledujte všechny změny

Nastavte si monitorovací nástroje, které vás upozorní na změny v robots.txt. Každá hodina výpadku stojí peníze. Moderní SEO nástroje umí posílat okamžitá upozornění, když ke změnám dojde.

Optimalizace pro velké weby

U větších webů potřebujete vyhledávače strategicky směrovat k vašemu nejhodnotnějšímu obsahu.

# Blokujte stránky, které negenerují tržby
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?filter=

# Upřednostněte důležité sekce
Allow: /products/
Allow: /category/
Allow: /blog/

# Nasměrujte crawlery ke klíčovému obsahu
Sitemap: https://yoursite.com/sitemap-products.xml
Sitemap: https://yoursite.com/sitemap-categories.xml

Co byste měli udělat hned teď?

Krok 1: Proveďte audit svého robots.txt (2 minuty)

Otevřete prohlížeč a přejděte na: yoursite.cz/robots.txt

Okamžitě hledejte tyto varovné signály:

  • Disallow: / (blokuje vše)
  • Pravidla, kterým nerozumíte
  • Úplná absence souboru robots.txt
  • Slova jako „staging" nebo „test"
  • Blokování složek /css/ nebo /js/

Krok 2: Ověření v Google Search Console (8 minut)

  1. Přejděte do Google Search Console
  2. Přejděte na „Nastavení" → „robots.txt"
  3. Otestujte své klíčové stránky
  4. Projděte si všechna varování a chyby

Pokud nemáte přístup do Search Console, to je první problém, který musíte vyřešit. Požádejte svého webového vývojáře, ať ho okamžitě nastaví.

Krok 3: Určete jasnou zodpovědnost

Pro malé firmy:

  • Majitel nebo jednatel by měl provádět měsíční revizi
  • Webový vývojář implementuje změny
  • Oba společně posoudí úpravy před nasazením

Pro větší organizace:

  • Marketing sleduje obchodní dopad
  • IT spravuje technickou implementaci
  • Naplánujte týdenní revize
  • Nastavte automatická upozornění pro oba týmy

Krok 4: Zaveďte monitorovací systémy

Základní varianta: Nastavte si týdenní nebo měsíční připomínku v kalendáři pro ruční kontrolu.

Lepší varianta: Nakonfigurujte automatizované monitorovací nástroje:

  • Google Search Console (zdarma)
  • Profesionální SEO platformy (placené)
  • Vlastní monitorovací skripty

Nejlepší varianta: Zahrňte ověření robots.txt do svého nasazovacího checklistu a CI/CD pipeline.

Varovné signály, že váš robots.txt je už rozbitý

Okamžitě zkontrolujte svou analytiku, zda nevidíte tyto příznaky:

  • Návštěvnost z vyhledávačů náhle klesla (ne postupně)
  • Konkrétní sekce webu mají nulovou organickou návštěvnost
  • Google Search Console zobrazuje chyby crawlování
  • Google objevuje méně stránek, než na vašem webu ve skutečnosti existuje

Pokud si některého z těchto problémů všimnete, okamžitě zkontrolujte svůj soubor robots.txt.

Kde hledat odbornou pomoc

Pokud objevíte problémy, na koho se obrátit:

  1. Interní zdroje: Váš webový vývojář nebo SEO specialista
  2. Externí podpora: Jakýkoli renomovaný SEO freelancer nebo agentura
  3. Urgentní pomoc: Hledejte „technický SEO konzultant" s okamžitou dostupností
  4. Samostudium: Začněte s oficiální dokumentací Googlu

Závěr

Váš soubor robots.txt představuje kritický kontrolní bod celé vaší online přítomnosti. Určuje, zda vyhledávače mohou váš obsah najít, pochopit a správně seřadit. Mezi úspěchem a selháním tu není žádná střední cesta.

Viděl jsem firmy přijít o miliony na tržbách kvůli jedinému špatně umístěnému znaku v tomto souboru. Přesto jsou tyto katastrofy zcela odvrátitelné základní obezřetností. Pětiminutová měsíční kontrola, jasné rozdělení zodpovědností a jednoduché monitorovací nástroje vás mohou ochránit před katastrofou.

Martin Stepanek

Martin Štěpánek

Konzultant technického SEO a výkonu webu

S více než 10 lety zkušeností s tvorbou a optimalizací webů jsem se naučil, že technická kvalita je základem úspěchu. Pomáhám firmám maximalizovat potenciál jejich webu prostřednictvím technického SEO a optimalizace výkonu, které přinášejí lepší zkušenosti uživatelům a silnější výsledky firmám.

Newsletter

Technické SEO tipy každé dva týdny do vaší schránky

Získejte praktické strategie, které pomohou majitelům firem a vývojářům vytvářet výjimečné uživatelské zážitky, optimalizovat technické SEO a výkon, a zvyšovat tržby.

Newsletter je pouze v angličtině
    Mersudin ForbesMark Williams-CookAleyda Solis
    Doporučováno předními odborníky v oboru

    Žádný spam. Odhlásit se můžete kdykoli.

    Přihlášením souhlasím s Ochrana osobních údajů a Obchodní podmínky.

    Získejte bezplatné tipy o technickém SEO a výkonu webu

    Sledovat mě