Die Datei robots.txt wirkt einfach: ein paar Zeilen in einer Textdatei im Stammverzeichnis der Domain. In der Praxis ist sie einer der sensibelsten Bereiche im E-Commerce-SEO. Eine falsche Zeile blockiert Google bei 50.000 Produktseiten. Eine fehlende Zeile erlaubt AI bots, Ihren Katalog ohne Erlaubnis abzugreifen.
Hier ist die saubere Struktur für 2026, die Fehler, die Sie vermeiden sollten, und der Umgang mit AI bots, die inzwischen ein zentrales Thema sind.
Respektvollen Bots mitteilen, welche URLs sie nicht crawlen sollen
Den Speicherort der sitemap angeben
Regeln nach User-Agent unterscheiden
Kann nicht:
Die Indexierung verhindern (ein Bot kann auch ohne Crawl indexieren, etwa über externe Links)
Vertrauliche URLs absichern (robots.txt ist öffentlich, jeder kann sie lesen)
Einen Bot zwingen, die Regel zu befolgen (bösartige Bots ignorieren robots.txt)
Kritische Regel: robots.txt ist ein Signal, keine Barriere. Wenn Sie wirklich blockieren wollen, nutzen Sie Authentifizierung, meta robots noindex oder eine Firewall.
Das ist die Hauptursache für verschwendetes Crawl-Budget. In einem Katalog mit dynamischen Filtern (Größe, Farbe, Marke, Preis) erzeugt jede Kombination eine URL:
Bei einem Katalog mit 5 Filtern × 10 Optionen pro Filter sprechen wir von 10^5 = 100.000 dynamisch erzeugten URLs. Google crawlt all das, findet nichts Einzigartiges und ignoriert die echten Produktseiten zugunsten von Rauschen.
Lösung: alle URLs mit Query-Parametern für Filter blockieren:
Alternativ können Sie im Frontend für wichtige Filter saubere URLs verwenden (/collections/chaussures-noir/ statt ?color=noir) und nur die unendlichen Kombinationen blockieren.
Seit 2023 crawlen AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider usw.) das Web aktiv, um ihre Modelle zu trainieren. Ihr E-Commerce-Katalog ist ein Ziel: Produktseiten sind strukturiert, informativ und in großer Zahl vorhanden.
Option A — Alle AI bots erlauben (für 2026 empfohlen)
AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) zitieren immer häufiger Quellen. In diesen Zitaten präsent zu sein = qualifizierter Traffic in 2026 und 2027. Wenn Sie AI bots blockieren, schneiden Sie diese Quelle ab.
Option B — AI-Trainingsbots blockieren, AI search erlauben
Einige AI bots dienen dem Training (OpenAI GPTBot, Google-Extended), andere der Echtzeitsuche (ChatGPT-User, Perplexity-User). Sie können das unterscheiden:
User-Agent: GPTBot # Training
Disallow: /
User-Agent: ChatGPT-User # Live search
Allow: /
Pragmatisch, wenn Sie befürchten, dass Ihr Content die Modelle ohne Gegenleistung speist, Sie aber die Sichtbarkeit in AI search behalten möchten.
Option C — Alles blockieren
User-Agent: GPTBot
Disallow: /
2026 selten eine gute Idee. Kosten: keine Sichtbarkeit in AI search engines. Nutzen: Ihr Content dient nicht mehr kostenlos zum Training von KI.
Bei E-Commerce-Shops ist Sichtbarkeit in AI search inzwischen als Traffic messbar (5–10 % der Referrer in manchen Verticals). AI bots zu blockieren verhindert das Training nicht — Ihr Content wird ohnehin auf anderen Wegen übernommen — aber Sie verzichten auf künftige Zitate.
Test einer konkreten URL: für jedes blockierte/erlaubte Muster prüfen, ob eine Test-URL das erwartete Ergebnis liefert
Crawl-Simulation: Screaming Frog kann vor dem Deployment einen Crawl gemäß Ihrer robots.txt simulieren
Klassischer Fehler, den Sie vermeiden sollten: ein Disallow: / (das die gesamte Website blockiert) in die Produktion zu pushen, weil Sie etwas testen wollten. Realer Fall: Ein großer französischer Shop verschwand wegen dieser versehentlich gepushten Zeile für 3 Wochen aus Google.
Shopify erzeugt automatisch eine brauchbare robots.txt. Seit 2021 können Sie sie über die Datei robots.txt.liquid in Ihrem Theme anpassen (Online Store → Themes → Edit code). Für einen sauberen Override:
{%- for group in robots.default_groups -%}
{{- group.user_agent }}
{%- for rule in group.rules -%}
{{ rule }}
{%- endfor -%}
{%- if group.sitemap != blank -%}
{{ group.sitemap }}
{%- endif -%}
{%- endfor -%}
# Eigene Regeln (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/
Keine robots.txt standardmäßig. Erstellen Sie sie über ein SEO-Plugin (Yoast, RankMath) oder manuell im Stammverzeichnis der Domain. Achten Sie darauf, nicht die Standard-robots.txt von WordPress zu belassen, die /wp-admin/ blockiert, aber admin-ajax.php erlaubt (notwendig für bestimmte Frontend-Funktionen).
Erstellen Sie eine Datei public/robots.txt oder generieren Sie sie dynamisch über app/robots.ts (Next 13+). Für mehrere Locales reicht eine einzige robots.txt — sie muss nicht lokalisiert werden.
Ja. robots.txt ist ein Signal, keine Firewall. Respektvolle Bots (Google, Bing, die wichtigsten AI) halten sich daran. Bösartige Bots nicht. Wenn ein Bot trotz Disallow in Ihren Logs erscheint, verwenden Sie ein WAF (zum Beispiel Cloudflare), um ihn wirklich zu blockieren.
Das ist eine strategische Entscheidung. Ahrefs/Semrush zu blockieren verhindert, dass Wettbewerber Ihr SEO-Profil analysieren. Kosten: Sie verlieren auch die Daten zu Ihrer eigenen Website in diesen Tools. Empfehlung: durchlassen, wenn Sie diese Tools nutzen, sonst blockieren.
Ja. User-Agent: Googlebot + Disallow: / würde Google vollständig vom Crawl ausschließen. Ein realer Fall, in dem das sinnvoll ist: eine Website in Entwicklung vor dem Launch, um eine vorzeitige Indexierung zu vermeiden. Mit einer absoluten Warnung: Entfernen Sie diese Regel immer, bevor die öffentliche Produktion live geht.
Google crawlt robots.txt auf einer aktiven Website etwa alle 24–48 Stunden neu. Wenn Sie Inhalte neu freigeben, rechnen Sie mit 1–2 Wochen, bis Sie Effekte in der Indexierung sehen. Wenn Sie blockieren, stoppt der Crawl fast sofort.
Indirekt. Richtig konfiguriert konzentriert sie das Crawl-Budget auf die richtigen URLs, was die Indexierung neuer Seiten beschleunigt und die wahrgenommene Aktualität verbessert. Falsch konfiguriert kann sie Ihren Katalog unterindexieren und den organischen Traffic beeinträchtigen.
Nichts, das ist sein Problem. Das bedeutet, dass alle seine Produktseiten nicht mehr indexiert werden — der organische Traffic fällt. Kopieren Sie diese Strategie nicht, außer Ihr Geschäftsmodell rechtfertigt es (vertrauliche Produkte, Vorbestellungen vor dem offiziellen Launch).
Bei einem Katalog mit 50.000 SKU kostet eine schlecht aufgeteilte Sitemap Wochen bei der Indexierung. So strukturieren Sie eine Produkt-Sitemap richtig.