robots.txt im E-Commerce: Regeln und typische Fehler

Die Datei robots.txt wirkt einfach: ein paar Zeilen in einer Textdatei im Stammverzeichnis der Domain. In der Praxis ist sie einer der sensibelsten Bereiche im E-Commerce-SEO. Eine falsche Zeile blockiert Google bei 50.000 Produktseiten. Eine fehlende Zeile erlaubt AI bots, Ihren Katalog ohne Erlaubnis abzugreifen.

Hier ist die saubere Struktur für 2026, die Fehler, die Sie vermeiden sollten, und der Umgang mit AI bots, die inzwischen ein zentrales Thema sind.

Was robots.txt kann und was nicht

Kann:

Respektvollen Bots mitteilen, welche URLs sie nicht crawlen sollen
Den Speicherort der sitemap angeben
Regeln nach User-Agent unterscheiden

Kann nicht:

Die Indexierung verhindern (ein Bot kann auch ohne Crawl indexieren, etwa über externe Links)
Vertrauliche URLs absichern (robots.txt ist öffentlich, jeder kann sie lesen)
Einen Bot zwingen, die Regel zu befolgen (bösartige Bots ignorieren robots.txt)

Kritische Regel: robots.txt ist ein Signal, keine Barriere. Wenn Sie wirklich blockieren wollen, nutzen Sie Authentifizierung, meta robots noindex oder eine Firewall.

Die typische Struktur einer robots.txt im E-Commerce

Hier ist eine saubere robots.txt für eine Shopify- oder WooCommerce-Seite:

# Regeln für alle Bots
User-Agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Disallow: /account/
Disallow: /cart
Disallow: /checkout
Disallow: /search?
Disallow: /*?variant=
Disallow: /*?utm_
Disallow: /*?preview=
Disallow: /collections/*?sort_by=
Disallow: /collections/*?*filter.*

# Spezielle Regeln für AI bots (siehe eigener Abschnitt)
User-Agent: GPTBot
Disallow: /admin/
Allow: /

# Speicherort der sitemap
Sitemap: https://example.com/sitemap.xml

Aufschlüsselung:

User-Agent: * = Standardregel für alle Bots ohne eigenen Abschnitt
Allow: / = standardmäßig alles erlauben
Disallow: = danach sensible Bereiche blockieren
Sitemap: = gibt den Speicherort der sitemap an (wichtig für AI bots ohne Zugriff auf GSC)

Die 7 Bereiche, die Sie immer blockieren sollten

In jedem E-Commerce-Projekt sollten Sie Folgendes blockieren:

/api/ — interne API-Endpunkte, in den SERPs nie sinnvoll
/admin/ oder gleichwertig (z. B. /wp-admin/) — Backoffice, vertraulich
/account/ — authentifizierter Kundenbereich, privat
/cart und /checkout — transaktionale Seiten ohne SEO-Wert
/search?q= — interne Suchergebnisse (erzeugen unendliche URLs)
/*?variant= — Produktvarianten (canonical auf das Hauptprodukt)
/*?utm_ — Tracking-URLs (Duplikate der canonical URLs)

Für WooCommerce speziell ergänzen Sie:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?add-to-cart=
Disallow: /?add_to_wishlist=

Für Shopify ergänzen Sie:

Disallow: /orders
Disallow: /wishlist

Facettenfilter: die Falle Nr. 1

Das ist die Hauptursache für verschwendetes Crawl-Budget. In einem Katalog mit dynamischen Filtern (Größe, Farbe, Marke, Preis) erzeugt jede Kombination eine URL:

/collections/chaussures?color=noir
/collections/chaussures?color=noir&size=44
/collections/chaussures?color=noir&size=44&brand=atelier-maison
/collections/chaussures?color=noir&size=44&brand=atelier-maison&price=50-100

Bei einem Katalog mit 5 Filtern × 10 Optionen pro Filter sprechen wir von 10^5 = 100.000 dynamisch erzeugten URLs. Google crawlt all das, findet nichts Einzigartiges und ignoriert die echten Produktseiten zugunsten von Rauschen.

Lösung: alle URLs mit Query-Parametern für Filter blockieren:

Disallow: /collections/*?*filter.*
Disallow: /collections/*?*sort_by*
Disallow: /collections/*?*pg=

Alternativ können Sie im Frontend für wichtige Filter saubere URLs verwenden (/collections/chaussures-noir/ statt ?color=noir) und nur die unendlichen Kombinationen blockieren.

AI bots: die neue SEO-Realität

Seit 2023 crawlen AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider usw.) das Web aktiv, um ihre Modelle zu trainieren. Ihr E-Commerce-Katalog ist ein Ziel: Produktseiten sind strukturiert, informativ und in großer Zahl vorhanden.

Die 3 möglichen Optionen

Option A — Alle AI bots erlauben (für 2026 empfohlen)

AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) zitieren immer häufiger Quellen. In diesen Zitaten präsent zu sein = qualifizierter Traffic in 2026 und 2027. Wenn Sie AI bots blockieren, schneiden Sie diese Quelle ab.

User-Agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /account/

Wiederholen Sie dieses Muster für: ClaudeBot, Claude-Web, anthropic-ai, PerplexityBot, Perplexity-User, ChatGPT-User, OAI-SearchBot, Google-Extended, Applebot-Extended, Bytespider, CCBot, cohere-ai, Diffbot, FacebookBot, Meta-ExternalAgent, Meta-ExternalFetcher, Amazonbot, YouBot.

Option B — AI-Trainingsbots blockieren, AI search erlauben

Einige AI bots dienen dem Training (OpenAI GPTBot, Google-Extended), andere der Echtzeitsuche (ChatGPT-User, Perplexity-User). Sie können das unterscheiden:

User-Agent: GPTBot          # Training
Disallow: /

User-Agent: ChatGPT-User    # Live search
Allow: /

Pragmatisch, wenn Sie befürchten, dass Ihr Content die Modelle ohne Gegenleistung speist, Sie aber die Sichtbarkeit in AI search behalten möchten.

Option C — Alles blockieren

User-Agent: GPTBot
Disallow: /

2026 selten eine gute Idee. Kosten: keine Sichtbarkeit in AI search engines. Nutzen: Ihr Content dient nicht mehr kostenlos zum Training von KI.

Warum Ecomptimize Option A empfiehlt

Bei E-Commerce-Shops ist Sichtbarkeit in AI search inzwischen als Traffic messbar (5–10 % der Referrer in manchen Verticals). AI bots zu blockieren verhindert das Training nicht — Ihr Content wird ohnehin auf anderen Wegen übernommen — aber Sie verzichten auf künftige Zitate.

Vor dem Deployment testen

Bevor Sie eine neue robots.txt live stellen, testen Sie sie:

Syntax-Test: über Google Search Console → robots.txt Tester
Test einer konkreten URL: für jedes blockierte/erlaubte Muster prüfen, ob eine Test-URL das erwartete Ergebnis liefert
Crawl-Simulation: Screaming Frog kann vor dem Deployment einen Crawl gemäß Ihrer robots.txt simulieren

Klassischer Fehler, den Sie vermeiden sollten: ein Disallow: / (das die gesamte Website blockiert) in die Produktion zu pushen, weil Sie etwas testen wollten. Realer Fall: Ein großer französischer Shop verschwand wegen dieser versehentlich gepushten Zeile für 3 Wochen aus Google.

Nach Plattform

Shopify

Shopify erzeugt automatisch eine brauchbare robots.txt. Seit 2021 können Sie sie über die Datei robots.txt.liquid in Ihrem Theme anpassen (Online Store → Themes → Edit code). Für einen sauberen Override:

{%- for group in robots.default_groups -%}
  {{- group.user_agent }}

  {%- for rule in group.rules -%}
    {{ rule }}
  {%- endfor -%}

  {%- if group.sitemap != blank -%}
    {{ group.sitemap }}
  {%- endif -%}
{%- endfor -%}

# Eigene Regeln (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/

WooCommerce / WordPress

Keine robots.txt standardmäßig. Erstellen Sie sie über ein SEO-Plugin (Yoast, RankMath) oder manuell im Stammverzeichnis der Domain. Achten Sie darauf, nicht die Standard-robots.txt von WordPress zu belassen, die /wp-admin/ blockiert, aber admin-ajax.php erlaubt (notwendig für bestimmte Frontend-Funktionen).

Next.js / headless

Erstellen Sie eine Datei public/robots.txt oder generieren Sie sie dynamisch über app/robots.ts (Next 13+). Für mehrere Locales reicht eine einzige robots.txt — sie muss nicht lokalisiert werden.

robots.txt-Audit in 10 Minuten

Wesentliche Prüfungen:

https://example.com/robots.txt liefert einen 200 mit Content-Type: text/plain
Kein versehentliches Disallow: / im allgemeinen Abschnitt
Alle sensiblen Bereiche (/admin/, /account/, /api/) sind blockiert
Facettenfilter und Query-Parameter sind blockiert
Die sitemap ist am Ende der Datei referenziert
AI bots haben einen eigenen Abschnitt mit Ihrer Strategie (allow oder disallow je nach Wahl)
Keine Blockierung von /wp-admin/admin-ajax.php (bei WordPress) — sonst brechen Frontend-Funktionen

FAQ

Kann ich einen Bot per robots.txt blockieren und ihn trotzdem in meinen Logs sehen?

Ja. robots.txt ist ein Signal, keine Firewall. Respektvolle Bots (Google, Bing, die wichtigsten AI) halten sich daran. Bösartige Bots nicht. Wenn ein Bot trotz Disallow in Ihren Logs erscheint, verwenden Sie ein WAF (zum Beispiel Cloudflare), um ihn wirklich zu blockieren.

Sollte ich Scraping-Bots von Wettbewerbern (Ahrefs, Semrush) blockieren?

Das ist eine strategische Entscheidung. Ahrefs/Semrush zu blockieren verhindert, dass Wettbewerber Ihr SEO-Profil analysieren. Kosten: Sie verlieren auch die Daten zu Ihrer eigenen Website in diesen Tools. Empfehlung: durchlassen, wenn Sie diese Tools nutzen, sonst blockieren.

Kann robots.txt Google blockieren?

Ja. User-Agent: Googlebot + Disallow: / würde Google vollständig vom Crawl ausschließen. Ein realer Fall, in dem das sinnvoll ist: eine Website in Entwicklung vor dem Launch, um eine vorzeitige Indexierung zu vermeiden. Mit einer absoluten Warnung: Entfernen Sie diese Regel immer, bevor die öffentliche Produktion live geht.

Wie lange dauert es, bis eine Änderung an robots.txt wirksam wird?

Google crawlt robots.txt auf einer aktiven Website etwa alle 24–48 Stunden neu. Wenn Sie Inhalte neu freigeben, rechnen Sie mit 1–2 Wochen, bis Sie Effekte in der Indexierung sehen. Wenn Sie blockieren, stoppt der Crawl fast sofort.

Beeinflusst robots.txt das Ranking?

Indirekt. Richtig konfiguriert konzentriert sie das Crawl-Budget auf die richtigen URLs, was die Indexierung neuer Seiten beschleunigt und die wahrgenommene Aktualität verbessert. Falsch konfiguriert kann sie Ihren Katalog unterindexieren und den organischen Traffic beeinträchtigen.

Mein Wettbewerber setzt `Disallow: /products/` — was soll ich tun?

Nichts, das ist sein Problem. Das bedeutet, dass alle seine Produktseiten nicht mehr indexiert werden — der organische Traffic fällt. Kopieren Sie diese Strategie nicht, außer Ihr Geschäftsmodell rechtfertigt es (vertrauliche Produkte, Vorbestellungen vor dem offiziellen Launch).

Ecomptimize erstellt automatisch eine optimierte robots.txt mit AI-bot-Unterstützung für Ihren Shop. Siehe Ecomptimize für Shopify oder Ecomptimize für WooCommerce.