Het bestand robots.txt lijkt eenvoudig: een paar regels in een tekstbestand in de root van het domein. In de praktijk is dit een van de gevoeligste onderdelen van SEO voor e-commerce. Eén verkeerde regel blokkeert Google op 50.000 productpagina's. Eén ontbrekende regel laat AI-bots uw catalogus zonder toestemming ophalen.
Hier is de juiste structuur in 2026, de valkuilen die u moet vermijden, en het beheer van AI-bots die een belangrijk aandachtspunt zijn geworden.
Dit is de belangrijkste oorzaak van verspilling van crawl budget. In een catalogus met dynamische filters (maat, kleur, merk, prijs) genereert elke combinatie een URL:
Voor een catalogus met 5 filters × 10 opties per filter spreken we over 10^5 = 100.000 URL's die dynamisch worden gegenereerd. Google crawlt dit allemaal, vindt niets unieks en negeert de echte productpagina's ten gunste van ruis.
Oplossing: blokkeer alle URL's met queryparameters voor filtering:
Als alternatief kunt u aan de frontend-kant nette URL's gebruiken voor belangrijke filters (/collections/chaussures-noir/ in plaats van ?color=noir) en alleen de oneindige combinaties blokkeren.
Sinds 2023 crawlen AI-bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, enz.) actief het web om hun modellen te trainen. Uw e-commercecatalogus is een doelwit: productpagina's zijn gestructureerd, informatief en talrijk.
Keuze A — Alle AI-bots toestaan (aanbevolen voor 2026)
AI-search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citeren steeds vaker bronnen. In die citaties aanwezig zijn = gekwalificeerd verkeer in 2026 en 2027. AI-bots blokkeren snijdt deze bron af.
Keuze B — AI-trainingsbots blokkeren, AI-search toestaan
Sommige AI-bots zijn voor training (OpenAI GPTBot, Google-Extended), andere voor live search (ChatGPT-User, Perplexity-User). U kunt dat onderscheiden:
User-Agent: GPTBot # Training
Disallow: /
User-Agent: ChatGPT-User # Live search
Allow: /
Pragmatisch als u vreest dat uw content de modellen voedt zonder tegenprestatie, terwijl u wel zichtbaar blijft in AI-search.
Keuze C — Alles blokkeren
User-Agent: GPTBot
Disallow: /
Zelden een goed idee in 2026. Kost: geen zichtbaarheid in AI-search engines. Voordeel: uw content wordt niet langer gratis gebruikt om AI te trainen.
Voor webshops is zichtbaarheid in AI-search inmiddels meetbaar in verkeer (5-10% van de referrers in sommige verticals). AI-bots blokkeren voorkomt training niet — uw content wordt toch via andere wegen overgenomen — maar het ontneemt u toekomstige citaties.
Test van specifieke URL's: controleer voor elk geblokkeerd/toegestaan patroon of een test-URL het verwachte resultaat geeft
Crawlsimulatie: Screaming Frog kan een crawl simuleren volgens uw robots.txt vóór uitrol
Klassieke fout om te vermijden: een Disallow: / (die de hele site blokkeert) naar productie pushen terwijl u iets wilt testen. Praktijkgeval: een grote Franse webshop verdween 3 weken uit Google door deze regel die per ongeluk was gepusht.
Shopify genereert automatisch een degelijke robots.txt. Sinds 2021 kunt u die aanpassen via het bestand robots.txt.liquid in uw thema (Online Store → Themes → Edit code). Voor een nette override:
{%- for group in robots.default_groups -%}
{{- group.user_agent }}
{%- for rule in group.rules -%}
{{ rule }}
{%- endfor -%}
{%- if group.sitemap != blank -%}
{{ group.sitemap }}
{%- endif -%}
{%- endfor -%}
# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/
Geen standaard robots.txt. Genereer die via een SEO-plugin (Yoast, RankMath) of handmatig in de root van het domein. Let erop dat u niet de standaard robots.txt van WordPress laat staan die /wp-admin/ blokkeert maar admin-ajax.php toestaat (nodig voor sommige frontendfunctionaliteiten).
Maak een bestand public/robots.txt aan of genereer het dynamisch via app/robots.ts (Next 13+). Voor meerdere locales volstaat één robots.txt — lokalisatie is niet nodig.
Ja. robots.txt is een signaal, geen firewall. Respectvolle bots (Google, Bing, de belangrijkste AI-bots) gehoorzamen. Kwaadwillende bots niet. Als een bot ondanks een Disallow in uw logs verschijnt, gebruik dan een WAF (bijvoorbeeld Cloudflare) om hem echt te blokkeren.
Dat is een strategische keuze. Ahrefs/Semrush blokkeren voorkomt dat concurrenten uw SEO-profiel analyseren. Kost: u verliest ook de data over uw eigen site in deze tools. Aanbeveling: toestaan als u deze tools gebruikt, anders blokkeren.
Ja. User-Agent: Googlebot + Disallow: / zou Google volledig blokkeren voor crawling. Een praktijkgeval waarin dit nuttig is: een site in ontwikkeling vóór lancering, om voortijdige indexatie te voorkomen. Met een absolute waarschuwing: verwijder deze regel altijd vóór u de publieke productieomgeving lanceert.
Google crawlt robots.txt op een actieve site ongeveer elke 24-48 uur opnieuw. Als u nieuwe content toestaat, reken dan op 1-2 weken voordat u effect ziet in de indexatie. Als u blokkeert, stopt de crawl vrijwel direct.
Indirect. Goed geconfigureerd concentreert het crawl budget zich op de juiste URL's, wat de indexatie van nieuwe pagina's versnelt en de waargenomen actualiteit verbetert. Slecht geconfigureerd kan het uw catalogus onderindexeren en organisch verkeer schaden.
Niets, dat is zijn probleem. Het betekent dat al zijn productpagina's niet meer worden geïndexeerd — organisch verkeer daalt. Kopieer deze strategie niet, tenzij uw businessmodel dat rechtvaardigt (vertrouwelijke producten, pre-order vóór officiële lancering).