robots.txt voor e-commerce: valkuilen en aanpak

robots.txt voor e-commerce: de juiste aanpak en valkuilen

Het bestand robots.txt lijkt eenvoudig: een paar regels in een tekstbestand in de root van het domein. In de praktijk is dit een van de gevoeligste onderdelen van SEO voor e-commerce. Eén verkeerde regel blokkeert Google op 50.000 productpagina's. Eén ontbrekende regel laat AI-bots uw catalogus zonder toestemming ophalen.

Hier is de juiste structuur in 2026, de valkuilen die u moet vermijden, en het beheer van AI-bots die een belangrijk aandachtspunt zijn geworden.

Wat robots.txt wel en niet doet

Doet wel:

Respectvolle bots vertellen welke URL's ze niet mogen crawlen
De locatie van de sitemap aangeven
Regels per user-agent onderscheiden

Doet niet:

Indexatie voorkomen (een bot kan indexeren zonder te crawlen, via externe links)
Vertrouwelijke URL's beveiligen (robots.txt is openbaar, iedereen kan het lezen)
Een bot dwingen de regel te respecteren (kwaadwillende bots negeren robots.txt)

Kritieke regel: robots.txt is een signaal, geen barrière. Om echt te blokkeren gebruikt u authenticatie, meta robots noindex of een firewall.

De standaardstructuur van een robots.txt voor e-commerce

Hier is een nette robots.txt voor een Shopify- of WooCommerce-site:

# Regels voor alle bots
User-Agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Disallow: /account/
Disallow: /cart
Disallow: /checkout
Disallow: /search?
Disallow: /*?variant=
Disallow: /*?utm_
Disallow: /*?preview=
Disallow: /collections/*?sort_by=
Disallow: /collections/*?*filter.*

# Speciale regels voor AI-bots (zie aparte sectie)
User-Agent: GPTBot
Disallow: /admin/
Allow: /

# Locatie van de sitemap
Sitemap: https://example.com/sitemap.xml

Uitleg:

User-Agent: * = standaardregel voor alle bots die geen eigen sectie hebben
Allow: / = standaard alles toestaan
Disallow: = daarna gevoelige secties blokkeren
Sitemap: = geeft de locatie van de sitemap aan (cruciaal voor AI-bots zonder toegang tot GSC)

De 7 zones die u altijd moet blokkeren

Op elke webshop blokkeert u:

/api/ — interne API-endpoints, nooit nuttig in de SERP's
/admin/ of equivalent (bijv. /wp-admin/) — backoffice, vertrouwelijk
/account/ — afgeschermde klantomgeving, privé
/cart en /checkout — transactionele pagina's, zonder SEO-waarde
/search?q= — interne zoekresultaten (maakt oneindig veel URL's)
/*?variant= — productvarianten (canonical naar de hoofdvariant)
/*?utm_ — tracking-URL's (duplicaten van canonieke URL's)

Specifiek voor WooCommerce voegt u toe:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?add-to-cart=
Disallow: /?add_to_wishlist=

Voor Shopify voegt u toe:

Disallow: /orders
Disallow: /wishlist

Gefacetteerde filters: valkuil nummer 1

Dit is de belangrijkste oorzaak van verspilling van crawl budget. In een catalogus met dynamische filters (maat, kleur, merk, prijs) genereert elke combinatie een URL:

/collections/chaussures?color=noir
/collections/chaussures?color=noir&size=44
/collections/chaussures?color=noir&size=44&brand=atelier-maison
/collections/chaussures?color=noir&size=44&brand=atelier-maison&price=50-100

Voor een catalogus met 5 filters × 10 opties per filter spreken we over 10^5 = 100.000 URL's die dynamisch worden gegenereerd. Google crawlt dit allemaal, vindt niets unieks en negeert de echte productpagina's ten gunste van ruis.

Oplossing: blokkeer alle URL's met queryparameters voor filtering:

Disallow: /collections/*?*filter.*
Disallow: /collections/*?*sort_by*
Disallow: /collections/*?*pg=

Als alternatief kunt u aan de frontend-kant nette URL's gebruiken voor belangrijke filters (/collections/chaussures-noir/ in plaats van ?color=noir) en alleen de oneindige combinaties blokkeren.

AI-bots: de nieuwe SEO-realiteit

Sinds 2023 crawlen AI-bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, enz.) actief het web om hun modellen te trainen. Uw e-commercecatalogus is een doelwit: productpagina's zijn gestructureerd, informatief en talrijk.

De 3 mogelijke keuzes

Keuze A — Alle AI-bots toestaan (aanbevolen voor 2026)

AI-search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citeren steeds vaker bronnen. In die citaties aanwezig zijn = gekwalificeerd verkeer in 2026 en 2027. AI-bots blokkeren snijdt deze bron af.

User-Agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /account/

Herhaal dit patroon voor: ClaudeBot, Claude-Web, anthropic-ai, PerplexityBot, Perplexity-User, ChatGPT-User, OAI-SearchBot, Google-Extended, Applebot-Extended, Bytespider, CCBot, cohere-ai, Diffbot, FacebookBot, Meta-ExternalAgent, Meta-ExternalFetcher, Amazonbot, YouBot.

Keuze B — AI-trainingsbots blokkeren, AI-search toestaan

Sommige AI-bots zijn voor training (OpenAI GPTBot, Google-Extended), andere voor live search (ChatGPT-User, Perplexity-User). U kunt dat onderscheiden:

User-Agent: GPTBot          # Training
Disallow: /

User-Agent: ChatGPT-User    # Live search
Allow: /

Pragmatisch als u vreest dat uw content de modellen voedt zonder tegenprestatie, terwijl u wel zichtbaar blijft in AI-search.

Keuze C — Alles blokkeren

User-Agent: GPTBot
Disallow: /

Zelden een goed idee in 2026. Kost: geen zichtbaarheid in AI-search engines. Voordeel: uw content wordt niet langer gratis gebruikt om AI te trainen.

Waarom Ecomptimize keuze A aanbeveelt

Voor webshops is zichtbaarheid in AI-search inmiddels meetbaar in verkeer (5-10% van de referrers in sommige verticals). AI-bots blokkeren voorkomt training niet — uw content wordt toch via andere wegen overgenomen — maar het ontneemt u toekomstige citaties.

Testen vóór uitrol

Voordat u een nieuwe robots.txt live zet, test u deze:

Syntaxtest: via Google Search Console → robots.txt Tester
Test van specifieke URL's: controleer voor elk geblokkeerd/toegestaan patroon of een test-URL het verwachte resultaat geeft
Crawlsimulatie: Screaming Frog kan een crawl simuleren volgens uw robots.txt vóór uitrol

Klassieke fout om te vermijden: een Disallow: / (die de hele site blokkeert) naar productie pushen terwijl u iets wilt testen. Praktijkgeval: een grote Franse webshop verdween 3 weken uit Google door deze regel die per ongeluk was gepusht.

Per platform

Shopify

Shopify genereert automatisch een degelijke robots.txt. Sinds 2021 kunt u die aanpassen via het bestand robots.txt.liquid in uw thema (Online Store → Themes → Edit code). Voor een nette override:

{%- for group in robots.default_groups -%}
  {{- group.user_agent }}

  {%- for rule in group.rules -%}
    {{ rule }}
  {%- endfor -%}

  {%- if group.sitemap != blank -%}
    {{ group.sitemap }}
  {%- endif -%}
{%- endfor -%}

# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/

WooCommerce / WordPress

Geen standaard robots.txt. Genereer die via een SEO-plugin (Yoast, RankMath) of handmatig in de root van het domein. Let erop dat u niet de standaard robots.txt van WordPress laat staan die /wp-admin/ blokkeert maar admin-ajax.php toestaat (nodig voor sommige frontendfunctionaliteiten).

Next.js / headless

Maak een bestand public/robots.txt aan of genereer het dynamisch via app/robots.ts (Next 13+). Voor meerdere locales volstaat één robots.txt — lokalisatie is niet nodig.

robots.txt-audit in 10 minuten

Essentiële controles:

https://example.com/robots.txt geeft een 200 terug met Content-Type: text/plain
Geen per ongeluk geplaatste Disallow: / in de algemene sectie
Alle gevoelige zones (/admin/, /account/, /api/) zijn geblokkeerd
Gefacetteerde filters en queryparameters zijn geblokkeerd
De sitemap staat aan het einde van het bestand vermeld
AI-bots hebben een eigen sectie volgens uw strategie (allow of disallow, afhankelijk van uw keuze)
Geen blokkade van /wp-admin/admin-ajax.php (als u WordPress gebruikt) — breekt frontendfunctionaliteiten

FAQ

Kan ik een bot via robots.txt blokkeren en hem toch in mijn logs zien?

Ja. robots.txt is een signaal, geen firewall. Respectvolle bots (Google, Bing, de belangrijkste AI-bots) gehoorzamen. Kwaadwillende bots niet. Als een bot ondanks een Disallow in uw logs verschijnt, gebruik dan een WAF (bijvoorbeeld Cloudflare) om hem echt te blokkeren.

Moet ik scraping-bots van concurrenten blokkeren (Ahrefs, Semrush)?

Dat is een strategische keuze. Ahrefs/Semrush blokkeren voorkomt dat concurrenten uw SEO-profiel analyseren. Kost: u verliest ook de data over uw eigen site in deze tools. Aanbeveling: toestaan als u deze tools gebruikt, anders blokkeren.

Kan robots.txt Google blokkeren?

Ja. User-Agent: Googlebot + Disallow: / zou Google volledig blokkeren voor crawling. Een praktijkgeval waarin dit nuttig is: een site in ontwikkeling vóór lancering, om voortijdige indexatie te voorkomen. Met een absolute waarschuwing: verwijder deze regel altijd vóór u de publieke productieomgeving lanceert.

Hoe lang duurt het voordat een wijziging in robots.txt wordt toegepast?

Google crawlt robots.txt op een actieve site ongeveer elke 24-48 uur opnieuw. Als u nieuwe content toestaat, reken dan op 1-2 weken voordat u effect ziet in de indexatie. Als u blokkeert, stopt de crawl vrijwel direct.

Heeft robots.txt invloed op ranking?

Indirect. Goed geconfigureerd concentreert het crawl budget zich op de juiste URL's, wat de indexatie van nieuwe pagina's versnelt en de waargenomen actualiteit verbetert. Slecht geconfigureerd kan het uw catalogus onderindexeren en organisch verkeer schaden.

Mijn concurrent gebruikt `Disallow: /products/` — wat moet ik doen?

Niets, dat is zijn probleem. Het betekent dat al zijn productpagina's niet meer worden geïndexeerd — organisch verkeer daalt. Kopieer deze strategie niet, tenzij uw businessmodel dat rechtvaardigt (vertrouwelijke producten, pre-order vóór officiële lancering).

Ecomptimize genereert automatisch een geoptimaliseerde robots.txt met ondersteuning voor AI-bots voor uw webshop. Bekijk Ecomptimize voor Shopify of Ecomptimize voor WooCommerce.