robots.txt e-commerce : les bons réflexes et les pièges

Le fichier robots.txt a l'air simple : quelques lignes dans un fichier texte à la racine du domaine. Dans les faits, c'est l'une des zones les plus sensibles du SEO e-commerce. Une mauvaise ligne bloque Google sur 50 000 fiches produits. Une ligne manquante laisse les bots IA aspirer votre catalogue sans permission.

Voici la structure propre en 2026, les pièges à éviter, et la gestion des AI bots qui sont devenus un enjeu majeur.

Ce que robots.txt fait et ne fait pas

Fait :

Dire aux bots respectueux quelles URLs ne pas crawler
Indiquer l'emplacement du sitemap
Différencier les règles par user-agent

Ne fait pas :

Empêcher l'indexation (un bot peut indexer sans crawler, via des liens externes)
Sécuriser des URLs confidentielles (robots.txt est public, tout le monde peut le lire)
Forcer un bot à respecter la règle (les malveillants ignorent robots.txt)

Règle critique : robots.txt est un signal, pas une barrière. Pour bloquer vraiment, utilisez l'authentification, meta robots noindex, ou un firewall.

La structure type d'un robots.txt e-commerce

Voici un robots.txt propre pour un site Shopify ou WooCommerce :

# Règles pour tous les bots
User-Agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Disallow: /account/
Disallow: /cart
Disallow: /checkout
Disallow: /search?
Disallow: /*?variant=
Disallow: /*?utm_
Disallow: /*?preview=
Disallow: /collections/*?sort_by=
Disallow: /collections/*?*filter.*

# Règles spéciales pour AI bots (voir section dédiée)
User-Agent: GPTBot
Disallow: /admin/
Allow: /

# Emplacement du sitemap
Sitemap: https://example.com/sitemap.xml

Décomposition :

User-Agent: * = règle par défaut pour tous les bots qui n'ont pas de section spécifique
Allow: / = autoriser tout par défaut
Disallow: = ensuite bloquer les sections sensibles
Sitemap: = indique l'emplacement du sitemap (crucial pour AI bots sans accès à GSC)

Les 7 zones à bloquer systématiquement

Sur tout e-commerce, bloquer :

/api/ — endpoints d'API internes, jamais utiles dans les SERP
/admin/ ou équivalent (ex: /wp-admin/) — back-office, confidentiel
/account/ — espace client authentifié, privé
/cart et /checkout — pages transactionnelles, pas de valeur SEO
/search?q= — résultats de recherche interne (crée des URLs infinies)
/*?variant= — variantes de produits (canonical vers parent)
/*?utm_ — URLs de tracking (doublons des URLs canoniques)

Pour WooCommerce spécifiquement, ajouter :

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?add-to-cart=
Disallow: /?add_to_wishlist=

Pour Shopify, ajouter :

Disallow: /orders
Disallow: /wishlist

Les filtres à facettes : le piège n°1

C'est la cause principale de gaspillage de crawl budget. Sur un catalogue avec filtres dynamiques (taille, couleur, marque, prix), chaque combinaison génère une URL :

/collections/chaussures?color=noir
/collections/chaussures?color=noir&size=44
/collections/chaussures?color=noir&size=44&brand=atelier-maison
/collections/chaussures?color=noir&size=44&brand=atelier-maison&price=50-100

Pour un catalogue avec 5 filtres × 10 options chacun, on parle de 10^5 = 100 000 URLs générées dynamiquement. Google crawle tout ça, ne trouve rien d'unique, et ignore les vraies fiches produits au profit de bruits.

Solution : bloquer toutes les URLs avec query params de filtrage :

Disallow: /collections/*?*filter.*
Disallow: /collections/*?*sort_by*
Disallow: /collections/*?*pg=

Alternativement, côté frontend, utiliser des URLs propres pour les filtres importants (/collections/chaussures-noir/ plutôt que ?color=noir) et bloquer uniquement les combinaisons infinies.

AI bots : la nouvelle réalité SEO

Depuis 2023, les AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, etc.) crawlent activement le web pour entraîner leurs modèles. Votre catalogue e-commerce est une cible : les fiches produits sont structurées, informatives, et en volume.

Les 3 choix possibles

Choix A — Autoriser tous les AI bots (recommandé pour 2026)

Les AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citent de plus en plus de sources. Être présent dans ces citations = trafic qualifié en 2026 et 2027. Bloquer les AI bots coupe cette source.

User-Agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /account/

Répéter ce pattern pour : ClaudeBot, Claude-Web, anthropic-ai, PerplexityBot, Perplexity-User, ChatGPT-User, OAI-SearchBot, Google-Extended, Applebot-Extended, Bytespider, CCBot, cohere-ai, Diffbot, FacebookBot, Meta-ExternalAgent, Meta-ExternalFetcher, Amazonbot, YouBot.

Choix B — Bloquer les AI bots d'entraînement, autoriser les AI search

Certains AI bots sont pour l'entraînement (OpenAI GPTBot, Google-Extended), d'autres pour du search temps réel (ChatGPT-User, Perplexity-User). Vous pouvez différencier :

User-Agent: GPTBot          # Training
Disallow: /

User-Agent: ChatGPT-User    # Live search
Allow: /

Pragmatique si vous craignez que votre contenu nourrisse les modèles sans contrepartie, tout en conservant la visibilité dans les AI search.

Choix C — Tout bloquer

User-Agent: GPTBot
Disallow: /

Rarement une bonne idée en 2026. Coût : zéro visibilité dans les AI search engines. Bénéfice : votre contenu ne sert plus à entraîner gratuitement des IA.

Pourquoi Ecomptimize recommande le choix A

Sur les boutiques e-commerce, la visibilité dans les AI search est devenue mesurable en trafic (5-10 % des referrers sur certaines verticales). Bloquer les AI bots n'empêche pas l'entraînement — votre contenu est de toute façon repris par d'autres moyens — mais ça vous prive de la citation future.

Tester avant de déployer

Avant de pousser un nouveau robots.txt, testez-le :

Test syntaxique : via Google Search Console → robots.txt Tester
Test d'URL spécifique : pour chaque pattern bloqué/autorisé, vérifier qu'une URL test renvoie le résultat attendu
Simulation de crawl : Screaming Frog peut simuler un crawl selon votre robots.txt avant déploiement

Erreur classique à éviter : pousser un Disallow: / (qui bloque tout le site) sur la prod en voulant tester quelque chose. Cas réel : une grosse boutique FR a disparu de Google pendant 3 semaines à cause de cette ligne pushée accidentellement.

Par plateforme

Shopify

Shopify génère automatiquement un robots.txt décent. Depuis 2021, vous pouvez le customiser via le fichier robots.txt.liquid dans votre thème (Online Store → Themes → Edit code). Pour un override propre :

{%- for group in robots.default_groups -%}
  {{- group.user_agent }}

  {%- for rule in group.rules -%}
    {{ rule }}
  {%- endfor -%}

  {%- if group.sitemap != blank -%}
    {{ group.sitemap }}
  {%- endif -%}
{%- endfor -%}

# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/

WooCommerce / WordPress

Pas de robots.txt par défaut. Le générer via un plugin SEO (Yoast, RankMath) ou manuellement à la racine du domaine. Attention à ne pas laisser le robots.txt par défaut de WordPress qui bloque /wp-admin/ mais autorise admin-ajax.php (nécessaire pour certains fonctionnalités front).

Next.js / headless

Créez un fichier public/robots.txt ou générez dynamiquement via app/robots.ts (Next 13+). Pour multi-locales, un seul robots.txt suffit — pas besoin de localiser.

Audit robots.txt en 10 min

Vérifications essentielles :

https://example.com/robots.txt retourne un 200 avec Content-Type: text/plain
Pas de Disallow: / accidentel dans la section générale
Toutes les zones sensibles (/admin/, /account/, /api/) sont bloquées
Les filtres à facettes et queries params sont bloqués
Le sitemap est référencé en fin de fichier
Les AI bots ont une section dédiée avec votre stratégie (allow ou disallow selon choix)
Aucun blocage de /wp-admin/admin-ajax.php (si WordPress) — casse les fonctionnalités front

FAQ

Puis-je bloquer un bot via robots.txt et le voir quand même dans mes logs ?

Oui. robots.txt est un signal, pas un firewall. Les bots respectueux (Google, Bing, les principaux AI) obéissent. Les malveillants ignorent. Si un bot apparaît dans vos logs malgré un Disallow, utilisez un WAF (Cloudflare, par exemple) pour le bloquer vraiment.

Dois-je bloquer les bots de scraping concurrents (Ahrefs, Semrush) ?

C'est un choix stratégique. Bloquer Ahrefs/Semrush empêche les concurrents d'analyser votre profil SEO. Coût : vous perdez aussi les données sur votre propre site dans ces outils. Recommandation : laisser passer si vous utilisez ces outils, bloquer sinon.

robots.txt peut-il bloquer Google ?

Oui. User-Agent: Googlebot + Disallow: / bloquerait Google de tout crawl. Cas réel où c'est utile : un site en développement avant lancement, pour éviter une indexation prématurée. Avec un warning absolu : toujours retirer cette règle avant de lancer la prod publique.

Un changement de robots.txt prend combien de temps à s'appliquer ?

Google re-crawle robots.txt toutes les 24-48h environ sur un site actif. Si vous autorisez du contenu nouvellement, comptez 1-2 semaines pour voir les effets dans l'indexation. Si vous bloquez, l'arrêt du crawl est quasi immédiat.

Est-ce que robots.txt affecte le ranking ?

Indirectement. Bien configuré, il concentre le crawl budget sur les bonnes URLs, ce qui accélère l'indexation des nouvelles fiches et améliore la fraîcheur perçue. Mal configuré, il peut sous-indexer votre catalogue et pénaliser le trafic organique.

Mon concurrent met `Disallow: /products/` — que dois-je faire ?

Rien, c'est son problème. Ça veut dire que toutes ses fiches produits ne sont plus indexées — trafic organique en chute. Ne copiez pas cette stratégie sauf si votre business model le justifie (produits confidentiels, sortie en précommande avant lancement officiel).

Ecomptimize génère automatiquement un robots.txt optimisé avec support AI bots pour votre boutique. Voir Ecomptimize pour Shopify ou Ecomptimize pour WooCommerce.