·SEO technique·robots.txt e-commerce : les bons réflexes et les pièges
SEO technique
robots.txt e-commerce : les bons réflexes et les pièges
Un robots.txt mal configuré sur une boutique e-commerce peut bloquer le crawl de milliers de fiches, ou laisser Google indexer vos filtres infinis. Voici la structure propre.
Le fichier robots.txt a l'air simple : quelques lignes dans un fichier texte à la racine du domaine. Dans les faits, c'est l'une des zones les plus sensibles du SEO e-commerce. Une mauvaise ligne bloque Google sur 50 000 fiches produits. Une ligne manquante laisse les bots IA aspirer votre catalogue sans permission.
Voici la structure propre en 2026, les pièges à éviter, et la gestion des AI bots qui sont devenus un enjeu majeur.
C'est la cause principale de gaspillage de crawl budget. Sur un catalogue avec filtres dynamiques (taille, couleur, marque, prix), chaque combinaison génère une URL :
Pour un catalogue avec 5 filtres × 10 options chacun, on parle de 10^5 = 100 000 URLs générées dynamiquement. Google crawle tout ça, ne trouve rien d'unique, et ignore les vraies fiches produits au profit de bruits.
Solution : bloquer toutes les URLs avec query params de filtrage :
Alternativement, côté frontend, utiliser des URLs propres pour les filtres importants (/collections/chaussures-noir/ plutôt que ?color=noir) et bloquer uniquement les combinaisons infinies.
Depuis 2023, les AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, etc.) crawlent activement le web pour entraîner leurs modèles. Votre catalogue e-commerce est une cible : les fiches produits sont structurées, informatives, et en volume.
Choix A — Autoriser tous les AI bots (recommandé pour 2026)
Les AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citent de plus en plus de sources. Être présent dans ces citations = trafic qualifié en 2026 et 2027. Bloquer les AI bots coupe cette source.
Choix B — Bloquer les AI bots d'entraînement, autoriser les AI search
Certains AI bots sont pour l'entraînement (OpenAI GPTBot, Google-Extended), d'autres pour du search temps réel (ChatGPT-User, Perplexity-User). Vous pouvez différencier :
User-Agent: GPTBot # Training
Disallow: /
User-Agent: ChatGPT-User # Live search
Allow: /
Pragmatique si vous craignez que votre contenu nourrisse les modèles sans contrepartie, tout en conservant la visibilité dans les AI search.
Choix C — Tout bloquer
User-Agent: GPTBot
Disallow: /
Rarement une bonne idée en 2026. Coût : zéro visibilité dans les AI search engines. Bénéfice : votre contenu ne sert plus à entraîner gratuitement des IA.
Sur les boutiques e-commerce, la visibilité dans les AI search est devenue mesurable en trafic (5-10 % des referrers sur certaines verticales). Bloquer les AI bots n'empêche pas l'entraînement — votre contenu est de toute façon repris par d'autres moyens — mais ça vous prive de la citation future.
Test d'URL spécifique : pour chaque pattern bloqué/autorisé, vérifier qu'une URL test renvoie le résultat attendu
Simulation de crawl : Screaming Frog peut simuler un crawl selon votre robots.txt avant déploiement
Erreur classique à éviter : pousser un Disallow: / (qui bloque tout le site) sur la prod en voulant tester quelque chose. Cas réel : une grosse boutique FR a disparu de Google pendant 3 semaines à cause de cette ligne pushée accidentellement.
Shopify génère automatiquement un robots.txt décent. Depuis 2021, vous pouvez le customiser via le fichier robots.txt.liquid dans votre thème (Online Store → Themes → Edit code). Pour un override propre :
{%- for group in robots.default_groups -%}
{{- group.user_agent }}
{%- for rule in group.rules -%}
{{ rule }}
{%- endfor -%}
{%- if group.sitemap != blank -%}
{{ group.sitemap }}
{%- endif -%}
{%- endfor -%}
# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/
Pas de robots.txt par défaut. Le générer via un plugin SEO (Yoast, RankMath) ou manuellement à la racine du domaine. Attention à ne pas laisser le robots.txt par défaut de WordPress qui bloque /wp-admin/ mais autorise admin-ajax.php (nécessaire pour certains fonctionnalités front).
Créez un fichier public/robots.txt ou générez dynamiquement via app/robots.ts (Next 13+). Pour multi-locales, un seul robots.txt suffit — pas besoin de localiser.
Oui. robots.txt est un signal, pas un firewall. Les bots respectueux (Google, Bing, les principaux AI) obéissent. Les malveillants ignorent. Si un bot apparaît dans vos logs malgré un Disallow, utilisez un WAF (Cloudflare, par exemple) pour le bloquer vraiment.
C'est un choix stratégique. Bloquer Ahrefs/Semrush empêche les concurrents d'analyser votre profil SEO. Coût : vous perdez aussi les données sur votre propre site dans ces outils. Recommandation : laisser passer si vous utilisez ces outils, bloquer sinon.
Oui. User-Agent: Googlebot + Disallow: / bloquerait Google de tout crawl. Cas réel où c'est utile : un site en développement avant lancement, pour éviter une indexation prématurée. Avec un warning absolu : toujours retirer cette règle avant de lancer la prod publique.
Google re-crawle robots.txt toutes les 24-48h environ sur un site actif. Si vous autorisez du contenu nouvellement, comptez 1-2 semaines pour voir les effets dans l'indexation. Si vous bloquez, l'arrêt du crawl est quasi immédiat.
Indirectement. Bien configuré, il concentre le crawl budget sur les bonnes URLs, ce qui accélère l'indexation des nouvelles fiches et améliore la fraîcheur perçue. Mal configuré, il peut sous-indexer votre catalogue et pénaliser le trafic organique.
Rien, c'est son problème. Ça veut dire que toutes ses fiches produits ne sont plus indexées — trafic organique en chute. Ne copiez pas cette stratégie sauf si votre business model le justifie (produits confidentiels, sortie en précommande avant lancement officiel).
Le canonical est souvent mal utilisé sur les sites e-commerce. Voici les 4 cas concrets (variantes, filtres, pagination, langues) avec la bonne implémentation.
Sur un catalogue de 50 000 SKU, un sitemap mal découpé coûte des semaines d'indexation. Voici la méthode pour structurer un sitemap produits qui fonctionne.