Sur un catalogue de 50 000 SKU, un sitemap mal découpé coûte des semaines d'indexation. Voici la méthode pour structurer un sitemap produits qui fonctionne.
Un sitemap XML est censé aider Google à découvrir vos pages. Sur un petit site, c'est quasi automatique. Sur un catalogue e-commerce de 10 000 ou 100 000 SKU, un sitemap mal structuré est une des premières causes de sous-indexation : des milliers de produits que Google ne crawle jamais parce que votre sitemap lui envoie un mauvais signal.
Voici la méthode pour structurer un sitemap produits qui marche, avec les règles et limites réelles qu'on découvre en production.
Un fichier sitemap XML ne peut contenir que 50 000 URLs maximum, avec une taille max de 50 Mo uncompressed. C'est spécifié dans le protocole sitemap.xml.
Mais 50 000 URLs, c'est la limite technique — la limite pratique est plus basse. Google recommande implicitement de rester sous 10 000-20 000 URLs par fichier pour que son crawler traite chaque URL proprement. Au-delà, il peut échantillonner et ignorer les URLs de queue.
Règle opérationnelle : 5 000-20 000 URLs par fichier sitemap est la zone optimale. Au-dessus, sharder.
Beaucoup de boutiques mettent <lastmod> à la date du jour pour "dire à Google que la page a été modifiée". C'est une tricherie que Google a appris à détecter : si chaque jour vous déclarez 10 000 pages modifiées mais qu'elles n'ont pas changé, Google ignore tous vos lastmod au bout de 2-3 semaines.
La bonne pratique :
<lastmod> = date réelle de dernière modification du contenu de la page (pas la date de crawl ni la date du jour)
Format ISO 8601 : 2026-04-23 ou 2026-04-23T14:30:00+02:00
Mis à jour seulement quand le produit change vraiment (prix, description, images, stock)
Si vous ne savez pas déterminer la date de dernière modification, omettez le champ — c'est mieux qu'un faux lastmod qui dégrade votre crédibilité crawler.
Les produits en rupture temporaire (quelques jours) doivent rester dans le sitemap — leur ranking est un capital à préserver pour quand le stock revient.
Les produits définitivement discontinués (plus jamais en vente) doivent être retirés du sitemap ET de l'index Google (via redirect 301 ou meta robots noindex).
Mauvaise pratique fréquente : supprimer les fiches discontinuées et renvoyer 404. Résultat : vous perdez les backlinks externes, les reviews, et Google met 6-12 mois à nettoyer son index. Préférez redirect 301 vers un produit similaire ou la catégorie parente.
Google Search Console : Settings → Sitemaps → Submit https://example.com/sitemap.xml
Bing Webmaster Tools : Sitemaps → Submit sitemap
Yandex Webmaster (si vous visez la Russie) — rare en 2026
Soumettre à Bing est sous-estimé. Bing + Yahoo = 6-8 % du trafic de recherche mondial, ~15-20 % aux US et UK. DuckDuckGo utilise aussi l'index Bing. Ignorer Bing = ignorer 10-20 % de trafic potentiel.
Monitoring post-soumission :
GSC → Indexing → Sitemaps : vérifier que "Discovered" = nombre d'URLs soumises, que "Indexed" monte progressivement
Si Indexed / Discovered < 50 % après 8 semaines, il y a un problème de qualité des pages (pas du sitemap)
Avec un sitemap dynamique (régénéré quotidiennement côté backend), Google le re-crawle automatiquement selon son propre rythme. Pas besoin de soumettre à chaque update.
Sitemap généré automatiquement à https://<yourshop>.myshopify.com/sitemap.xml et /sitemap_products_1.xml, etc. Vous ne pouvez pas le customiser directement. Limites :
Exclut automatiquement les produits non publiés et out-of-stock avec "continue selling = off"
Google crawle le sitemap à la fréquence qu'il juge pertinente — typiquement quotidien pour les gros catalogues actifs, hebdomadaire pour les sites moins dynamiques. Vous pouvez forcer un re-crawl via GSC en cliquant "Submit" sur un sitemap déjà soumis.
Oui, toujours. Ligne : Sitemap: https://example.com/sitemap.xml en fin de robots.txt. Les crawlers qui n'ont pas accès à votre GSC (Bing, DuckDuckGo, AI bots) le trouvent comme ça.
Non. Le sitemap est une aide, pas une exclusion. Les pages non listées peuvent toujours être crawlées si elles sont liées depuis d'autres pages. Pour vraiment bloquer, utilisez robots.txt ou meta name="robots" content="noindex".
Sitemap images : oui sur certaines verticales (mode, déco), débloque l'indexation Google Images, peut doubler le trafic sur certains types de produits. Sitemap vidéos : moins critique, sauf si vous avez beaucoup de vidéos produits.
Oui, même si ça marche, sharder à 10 000 URLs par fichier améliore la fréquence de re-crawl et rend les ajustements plus rapides (invalider un shard plutôt que tout le fichier). La migration ne prend que quelques heures et apporte un gain de 5-15 % sur le taux d'indexation.
Le canonical est souvent mal utilisé sur les sites e-commerce. Voici les 4 cas concrets (variantes, filtres, pagination, langues) avec la bonne implémentation.
Un robots.txt mal configuré sur une boutique e-commerce peut bloquer le crawl de milliers de fiches, ou laisser Google indexer vos filtres infinis. Voici la structure propre.