robots.txt e-commerce: aciertos y errores clave

El archivo robots.txt parece simple: unas pocas líneas en un archivo de texto en la raíz del dominio. En la práctica, es una de las zonas más sensibles del SEO e-commerce. Una línea incorrecta bloquea a Google en 50 000 fichas de producto. Una línea que falta deja que los bots de IA aspiren tu catálogo sin permiso.

Aquí tienes la estructura correcta en 2026, los errores que debes evitar y cómo gestionar los AI bots, que se han convertido en un tema importante.

Qué hace y qué no hace robots.txt

Hace:

Indicar a los bots respetuosos qué URLs no deben rastrear
Indicar la ubicación del sitemap
Diferenciar reglas por user-agent

No hace:

Impedir la indexación (un bot puede indexar sin rastrear, mediante enlaces externos)
Proteger URLs confidenciales (robots.txt es público, cualquiera puede leerlo)
Obligar a un bot a respetar la regla (los bots maliciosos ignoran robots.txt)

Regla crítica: robots.txt es una señal, no una barrera. Para bloquear de verdad, usa autenticación, meta robots noindex o un firewall.

La estructura tipo de un robots.txt e-commerce

Aquí tienes un robots.txt limpio para un sitio Shopify o WooCommerce:

# Reglas para todos los bots
User-Agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Disallow: /account/
Disallow: /cart
Disallow: /checkout
Disallow: /search?
Disallow: /*?variant=
Disallow: /*?utm_
Disallow: /*?preview=
Disallow: /collections/*?sort_by=
Disallow: /collections/*?*filter.*

# Reglas especiales para AI bots (ver sección específica)
User-Agent: GPTBot
Disallow: /admin/
Allow: /

# Ubicación del sitemap
Sitemap: https://example.com/sitemap.xml

Desglose:

User-Agent: * = regla por defecto para todos los bots que no tienen una sección específica
Allow: / = permitir todo por defecto
Disallow: = después bloquear las secciones sensibles
Sitemap: = indica la ubicación del sitemap (clave para AI bots sin acceso a GSC)

Las 7 zonas que debes bloquear siempre

En cualquier e-commerce, bloquea:

/api/ — endpoints de API internos, nunca útiles en las SERP
/admin/ o equivalente (ej.: /wp-admin/) — back-office, confidencial
/account/ — área de cliente autenticada, privada
/cart y /checkout — páginas transaccionales, sin valor SEO
/search?q= — resultados de búsqueda interna (crean URLs infinitas)
/*?variant= — variantes de producto (canonical hacia la principal)
/*?utm_ — URLs de tracking (duplicados de las URLs canónicas)

Para WooCommerce en concreto, añade:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?add-to-cart=
Disallow: /?add_to_wishlist=

Para Shopify, añade:

Disallow: /orders
Disallow: /wishlist

Los filtros facetados: el error n.º 1

Es la causa principal de desperdicio de crawl budget. En un catálogo con filtros dinámicos (talla, color, marca, precio), cada combinación genera una URL:

/collections/chaussures?color=noir
/collections/chaussures?color=noir&size=44
/collections/chaussures?color=noir&size=44&brand=atelier-maison
/collections/chaussures?color=noir&size=44&brand=atelier-maison&price=50-100

Para un catálogo con 5 filtros × 10 opciones cada uno, hablamos de 10^5 = 100 000 URLs generadas dinámicamente. Google rastrea todo eso, no encuentra nada único e ignora las fichas de producto reales en favor del ruido.

Solución: bloquear todas las URLs con query params de filtrado:

Disallow: /collections/*?*filter.*
Disallow: /collections/*?*sort_by*
Disallow: /collections/*?*pg=

Como alternativa, en el frontend usa URLs limpias para los filtros importantes (/collections/chaussures-noir/ en lugar de ?color=noir) y bloquea solo las combinaciones infinitas.

AI bots: la nueva realidad del SEO

Desde 2023, los AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, etc.) rastrean activamente la web para entrenar sus modelos. Tu catálogo e-commerce es un objetivo claro: las fichas de producto están estructuradas, son informativas y existen en volumen.

Las 3 opciones posibles

Opción A — Permitir todos los AI bots (recomendado para 2026)

Los AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citan cada vez más fuentes. Estar presente en esas citas = tráfico cualificado en 2026 y 2027. Bloquear los AI bots corta esa fuente.

User-Agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /account/

Repite este patrón para: ClaudeBot, Claude-Web, anthropic-ai, PerplexityBot, Perplexity-User, ChatGPT-User, OAI-SearchBot, Google-Extended, Applebot-Extended, Bytespider, CCBot, cohere-ai, Diffbot, FacebookBot, Meta-ExternalAgent, Meta-ExternalFetcher, Amazonbot, YouBot.

Opción B — Bloquear los AI bots de entrenamiento, permitir los AI search

Algunos AI bots son para entrenamiento (OpenAI GPTBot, Google-Extended), otros para búsqueda en tiempo real (ChatGPT-User, Perplexity-User). Puedes diferenciarlos:

User-Agent: GPTBot          # Training
Disallow: /

User-Agent: ChatGPT-User    # Live search
Allow: /

Es una opción pragmática si te preocupa que tu contenido alimente modelos sin contraprestación, manteniendo al mismo tiempo la visibilidad en los AI search.

Opción C — Bloquearlo todo

User-Agent: GPTBot
Disallow: /

Rara vez es una buena idea en 2026. Coste: cero visibilidad en los AI search engines. Beneficio: tu contenido deja de servir para entrenar IA gratis.

Por qué Ecomptimize recomienda la opción A

En las tiendas e-commerce, la visibilidad en los AI search ya se puede medir en tráfico (5-10 % de los referrers en algunos verticales). Bloquear los AI bots no impide el entrenamiento —tu contenido se reutiliza igualmente por otras vías—, pero sí te priva de futuras citas.

Probar antes de desplegar

Antes de publicar un nuevo robots.txt, pruébalo:

Prueba de sintaxis: mediante Google Search Console → robots.txt Tester
Prueba de URL específica: para cada patrón bloqueado/permitido, comprueba que una URL de prueba devuelve el resultado esperado
Simulación de rastreo: Screaming Frog puede simular un rastreo según tu robots.txt antes del despliegue

Error clásico que debes evitar: publicar un Disallow: / (que bloquea todo el sitio) en producción por querer probar algo. Caso real: una gran tienda francesa desapareció de Google durante 3 semanas por culpa de esa línea publicada por accidente.

Por plataforma

Shopify

Shopify genera automáticamente un robots.txt aceptable. Desde 2021, puedes personalizarlo mediante el archivo robots.txt.liquid en tu tema (Online Store → Themes → Edit code). Para un override limpio:

{%- for group in robots.default_groups -%}
  {{- group.user_agent }}

  {%- for rule in group.rules -%}
    {{ rule }}
  {%- endfor -%}

  {%- if group.sitemap != blank -%}
    {{ group.sitemap }}
  {%- endif -%}
{%- endfor -%}

# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/

WooCommerce / WordPress

No hay un robots.txt por defecto. Genéralo con un plugin SEO (Yoast, RankMath) o manualmente en la raíz del dominio. Ojo con no dejar el robots.txt por defecto de WordPress, que bloquea /wp-admin/ pero permite admin-ajax.php (necesario para algunas funcionalidades del frontend).

Next.js / headless

Crea un archivo public/robots.txt o genéralo dinámicamente mediante app/robots.ts (Next 13+). Para multiidioma, un solo robots.txt es suficiente: no hace falta localizarlo.

Auditoría de robots.txt en 10 min

Comprobaciones esenciales:

https://example.com/robots.txt devuelve un 200 con Content-Type: text/plain
No hay un Disallow: / accidental en la sección general
Todas las zonas sensibles (/admin/, /account/, /api/) están bloqueadas
Los filtros facetados y los query params están bloqueados
El sitemap está referenciado al final del archivo
Los AI bots tienen una sección específica con tu estrategia (allow o disallow según tu elección)
No se bloquea /wp-admin/admin-ajax.php (si usas WordPress) — rompe funcionalidades del frontend

FAQ

¿Puedo bloquear un bot con robots.txt y seguir viéndolo en mis logs?

Sí. robots.txt es una señal, no un firewall. Los bots respetuosos (Google, Bing, las principales IA) obedecen. Los maliciosos lo ignoran. Si un bot aparece en tus logs pese a un Disallow, usa un WAF (Cloudflare, por ejemplo) para bloquearlo de verdad.

¿Debo bloquear los bots de scraping de la competencia (Ahrefs, Semrush)?

Es una decisión estratégica. Bloquear Ahrefs/Semrush impide que la competencia analice tu perfil SEO. Coste: también pierdes los datos de tu propio sitio en esas herramientas. Recomendación: déjalos pasar si usas esas herramientas; bloquéalos si no.

¿robots.txt puede bloquear a Google?

Sí. User-Agent: Googlebot + Disallow: / bloquearía a Google de cualquier rastreo. Caso real en el que es útil: un sitio en desarrollo antes del lanzamiento, para evitar una indexación prematura. Con una advertencia absoluta: retira siempre esa regla antes de publicar la versión en producción.

¿Cuánto tarda en aplicarse un cambio en robots.txt?

Google vuelve a rastrear robots.txt cada 24-48 h aproximadamente en un sitio activo. Si permites contenido nuevo, calcula 1-2 semanas para ver efectos en la indexación. Si bloqueas, la parada del rastreo es casi inmediata.

¿robots.txt afecta al ranking?

Indirectamente. Bien configurado, concentra el crawl budget en las URLs correctas, lo que acelera la indexación de nuevas fichas y mejora la frescura percibida. Mal configurado, puede infraindexar tu catálogo y perjudicar el tráfico orgánico.

Mi competidor usa `Disallow: /products/` — ¿qué debo hacer?

Nada, es su problema. Eso significa que todas sus fichas de producto dejan de estar indexadas — y su tráfico orgánico cae. No copies esa estrategia salvo que tu modelo de negocio lo justifique (productos confidenciales, salida en preventa antes del lanzamiento oficial).

Ecomptimize genera automáticamente un robots.txt optimizado con soporte para AI bots para tu tienda. Ver Ecomptimize para Shopify o Ecomptimize para WooCommerce.