El archivo robots.txt parece simple: unas pocas líneas en un archivo de texto en la raíz del dominio. En la práctica, es una de las zonas más sensibles del SEO e-commerce. Una línea incorrecta bloquea a Google en 50 000 fichas de producto. Una línea que falta deja que los bots de IA aspiren tu catálogo sin permiso.
Aquí tienes la estructura correcta en 2026, los errores que debes evitar y cómo gestionar los AI bots, que se han convertido en un tema importante.
Es la causa principal de desperdicio de crawl budget. En un catálogo con filtros dinámicos (talla, color, marca, precio), cada combinación genera una URL:
Para un catálogo con 5 filtros × 10 opciones cada uno, hablamos de 10^5 = 100 000 URLs generadas dinámicamente. Google rastrea todo eso, no encuentra nada único e ignora las fichas de producto reales en favor del ruido.
Solución: bloquear todas las URLs con query params de filtrado:
Como alternativa, en el frontend usa URLs limpias para los filtros importantes (/collections/chaussures-noir/ en lugar de ?color=noir) y bloquea solo las combinaciones infinitas.
Desde 2023, los AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, etc.) rastrean activamente la web para entrenar sus modelos. Tu catálogo e-commerce es un objetivo claro: las fichas de producto están estructuradas, son informativas y existen en volumen.
Opción A — Permitir todos los AI bots (recomendado para 2026)
Los AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citan cada vez más fuentes. Estar presente en esas citas = tráfico cualificado en 2026 y 2027. Bloquear los AI bots corta esa fuente.
Opción B — Bloquear los AI bots de entrenamiento, permitir los AI search
Algunos AI bots son para entrenamiento (OpenAI GPTBot, Google-Extended), otros para búsqueda en tiempo real (ChatGPT-User, Perplexity-User). Puedes diferenciarlos:
User-Agent: GPTBot # Training
Disallow: /
User-Agent: ChatGPT-User # Live search
Allow: /
Es una opción pragmática si te preocupa que tu contenido alimente modelos sin contraprestación, manteniendo al mismo tiempo la visibilidad en los AI search.
Opción C — Bloquearlo todo
User-Agent: GPTBot
Disallow: /
Rara vez es una buena idea en 2026. Coste: cero visibilidad en los AI search engines. Beneficio: tu contenido deja de servir para entrenar IA gratis.
En las tiendas e-commerce, la visibilidad en los AI search ya se puede medir en tráfico (5-10 % de los referrers en algunos verticales). Bloquear los AI bots no impide el entrenamiento —tu contenido se reutiliza igualmente por otras vías—, pero sí te priva de futuras citas.
Prueba de URL específica: para cada patrón bloqueado/permitido, comprueba que una URL de prueba devuelve el resultado esperado
Simulación de rastreo: Screaming Frog puede simular un rastreo según tu robots.txt antes del despliegue
Error clásico que debes evitar: publicar un Disallow: / (que bloquea todo el sitio) en producción por querer probar algo. Caso real: una gran tienda francesa desapareció de Google durante 3 semanas por culpa de esa línea publicada por accidente.
Shopify genera automáticamente un robots.txt aceptable. Desde 2021, puedes personalizarlo mediante el archivo robots.txt.liquid en tu tema (Online Store → Themes → Edit code). Para un override limpio:
{%- for group in robots.default_groups -%}
{{- group.user_agent }}
{%- for rule in group.rules -%}
{{ rule }}
{%- endfor -%}
{%- if group.sitemap != blank -%}
{{ group.sitemap }}
{%- endif -%}
{%- endfor -%}
# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/
No hay un robots.txt por defecto. Genéralo con un plugin SEO (Yoast, RankMath) o manualmente en la raíz del dominio. Ojo con no dejar el robots.txt por defecto de WordPress, que bloquea /wp-admin/ pero permite admin-ajax.php (necesario para algunas funcionalidades del frontend).
Crea un archivo public/robots.txt o genéralo dinámicamente mediante app/robots.ts (Next 13+). Para multiidioma, un solo robots.txt es suficiente: no hace falta localizarlo.
Sí. robots.txt es una señal, no un firewall. Los bots respetuosos (Google, Bing, las principales IA) obedecen. Los maliciosos lo ignoran. Si un bot aparece en tus logs pese a un Disallow, usa un WAF (Cloudflare, por ejemplo) para bloquearlo de verdad.
Es una decisión estratégica. Bloquear Ahrefs/Semrush impide que la competencia analice tu perfil SEO. Coste: también pierdes los datos de tu propio sitio en esas herramientas. Recomendación: déjalos pasar si usas esas herramientas; bloquéalos si no.
Sí. User-Agent: Googlebot + Disallow: / bloquearía a Google de cualquier rastreo. Caso real en el que es útil: un sitio en desarrollo antes del lanzamiento, para evitar una indexación prematura. Con una advertencia absoluta: retira siempre esa regla antes de publicar la versión en producción.
Google vuelve a rastrear robots.txt cada 24-48 h aproximadamente en un sitio activo. Si permites contenido nuevo, calcula 1-2 semanas para ver efectos en la indexación. Si bloqueas, la parada del rastreo es casi inmediata.
Indirectamente. Bien configurado, concentra el crawl budget en las URLs correctas, lo que acelera la indexación de nuevas fichas y mejora la frescura percibida. Mal configurado, puede infraindexar tu catálogo y perjudicar el tráfico orgánico.
Nada, es su problema. Eso significa que todas sus fichas de producto dejan de estar indexadas — y su tráfico orgánico cae. No copies esa estrategia salvo que tu modelo de negocio lo justifique (productos confidenciales, salida en preventa antes del lanzamiento oficial).