O ficheiro robots.txt parece simples: algumas linhas num ficheiro de texto na raiz do domínio. Na prática, é uma das áreas mais sensíveis do SEO e-commerce. Uma linha errada bloqueia o Google em 50 000 páginas de produto. Uma linha em falta deixa os bots de IA copiar o seu catálogo sem permissão.
Aqui está a estrutura correta em 2026, os erros a evitar e a gestão dos AI bots, que se tornaram um tema central.
Esta é a principal causa de desperdício de crawl budget. Num catálogo com filtros dinâmicos (tamanho, cor, marca, preço), cada combinação gera uma URL:
Num catálogo com 5 filtros × 10 opções cada, estamos a falar de 10^5 = 100 000 URLs geradas dinamicamente. O Google rastreia tudo isso, não encontra nada de único e ignora as verdadeiras páginas de produto em favor de ruído.
Solução: bloquear todas as URLs com query params de filtragem:
Em alternativa, no frontend, use URLs limpas para os filtros importantes (/collections/chaussures-noir/ em vez de ?color=noir) e bloqueie apenas as combinações infinitas.
Desde 2023, os AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, etc.) rastreiam ativamente a web para treinar os seus modelos. O seu catálogo e-commerce é um alvo: as páginas de produto são estruturadas, informativas e em grande volume.
Opção A — Permitir todos os AI bots (recomendado para 2026)
Os AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citam cada vez mais fontes. Estar presente nessas citações = tráfego qualificado em 2026 e 2027. Bloquear os AI bots corta essa fonte.
Opção B — Bloquear os AI bots de treino, permitir os AI search
Alguns AI bots servem para treino (OpenAI GPTBot, Google-Extended), outros para pesquisa em tempo real (ChatGPT-User, Perplexity-User). Pode diferenciá-los:
User-Agent: GPTBot # Training
Disallow: /
User-Agent: ChatGPT-User # Live search
Allow: /
É uma abordagem pragmática se receia que o seu conteúdo alimente modelos sem contrapartida, mantendo ao mesmo tempo a visibilidade nos AI search.
Opção C — Bloquear tudo
User-Agent: GPTBot
Disallow: /
Raramente é uma boa ideia em 2026. Custo: zero visibilidade nos AI search engines. Benefício: o seu conteúdo deixa de servir para treinar IA gratuitamente.
Em lojas e-commerce, a visibilidade nos AI search já se mede em tráfego (5-10% dos referrers em alguns setores). Bloquear os AI bots não impede o treino — o seu conteúdo acaba por ser reutilizado por outros meios — mas retira-lhe a possibilidade de citação futura.
Teste de URL específica: para cada padrão bloqueado/autorizado, verificar se uma URL de teste devolve o resultado esperado
Simulação de crawl: o Screaming Frog pode simular um crawl segundo o seu robots.txt antes da publicação
Erro clássico a evitar: publicar um Disallow: / (que bloqueia todo o site) em produção ao tentar testar alguma coisa. Caso real: uma grande loja francesa desapareceu do Google durante 3 semanas por causa desta linha publicada por engano.
A Shopify gera automaticamente um robots.txt aceitável. Desde 2021, pode personalizá-lo através do ficheiro robots.txt.liquid no seu tema (Online Store → Themes → Edit code). Para um override limpo:
{%- for group in robots.default_groups -%}
{{- group.user_agent }}
{%- for rule in group.rules -%}
{{ rule }}
{%- endfor -%}
{%- if group.sitemap != blank -%}
{{ group.sitemap }}
{%- endif -%}
{%- endfor -%}
# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/
Não existe robots.txt por defeito. Gere-o através de um plugin SEO (Yoast, RankMath) ou manualmente na raiz do domínio. Atenção para não deixar o robots.txt por defeito do WordPress, que bloqueia /wp-admin/ mas permite admin-ajax.php (necessário para algumas funcionalidades do frontend).
Crie um ficheiro public/robots.txt ou gere-o dinamicamente através de app/robots.ts (Next 13+). Em multi-locale, basta um único robots.txt — não é necessário localizá-lo.
Sim. O robots.txt é um sinal, não uma firewall. Os bots que respeitam as regras (Google, Bing, os principais AI) obedecem. Os maliciosos ignoram. Se um bot aparecer nos seus logs apesar de um Disallow, use um WAF (Cloudflare, por exemplo) para o bloquear de facto.
É uma escolha estratégica. Bloquear Ahrefs/Semrush impede os concorrentes de analisarem o seu perfil SEO. Custo: também perde os dados do seu próprio site nessas ferramentas. Recomendação: deixe passar se usa essas ferramentas; bloqueie se não usa.
Sim. User-Agent: Googlebot + Disallow: / bloquearia o Google de qualquer crawl. Caso real em que isso é útil: um site em desenvolvimento antes do lançamento, para evitar indexação prematura. Com um aviso absoluto: retire sempre esta regra antes de lançar a produção pública.
O Google volta a rastrear o robots.txt a cada 24-48h, aproximadamente, num site ativo. Se passar a permitir conteúdo novo, conte com 1-2 semanas para ver os efeitos na indexação. Se bloquear, a paragem do crawl é quase imediata.
Indiretamente. Bem configurado, concentra o crawl budget nas URLs certas, o que acelera a indexação de novas páginas e melhora a perceção de frescura. Mal configurado, pode subindexar o seu catálogo e penalizar o tráfego orgânico.
Nada, é um problema dele. Isso significa que todas as páginas de produto dele deixaram de ser indexadas — o tráfego orgânico cai. Não copie essa estratégia, a menos que o seu modelo de negócio o justifique (produtos confidenciais, lançamento em pré-venda antes da saída oficial).