Il file robots.txt sembra semplice: poche righe in un file di testo nella root del dominio. In pratica, è una delle aree più sensibili della SEO e-commerce. Una riga sbagliata blocca Google su 50.000 schede prodotto. Una riga mancante lascia che i bot AI aspirino il vostro catalogo senza permesso.
Ecco la struttura corretta nel 2026, gli errori da evitare e la gestione degli AI bots, che sono diventati un tema centrale.
È la causa principale dello spreco di crawl budget. Su un catalogo con filtri dinamici (taglia, colore, marca, prezzo), ogni combinazione genera un URL:
Per un catalogo con 5 filtri × 10 opzioni ciascuno, parliamo di 10^5 = 100.000 URL generate dinamicamente. Google scansiona tutto questo, non trova nulla di unico e ignora le vere schede prodotto in favore del rumore.
Soluzione: bloccare tutti gli URL con query params di filtro:
In alternativa, lato frontend, usate URL puliti per i filtri importanti (/collections/chaussures-noir/ invece di ?color=noir) e bloccate solo le combinazioni infinite.
Dal 2023, gli AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, ecc.) scansionano attivamente il web per addestrare i loro modelli. Il vostro catalogo e-commerce è un bersaglio: le schede prodotto sono strutturate, informative e numerose.
Scelta A — Consentire tutti gli AI bots (consigliato per il 2026)
Gli AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citano sempre più fonti. Essere presenti in queste citazioni = traffico qualificato nel 2026 e 2027. Bloccare gli AI bots taglia questa fonte.
Scelta B — Bloccare gli AI bots di training, consentire gli AI search
Alcuni AI bots servono per il training (OpenAI GPTBot, Google-Extended), altri per la search in tempo reale (ChatGPT-User, Perplexity-User). Potete differenziare:
User-Agent: GPTBot # Training
Disallow: /
User-Agent: ChatGPT-User # Live search
Allow: /
È una scelta pragmatica se temete che i vostri contenuti alimentino i modelli senza contropartita, mantenendo però la visibilità negli AI search.
Scelta C — Bloccare tutto
User-Agent: GPTBot
Disallow: /
Raramente è una buona idea nel 2026. Costo: zero visibilità negli AI search engines. Vantaggio: i vostri contenuti non servono più ad addestrare gratuitamente le AI.
Sugli e-commerce, la visibilità negli AI search è diventata misurabile in termini di traffico (5-10% dei referrer in alcuni verticali). Bloccare gli AI bots non impedisce il training — i vostri contenuti vengono comunque ripresi in altri modi — ma vi priva della citazione futura.
Test di URL specifici: per ogni pattern bloccato/consentito, verificate che un URL di test restituisca il risultato atteso
Simulazione di crawl: Screaming Frog può simulare una scansione in base al vostro robots.txt prima della pubblicazione
Errore classico da evitare: pubblicare un Disallow: / (che blocca tutto il sito) in produzione mentre volete testare qualcosa. Caso reale: un grande shop francese è sparito da Google per 3 settimane a causa di questa riga pubblicata per errore.
Shopify genera automaticamente un robots.txt decente. Dal 2021 potete personalizzarlo tramite il file robots.txt.liquid nel vostro tema (Online Store → Themes → Edit code). Per un override pulito:
{%- for group in robots.default_groups -%}
{{- group.user_agent }}
{%- for rule in group.rules -%}
{{ rule }}
{%- endfor -%}
{%- if group.sitemap != blank -%}
{{ group.sitemap }}
{%- endif -%}
{%- endfor -%}
# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/
Nessun robots.txt predefinito. Generatelo tramite un plugin SEO (Yoast, RankMath) o manualmente nella root del dominio. Attenzione a non lasciare il robots.txt predefinito di WordPress che blocca /wp-admin/ ma consente admin-ajax.php (necessario per alcune funzionalità frontend).
Create un file public/robots.txt oppure generatelo dinamicamente tramite app/robots.ts (Next 13+). Per siti multi-locale basta un solo robots.txt — non serve localizzarlo.
Sì. robots.txt è un segnale, non un firewall. I bot che rispettano le regole (Google, Bing, i principali AI) obbediscono. Quelli malevoli ignorano. Se un bot compare nei vostri log nonostante un Disallow, usate un WAF (Cloudflare, per esempio) per bloccarlo davvero.
È una scelta strategica. Bloccare Ahrefs/Semrush impedisce ai concorrenti di analizzare il vostro profilo SEO. Costo: perdete anche i dati sul vostro sito in questi strumenti. Raccomandazione: lasciateli passare se usate questi tool, bloccateli in caso contrario.
Sì. User-Agent: Googlebot + Disallow: / bloccherebbe Google da qualsiasi scansione. Caso reale in cui è utile: un sito in sviluppo prima del lancio, per evitare un'indicizzazione prematura. Con un avviso assoluto: rimuovete sempre questa regola prima di mettere online la produzione pubblica.
Google esegue di nuovo il crawl di robots.txt ogni 24-48 ore circa su un sito attivo. Se consentite contenuti nuovi, considerate 1-2 settimane per vedere gli effetti sull'indicizzazione. Se bloccate, l'interruzione del crawl è quasi immediata.
Indirettamente. Se configurato bene, concentra il crawl budget sugli URL giusti, accelerando l'indicizzazione delle nuove schede e migliorando la freschezza percepita. Se configurato male, può sotto-indicizzare il vostro catalogo e penalizzare il traffico organico.
Nulla, è un suo problema. Significa che tutte le sue schede prodotto non sono più indicizzate — traffico organico in calo. Non copiate questa strategia a meno che il vostro modello di business non lo giustifichi (prodotti riservati, uscita in preordine prima del lancio ufficiale).