robots.txt e-commerce: buone pratiche ed errori

Il file robots.txt sembra semplice: poche righe in un file di testo nella root del dominio. In pratica, è una delle aree più sensibili della SEO e-commerce. Una riga sbagliata blocca Google su 50.000 schede prodotto. Una riga mancante lascia che i bot AI aspirino il vostro catalogo senza permesso.

Ecco la struttura corretta nel 2026, gli errori da evitare e la gestione degli AI bots, che sono diventati un tema centrale.

Cosa fa e cosa non fa robots.txt

Fa:

Dire ai bot che rispettano le regole quali URL non devono scansionare
Indicare la posizione della sitemap
Differenziare le regole per user-agent

Non fa:

Impedire l'indicizzazione (un bot può indicizzare senza scansionare, tramite link esterni)
Proteggere URL riservati (robots.txt è pubblico, chiunque può leggerlo)
Obbligare un bot a rispettare la regola (quelli malevoli ignorano robots.txt)

Regola critica: robots.txt è un segnale, non una barriera. Per bloccare davvero, usate autenticazione, meta robots noindex o un firewall.

La struttura tipo di un robots.txt e-commerce

Ecco un robots.txt pulito per un sito Shopify o WooCommerce:

# Regole per tutti i bot
User-Agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Disallow: /account/
Disallow: /cart
Disallow: /checkout
Disallow: /search?
Disallow: /*?variant=
Disallow: /*?utm_
Disallow: /*?preview=
Disallow: /collections/*?sort_by=
Disallow: /collections/*?*filter.*

# Regole speciali per gli AI bots (vedi sezione dedicata)
User-Agent: GPTBot
Disallow: /admin/
Allow: /

# Posizione della sitemap
Sitemap: https://example.com/sitemap.xml

Scomposizione:

User-Agent: * = regola predefinita per tutti i bot che non hanno una sezione specifica
Allow: / = consentire tutto per impostazione predefinita
Disallow: = poi bloccare le sezioni sensibili
Sitemap: = indica la posizione della sitemap (cruciale per gli AI bots senza accesso a GSC)

Le 7 aree da bloccare sempre

Su qualsiasi e-commerce, bloccate:

/api/ — endpoint API interni, mai utili nelle SERP
/admin/ o equivalente (es: /wp-admin/) — back-office, riservato
/account/ — area cliente autenticata, privata
/cart e /checkout — pagine transazionali, senza valore SEO
/search?q= — risultati della ricerca interna (creano URL infinite)
/*?variant= — varianti di prodotto (canonical verso il parent)
/*?utm_ — URL di tracking (duplicati delle URL canoniche)

Per WooCommerce in particolare, aggiungete:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?add-to-cart=
Disallow: /?add_to_wishlist=

Per Shopify, aggiungete:

Disallow: /orders
Disallow: /wishlist

I filtri a faccette: l'errore n. 1

È la causa principale dello spreco di crawl budget. Su un catalogo con filtri dinamici (taglia, colore, marca, prezzo), ogni combinazione genera un URL:

/collections/chaussures?color=noir
/collections/chaussures?color=noir&size=44
/collections/chaussures?color=noir&size=44&brand=atelier-maison
/collections/chaussures?color=noir&size=44&brand=atelier-maison&price=50-100

Per un catalogo con 5 filtri × 10 opzioni ciascuno, parliamo di 10^5 = 100.000 URL generate dinamicamente. Google scansiona tutto questo, non trova nulla di unico e ignora le vere schede prodotto in favore del rumore.

Soluzione: bloccare tutti gli URL con query params di filtro:

Disallow: /collections/*?*filter.*
Disallow: /collections/*?*sort_by*
Disallow: /collections/*?*pg=

In alternativa, lato frontend, usate URL puliti per i filtri importanti (/collections/chaussures-noir/ invece di ?color=noir) e bloccate solo le combinazioni infinite.

AI bots: la nuova realtà SEO

Dal 2023, gli AI bots (GPTBot, ClaudeBot, PerplexityBot, GoogleOther, ByteSpider, ecc.) scansionano attivamente il web per addestrare i loro modelli. Il vostro catalogo e-commerce è un bersaglio: le schede prodotto sono strutturate, informative e numerose.

Le 3 scelte possibili

Scelta A — Consentire tutti gli AI bots (consigliato per il 2026)

Gli AI search engines (ChatGPT, Perplexity, Claude, Google AI Overviews) citano sempre più fonti. Essere presenti in queste citazioni = traffico qualificato nel 2026 e 2027. Bloccare gli AI bots taglia questa fonte.

User-Agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /account/

Ripetete questo pattern per: ClaudeBot, Claude-Web, anthropic-ai, PerplexityBot, Perplexity-User, ChatGPT-User, OAI-SearchBot, Google-Extended, Applebot-Extended, Bytespider, CCBot, cohere-ai, Diffbot, FacebookBot, Meta-ExternalAgent, Meta-ExternalFetcher, Amazonbot, YouBot.

Scelta B — Bloccare gli AI bots di training, consentire gli AI search

Alcuni AI bots servono per il training (OpenAI GPTBot, Google-Extended), altri per la search in tempo reale (ChatGPT-User, Perplexity-User). Potete differenziare:

User-Agent: GPTBot          # Training
Disallow: /

User-Agent: ChatGPT-User    # Live search
Allow: /

È una scelta pragmatica se temete che i vostri contenuti alimentino i modelli senza contropartita, mantenendo però la visibilità negli AI search.

Scelta C — Bloccare tutto

User-Agent: GPTBot
Disallow: /

Raramente è una buona idea nel 2026. Costo: zero visibilità negli AI search engines. Vantaggio: i vostri contenuti non servono più ad addestrare gratuitamente le AI.

Perché Ecomptimize consiglia la scelta A

Sugli e-commerce, la visibilità negli AI search è diventata misurabile in termini di traffico (5-10% dei referrer in alcuni verticali). Bloccare gli AI bots non impedisce il training — i vostri contenuti vengono comunque ripresi in altri modi — ma vi priva della citazione futura.

Testare prima della pubblicazione

Prima di pubblicare un nuovo robots.txt, testatelo:

Test sintattico: tramite Google Search Console → robots.txt Tester
Test di URL specifici: per ogni pattern bloccato/consentito, verificate che un URL di test restituisca il risultato atteso
Simulazione di crawl: Screaming Frog può simulare una scansione in base al vostro robots.txt prima della pubblicazione

Errore classico da evitare: pubblicare un Disallow: / (che blocca tutto il sito) in produzione mentre volete testare qualcosa. Caso reale: un grande shop francese è sparito da Google per 3 settimane a causa di questa riga pubblicata per errore.

Per piattaforma

Shopify

Shopify genera automaticamente un robots.txt decente. Dal 2021 potete personalizzarlo tramite il file robots.txt.liquid nel vostro tema (Online Store → Themes → Edit code). Per un override pulito:

{%- for group in robots.default_groups -%}
  {{- group.user_agent }}

  {%- for rule in group.rules -%}
    {{ rule }}
  {%- endfor -%}

  {%- if group.sitemap != blank -%}
    {{ group.sitemap }}
  {%- endif -%}
{%- endfor -%}

# Custom rules (append)
User-Agent: GPTBot
Allow: /
Disallow: /admin/

WooCommerce / WordPress

Nessun robots.txt predefinito. Generatelo tramite un plugin SEO (Yoast, RankMath) o manualmente nella root del dominio. Attenzione a non lasciare il robots.txt predefinito di WordPress che blocca /wp-admin/ ma consente admin-ajax.php (necessario per alcune funzionalità frontend).

Next.js / headless

Create un file public/robots.txt oppure generatelo dinamicamente tramite app/robots.ts (Next 13+). Per siti multi-locale basta un solo robots.txt — non serve localizzarlo.

Audit robots.txt in 10 minuti

Verifiche essenziali:

https://example.com/robots.txt restituisce un 200 con Content-Type: text/plain
Nessun Disallow: / accidentale nella sezione generale
Tutte le aree sensibili (/admin/, /account/, /api/) sono bloccate
I filtri a faccette e i query params sono bloccati
La sitemap è referenziata alla fine del file
Gli AI bots hanno una sezione dedicata con la vostra strategia (allow o disallow in base alla scelta)
Nessun blocco di /wp-admin/admin-ajax.php (se WordPress) — rompe le funzionalità frontend

FAQ

Posso bloccare un bot tramite robots.txt e vederlo comunque nei log?

Sì. robots.txt è un segnale, non un firewall. I bot che rispettano le regole (Google, Bing, i principali AI) obbediscono. Quelli malevoli ignorano. Se un bot compare nei vostri log nonostante un Disallow, usate un WAF (Cloudflare, per esempio) per bloccarlo davvero.

Devo bloccare i bot di scraping dei concorrenti (Ahrefs, Semrush)?

È una scelta strategica. Bloccare Ahrefs/Semrush impedisce ai concorrenti di analizzare il vostro profilo SEO. Costo: perdete anche i dati sul vostro sito in questi strumenti. Raccomandazione: lasciateli passare se usate questi tool, bloccateli in caso contrario.

robots.txt può bloccare Google?

Sì. User-Agent: Googlebot + Disallow: / bloccherebbe Google da qualsiasi scansione. Caso reale in cui è utile: un sito in sviluppo prima del lancio, per evitare un'indicizzazione prematura. Con un avviso assoluto: rimuovete sempre questa regola prima di mettere online la produzione pubblica.

Quanto tempo impiega una modifica al robots.txt ad applicarsi?

Google esegue di nuovo il crawl di robots.txt ogni 24-48 ore circa su un sito attivo. Se consentite contenuti nuovi, considerate 1-2 settimane per vedere gli effetti sull'indicizzazione. Se bloccate, l'interruzione del crawl è quasi immediata.

robots.txt influisce sul ranking?

Indirettamente. Se configurato bene, concentra il crawl budget sugli URL giusti, accelerando l'indicizzazione delle nuove schede e migliorando la freschezza percepita. Se configurato male, può sotto-indicizzare il vostro catalogo e penalizzare il traffico organico.

Il mio concorrente mette `Disallow: /products/` — cosa devo fare?

Nulla, è un suo problema. Significa che tutte le sue schede prodotto non sono più indicizzate — traffico organico in calo. Non copiate questa strategia a meno che il vostro modello di business non lo giustifichi (prodotti riservati, uscita in preordine prima del lancio ufficiale).

Ecomptimize genera automaticamente un robots.txt ottimizzato con supporto AI bots per il vostro negozio. Vedi Ecomptimize per Shopify o Ecomptimize per WooCommerce.