Il Problema Che Nessuno Ti Dice: Gli Hosting Bloccano i Bot AI
Partiamo dalla bomba: molti provider di hosting stanno bloccando i bot AI di default per "proteggere" i loro server dal carico eccessivo.
Come ti ho spiegato nel primo articolo sulla rivoluzione dell'AI Search, i Large Language Models dipendono fortemente dal crawling dei contenuti web. Ma se non possono accedere al tuo sito...
La Scoperta di Aleyda Solis
Aleyda Solis (una delle massime esperte SEO internazionali) ha scoperto questo problema per caso testando i suoi siti. Ha fatto un audit con strumenti di bot testing e ha trovato errori di "connection refused" per quasi tutti i bot AI.
Quando ha contattato il supporto dell'hosting, la risposta è stata:
"dato che la crescita degli strumenti AI ha portato a una domanda elevata di contenuti per addestrare modelli e fare previsioni (alcuni bot AI non sono trasparenti e il volume di richieste è troppo significativo per essere ignorato), abbiamo aggiunto i bot AI a una blacklist che blocca completamente il loro traffico per ridurre il carico indesiderato sui siti."
Traduzione: il tuo hosting decide per te se far accedere i bot AI al tuo sito, spesso senza dirti nulla.
Dopo aver osservato le sue considerazioni ed eseguito diversi test, ecco come credo sia opportuno procedere:
Come Verificare Se Sei Bloccato
Test manuale:
- Vai su uno strumento di bot testing (ce ne sono diversi gratuiti online)
- Inserisci l'URL del tuo sito
- Testa questi bot specificamente:
- GPTBot (OpenAI/ChatGPT)
- Google-Extended (Google per training AI)
- ClaudeBot (Anthropic/Claude)
- PerplexityBot (Perplexity)
- CCBot (Common Crawl, usato da molti LLM)
Se vedi "Connection refused" o "403 Forbidden": hai un problema.
Come Risolvere (Velocemente)
Step 1: Contatta il tuo hosting e chiedi esplicitamente di whitelistare gli IP dei bot AI principali.
Step 2: Se il tuo hosting non collabora, considera seriamente di cambiare provider. Non sto scherzando. Un hosting che blocca i bot AI nel 2025 è come uno che bloccava Googlebot nel 2005.
Step 3: Monitora costantemente i log del server per verificare l'attività dei bot AI. Dovresti vedere crawl regolari da GPTBot, ClaudeBot, etc.
Robots.txt per AI Search: La Configurazione Corretta
Ricordi i dati che ti ho mostrato nel primo articolo di questa serie sull'AI Search Optimization? ChatGPT usa ancora Google per il 95% delle sue risposte. Questo significa che, superato il problema hosting, il secondo controllo fondamentale è il robots.txt.
I Bot AI Che DEVI Permettere
Ecco la lista completa dei bot che dovresti sempre permettere nel tuo robots.txt:
OpenAI/ChatGPT:
GPTBot- per training e risposteChatGPT-User- per browsing direttoOAI-SearchBot- per ricerche web
Google:
Googlebot- sempre fondamentaleGoogle-Extended- per AI features
Microsoft:
bingbot- per Bing e Copilot
Anthropic:
ClaudeBot- per ClaudeClaude-User- per browsing
Perplexity:
PerplexityBot- bot principalePerplexity-User- per accesso utenti
Altri:
CCBot- Common CrawlGrok-bot- X AI di Elon Musk
La Configurazione Robots.txt Corretta
Esempio base che sto usando con i miei clienti:
textUser-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: CCBot
Allow: /
Nota importante: se hai sezioni del sito che NON vuoi far accedere ai bot AI (tipo area admin, checkout, contenuti riservati), specifica i Disallow PRIMA degli Allow generici.
Gli Errori Che potrebbero capitare più spesso
❌ Errore #1: Bloccare tutti i bot "sconosciuti" con wildcard troppo aggressive. I bot AI sono relativamente nuovi, molti firewall li classificano come "unknown".
❌ Errore #2: Non aggiornare il robots.txt da anni. I bot AI sono recenti, se il tuo robots.txt è fermo al 2020, probabilmente non li contempla.
❌ Errore #3: Bloccare User-agent: * e poi permettere solo Googlebot. Questo blocca automaticamente tutti i bot AI più recenti.
Il Problema del JavaScript: Perché i Bot AI Non Vedono Metà dei Tuoi Contenuti
Questo è il problema tecnico più subdolo: siti con contenuti di qualità ma invisibili ai bot AI perché renderizzati lato client.
Client-Side Rendering vs Server-Side: La Differenza Cruciale
Client-Side Rendering (CSR): Il contenuto viene generato dal browser dell'utente tramite JavaScript.
Server-Side Rendering (SSR): Il contenuto viene generato dal server e arriva già pronto al browser.
Il problema: molti bot AI non eseguono JavaScript o lo eseguono in modo limitato. Se i tuoi contenuti chiave dipendono da JS, i bot AI vedono una pagina quasi vuota.
Test Pratico: Verifica il Tuo Rendering
Quello che faccio e vi suggerisco:
- Apro il sito in Chrome
- Click destro → "Visualizza sorgente pagina" (CTRL+U)
- Cerco nel codice HTML un pezzo di testo chiave del mio contenuto principale
Se NON lo trovi nell'HTML sorgente ma LO VEDI sulla pagina → hai un problema di Client-Side Rendering.
Esempio pratico: sito e-commerce dove le descrizioni prodotto, le recensioni, le FAQ sono tutte caricate via JavaScript. I bot AI vedono titoli e immagini, ma non il contenuto testuale che li aiuterebbe a citarti.
Le Sezioni Più Critiche da Rendere Server-Side
Priorità assoluta SSR:
- Descrizioni prodotti/servizi
- Contenuti editoriali (articoli, guide)
- FAQ e Q&A
- Recensioni e testimonial
- Tabelle comparative
- Schede tecniche
Possono restare CSR (con cautela):
- Filtri e ordinamenti
- Interazioni UI (modal, dropdown)
- Chat widget
- Tracking scripts
Soluzioni Pratiche
Soluzione #1 - SSR Completo: Migrare a un framework che supporta SSR nativamente.
Soluzione #2 - Pre-rendering: Servire HTML pre-renderizzato ai bot mentre mantieni CSR per gli utenti.
Soluzione #3 - Hybrid Approach: Contenuti critici in SSR, interazioni avanzate in CSR.
Meta Tags Che Bloccano l'AI (Senza Che Tu Lo Sappia)
Questo è un classico: meta tags configurati per la SEO tradizionale che bloccano involontariamente l'AI search.
Il Meta Robots Pericoloso
Meta robots con nosnippet:
xml<meta name="robots" content="noindex, nosnippet">
Questo meta tag, usato per evitare snippet in Google, impedisce anche ai bot AI di usare il tuo contenuto per sintetizzare risposte.
Dove mi è capitato di trovarlo (erroneamente):
- Pagine prodotto "thin"
- Articoli con contenuto duplicato (parziale)
- Landing page create per campagne ads
- Pagine di categoria con poco testo
La Revisione Che andrebbe fatta sempre
Controllo sistematico:
- Audit completo con Screaming Frog (o similare, si intende)
- Filtro per pagine con
noindexonosnippet - Per ogni pagina, mi chiedo: "Questa pagina potrebbe essere utile per rispondere a domande AI per la nicchia del mio cliente?"
- Se sì → rimuovo la direttiva o sistemo il contenuto per renderlo indicizzabile
Regola pratica: se una pagina ha contenuto di valore per gli utenti, probabilmente ha valore anche per l'AI search. Perché bloccarla? Non farlo...
Il Caso delle X-Robots-Tag
Attenzione anche agli header HTTP X-Robots-Tag, che fanno lo stesso lavoro dei meta robots ma sono più nascosti.
Controlla sempre con:
textcurl -I https://tuosito.com/pagina
Cerco negli header:
textX-Robots-Tag: noindex, nosnippet
Se c'è, va rimosso dalla configurazione del server.
Structured Data: Il Turbo per l'AI Search (davvero, lavorate su questo)
Gli structured data sono sempre stati importanti per la SEO, ma per l'AI search sono (forse indirettamente, tecnicamente parlando) ancora più cruciali perché aiutano i bot a capire esattamente di cosa parli.
Schema che Contano di Più, ma si può fare un lavoro davvero minuzioso
FAQ Schema - Il più importante:
json{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [{
"@type": "Question",
"name": "Come scelgo un consulente SEO?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Risposta completa e dettagliata..."
}
}]
}
How-to Schema - Per guide pratiche:
json{
"@context": "https://schema.org",
"@type": "HowTo",
"name": "Come ottimizzare un sito per AI search",
"step": [...]
}
Article Schema - Per contenuti editoriali:
json{
"@context": "https://schema.org",
"@type": "Article",
"headline": "...",
"author": {...},
"datePublished": "..."
}
L'Implementazione Pratica
Il mio workflow:
- Identifico le 20 pagine più importanti del sito
- Per ognuna, determino quale schema è più appropriato
- Implemento lo schema via JSON-LD (mai via microdata o RDFa, troppo complessi)
- Valido con Google Rich Results Test, test dei risultati multimediali per controllo
- Monitoro performance dopo 2-4 settimane
Nota: non esagerare con gli schema. Meglio 20 pagine con schema perfetti che 200 pagine con schema mal implementati o generalisti
Monitoring: Come Verificare Che Tutto Funzioni
L'ultimo step cruciale: monitorare costantemente che i bot AI accedano regolarmente al tuo sito.
Server Log Analysis
Setup base che è possibile implementare:
- Configuro accesso ai log del server (chiedo all'hosting)
- Filtro per User-Agent dei bot AI principali
- Monitoro:
- Frequenza crawl: quante volte al giorno/settimana
- Pagine crawlate: quali sezioni visitano di più
- Status code: errori 4xx o 5xx
- Pattern temporali: orari di crawl
Risultati da non ignorare:
- Bot AI che non eseguono il crawling da settimane
- Alti tassi di errore 403/404/500
- Crawl limitato solo alla homepage
- Pattern di crawl molto irregolari
Dashboard di Monitoraggio
Per agevolare il monitoraggio puoi aiutarti con una dashboard in Looker Studio o simile. Ti suggerisco di inserire:
- Grafico crawl nel tempo per bot
- Top pagine crawlate da bot AI
- Errori rilevati per bot
- Comparazione crawl budget Google vs AI bots
Una volta sistemata la base tecnica, il passo successivo è capire esattamente come il tuo pubblico usa l'AI search. Nel secondo articolo ti ho mostrato il metodo manuale completo per mappare i prompt.
Checklist Tecnica Finale: I 10 Punti da Verificare ORA
Ecco la checklist che sto usando con i miei clienti per l'audit tecnico AI search:
✅ 1. Hosting: Verifica che l'hosting non blocchi bot AI di default
✅ 2. Robots.txt: Permetti esplicitamente GPTBot, ClaudeBot, PerplexityBot, etc. (come suggerito sopra)
✅ 3. Firewall/CDN: Whitelist IP ranges dei bot AI principali (se bloccati ovviamente)
✅ 4. Rendering: Contenuti critici serviti in SSR, non CSR-only (trova la combinazione migliore per il tuo progetto)
✅ 5. Meta Robots: Rimuovi i meta no-snippet dalle pagine di valore
✅ 6. X-Robots-Tag: Verifica header HTTP per direttive bloccanti
✅ 7. Structured Data: Implementa FAQ, HowTo, Article schema sulle pagine chiave, continua a studiare i nuovi Schema supportati da Google e nuovi player
✅ 8. Core Web Vitals: Performance solida (i bot AI preferiscono siti veloci)
✅ 9. Mobile Optimization: Rendering corretto su mobile (molti bot testano mobile-first)
✅ 10. Server Logs: Monitoring attivo dei crawl AI
Gli Errori più gravi che potresti commettere (E Come Evitarli)
🔥 Errore #1: "Tanto Sono Solo Bot, Possono Aspettare"
Cosa fanno: Non ottimizzano le performance per i bot, pensando che solo gli utenti contino.
Perché è un disastro: I bot AI hanno crawl budget limitato. Se il tuo sito è lento, crawlano meno pagine e meno frequentemente.
Fix: Ottimizza Core Web Vitals anche (soprattutto) per i bot.
🔥 Errore #2: "Ho Bloccato i Bot AI Perché Non Voglio che Copino i Miei Contenuti"
Cosa fanno: Bloccano intenzionalmente GPTBot e simili per "proteggere" i contenuti.
Perché è un disastro: Zero visibilità nell'AI search significa perdere traffico qualificato a favore dei competitor.
Come Risolvere: Se temi il copyright, valuta alternative (licenze specifiche, watermarking) ma non bloccarli completamente.
🔥 Errore #3: "Il Mio CMS Gestisce Tutto Automaticamente"
Cosa fanno: Fidano ciecamente delle configurazioni di default del CMS.
Perché è un disastro: Molti CMS (WordPress incluso) non hanno configurazioni ottimali per i bot AI.
Come Risolvere: Audit manuale completo, anche se "il CMS dovrebbe gestirlo".
Il Futuro Tecnico dell'AI Search
La verità è questa: l'ottimizzazione tecnica per AI search è ancora agli inizi. Nei prossimi mesi vedremo:
- Nuovi bot AI emergere (già ne vedo di nuovi ogni mese, forse settimana potrei dire)
- Hosting provider più "AI-friendly" come vantaggio competitivo
- Tools di monitoring AI-specifici diventare popolari
- Nuovi structured data pensati specificamente per AI retrieval
Chi sistema la base tecnica OGGI avrà un vantaggio enorme quando l'AI search diventerà mainstream (e sta già succedendo).
Nel prossimo articolo approfondiremo la costruzione di autorità topica (Topical Authority) per l'AI search: content clusters, entity optimization e strategie per essere riconosciuti come fonte esperta nel tuo settore.
Senza autorità topica, anche con la tecnica perfetta, faticherai ad essere citato.
FAQ: Ottimizzazione Tecnica AI Crawlers
Come faccio a sapere se i bot AI possono accedere al mio sito?
Usa tool di bot testing online inserendo il tuo URL e testando GPTBot, ClaudeBot, PerplexityBot e Google-Extended. Se vedi "Connection refused" o errori 403, hai un blocco attivo. Contatta immediatamente il tuo hosting per whitelistare questi bot.
Quali bot AI devo assolutamente permettere nel robots.txt?
I fondamentali sono GPTBot (ChatGPT), Google-Extended (Google AI), ClaudeBot (Claude), PerplexityBot (Perplexity), e CCBot (Common Crawl). Aggiungi anche Grok-bot se il tuo pubblico usa X/Twitter. Permetti sempre anche Googlebot standard.
Il mio sito usa molto JavaScript, devo rifare tutto in SSR?
Non necessariamente tutto. Prioritizza SSR per contenuti critici: descrizioni prodotti, articoli, FAQ, recensioni. Le interazioni UI possono restare in CSR. Un approccio ibrido è spesso la soluzione più pratica ed economica.
Come monitoro se i bot AI stanno crawlando il mio sito?
Analizza i server logs filtrando per User-Agent dei bot AI. Monitora frequenza di crawl, pagine visitate, e status code. Setup alert per pattern anomali. Molti tool SEO ora includono sezioni dedicate al monitoring AI bot crawling.
Devo implementare structured data su tutte le pagine?
No, concentrati sulle 20-30 pagine più importanti con schema appropriati (FAQ, HowTo, Article). Meglio poche implementazioni perfette che tante mal fatte. Qualità conta più di quantità.
Vuoi un audit tecnico completo del tuo sito per l'AI search? Scrivimi o prenota una consulenza. Ti aiuterò a identificare tutti i blocchi tecnici che stanno limitando la tua visibilità AI e a sistemarli con un piano d'azione concreto.
La settimana prossima parliamo di autorità topica, alla prossima! 🎯






