Che cos’è il file robots.txt e perché è importante
Indice dei Contenuti
La gestione di un sito web richiede attenzione a come i motori di ricerca interagiscono con i suoi contenuti.
Uno degli strumenti principali per controllare questa interazione è il file robots.txt.
Ma che cos’è il file robots.txt esattamente e perché è così importante per la SEO? In questa articolo ti fornirò una definizione chiara del robots.txt e ti spiegherò il suo ruolo fondamentale nel permettere ai proprietari di siti di influenzare la scansione e l’indicizzazione delle proprie pagine da parte dei crawler come Googlebot o Bingbot. Comprendere il funzionamento e l’utilità di questo file di controllo per i motori di ricerca è il primo passo per utilizzarlo correttamente e trarne vantaggio nell’ottimizzazione SEO tecnica del tuo sito web.
Molti proprietari di siti ne hanno sentito parlare, magari notando l’URL tuosito.it/robots.txt nei log del server o nella documentazione di strumenti come Google, ma non tutti ne conoscono a fondo il funzionamento. Capire cos’è e come usarlo correttamente può fare la differenza tra un sito ben indicizzato e potenziali problemi di visibilità sui motori di ricerca.
Definizione e ruolo del robots.txt
Il robots.txt è innanzitutto un file di testo semplice (plain text) che viene posizionato nella directory radice (root) del tuo sito web. Il suo scopo è di agire come filtro per i crawler: al suo interno puoi specificare quali parti del sito i vari user-agent (ovvero i programmi crawler dei motori di ricerca come Googlebot per Google o Bingbot per Bing) sono autorizzati a scansionare e quali invece devono evitare.
In altre parole, attraverso istruzioni chiamate direttive robots.txt come Disallow e Allow, questo file comunica ai motori di ricerca cosa possono visitare e cosa dovrebbero ignorare. Pur non essendo un elemento visibile agli utenti, il robots.txt svolge un ruolo fondamentale dietro le quinte della SEO tecnica, controllando il flusso di crawling (scansione) sul sito.
Perché il file robots.txt è importante per la SEO
L’importanza del file robots.txt risiede nel controllo che offre sul modo in cui il tuo sito viene esplorato dai motori di ricerca. Configurando correttamente questo file, puoi guidare i crawler verso le sezioni del sito rilevanti e tenere fuori dalla scansione aree riservate o con contenuti duplicati e non importanti.
Ciò aiuta a ottimizzare il crawl budget, cioè il limite di pagine che un motore come Google scansiona in un dato periodo, concentrandolo sulle pagine che contano davvero. D’altro canto, un robots.txt errato può causare seri problemi: ad esempio, un singolo carattere sbagliato potrebbe involontariamente bloccare l’intero sito, impedendo l’indicizzazione delle tue pagine su Google e Bing.
Per questo motivo il robots.txt è considerato un elemento cruciale della SEO tecnica: una corretta configurazione può migliorare la visibilità del sito nei risultati di ricerca, mentre un errore può compromettere i tuoi sforzi SEO.
Come funziona il file robots.txt: direttive e sintassi
I motori di ricerca seguono uno standard chiamato Robots Exclusion Protocol quando interagiscono con i file robots.txt. In pratica, quando un crawler (come Googlebot) arriva su un sito web, verifica se esiste il file robots.txt nella radice del sito (ad esempio all’indirizzo www.tuosito.it/robots.txt) prima di iniziare la scansione delle pagine.
Se il file è presente, il crawler lo legge e ne interpreta le direttive. Il funzionamento si basa su semplici linee di testo: ogni sezione del file inizia specificando un User-agent (cioè il nome del bot a cui si applicano le regole), seguito da una serie di direttive (ad esempio Disallow per indicare cosa non scansionare, oppure Allow per eccezioni, e così via).
La sintassi del robots.txt è lineare e facile da comprendere, ma va seguita con precisione assoluta per evitare fraintendimenti da parte dei motori di ricerca. Nelle sottosezioni seguenti esamineremo le principali direttive e regole sintattiche per scrivere un file robots.txt efficace e privo di errori.
Direttiva User-agent e target dei crawler
La direttiva User-agent serve a indicare a quale crawler (o insieme di crawler) si applicano le regole che seguiranno.
Ad esempio, puoi scrivere User-agent: * per indicare che le direttive successive valgono per tutti i bot dei motori di ricerca, oppure specificare un singolo bot come User-agent: Googlebot per definire regole valide solo per lo spider di Google.
Ogni file robots.txt può contenere più blocchi di regole, ciascuno iniziando con un diverso user-agent. I crawler leggeranno il file e applicheranno solo le regole del blocco che corrisponde al proprio nome: ad esempio, Googlebot ignorerà le sezioni riservate ad altri bot e considererà solo quelle sotto “User-agent: Googlebot” (o in mancanza, quelle sotto “User-agent: *”).
È importante usare correttamente questa direttiva per mirare i comportamenti dei vari motori: se vuoi che tutti i crawler seguano le stesse regole, utilizza l’asterisco come wildcard; se hai esigenze particolari per un motore specifico, crea un blocco dedicato.
Direttive Disallow e Allow
La direttiva Disallow è il cuore del file robots.txt: serve a specificare quale percorso (URL path) non deve essere scansionato dal crawler indicato.
Ad esempio, Disallow: /private/ comunica al bot di non entrare in nessun URL che inizi con “/private/” (quindi l’intera directory “private” e tutto il suo contenuto viene escluso dal crawling). Si può disabilitare l’accesso a singole pagine, ad esempio Disallow: /pagina-segreta.html per bloccare quella specifica pagina.
Al contrario, la direttiva Allow viene usata per consentire eccezioni all’interno di percorsi disallow: ad esempio, potresti disalloware un’intera cartella ma inserire un allow per un file dentro di essa che vuoi comunque far scansionare.
Ad esempio, potresti voler bloccare l’intera directory /area-privata/ ma consentire comunque la scansione di una pagina al suo interno come /area-privata/info-pubblica.html: in tal caso dovresti scrivere prima Disallow: /area-privata/ e poi Allow: /area-privata/info-pubblica.html.
In generale, se un URL corrisponde sia a una regola Disallow sia a una Allow, prevale la regola con il percorso più lungo (più specifica). Ad esempio, se hai Disallow: /esempio ma Allow: /esempio/pagina.html, quest’ultima direttiva più dettagliata permetterà la scansione di quella pagina.
Un dettaglio importante: i percorsi sono case-sensitive, ciò significa che Disallow: /pagina non bloccherà un URL come “/Pagina” con la P maiuscola. Bisogna quindi prestare attenzione a maiuscole/minuscole quando si scrivono le regole.
Altre direttive utili: Sitemap, Crawl-delay e commenti
La direttiva Sitemap permette di indicare la posizione della mappa del sito (sitemap XML) direttamente nel robots.txt. Il suo formato è semplice: ad esempio Sitemap: https://www.tuosito.it/sitemap.xml. Questa riga, tipicamente posta alla fine del file, fornisce ai motori di ricerca un riferimento diretto alla sitemap del sito, aiutandoli a trovare più facilmente tutti gli URL da scansionare e indicizzare.
Un’altra direttiva disponibile è Crawl-delay, che consente di specificare un ritardo (in secondi) tra le richieste successive del crawler. Ad esempio Crawl-delay: 5 suggerisce al bot di attendere 5 secondi tra un accesso e l’altro alle pagine. Bisogna tenere presente che questa direttiva non è supportata da Googlebot (Google gestisce in autonomia la frequenza di scansione), ma può essere considerata da altri motori come Bing o Yandex.
È importante notare che non tutte le possibili direttive sono effettivamente valide: ad esempio, una voce “Noindex” inserita nel file robots.txt non è riconosciuta da Google e non impedirà l’indicizzazione delle pagine. Per escludere una pagina dai risultati è necessario utilizzare altri metodi (come un meta tag robots noindex nell’HTML della pagina o la rimozione tramite strumenti come Google Search Console). Inoltre, è possibile aggiungere commenti nel file robots.txt iniziando la riga con il simbolo #.
Le righe che iniziano con # vengono ignorate dai crawler e servono solo come promemoria o documentazione per gli umani che gestiscono il sito.
Come creare e configurare correttamente un file robots.txt
La creazione di un file robots.txt è relativamente semplice, ma occorre seguire alcune regole per assicurarsi che funzioni correttamente.
In primo luogo, va creato un file di testo puro chiamato esattamente “robots.txt” (tutto minuscolo), senza formattazioni o estensioni aggiuntive. Puoi utilizzare un editor di testo (come Notepad su Windows, TextEdit su Mac in modalità testo, o un qualsiasi editor di codice) per scriverlo. Una volta definito il contenuto, il file deve essere posizionato nella root del sito, ovvero la directory principale accessibile pubblicamente.
Ad esempio, per il dominio www.tuosito.it dovrà essere raggiungibile all’URL https://www.tuosito.it/robots.txt. Se il tuo sito è gestito tramite un CMS come WordPress o Joomla, potresti trovare opzioni nell’area di amministrazione o plugin SEO che aiutano a generare e modificare il robots.txt direttamente dal pannello, senza dover accedere via FTP ai file.
L’importante è che il file sia raggiungibile via HTTP e correttamente formattato: anche un piccolo errore di sintassi può vanificare le direttive impartite. Nelle sezioni seguenti vedremo alcuni esempi e strumenti utili per configurare al meglio il tuo robots.txt.
Esempi pratici di file robots.txt
La struttura di un file robots.txt può variare a seconda delle esigenze del sito. Di seguito presentiamo alcuni esempi di configurazione comuni, con relativa spiegazione:
Esempio: Sito completamente aperto ai motori di ricerca – In questo caso il file indica che non ci sono restrizioni: tutti i crawler possono scansionare qualsiasi risorsa del sito.
User-agent: * |
Disallow: |
Qui User-agent: * indica tutti i motori di ricerca, e la direttiva Disallow: lasciata vuota segnala che nessun percorso è vietato. In pratica, il sito è completamente accessibile ai crawler.
Esempio: Bloccare l’intero sito (uso in sviluppo o privato) – Se vuoi impedire la scansione di qualsiasi pagina, puoi usare un Disallow sulla radice del sito:
User-agent: * |
Disallow: / |
In questo modo tutti gli URL del sito vengono esclusi dalla scansione (/ rappresenta la radice, quindi blocca tutto ciò che segue). Questa configurazione è utile in fase di sviluppo ou per siti che non devono apparire nei risultati di ricerca.
Esempio: Bloccare una cartella specifica – È possibile lasciare accessibile il resto del sito, ma tenere i crawler fuori da una particolare directory. Ad esempio, per bloccare la scansione della cartella /privato/ e di tutti i file in essa contenuti:
User-agent: * |
Disallow: /privato/ |
Così facendo, qualsiasi URL che inizia con /privato/ non verrà scansionato dai motori di ricerca, mentre il resto del sito rimane liberamente accessibile.
Esempio: Regole specifiche per diversi crawler – Puoi definire regole differenti per specifici user-agent. Nell’esempio seguente, si impedisce a Googlebot di scansionare una sezione, consentendo però a tutti gli altri crawler di accedere a tutto:
User-agent: Googlebot |
Disallow: /solo-google/ |
User-agent: * |
Disallow: |
In questo scenario, Googlebot non potrà accedere a nessun URL sotto /solo-google/, mentre per tutti gli altri crawler (definiti dal blocco User-agent: *) non ci sono restrizioni e potranno scansionare liberamente l’intero sito.
Strumenti per verificare e testare il file robots.txt
Dopo aver creato o modificato il robots.txt, è fondamentale verificarne il funzionamento per assicurarsi che le direttive agiscano come previsto.
Un primo controllo può essere fatto accedendo direttamente al file tramite browser (digitando l’indirizzo, ad esempio www.tuosito.it/robots.txt) e controllando che il contenuto corrisponda a quanto desiderato.
Inoltre esistono strumenti specifici per testare e validare il robots.txt. Google Search Console, ad esempio, offre un Tester del file robots.txt che consente di verificare la sintassi del file e vedere quali URL del tuo sito risultano bloccati dalle direttive. Sempre in Search Console puoi individuare eventuali errori segnalati nel robots.txt e provare modifiche in tempo reale prima di applicarle sul sito.
In alternativa, puoi servirti di crawler SEO e tool online (come Screaming Frog o altri strumenti) che simulano la scansione del sito e segnalano se il robots.txt sta bloccando risorse inaspettate.
Questi strumenti aiutano a confermare che le direttive robots.txt stiano producendo l’effetto desiderato sulla scansione del sito.
In generale, ogni volta che apporti modifiche al robots.txt, è buona prassi controllarlo sia manualmente sia con strumenti di testing dedicati, per evitare sorprese nell’indicizzazione del tuo sito.
Consigli d’uso ed errori comuni da evitare con il file robots.txt
L’uso del robots.txt richiede attenzione e l’adozione di alcune best practice. Allo stesso tempo, esistono errori piuttosto comuni che molti webmaster commettono, spesso a causa di una comprensione incompleta del funzionamento di questo file. In questa sezione riepiloghiamo i principi da tenere a mente per utilizzare il robots.txt in modo efficace, e evidenziamo gli sbagli da evitare che potrebbero compromettere la SEO del tuo sito.
È importante sapere quando è opportuno usare il robots.txt (e quando invece conviene ricorrere ad altri metodi come i meta tag robots) nell’ambito di una strategia di SEO tecnica. Anche piccoli errori di sintassi o configurazione possono avere un impatto significativo: un carattere fuori posto potrebbe bloccare intere sezioni del sito, oppure una svista potrebbe lasciare indicizzabili pagine che invece volevi nascondere. Seguire le linee guida e conoscere le insidie più frequenti ti aiuterà a evitare problemi e a sfruttare appieno il potenziale di questo strumento.
Errori comuni da evitare
Tra gli errori comuni nell’uso del robots.txt troviamo prima di tutto quello di dimenticare di inserire la riga User-agent all’inizio del file: se non si specifica a quale bot si applicano, le regole vengono ignorate completamente.
Un altro errore frequente è bloccare risorse fondamentali come file CSS o JavaScript: così facendo si rischia di impedire ai motori di ricerca di renderizzare correttamente le pagine, con effetti negativi sull’esperienza utente e sulla SEO.
Molti inoltre tentano di usare il robots.txt per nascondere contenuti duplicati o di bassa qualità, ma questo non evita che i crawler scoprano comunque quegli URL attraverso link esterni; per questi casi è preferibile usare altri metodi (ad esempio meta tag robots noindex o tag rel=”canonical”). Usare il robots.txt come strumento di sicurezza è un errore da evitare: non bisogna fare affidamento su di esso per proteggere informazioni sensibili o aree private, perché il file è pubblico e i bot malevoli possono ignorarlo (meglio proteggere tali risorse con autenticazione o password).
Infine, è comune dimenticarsi di aggiornare il robots.txt dopo modifiche sostanziali al sito (cambi di struttura degli URL, nuovi sottodomini, ecc.): un file non allineato potrebbe contenere direttive obsolete, causando blocchi indesiderati o inefficaci.
Robots.txt vs Meta Robots: differenze e utilizzo
La differenza principale tra il file robots.txt e un meta tag robots (inserito nel codice HTML della pagina) sta nel loro scopo: il robots.txt controlla l’accesso dei crawler (cosa possono o non possono scansionare), mentre il meta tag robots controlla il comportamento di indicizzazione di quella specifica pagina.
Ad esempio, se vuoi che una pagina non compaia nei risultati di Google, dovrai permettere al crawler di accederla ma inserire nel suo HTML un meta tag come <meta name=”robots” content=”noindex, nofollow”> per evitare l’indicizzazione e il follow dei link. Il robots.txt da solo non basterebbe in questo caso, perché impedire la scansione non equivale a impedire l’indicizzazione: il motore potrebbe comunque conoscere l’URL della pagina da altri siti o sitemap.
In sintesi, quando usare il robots.txt e quando il meta robots? Usa il robots.txt per bloccare la scansione di parti del sito non rilevanti o private (riducendo il carico sul server e l’esposizione di contenuti non destinati alla ricerca). D’altra parte, utilizza un meta robots (o l’intestazione HTTP equivalente, X-Robots-Tag) quando vuoi escludere dall’indice una pagina specifica o controllare se i link al suo interno debbano essere seguiti dai crawler.
In molti casi le due soluzioni possono lavorare insieme: ad esempio, potresti non bloccare via robots.txt una pagina, in modo che Googlebot la visiti e veda un meta noindex al suo interno che ne impedirà l’indicizzazione. L’importante è non confondere i due livelli: il robots.txt è un filtro di crawling, mentre i meta robots (nell’HTML) influenzano l’indicizzazione e la presentazione della pagina nei motori di ricerca.
Consigli finali per una gestione efficace
Per gestire efficacemente il file robots.txt, mantienilo il più semplice e chiaro possibile. Inserisci solo le direttive realmente necessarie ed evita di complicarlo con regole superflue.
Ricorda di aggiornare il file ogni volta che il sito subisce modifiche strutturali importanti, e verifica periodicamente che stia funzionando come previsto (puoi sfruttare strumenti come Google Search Console per validarlo e simulare la scansione). Inoltre, documenta le scelte inserendo commenti nel file: ad esempio, spiega con un commento perché stai bloccando una certa directory, così da avere un promemoria per te e per eventuali collaboratori.
In conclusione, il robots.txt è uno degli strumenti della SEO tecnica a tua disposizione: se combinato con sitemap XML ben fatte e un corretto uso dei meta tag, contribuisce a rendere un sito più fruibile dai motori di ricerca. Usalo con consapevolezza come una sorta di corsia preferenziale per i crawler, indirizzandoli verso ciò che è importante e lontano da ciò che è secondario o riservato.