Oggi parliamo di un elemento SEO molto importante che può aiutare in modo determinante la scansione e l’indicizzazione del nostro sito: il file robots.txt.
Il robots.txt è un elemento importante quando si ottimizza la scansione di un sito web sui motori di ricerca. Grazie a esso è possibile dare indicazione ai crawler su cosa scansionare e indicizzare.
Cos’è il file robots.txt e come si genera
Il robots.txt è un file di testo inserito nella directory principale di un sito web. Sì può raggiungere un file robots inserendo nella barra degli indirizzi /robots.txt dopo il dominio radice.
Ad esempio, il sito miosito.com avrà il suo robots all’indirizzo miosito.com/robots.txt.
Come detto il file robots è un file di testo e può essere creato molto semplicemente tramite ad esempio Word o il blocco note salvando il file con estensione .txt rinominandolo robots e inserito nella root del dominio.
Le direttive del robots.txt
Abbiamo visto cos’è e come generare un file robots.txt e abbiamo detto che è utile nel processo di scansione e indicizzazione di un sito web sui motori di ricerca. In che modo questo file può aiutare in questi due processi?
Nel robots.txt è possibile inserire alcune direttive ai crawler dei motori di ricerca per indicare se ci sono o meno pagine e risorse che vogliamo lasciar scansionare e indicizzare oppure no.
Nel robots possiamo inserire questi tipi di direttive:
- User Agent
- Disallow/Allow
- Sitemap
- Crawl-delay
- Noindex/Nofollow
User Agent
É la direttiva che indica il bot alla quale si riferiscono le istruzioni successive:
User-agent: Googlebot indica che tutte le istruzioni che seguiranno saranno esclusive per il bot di Google.
User-agent:* , l’asterisco in questo caso sta ad indicare che le istruzioni che seguiranno sono per tutti i crawler che visiteranno il sito web.
Disallow / Allow
La direttiva disallow nel file robots.txt sta ad indicare un percorso, una pagina o un media che non vogliamo fosse scansionato dai motori di ricerca.
Ad esempio,
User-agent:*
Disallow: /pagina-1/
In questo modo indicheremo a qualsiasi crawler di non scansionare la pagina 1.
La direttiva allow invece è in contrapposizione al disallow. Viene utilizzata di solito per permettere la scansione di pagine, risorse o media che altrimenti non sarebbero scansionabili.
Ad esempio,
User-agent:*
Disallow: /pagina-1/
Allow: /pagina-1/sottopagina-1/
Qualora le direttive fossero erroneamente in contrasto i crawler tendono a seguire la direttiva meno restrittiva.
Sitemap
La direttiva sitemap è utilissima in quanto permette di inserire l’url assoluto alla sitemap.xml, a cui ho dedicato un approfondimento in questo articolo.
Perché è importante indicare la sitemap nel robots.txt? Perché è il primo file che di prassi i crawler richiedono quando iniziano la scansione di un nuovo portale e fornire l’indicazione di tutte le pagine che vogliamo sottoporre a scansione è assolutamente utile.
Continuando con l’esempio precedente:
User-agent:*
Disallow: /pagina-1/
Allow: /pagina-1/sottopagina-1/
Sitemap: https://miosito.com/sitemap.xml
Se esistono più di una sitemap è possibile indicarle nel robots o indicare la sitema-index.
Crawl-delay
La direttiva crawl-delay ha l’obiettivo di evitare sovraccarichi del server e va indicata in secondi. Questa direttiva si rende utile quando il portale è frequento oggetto di scansione da parte di più crawler che così facendo rischiano di sovraccaricare i server e rendere temporaneamente indisponibile il sito web agli utenti.
La direttiva deve essere rivolta necessariamente a singoli user agent. Esempio:
User-agenct: Googlebot
Crawl-delay: 2
Noindex/Nofollow
Queste istruzioni indicano ai crawler se indicizzare o meno le pagine o sezioni di un sito e se seguire o meno i link presenti in esso.
User-agent:*
Noindex: /pagina-3/
Nofollow: /pagina-8/
Tuttavia queste istruzioni non vengono recepite dai principali crawler.
Ottimizzare il robots.txt
Il robots.txt è quindi un utilissimo strumento per l’ottimizzazione della scansione e dell’indicizzazione. Al tempo stesso bisogna tenere presente che il file robots.txt da direttive ma non è vincolante per i crawler che possono ignorare le istruzioni al loro interno. Per escludere pagine e ottimizzare l’indicizzazione di pagine importanti che non vogliamo vengano viste nei risultati di ricerca possiamo sfruttare i meta tag robots.
Per ottimizzare il file robots bisogna seguire la sintassi corretta, tenere in considerazione il peso del file che non può superare i 500kb e fare attenzione al caching del file quando si apportano modifiche ad esso.
File robots.txt, best practice
Esistono delle best practice per la miglior ottimizzazione del file robots.txt che elenco di seguito:
- Utilizza una direttiva per ogni riga, in caso contrario le istruzioni non verranno lette;
- Un solo user-agent alla volta;
- Utilizza l’asterisco per dare le istruzioni a tutti i crawler;
- Utilizza il carattere $ per indicare la fine di un URL;
- Utilizza i commenti tramite # così da organizzare il file in modo corretto;
- Robots separati per i sottodomini.
Queste sono le best practice che possono aiutare a organizzare e migliorare la scansione del tuo sito e minimizzare le dimensioni del file se le istruzioni iniziano a diventare tante. Tutto questo, se implementato correttamente, influirà positivamente sul posizionamento dei contenuti del tuo sito web sui motori di ricerca. Se hai bisogno di supporto, noi siamo qui per offrirti la nostra consulenza.