Robots.txt: cos’è, a cosa serve e impatto sulla SEO

da | Ott 27, 2023 | Search Marketing | 0 commenti

Oggi parliamo di un elemento SEO molto importante che può aiutare in modo determinante la scansione e l’indicizzazione del nostro sito: il file robots.txt.

Il robots.txt è un elemento importante quando si ottimizza la scansione di un sito web sui motori di ricerca. Grazie a esso è possibile dare indicazione ai crawler su cosa scansionare e indicizzare.

 

Cos’è il file robots.txt e come si genera

 

Il robots.txt è un file di testo inserito nella directory principale di un sito web. Sì può raggiungere un file robots inserendo nella barra degli indirizzi /robots.txt dopo il dominio radice.

Ad esempio, il sito miosito.com avrà il suo robots all’indirizzo miosito.com/robots.txt.

Come detto il file robots è un file di testo e può essere creato molto semplicemente tramite ad esempio Word o il blocco note salvando il file con estensione .txt rinominandolo robots e inserito nella root del dominio.

 

Le direttive del robots.txt

 

Abbiamo visto cos’è e come generare un file robots.txt e abbiamo detto che è utile nel processo di scansione e indicizzazione di un sito web sui motori di ricerca. In che modo questo file può aiutare in questi due processi?

Nel robots.txt è possibile inserire alcune direttive ai crawler dei motori di ricerca per indicare se ci sono o meno pagine e risorse che vogliamo lasciar scansionare e indicizzare oppure no.

Nel robots possiamo inserire questi tipi di direttive:

  • User Agent
  • Disallow/Allow
  • Sitemap
  • Crawl-delay
  • Noindex/Nofollow

 

User Agent

 

É la direttiva che indica il bot alla quale si riferiscono le istruzioni successive:

User-agent: Googlebot indica che tutte le istruzioni che seguiranno saranno esclusive per il bot di Google.

User-agent:* , l’asterisco in questo caso sta ad indicare che le istruzioni che seguiranno sono per tutti i crawler che visiteranno il sito web.

 

Disallow / Allow

 

La direttiva disallow nel file robots.txt sta ad indicare un percorso, una pagina o un media che non vogliamo fosse scansionato dai motori di ricerca.

Ad esempio,
User-agent:*
Disallow: /pagina-1/

In questo modo indicheremo a qualsiasi crawler di non scansionare la pagina 1.

La direttiva allow invece è in contrapposizione al disallow. Viene utilizzata di solito per permettere la scansione di pagine, risorse o media che altrimenti non sarebbero scansionabili.

Ad esempio,
User-agent:*
Disallow: /pagina-1/
Allow: /pagina-1/sottopagina-1/

Qualora le direttive fossero erroneamente in contrasto i crawler tendono a seguire la direttiva meno restrittiva.

 

Sitemap

 

La direttiva sitemap è utilissima in quanto permette di inserire l’url assoluto alla sitemap.xml, a cui ho dedicato un approfondimento in questo articolo.

Perché è importante indicare la sitemap nel robots.txt? Perché è il primo file che di prassi i crawler richiedono quando iniziano la scansione di un nuovo portale e fornire l’indicazione di tutte le pagine che vogliamo sottoporre a scansione è assolutamente utile.

Continuando con l’esempio precedente:
User-agent:*
Disallow: /pagina-1/
Allow: /pagina-1/sottopagina-1/

Sitemap: https://miosito.com/sitemap.xml

Se esistono più di una sitemap è possibile indicarle nel robots o indicare la sitema-index.

 

Crawl-delay

 

La direttiva crawl-delay ha l’obiettivo di evitare sovraccarichi del server e va indicata in secondi. Questa direttiva si rende utile quando il portale è frequento oggetto di scansione da parte di più crawler che così facendo rischiano di sovraccaricare i server e rendere temporaneamente indisponibile il sito web agli utenti.

La direttiva deve essere rivolta necessariamente a singoli user agent. Esempio:

User-agenct: Googlebot
Crawl-delay: 2

 

Noindex/Nofollow

 

Queste istruzioni indicano ai crawler se indicizzare o meno le pagine o sezioni di un sito e se seguire o meno i link presenti in esso.
User-agent:*
Noindex: /pagina-3/
Nofollow: /pagina-8/

Tuttavia queste istruzioni non vengono recepite dai principali crawler.

 

Ottimizzare il robots.txt

 

Il robots.txt è quindi un utilissimo strumento per l’ottimizzazione della scansione e dell’indicizzazione. Al tempo stesso bisogna tenere presente che il file robots.txt da direttive ma non è vincolante per i crawler che possono ignorare le istruzioni al loro interno. Per escludere pagine e ottimizzare l’indicizzazione di pagine importanti che non vogliamo vengano viste nei risultati di ricerca possiamo sfruttare i meta tag robots.

Per ottimizzare il file robots bisogna seguire la sintassi corretta, tenere in considerazione il peso del file che non può superare i 500kb e fare attenzione al caching del file quando si apportano modifiche ad esso.

 

File robots.txt, best practice

 

Esistono delle best practice per la miglior ottimizzazione del file robots.txt che elenco di seguito:

  • Utilizza una direttiva per ogni riga, in caso contrario le istruzioni non verranno lette;
  • Un solo user-agent alla volta;
  • Utilizza l’asterisco per dare le istruzioni a tutti i crawler;
  • Utilizza il carattere $ per indicare la fine di un URL;
  • Utilizza i commenti tramite # così da organizzare il file in modo corretto;
  • Robots separati per i sottodomini.

Queste sono le best practice che possono aiutare a organizzare e migliorare la scansione del tuo sito e minimizzare le dimensioni del file se le istruzioni iniziano a diventare tante. Tutto questo, se implementato correttamente, influirà positivamente sul posizionamento dei contenuti del tuo sito web sui motori di ricerca. Se hai bisogno di supporto, noi siamo qui per offrirti la nostra consulenza.

5 1 Valuta
Article Rating
Iscriviti
Notificami
guest
0 Commenti
Più vecchi
Più recenti Più votati
Inline Feedbacks
Visualizza tutti i commenti

Potrebbero interessarti anche…

Newsletter

Resta Aggiornato

Se desideri conoscere in anteprima tutte le novità sul mondo del digital marketing, iscriviti alla nostra newsletter. Per te entusiasmenti contenuti!