Robots.txt: cos’è, a cosa serve e impatto sulla SEO

da Luigi Vastarella | Ott 27, 2023 | Search Marketing | 0 commenti

Oggi parliamo di un elemento SEO molto importante che può aiutare in modo determinante la scansione e l’indicizzazione del nostro sito: il file robots.txt.

Il robots.txt è un elemento importante quando si ottimizza la scansione di un sito web sui motori di ricerca. Grazie a esso è possibile dare indicazione ai crawler su cosa scansionare e indicizzare.

Cos’è il file robots.txt e come si genera

Il robots.txt è un file di testo inserito nella directory principale di un sito web. Sì può raggiungere un file robots inserendo nella barra degli indirizzi /robots.txt dopo il dominio radice.

Ad esempio, il sito miosito.com avrà il suo robots all’indirizzo miosito.com/robots.txt.

Come detto il file robots è un file di testo e può essere creato molto semplicemente tramite ad esempio Word o il blocco note salvando il file con estensione .txt rinominandolo robots e inserito nella root del dominio.

Le direttive del robots.txt

Abbiamo visto cos’è e come generare un file robots.txt e abbiamo detto che è utile nel processo di scansione e indicizzazione di un sito web sui motori di ricerca. In che modo questo file può aiutare in questi due processi?

Nel robots.txt è possibile inserire alcune direttive ai crawler dei motori di ricerca per indicare se ci sono o meno pagine e risorse che vogliamo lasciar scansionare e indicizzare oppure no.

Nel robots possiamo inserire questi tipi di direttive:

User Agent
Disallow/Allow
Sitemap
Crawl-delay
Noindex/Nofollow

User Agent

É la direttiva che indica il bot alla quale si riferiscono le istruzioni successive:

User-agent: Googlebot indica che tutte le istruzioni che seguiranno saranno esclusive per il bot di Google.

User-agent:* , l’asterisco in questo caso sta ad indicare che le istruzioni che seguiranno sono per tutti i crawler che visiteranno il sito web.

Disallow / Allow

La direttiva disallow nel file robots.txt sta ad indicare un percorso, una pagina o un media che non vogliamo fosse scansionato dai motori di ricerca.

Ad esempio,
User-agent:*
Disallow: /pagina-1/

In questo modo indicheremo a qualsiasi crawler di non scansionare la pagina 1.

La direttiva allow invece è in contrapposizione al disallow. Viene utilizzata di solito per permettere la scansione di pagine, risorse o media che altrimenti non sarebbero scansionabili.

Ad esempio,
User-agent:*
Disallow: /pagina-1/
Allow: /pagina-1/sottopagina-1/

Qualora le direttive fossero erroneamente in contrasto i crawler tendono a seguire la direttiva meno restrittiva.

Sitemap

La direttiva sitemap è utilissima in quanto permette di inserire l’url assoluto alla sitemap.xml, a cui ho dedicato un approfondimento in questo articolo.

Perché è importante indicare la sitemap nel robots.txt? Perché è il primo file che di prassi i crawler richiedono quando iniziano la scansione di un nuovo portale e fornire l’indicazione di tutte le pagine che vogliamo sottoporre a scansione è assolutamente utile.

Continuando con l’esempio precedente:
User-agent:*
Disallow: /pagina-1/
Allow: /pagina-1/sottopagina-1/

Sitemap: https://miosito.com/sitemap.xml

Se esistono più di una sitemap è possibile indicarle nel robots o indicare la sitema-index.

Crawl-delay

La direttiva crawl-delay ha l’obiettivo di evitare sovraccarichi del server e va indicata in secondi. Questa direttiva si rende utile quando il portale è frequento oggetto di scansione da parte di più crawler che così facendo rischiano di sovraccaricare i server e rendere temporaneamente indisponibile il sito web agli utenti.

La direttiva deve essere rivolta necessariamente a singoli user agent. Esempio:

User-agenct: Googlebot
Crawl-delay: 2

Noindex/Nofollow

Queste istruzioni indicano ai crawler se indicizzare o meno le pagine o sezioni di un sito e se seguire o meno i link presenti in esso.
User-agent:*
Noindex: /pagina-3/
Nofollow: /pagina-8/

Tuttavia queste istruzioni non vengono recepite dai principali crawler.

Ottimizzare il robots.txt

Il robots.txt è quindi un utilissimo strumento per l’ottimizzazione della scansione e dell’indicizzazione. Al tempo stesso bisogna tenere presente che il file robots.txt da direttive ma non è vincolante per i crawler che possono ignorare le istruzioni al loro interno. Per escludere pagine e ottimizzare l’indicizzazione di pagine importanti che non vogliamo vengano viste nei risultati di ricerca possiamo sfruttare i meta tag robots.

Per ottimizzare il file robots bisogna seguire la sintassi corretta, tenere in considerazione il peso del file che non può superare i 500kb e fare attenzione al caching del file quando si apportano modifiche ad esso.

File robots.txt, best practice

Esistono delle best practice per la miglior ottimizzazione del file robots.txt che elenco di seguito:

Utilizza una direttiva per ogni riga, in caso contrario le istruzioni non verranno lette;
Un solo user-agent alla volta;
Utilizza l’asterisco per dare le istruzioni a tutti i crawler;
Utilizza il carattere $ per indicare la fine di un URL;
Utilizza i commenti tramite # così da organizzare il file in modo corretto;
Robots separati per i sottodomini.

Queste sono le best practice che possono aiutare a organizzare e migliorare la scansione del tuo sito e minimizzare le dimensioni del file se le istruzioni iniziano a diventare tante. Tutto questo, se implementato correttamente, influirà positivamente sul posizionamento dei contenuti del tuo sito web sui motori di ricerca. Se hai bisogno di supporto, noi siamo qui per offrirti la nostra consulenza.

Potrebbero interessarti anche…

Come ottimizzare il proprio Sito Web in un Mondo Mobile-First

da Alessia Capo | Dic 4, 2024 | Search Marketing

Viviamo in un’epoca in cui “pensare in ottica mobile” non è più una scelta ma un imperativo. Il 2024 ha confermato un trend ormai consolidato: con oltre il 60% del traffico web generato da tali dispositivi, la centralità di smartphone e tablet non può essere ignorata....

L’effetto dei Social Media sul ranking dei motori di ricerca

da Alessia Capo | Nov 7, 2024 | Search Marketing

Listen to "L’effetto dei Social Media sul ranking dei motori di ricerca | DNA Agency" on Spreaker. Ti sei mai chiesto perché alcune pagine social appaiano tra i primi risultati di ricerca su Google? Oppure perché le SERP privilegino contenuti provenienti da questi...

Dati strutturati e SEO: come migliorare il posizionamento organico

da Luigi Vastarella | Mag 24, 2024 | Search Marketing

In questo articolo ti parlerò di cosa sono i dati strutturati, un elemento tecnico della seo che aiuta la comprensione dei nostri contenuti da parte dei motori di ricerca e ne favorisce il posizionamento organico. E non solo: oltre la parte teorica, ti spiegherò come...

Newsletter

Robots.txt: cos’è, a cosa serve e impatto sulla SEO

Cos’è il file robots.txt e come si genera

Le direttive del robots.txt

User Agent

Disallow / Allow

Sitemap

Crawl-delay

Noindex/Nofollow

Ottimizzare il robots.txt

File robots.txt, best practice

Potrebbero interessarti anche…

Come ottimizzare il proprio Sito Web in un Mondo Mobile-First

L’effetto dei Social Media sul ranking dei motori di ricerca

Dati strutturati e SEO: come migliorare il posizionamento organico

Resta Aggiornato