Come gestire i robots dei motori di ricerca con robots.txt
Si parla sempre molto di motori di ricerca e di indicizzazione, l’argomento è di grande interesse, essere presenti in google equivale ad essere presenti sul mercato web e tutti vorrebbero essere facilmente rintracciabili. Come in tutte le cose non esistono formule magiche per arrivare primi nella serp del motore di ricerca ma è necessario un preciso e continuativo lavoro per migliorare l’appetibilità del sito in questione.
Anche le imprese più grandi partono con piccoli gesti, lo stesso vale per l’ottimizzazione della pagina web, che ha come fine quello di rendere il contenuto appettibile tanto agli utenti quanto ai robot dei motori di ricerca.
Una prima e semplice operazione che può migliorare la visibilità del nostro sito è la creazione di un file robots.txt.
Questo file ha lo scopo di specificare ai robot quali parti del nostro sito indicizzare e quali no, per fare ciò basta creare un file robots.txt e collocarlo nella root del sito.
La sintassi è molto semplice, come prima cosa definiamo quali robot (o spider) vogliamo vincolare.
User-agent: *
In questo modo specifichiamo che le regole che scriveremo di seguito valgono per tutti i robot.
User-agent: Gogglebot
In questo caso invece specifichiamo che le regole imposte siano imposte solo ai robot di google.
Per una visione di tutti robot presenti nel web è possibile visitare il sito robotstxt.com che ci offre una lista dettagliata.
Per permettere o meno l’accesso da parte degli spider dei motori di ricerca si utilizzano allow e disallow.
User-agent: *
Allow: /
In questo caso l’accesso è consentito a tutto il sito per tutti i robots
User-agent: *
Disallow: /
In questo caso l’accesso al sito è vietato per tutti i robots
E’ anche possibile escludere solo una parte del sito ai robots
User-agent: *
Disallow: /images/
In questo caso la cartella images non sarà accessibile da nessuno spider.
Si può anche escludere un singolo file ai robots in questo modo
User-agent: *
Disallow: /directory/myfile.html
Occorre ricordare che il file robots.txt va utilizzato esclusivamente per gestire gli spider e non per rendere invisibile un contenuto, in quanto il file robots.txt è visibile da qualunque utente sul browser e non impedisce all’utente di accedere ad eventuali url.
Inoltre esistono particolari sintassi interpretate da alcuni robots ma non da tutti.
Per maggiori informazioni è possibile consultare la sezione di Google dedicata ai files robots.txt e la pagina su wikipedia dedicata al Robot Exclusion Standard.

Grazie, davvero molto interessante!