Come gestire i robots dei motori di ricerca con robots.txt

Si parla sempre molto di motori di ricerca e di indicizzazione, l’argomento è di grande interesse, essere presenti in google equivale ad essere presenti sul mercato web e tutti vorrebbero essere facilmente rintracciabili. Come in tutte le cose non esistono formule magiche per arrivare primi nella serp del motore di ricerca ma è necessario un preciso e continuativo lavoro per migliorare l’appetibilità del sito in questione.

Anche le imprese più grandi partono con piccoli gesti, lo stesso vale per l’ottimizzazione della pagina web, che ha come fine quello di rendere il contenuto appettibile tanto agli utenti quanto ai robot dei motori di ricerca.

Una prima e semplice operazione che può migliorare la visibilità del nostro sito è la creazione di un file robots.txt.

Questo file ha lo scopo di specificare ai robot quali parti del nostro sito indicizzare e quali no, per fare ciò basta creare un file robots.txt e collocarlo nella root del sito.

La sintassi è molto semplice, come prima cosa definiamo quali robot (o spider) vogliamo vincolare.

User-agent: *

In questo modo specifichiamo che le regole che scriveremo di seguito valgono per tutti i robot.

User-agent: Gogglebot

In questo caso invece specifichiamo che le regole imposte siano imposte solo ai robot di google.

Per una visione di tutti robot presenti nel web è possibile visitare il sito robotstxt.com che ci offre una lista dettagliata.

Per permettere o meno l’accesso da parte degli spider dei motori di ricerca si utilizzano allow e disallow.

User-agent: *
Allow: /

In questo caso l’accesso è consentito a tutto il sito per tutti i robots

User-agent: *
Disallow: /

In questo caso l’accesso al sito è vietato per tutti i robots

E’ anche possibile escludere solo una parte del sito ai robots

User-agent: *
Disallow: /images/

In questo caso la cartella images non sarà accessibile da nessuno spider.

Si può anche escludere un singolo file ai robots in questo modo

User-agent: *
Disallow: /directory/myfile.html

Occorre ricordare che il file robots.txt va utilizzato esclusivamente per gestire gli spider e non per rendere invisibile un contenuto, in quanto il file robots.txt è visibile da qualunque utente sul browser e non impedisce all’utente di accedere ad eventuali url.

Inoltre esistono particolari sintassi interpretate da alcuni robots ma non da tutti.

Per maggiori informazioni è possibile consultare la sezione di Google dedicata ai files robots.txt e la pagina su wikipedia dedicata al Robot Exclusion Standard.

Info su Mauro Accornero

Sviluppatore e Web Designer Freelance, lavora a Milano dove collabora con Agenzie di Comunicazione ed Aziende del settore. Docente presso la Nuova Accademia di Belle Arti a Milano dove tiene corsi in ambito web per il dipartimento di Graphic Design e Art Direction.
Questa voce è stata pubblicata in Articoli, Tutorial e contrassegnata con , . Contrassegna il permalink.

Una risposta a Come gestire i robots dei motori di ricerca con robots.txt

  1. Francesco Caruccio scrive:

    Grazie, davvero molto interessante!

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

*

È possibile utilizzare questi tag ed attributi XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>