Come indicizzare una pagina in Google in meno di 10 minuti
Sembra la promessa del SEO dell’ultima ora ma in realtà è una procedura utilizzata quotidianamente da molti blog che utilizzano Wordpress , ti sarà infatti capitato più volte di scrivere un articolo su un sito con questo cms e vedere il tuo contenuto nella serp pochi minuti dopo.
Questa procedura si basa sul fatto che Google Blog Search sfrutta i feed RSS/ATOM del sito per capire ogni quaanto questo viene aggiornato e venire a conoscenza dei contenuti più recenti.
In wordpress per esempio è facile rintracciare i feed RSS/ATOM inseriti automaticamente nell’head della pagina e visibili ad questo url.
http://www.nomedeltuosito.com/feed/atom/
Come si nota dal codice il contenuto riportato non sono altro che i nostri articoli con tutte i parametri quali categoria, autore,data di pubblicazione ed ultima modifica.
[...] <updated>2009-04-28T15:40:06Z</updated> <published>2009-04-30T05:00:39Z</published> [...]
Questi parametri permettono a Google Blog Search di capire quando viene pubblicato un contenuto ed è quindi necessario aggiungerlo all’indice.
Alcuni consigli utili per l’utilizzo di questo sistema sono:
1)Assicurati che il robots.txt non blocchi i feed ai tuoi articoli (per maggiori informazioni sui robot.txt leggi questo articolo)
2)Assicurati che ogni nuovo contenuto del tuo sito abbia un feed RSS/ATOM
3)Utilizza il servizio di Pinging di Google Blog Search
Dopo pochi minuti vedremo il contenuto aggiunto indicizzato su Google Blog Search e subito dopo nella Serp di Google.
Ho notato che questa tecnica funziona anche su siti privi di sitemap o la cui indicizzazione non è mai stata curata in particolar modo, occorre però ricordare che con questo sistema si ottiene una rapida indicizzazione che in seguito andrà comunque curata con backlinks, sitemap, ottimizazioni on page e altre pratiche che permettono ai SEO di posizionare in maniera degna il contenuto nella serp di Google.
Sarà infatti possibile rintracciare il contenuto sui motori di ricerca inserendo il titolo dell’articolo ma essendo stato appena indicizzato difficilmente si avrà una posizione ottimale nella serp per determinate keyword che richiede molto più tempo.
Come gestire i robots dei motori di ricerca con robots.txt
Si parla sempre molto di motori di ricerca e di indicizzazione, l’argomento è di grande interesse, essere presenti in google equivale ad essere presenti sul mercato web e tutti vorrebbero essere facilmente rintracciabili. Come in tutte le cose non esistono formule magiche per arrivare primi nella serp del motore di ricerca ma è necessario un preciso e continuativo lavoro per migliorare l’appetibilità del sito in questione.
Anche le imprese più grandi partono con piccoli gesti, lo stesso vale per l’ottimizzazione della pagina web, che ha come fine quello di rendere il contenuto appettibile tanto agli utenti quanto ai robot dei motori di ricerca.
Una prima e semplice operazione che può migliorare la visibilità del nostro sito è la creazione di un file robots.txt.
Questo file ha lo scopo di specificare ai robot quali parti del nostro sito indicizzare e quali no, per fare ciò basta creare un file robots.txt e collocarlo nella root del sito.
La sintassi è molto semplice, come prima cosa definiamo quali robot (o spider) vogliamo vincolare.
User-agent: *
In questo modo specifichiamo che le regole che scriveremo di seguito valgono per tutti i robot.
User-agent: Gogglebot
In questo caso invece specifichiamo che le regole imposte siano imposte solo ai robot di google.
Per una visione di tutti robot presenti nel web è possibile visitare il sito robotstxt.com che ci offre una lista dettagliata.
Per permettere o meno l’accesso da parte degli spider dei motori di ricerca si utilizzano allow e disallow.
User-agent: *
Allow: /
In questo caso l’accesso è consentito a tutto il sito per tutti i robots
User-agent: *
Disallow: /
In questo caso l’accesso al sito è vietato per tutti i robots
E’ anche possibile escludere solo una parte del sito ai robots
User-agent: *
Disallow: /images/
In questo caso la cartella images non sarà accessibile da nessuno spider.
Si può anche escludere un singolo file ai robots in questo modo
User-agent: *
Disallow: /directory/myfile.html
Occorre ricordare che il file robots.txt va utilizzato esclusivamente per gestire gli spider e non per rendere invisibile un contenuto, in quanto il file robots.txt è visibile da qualunque utente sul browser e non impedisce all’utente di accedere ad eventuali url.
Inoltre esistono particolari sintassi interpretate da alcuni robots ma non da tutti.
Per maggiori informazioni è possibile consultare la sezione di Google dedicata ai files robots.txt e la pagina su wikipedia dedicata al Robot Exclusion Standard.
Nasce Google for Advertiser
Mi giunge notizia della recente nascita di Google for Advertiser, ennesimo servizio di Google per le aziende. Il servizio permette di organizzare un piano marketing declinabile con publicità su più media (web, cellulare e tv) per la propria attività.
L’idea sembra buona e sicuramente rappresenta una risposta al marketing tramite social network che ha preso piede negli ultimi anni con un servizio dalle ampie possibilità. Per il momento attivo solo su google.com attendo di vedere i primi feedback da parte degli utenti.
Google lancia Google Analytics API
Ieri Google ha lanciato Google Analytics API, dando a tutti gli utenti la possibilità di creare applicazioni per la gestione delle statistiche dei propri siti.
Per il momento vengono proposte alcuni tool molto interessanti come questa applicazione sviluppata per Android per visonare le statistiche dal proprio cellulare e questo widget sviluppato con adobe air per la visione di Google Analitics dal desktop. Quest’ultima è disponibile in versione trial o a pagamento per la gestione di più siti.
Link all’articolo su Blog ufficiale di Google
10 consigli per fare siti web standard e piacere a Google
1) USARE I CSS ESTERNI
Sembra scontato ma ogni buon seo vi consiglierà sempre di utilizzare i css per la vostra pagina.
Mantenere gli stili della pagina separati dai contenuti facilita notevolmente l’indicizzazione del sito, in quanto i robot riescono a leggere molto più velocemente la pagina.
Utilizzare fogli di stile esterni permette di “sporcare” meno il codice e di avere pagine html più leggere.
2) NO ALLE TABELLE PER CREARE IL LAYOUT
Se ancora qualcuno usa le tabelle per realizzare il layout non si aspetti brevi tempi per l’indicizzazione. Le tabelle vanno utilizzate solo ed esclusivamente per i dati tabulari.
Il motivo è sempre il peso e la pulizia del codice, per definire una cella con le tabelle sono indispensabili almeno 3 elementi <table>,<tr>,<td> mentre con i div possiamo utilizzare un solo elemento per definire uno spazio con <div>.
Inoltre in un layout realizzato con le tabelle diventano fondamentali gli attributi colspan e rowspan senza considerare altri attributi è evidente la differenza in termini di quantità di codice.
3) UTILIZZARE I META TAG
Qualcuno sostiene che i meta tag non servano più e che i motori di ricerca li considerino poco, altri pensano il contrario.
In favore dei metatag ci sono almeno due argomenti, il primo si basa sulla keyword density, ovvero il numero di volte che una parola o un insieme di parole sono ripetute nella pagina e “suggeriscono” allo spider quali keyword hanno più valore.
Il secondo è che la description della pagina è utile all’utente quando riportata da google nella serp per capire di cosa parla il sito.
4) UTILIZZARE LA SEMANTICA
Utilizzare la semantica degli elementi html aiuta molto l’indicizzazione.
Le testate impostate corretTamente per i titoli, il tag strong per dare rilevanza ad una frase o ad una parola, le liste utilizzate per i menu aiutano gli spider ad identificare più in fretta la tipologia di contenuto e a valutarne la pertinenza.
5) BASTA CON I FRAME
I frame sono la cosa migliore per compromettere l’indicizzazione di un sito, in quanto contengono una pagina all’interno di un’altra, rallentano i tempi di caricamento a causa degli elementi ripetuti e non permettono un corretto accesso da parte degli spider.
6) NON NASCONDERE IL CONTENUTO
Una pratica molto in uso negli anni ‘90 era quella di inserire parole chiave e testi nascosti nelle pagine html per aumentare la keyword density, oggi gli algoritmi di google sono molto evoluti rispetto ad allora e sono in grado di individuare trucchi simili e penalizzano le pagine che utilizzano tecniche css per nascondere testi.
L’utilizzo di un colore del testo per renderlo invisibile all’utente è facilmente rintracciabile, come l’utilizzo indiscriminato di display:none o visibility:hidden è dunque meglio evitare questi trucchi e lavorare sui testi per migliorare la keyword density.
7) TESTI ALTERNATIVI E TITOLI PER I LINK
Gli spider sono script che leggono e interpretano il contenuto di una pagina web, nonostante siano molto evoluti non possono vedere le immagini e classificarle, diventa quindi indispensabile fornire qualche informazione aggiuntiva per informare lo spider del contenuto dell’elemento.
Tale discorso vale anche per i link che vengono verificati dai robot i quali vedono la pagina linkata solo dopo essere passati dal link, per fornire quindi maggiori informazioni in merito alla pagina linkata è utile utilizzare l’attributo title.
8) NON GENERARE CONTENUTO CON JAVASCRIPT
Javascript è una tecnologia molto utile ma non viene considerata dagli spider i quali a differenza del browser non la possono eseguire, è sempre importante ricordarsi di offrire un’alternativa eqivalente anche senza l’ausilio di javascript, oltre ad essere utile ai robot sarà apprezzata anche da tutti gli utenti con browser testuali o con javascript disattivato.
9) NON USARE FLASH
Flash è difficilmente digeribile per i robot che hanno difficoltà a valutarne il contenuto, è possibile utilizzare metodologie che rendono più visibili parti del sito ma in generale un sito in flash è svantaggiato rispetto ad un sito in html per ciò che concerne l’indicizzazione.
E’ però possibile creare un buon codice html in cui contenere il flash come è consigliabile creare un’alternativa in html sia per i motori di ricerca che per gli utenti che sono impossibilitati a navigare su un sito in flash (utenti con connessione lenta, senza flash player o con screen reader per esempio).
10) SUDDIVISIONE DEL CONTENUTO
Avere un layout ben strutturato significa suddividere correttamente il contenuto.
Come in editoria l’impaginazione è importante per avere un buon valore estetico e a ordinare i contenuti.
Nel web serve anche a dare importanza e priorità, non è un mistero infatti che i primi contenuti presenti nella pagina dovrebbero essere i menu per fornire a google una panoramica del sito, sottolineare la presenza di link interni e suggerire una lista di link da riportare nella serp.
Inoltre gli spider sono in grado di valutare i cambiamenti di una pagina, in caso di modifiche ai contenuti principali il robot sarà in grado di valutare in quali parte del sito avvengono dei cambiamenti e in quali no velocizzando il processo di reindicizzazione.
