Sei sulla pagina 1di 9

http://www.lowlevel.

it/continuare-a-smontare-google-unaltra-scoperta-seo/

Continuare a smontare Google: unaltra scoperta SEO


Posted: October 18th, 2011 by LowLevel | Filed under: Just SEO | 10 Comments

Questo post segue lesempio di un articolo scritto un po di tempo fa assieme ai colleghi di SearchBrain: Come ti smonto Google: una piccola scoperta SEO, che vi suggerisco di leggere se non lavete gi fatto. Larticolo esponeva una piccola ricerca che Giacomo Pelagatti ed io avevamo svolto e che aveva rivelato una caratteristica di Google nellarchiviare i testi dei link testuali. Smanettando con le ricerche, ho individuato una nuova caratteristica del motore di ricerca e questo post ha lobiettivo di presentare i risultati e di illustrare il processo logico seguito per arrivarci. Il sottoscritto non riuscir a garantire la precisione di esposizione che Giacomo aveva infuso allarticolo sopra citato e far del mio meglio per esporre i risultati di questa nuova ricerca nella maniera pi chiara possibile.

Introduzione ad un quesito SEO mai risolto


Per anni i SEO si sono chiesti quale fosse la quantit massima di caratteri di un tag TITLE indicizzata da Google, considerando la risposta utile per chi fa copywriting. E uninformazione cos essenziale? Non tanto. Allatto pratico, ha pi senso decidere quanto testo scrivere in un titolo basandosi su considerazioni sullusabilit (es: la quantit di testo visualizzata nelle SERP e nelle condivisioni sui social network) invece che sui limiti di archiviazione dei motori. Tuttavia quando i SEO si incaponiscono su una cosa non c modo di distrarli: il web pieno di articoli su test volti a cercare una risposta esatta al quesito. I risultati non tornavano mai ed una regola generale non mai stata trovata.

Qual la scoperta SEO?


Una regola generale non stata mai trovata perch c un errore di fondo nella domanda: stato dato sempre per assunto che lunit di misura/indicizzazione di un testo fossero i caratteri, mentre la risposta esatta alla domanda che Google indicizza al massimo le prime dodici parole di un tag TITLE. C di pi: nel processo che ho seguito per quantificare le parole indicizzate, le query svolte hanno fatto emergere alcuni comportamenti di Google finora sconosciuti e la cui diffusione potr essere utile a SEO, copywriter e anche a progettisti di CMS che dovessero prendere decisioni sui titoli delle pagine web. Tutti i test SEO che finora si sono sforzati di trovare una lunghezza massima in caratteri sono purtroppo fallati nelle premesse e fuorviati nelle conclusioni.

Il perch della ricerca


Le informazioni che ho ottenuto svolgendo la ricerca sono un esempio concreto dei benefici che si possono avere nel percorrere una strada anche quando il traguardo da raggiungere apparentemente poco interessante. Alla fine di un percorso si pu scoprire che le cose imparate camminando sono di pi o pi interessanti/utili di quelle imparate arrivando a destinazione. Che la lunghezza dei titoli fosse misurata in parole e non caratteri era intuibile, sopratutto dopo lesperienza maturata durante il precedente test svolto con Giacomo Pelagatti, tuttavia il motivo che mi ha spinto a voler quantificare con precisione tale lunghezza che sono consapevole che smontando il giocattolo vengono sempre fuori cose interessanti e inaspettate. 1

http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/

E infatti, come mostrer, son venute fuori anche questa volta. Pi in generale, fare reverse engineering dovrebbe essere unattivit tipica dei SEO che vogliono comprendere meglio il funzionamento base dei motori di ricerca: oltre ad essere un eccellente esercizio di logica ed un allenamento per il proprio cervello, cercare di capire i criteri seguiti da un motore di ricerca costringe anche a ripassare tante nozioni SEO di base, per esempio quelle legate al funzionamento degli operatori di ricerca o degli spider o dei processi di indicizzazione. A queste motivazioni generali, se ne aggiunge una circostanziale: alcuni giorni fa ho letto un articolo di SEOmoz che contribuiva a diffondere informazioni SEO errate proprio sulla lunghezza dei tag TITLE. Oltre a commentare il loro articolo fornendo qualche indicazione sul perch dellerrore, ho pensato di cogliere loccasione per fare qui su LowLevel.it un po di didattica, lanciando un quiz sullargomento e scrivendo il presente post per chiarire nei dettagli come vengono gestiti i tag TITLE da Google.

Reverse engineering: ferri del mestiere


Per capire la strada che ho percorso per scoprire il limite che Google si impone sulla lunghezza dei titoli, importante conoscere alcuni concetti base sul funzionamento di un motore di ricerca. Se siete SEO, dovreste gi conoscerli: - Google non cerca realmente ci che lutente digita. Ogni query digitata pu essere oggetto di modifiche prima di passare alla fase di ricerca negli archivi. Queste modifiche avvengono internamente e sono trasparenti allutente, che vede solo la query digitata. - Ci sono operatori di ricerca che dicono a Google di limitare la ricerca a specifici elementi delle risorse. Per esempio, loperatore intext limita la ricerca ai contenuti testuali della pagina e loperatore intitle limita la ricerca ai contenuti del titolo delle risorse (nelle risorse HTML corrisponde al tag TITLE). Quando non si usa alcun operatore del tipo inX, Google restituisce risorse che hanno a che fare col testo digitato, a prescindere che lo contengano o meno. - Loperatore per cercare una frase esatta, ovvero le virgolette (), non sempre induce Google a cercare esattamente il testo virgolettato. A seconda della frase scritta tra virgolette, Google pu decidere di cercare piccole varianti del testo virgolettato. - Per forzare Google a cercare esattamente una parola, evitando sue espansioni o interpretazioni, si usa loperatore + davanti alla parola stessa. Tutti i testi delle ricerche che mostrer nei prossimi paragrafi sono stati attentamente selezionati per essere certi che Google cercasse esattamente ci che digitavo.

Reverse engineering: il metodo di base


Il metodo che ho seguito consiste nel cercare frasi abbastanza lunghe su Google, che per certo esistono nei titoli di alcune pagine web, usando loperatore intitle per limitare la ricerca ai soli titoli di pagina. Se Google ha archiviato una pagina che possiede un titolo molto lungo e se una ricerca dellintero testo del titolo non restituisce tale pagina, ci pu solo significare che Google non ne ha indicizzato lintero titolo. A seguito di ricerche multiple di lunghezze diverse della stessa frase possibile capire se un limite esiste e quale esso . Per tutti gli esempi che seguiranno ho dunque fatto ricerche con le seguenti caratteristiche: - Cercano frasi abbastanza lunghe, che ho accertato esistere come titoli di alcune pagine web archiviate da Google; - Fanno uso delloperatore di ricerca esatta, ovvero delle virgolette; - Fanno uso delloperatore intitle, che restringe la ricerca ai soli titoli delle risorse;

http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/

Sarebbe corretto che facessero anche uso delloperatore + davanti a ciascuna parola della frase, tuttavia per obiettivi di leggibilit delle query che seguono io ho scelto le frasi da cercare in maniera che la presenza o assenza delloperatore + fosse ininfluente sui risultati restituiti da Google.

Reverse engineering: lesistenza di un limite


Proviamo innanzitutto a cercare pagine che contengono nel testo del proprio titolo i primi dodici numeri in lingua inglese: [intitle:"one two three four five six seven eight nine ten eleven twelve"] La ricerca restituisce diverse pagine che nel titolo hanno un testo che inizia con la frase cercata, come potete vedere nello screenshot che allego.

Adesso attenzione: diverse pagine restituite nella ricerca hanno titoli che non si fermano a twelve ma che continuano elencando i numeri inglesi successivi: thirteen, fourteen, ecc. Potete voi stessi visitare alcune delle pagine restituite e rendervi conto di persona della lunghezza reale delle frasi presenti nei titoli. Logica vorrebbe che se Google non si imponesse alcun limite allindicizzazione dei testi dei titoli, cercando fino a tredici dovrebbero venire restituiti ancora dei risultati: [intitle:"one two three four five six seven eight nine ten eleven twelve thirteen"] E invece non vien fuori alcunch, come mostrato dallo screenshot che segue. Non perch Google non possieda in archivio pagine con il titolo pi lungo ma perch il motore si imposto un limite.

http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/

A questo punto della ricerca siamo arrivati a concludere che esiste un limite alla quantit di testo dei tag TITLE che Google decide di indicizzare ma non abbiamo ancora determinato con precisione qual il limite.

Reverse engineering: i caratteri non centrano


Accettiamo per un attimo la congettura che Google sia una gigantesca macchina da scrivereinvece di un software che fa uso di indici e che la sua naturale unit di misura per i testi siano i caratteri. Abbiamo appurato che Google arriva ad indicizzare la quantit di testo one two three four five six seven eight nine ten eleven twelve, pari a 62 caratteri. Non arriva invece ad indicizzare la quantit di testo one two three four five six seven eight nine ten eleven twelve thirteen, di 71 caratteri. Se il limite di Google fosse misurato in caratteri, potremmo teorizzare che esso debba stare da qualche parte tra i 63 ed i 71 caratteri di testo, perch siamo certi che fino a 62 ci arriva e che a 71 gi non je la fa. Per dichiarare incorretta la suddetta teoria sarebbe sufficiente trovare un titolo di lunghezza superiore a 71 caratteri indicizzato da Google, no? Beh, di titoli superiori a 71 caratteri e indicizzati da Google ce ne sono una quantit smodata, ma io ho voluto esagerare e mi sono messo a cercare una pagina archiviata da Google e che possedesse un titolo particolarmente lungo in caratteri. La chilometrica query [intitle:"Pneumonoultramicroscopicsilicovolcanoconiosis Lung Disease : Causes, Symptoms, Diagnosis, Treatment, Cures and Remedies for Pneumonoultramicroscopicsilicovolcanoconiosis"] contiene una frase lunga la bellezza di 169 caratteri e restituisce una pagina.

http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/

Qualcosa non quadra con la nostra illuminata e modernissima teoria: eravamo convinti che ci fosse un limite in caratteri e che dovesse stare tra i 63 ed i 71 caratteri. Come si spiega lindicizzazione di ben 169 caratteri? Vale la pena osservare un po meglio la query appena proposta. Se contate quante parole ci sono nella frase, noterete che sono dodici. La pagina restituita, tuttavia, ha un titolo che va anche oltre le dodici parole. Che succede se proviamo a cercare quel titolo fino alla sua tredicesima parola? [intitle:"Pneumonoultramicroscopicsilicovolcanoconiosis Lung Disease : Causes, Symptoms, Diagnosis, Treatment, Cures and Remedies for Pneumonoultramicroscopicsilicovolcanoconiosis / Pneumoconiosis"]

Google non restituisce pi la pagina incriminata. Qualcosa dunque non torna: la teoria che avevamo e che si basava su un limite misurato in caratteri stata facilmente smontata con una semplice ricerca.

Reverse engineering: la regola finale


A questo punto i casi sono due: o Google talmente scemo da definire limiti in caratteri che cambiano pagina per pagina secondo criteri complessi, oppure tutto sto carosello sui caratteri fallato alla base e stiamo cercando di misurare quanti metri dura una giornata.

http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/

Quello che possiamo osservare che sia nel primo esempio sia nel secondo, Google arrivato a indicizzare le prime dodici parole dei titoli, ma non si spinto fino alla tredicesima. Pu significare qualcosa? Taglio corto. Facendo molte altre ricerche simili noterete che il criterio sempre lo stesso: Google indicizza al massimo le prime dodici parole di un tag TITLE. La lunghezza in caratteri non c mai entrata un fico secco. Questa conclusione spiega anche perch i conti finora non tornavano mai a tutti i SEO che si sono cimentati in passato a calcolare una lunghezza massima in caratteri del testo indicizzato dal motore. A volte sembrava che il limite stesse tra X e Y caratteri, altre volte sembrava che il limite esistesse tra Z e K caratteri. La ragione era che le conclusioni cambiavano a seconda delle frasi usate dai SEO per fare i test: chi aveva usato frasi con parole mediamente pi lunghe aveva avuto limpressione che Google indicizzasse pi caratteri e chi aveva usato frasi con parole mediamente pi corte aveva avuto limpressione che Google indicizzasse meno caratteri. In realt nessuno ha mai notato che la misura era in parole e che il limite era dodici. Per sicurezza, mi sono preso la briga di andare a cercare i test SEO pi conosciuti sullargomento, anche quelli pi vecchi, ed ho confermato che tutti i loro risultati incerti sono in realt riconducibili al modello delle dodici parole. Ho anche scoperto che altri test abbastanza famosi erano fallati per altre ragioni (es: linutilizzo delloperatore intitle) ma questo un altro discorso. Con queste ultime considerazioni chiudo largomento sulla lunghezza dei titoli e apro quello sulle informazioni inaspettate che sono venute fuori durante la ricerca della soluzione al quesito.

Query subdole ma rivelatrici


Se anche voi vorrete svolgere alcuni test e ricerche, sappiate che nel corso delle mie sono incappato in frasi subdole, che apparentemente non rispondevano alla regola delle dodici parole ma che in realt sono anchesse delle conferme alla regola. Approfondendo il perch di certi strani risultati di ricerca e la natura delle query che facevo sono emerse per ulteriori informazioni su comportamenti di Google che finora non erano mai stati notati o che non erano mai stati spiegati nei dettagli. Un primo consiglio che do a chi vorr cimentarsi in test simili quello di fare attenzione ai testi che cercate, specie se fate copia-e-incolla da titoli di pagine web gi esistenti. Anche se tra virgolette, infatti, le frasi possono accidentalmente contenere degli operatori di ricerca che modificano il significato della query stessa e di conseguenza i suoi risultati. Per esempio, sul web esiste una pagina del sito Centralpark.com che ha esattamente per titolo Alice in Wonderland | Your Complete Guide to Central Park. La pagina archiviata da Google ma cercando il suo titolo con le modalit seguite finora non vien fuori alcun risultato: [intitle:"Alice in Wonderland | Your Complete Guide to Central Park"]. Riuscite a vedere nel testo della frase qual il problema che inficia la ricerca? Il problema che la frase contiene loperatore di ricerca OR, ovvero il carattere pipe (|). Questo operatore dice a Google di restituire i risultati che contengono solo una delle due parole che stanno a fianco del simbolo. Applicato alla frase indicata sopra, tale operatore induce dunque Google a cercare due distinti titoli, nessuno dei quali esiste: [intitle:"Alice in Wonderland Complete Guide to Central Park"] [intitle:"Alice in Your Complete Guide to Central Park"] Il consiglio che do a chiunque voglia smanettare con ricerche che contemplano frasi esatte (tra virgolette) quello di fare attenzione a non introdurre nelle frasi degli operatori di ricerca perch essi vengono interpretati da Google in quanto tali e non cercati letteralmente, nonostante la frase sia tra virgolette. 6

http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/

I fenomeni inaspettati sono iniziati quando ho cercato di far restituire a Google la pagina eliminando dalla query il carattere |: [intitle:"Alice in Wonderland Your Complete Guide to Central Park"]. Google restituisce un risultato ma non si tratta della pagina del sito sopra citanto quanto di una pagina di un altro sito con un titolo molto simile, privo del carattere |. Perch quella pagina non viene pi fuori? Il fatto che eliminando il simbolo | dalla ricerca non venga restituita la pagina di Centralpark.com significa che, in fase di indicizzazione, Google non si limitato ad ignorare quel carattere bens ci ha fatto qualcosa. Ma che cosa?

Google divide i titoli in blocchi


Come forse gi sapete, quando Google estrae testo dalle pagine web tiene conto della loro struttura e non si limita ad archiviare tutto il testo come se fosse una sequenza continua di parole. Lesempio pi semplice da fare quello delle intestazioni (tag HTML Hx) e dei testi immediatamente successivi ad una di esse. Prendo come esempio una pagina di un mio vecchio sito web, Motoricerca.info, per dimostrare che cercando come frase il testo dellintestazione H3 seguito dalle prime parole del paragrafo che gli succede, Google non restituisce la pagina di quel sito: ["Scegliere un host a misura di SEO Chi si avvicina per la prima volta al posizionamento"]. La pagina di Motoricerca.info viene invece mostrata se si inserisce loperatore * tra il testo dellintestazione e quello del paragrafo: ["Scegliere un host a misura di SEO * Chi si avvicina per la prima volta al posizionamento"]. Quello che avviene che in fase di parsing e indicizzazione del testo della pagina, Google ha archiviato il testo dellintestazione e quello del paragrafo che gli segue in due blocchi separati. Cercando i due testi come se fossero consecutivi e appartenenti ad ununica frase, la pagina di Motoricerca.info non viene restituita mentre usando loperatore * la ricerca della frase viene estesa a blocchi di testo differenti. Google fa lo stesso con i titoli delle pagine, decidendo di separare il testo dei titoli in blocchi differenti quando incontra nel testo dei titoli dei caratteri speciali, uno dei quali proprio il simbolo di pipe (|). Tornando allesempio della pagina del sito Centralpark.com, il cui titolo contiene per lappunto un carattere di |, lunico modo per farla venir fuori nei risultati della ricerca cercare separatamente le due frasi che compongono il titolo: [intitle:"Alice in Wonderland" intitle:"Your Complete Guide to Central Park"] oppure usare loperatore asterisco per attivare la ricerca tra blocchi diversi: [intitle:"Alice in Wonderland * Your Complete Guide to Central Park"]. Quando ho scoperto il fenomeno mi era anche venuto il dubbio che piuttosto che un separatore di blocchi, il simbolo | venisse trattato da Google come parola a s e quindi indicizzata come le altre, tuttavia questo si dimostrato falso. Non solo, intuitivamente, sarebbe inutile per il motore di ricerca gestire come parola un simbolo che non pu essere cercato dallutente in alcun modo, ma continuando a fare ricerche su altri titoli emerso che la presenza di uno o pi simboli | non induce Google a scalare la quantit di parole rimanenti dalle famigerate dodici. In sintesi, certo che il simbolo non viene considerato una parola, lasciandoci solo con la risposta del separatore. Che cosa cosa pu implicare questa scoperta in termini SEO? Implica che nel decidere i simboli da utilizzare nei tag TITLE dei propri siti opportuno fare attenzione a quali di essi sfruttiamo. Se il nostro desiderio quello di far percepire lintero titolo come ununica frase oppure se c lobiettivo sfruttare tutte le parole/keyword presenti nel titolo, allora potrebbe essere unidea evitare i simboli grafici particolari, sostituendoli con semplice punteggiatura. Non ho fatto un elenco dei simboli grafici che inducono Google a separare i testi del titolo in blocchi diversi. Per certo, ho individuato delle situazioni abbastanza subdole e non facilmente intuibili. Per esempio, il semplice trattino - (carattere ASCII 45) non induce Google ad 7

http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/

archiviare il testo in blocchi diversi mentre il molto simile trattino (entir HTML –) produce la separazione in blocchi.

Google accorpa i caratteri singoli


Provate a cercare [intitle:"a b c d e f g h i l m n o p q r s t u v z"] e vedrete che Google restituir delle risorse nonostante le parole nella frase cercata siano pi di dodici. Ma dei singoli caratteri possono essere considerati parole? Non secondo Google. Quello che fa Google quando trova sequenze di singoli caratteri separati da uno spazio accorparli in una o pi parole multicarattere sia in fase di indicizzazione del testo sia in fase di trattamento della query dellutente. La ricerca sopra riportata non composta dunque da molte parole ma viene interpretata da Google come se fosse abcdefghilmnopqrstuvz e restituisce titoli che contengono abcdefghilmnopqrstuvz oppure a b c d e f g h i l m n o p q r s t u v z. Mi son chiesto se questo accorpamento influisse in qualche modo sul limite massimo di dodici parole e la risposta no. Occhio ai fraintendimenti, per! Se provate a cercare un titolo di apparentemente undici parole quale [intitle:"a b c d e f g h i j k l m n o p q r s t u v w x y z now i noe my abc nxt tym wnt u sng"] verr fuori una pagina web che in realt contiene un titolo pi lungo della frase cercata. Aggiungendo la dodicesima parola del titolo (wid) Google non restituir pi la pagina, come se il limite massimo di parole indicizzabili si fosse abbassato ad undici parole. In realt Google ha indicizzato la sequenza a b c d e f g h i j k l m n o p q r s t u v w x y z in due parole diverse e potete notarlo cercandole accorpate: [intitle:"abcdefghijklmnopqrstu vwxyz now i noe my abc nxt tym wnt u sng"], constatando che il limite di dodici parole stato rispettato. Perch Google ha deciso di accorpare quella sequenza di caratteri in due parole separate invece che in ununica parola corrispondente allintero alfabeto? Mistero. Non ho trovato giustificazioni tecniche di alcun genere e non escludo che i criteri dellaccorpamento dei caratteri possano seguire valutazioni fatte sul contenuto dellintero indice (es: lesistenza di acronimi popolari potrebbe favorire alcuni accorpamenti piuttosto che altri).

Riassunto dei risultati


Riassumo di seguito quanto stato scoperto con questa piccola ricerca. - E stato dimostrato che Google indicizza un massimo di dodici parole estratte dal tag TITLE delle pagine web; - E stato osservato che il testo del tag TITLE pu essere archiviato in blocchi separati cos come avviene per il testo del corpo delle pagine HTML; - E stato osservato che in presenza di sequenze di singoli caratteri separati da spazio, Google indicizza parole create accorpando i caratteri stessi secondo criteri non ancora chiari. Il limite delle dodici parole viene comunque sempre rispettato.

Quanto stiamo messi male?


Se i risultati di questa ricerca insegnano qualcosa al di l degli aspetti tecnici, che noi SEO stiamo messi piuttosto male. Il divario tra le nostre conoscenze/supposizioni e la realt di un motore di ricerca cos vasto che per tredici anni abbiamo brancolato nel buio chiedendoci qualcosa a cui poteva essere data risposta in qualsiasi momento, in pochi minuti. La prima osservazione che mi viene spontaneo fare che le modalit di archiviazione dei testi in parole, tipica di in un motore di ricerca, dovrebbe risultare palese a qualunque progettista di database che abbia affrontato il compito di creare un piccolo indice fulltext. 8

http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/

Il fatto che questa conoscenza, molto semplice e sicuramente banale agli occhi di un progettista di database, non appartenga alla comunit SEO purtroppo un segnale chiaro su quanto poco ne sappiamo di come un motore di ricerca fatto e di come funziona. La seconda considerazione che mi viene spontaneo fare che il valore aggiunto di queste pratiche di reverse engineering risiede sicuramente nella possibilit di acquisire un metodo di indagine. Fin troppe volte i SEO vengono lasciati privi di informazione da parte dei progettisti dei motori di ricerca: gli algoritmi devono rimanere segreti per ovvie ragioni ma questa carenza di informazioni pu trasformarsi in unopportunit di crescita nel momento in cui inducesse i SEO a far pratica di logica e a sviluppare una forma mentis capace di pensare come chi i motori di ricerca li crea.