Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
it/continuare-a-smontare-google-unaltra-scoperta-seo/
Questo post segue lesempio di un articolo scritto un po di tempo fa assieme ai colleghi di SearchBrain: Come ti smonto Google: una piccola scoperta SEO, che vi suggerisco di leggere se non lavete gi fatto. Larticolo esponeva una piccola ricerca che Giacomo Pelagatti ed io avevamo svolto e che aveva rivelato una caratteristica di Google nellarchiviare i testi dei link testuali. Smanettando con le ricerche, ho individuato una nuova caratteristica del motore di ricerca e questo post ha lobiettivo di presentare i risultati e di illustrare il processo logico seguito per arrivarci. Il sottoscritto non riuscir a garantire la precisione di esposizione che Giacomo aveva infuso allarticolo sopra citato e far del mio meglio per esporre i risultati di questa nuova ricerca nella maniera pi chiara possibile.
http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/
E infatti, come mostrer, son venute fuori anche questa volta. Pi in generale, fare reverse engineering dovrebbe essere unattivit tipica dei SEO che vogliono comprendere meglio il funzionamento base dei motori di ricerca: oltre ad essere un eccellente esercizio di logica ed un allenamento per il proprio cervello, cercare di capire i criteri seguiti da un motore di ricerca costringe anche a ripassare tante nozioni SEO di base, per esempio quelle legate al funzionamento degli operatori di ricerca o degli spider o dei processi di indicizzazione. A queste motivazioni generali, se ne aggiunge una circostanziale: alcuni giorni fa ho letto un articolo di SEOmoz che contribuiva a diffondere informazioni SEO errate proprio sulla lunghezza dei tag TITLE. Oltre a commentare il loro articolo fornendo qualche indicazione sul perch dellerrore, ho pensato di cogliere loccasione per fare qui su LowLevel.it un po di didattica, lanciando un quiz sullargomento e scrivendo il presente post per chiarire nei dettagli come vengono gestiti i tag TITLE da Google.
http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/
Sarebbe corretto che facessero anche uso delloperatore + davanti a ciascuna parola della frase, tuttavia per obiettivi di leggibilit delle query che seguono io ho scelto le frasi da cercare in maniera che la presenza o assenza delloperatore + fosse ininfluente sui risultati restituiti da Google.
Adesso attenzione: diverse pagine restituite nella ricerca hanno titoli che non si fermano a twelve ma che continuano elencando i numeri inglesi successivi: thirteen, fourteen, ecc. Potete voi stessi visitare alcune delle pagine restituite e rendervi conto di persona della lunghezza reale delle frasi presenti nei titoli. Logica vorrebbe che se Google non si imponesse alcun limite allindicizzazione dei testi dei titoli, cercando fino a tredici dovrebbero venire restituiti ancora dei risultati: [intitle:"one two three four five six seven eight nine ten eleven twelve thirteen"] E invece non vien fuori alcunch, come mostrato dallo screenshot che segue. Non perch Google non possieda in archivio pagine con il titolo pi lungo ma perch il motore si imposto un limite.
http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/
A questo punto della ricerca siamo arrivati a concludere che esiste un limite alla quantit di testo dei tag TITLE che Google decide di indicizzare ma non abbiamo ancora determinato con precisione qual il limite.
http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/
Qualcosa non quadra con la nostra illuminata e modernissima teoria: eravamo convinti che ci fosse un limite in caratteri e che dovesse stare tra i 63 ed i 71 caratteri. Come si spiega lindicizzazione di ben 169 caratteri? Vale la pena osservare un po meglio la query appena proposta. Se contate quante parole ci sono nella frase, noterete che sono dodici. La pagina restituita, tuttavia, ha un titolo che va anche oltre le dodici parole. Che succede se proviamo a cercare quel titolo fino alla sua tredicesima parola? [intitle:"Pneumonoultramicroscopicsilicovolcanoconiosis Lung Disease : Causes, Symptoms, Diagnosis, Treatment, Cures and Remedies for Pneumonoultramicroscopicsilicovolcanoconiosis / Pneumoconiosis"]
Google non restituisce pi la pagina incriminata. Qualcosa dunque non torna: la teoria che avevamo e che si basava su un limite misurato in caratteri stata facilmente smontata con una semplice ricerca.
http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/
Quello che possiamo osservare che sia nel primo esempio sia nel secondo, Google arrivato a indicizzare le prime dodici parole dei titoli, ma non si spinto fino alla tredicesima. Pu significare qualcosa? Taglio corto. Facendo molte altre ricerche simili noterete che il criterio sempre lo stesso: Google indicizza al massimo le prime dodici parole di un tag TITLE. La lunghezza in caratteri non c mai entrata un fico secco. Questa conclusione spiega anche perch i conti finora non tornavano mai a tutti i SEO che si sono cimentati in passato a calcolare una lunghezza massima in caratteri del testo indicizzato dal motore. A volte sembrava che il limite stesse tra X e Y caratteri, altre volte sembrava che il limite esistesse tra Z e K caratteri. La ragione era che le conclusioni cambiavano a seconda delle frasi usate dai SEO per fare i test: chi aveva usato frasi con parole mediamente pi lunghe aveva avuto limpressione che Google indicizzasse pi caratteri e chi aveva usato frasi con parole mediamente pi corte aveva avuto limpressione che Google indicizzasse meno caratteri. In realt nessuno ha mai notato che la misura era in parole e che il limite era dodici. Per sicurezza, mi sono preso la briga di andare a cercare i test SEO pi conosciuti sullargomento, anche quelli pi vecchi, ed ho confermato che tutti i loro risultati incerti sono in realt riconducibili al modello delle dodici parole. Ho anche scoperto che altri test abbastanza famosi erano fallati per altre ragioni (es: linutilizzo delloperatore intitle) ma questo un altro discorso. Con queste ultime considerazioni chiudo largomento sulla lunghezza dei titoli e apro quello sulle informazioni inaspettate che sono venute fuori durante la ricerca della soluzione al quesito.
http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/
I fenomeni inaspettati sono iniziati quando ho cercato di far restituire a Google la pagina eliminando dalla query il carattere |: [intitle:"Alice in Wonderland Your Complete Guide to Central Park"]. Google restituisce un risultato ma non si tratta della pagina del sito sopra citanto quanto di una pagina di un altro sito con un titolo molto simile, privo del carattere |. Perch quella pagina non viene pi fuori? Il fatto che eliminando il simbolo | dalla ricerca non venga restituita la pagina di Centralpark.com significa che, in fase di indicizzazione, Google non si limitato ad ignorare quel carattere bens ci ha fatto qualcosa. Ma che cosa?
http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/
archiviare il testo in blocchi diversi mentre il molto simile trattino (entir HTML –) produce la separazione in blocchi.
http://www.lowlevel.it/continuare-a-smontare-google-unaltra-scoperta-seo/
Il fatto che questa conoscenza, molto semplice e sicuramente banale agli occhi di un progettista di database, non appartenga alla comunit SEO purtroppo un segnale chiaro su quanto poco ne sappiamo di come un motore di ricerca fatto e di come funziona. La seconda considerazione che mi viene spontaneo fare che il valore aggiunto di queste pratiche di reverse engineering risiede sicuramente nella possibilit di acquisire un metodo di indagine. Fin troppe volte i SEO vengono lasciati privi di informazione da parte dei progettisti dei motori di ricerca: gli algoritmi devono rimanere segreti per ovvie ragioni ma questa carenza di informazioni pu trasformarsi in unopportunit di crescita nel momento in cui inducesse i SEO a far pratica di logica e a sviluppare una forma mentis capace di pensare come chi i motori di ricerca li crea.