Sei sulla pagina 1di 5

09/11/13 robots.

txt esempio pratico visto dal Crawler | User-agent Disallow:


www.webxall.net/robots.txt.html 1/5
Ilrobots.txtesempiopraticodellesuevarianti
WebmasterTools
Linkpopolarit
PagerankCheck
PagerankFuturo
Metatagsgenerator
GoogleUrlbanCheck
Densitparolechiave
Velocitdicaricamento
WebmasterGuide
ConsulenzeSeo
OttimizzazioneHtml
GoogleFiltriAntispam
GoogleSeoFaq
WebmasterSeoFaq
HtmlCodeTutorial
GuidaalRobots.txt
CSS@Import
Q&AsuiserviziSEO
CheckHTML
SimulatoreSpider
W3CHTMLCheck
CheckLinkinterrotti
Densitparolechiave
WebmasterMenus
CssNavBarmenu
Flashdropdownmenu
Dhtmlmenugenerator
ToolTipmenugenerator
GraphicSitemapmenus
ConsulenzeSeo
SeoexpressX5
Ilrobots.txtEsempipratici
Diamounocchiatapraticaalrobots.txtconalcuniesempivistidai
Crawler.
Conil"cancelletto"#all'inizio,sipossonoscriveredeicommentichenonvengonopresiin
considerazionedalMotorediricerca.
L'asterisco*(Wildchar)staasignificare"tuttiirobots".

Chiaramenteleindicazionitraleparentesi"<(atuttiirobots)"nondevonoessereinserite
nelvostrofile.Quispieganosolocosafaquell'elementoacuipuntano.
Ilrobots.txtelesuevarianti
#robots.txtforhttp://www.esempio.it/
#Permessodiindicizzazione(letturaeregistrazioneneldatabase)pertuttiidati.
Useragent:*
Disallow:
Nelcasodell'esempioquisopra,vieneindicatoalMotorediricerca(alloSpider),chetuttigli
"Useragent"hannoilpermessoaindicizzarelepagineeseguirneilink.Questoilfamoso
Home Strategiediposizionamento HtmlCheck Referenze Contattaci Sitemap
09/11/13 robots.txt esempio pratico visto dal Crawler | User-agent Disallow:
www.webxall.net/robots.txt.html 2/5
Consulenzagenerale.
IncludeCheckHtmle
ristruttuazionedelcodice
Html.
SeoexpressX10
ConsulenzeSEOperil
webmaster.CheckUp
sulleultimetecnichedi
ottimizzazione.
SeoprofessionalX24
FormazioneSEOperil
webmasteroITdella
azienda.
WebMarketing
SEMprofessional
CampagnaMarketing
professionaleperil
posizionamentomirato.
AdwordsPPCottimizzato
dainostriconsulentiSEM
AnalisiHTML
L'analisi della struttura del sito ci
permetteditrovareleparolechiavedi
una pagina web evidenziando le
lacune nel codice HTMl. Questo ci da
modo di creare una strategia pi
accurata,rivoltaamigliorareleposizioni
della pagina nell'indice del motore di
ricercaGoogle.
Cosadiconodinoiinostriclientisipu
leggerenellapaginadelleReferenze
(Index,Follow)consigliatocomeStandard.
Aggiungendo una / Slash subito dopo il Disallow: / si ottiene l'esatto contrario che
rappresentalostandardnoindex,nofollowcheandremoavederepiavanti.
Esempipratici
Nel prossimo esempio indichiamo che tutti i Robots potranno indicizzare l'intero dominio
escludendoilMotorediricercaAltavistadallaletturadeifilecontenutinellacartella"Temp".
Useragent:scooter
Disallow:/temp/
Useragent:*
Disallow:
Sipotrebbeaggiungerecheperunospecificofiletempglivieneammessalalettura.
Useragent:scooter
Allow:/temp/esempio2.html
Disallow:/temp/
Nota: Per assolvere alle direttive standard dei Crawler che riconoscono l'attributo Allow:,
che comprendono l'esclusione di un file dal blocco generale della cartella, la direttiva
Allow:/deveesserepostaaldisopradellaDisallow:incoppia.
Unesempiononconformealledirettivestandardpotrebbeesseresimilealseguente.La
pagina esempio.html nella directory "privato" abilitata alla scansione, ma in modo non
conformeallostandarddeibot.
Useragent:Googlebot
Disallow:/privato/
Disallow:/admin/
Allow:/privato/esempio.html
QuisopranotiamocheladirettivaAllow:perilfileesempio.htmlstatapostaerroneamente
senzarispettarelacoppiadelledirettivedautilizzarenelcasounoopifilediunacartella
bloccatadebbanoessereammessiallascansione.
Quindicorrettamente,prima:Allow:/cartella/fileesubitodopoDisallow:/cartella/.
Bloccodelleimmagini
Bloccarel'indicizzazionedelleimmaginiatuttiirobotsosoloalGooglebotImage
Useragent:GooglebotImage
Disallow:/
QuisoprastiamoindicandoalCrawlerdelleimmaginidiGooglechenondesideriamoche
lenostreimmaginivenganoinseritenelsuoindice.
Per estendere il blocco dell'indicizzazione a tutti gli Spider, inseriremo l'asterisco " * " al
postodelnomedell'Useragent.
Rimozionediunospecificofileimmagini
Per rimuovere o bloccare un file specifico, per esempio un immagine di tipo .PNG
indicheremoalCrawleriseguentiparametri:
Useragent:Googlebot
Disallow:/*.png$
L'esempioquisopramostracomesipossonogestirelerestrizionidialcunifile,indicando
allo Spider attraverso l'asterisco che tutti i file che terminano con quell'estensione non
devonoessereindicizzati.Ilsegnodeldollaro"$"staasignificarechelaregolaterminal.
09/11/13 robots.txt esempio pratico visto dal Crawler | User-agent Disallow:
www.webxall.net/robots.txt.html 3/5
Esempioconipattern
Moltospessodopoaverperesempiousatoilmod_rewriteperrenderegliindirizzisearch
engine friendly, ci ritroviamo con due indirizzi URL che ci portano sulla stessa pagina,
creandoquindideiduplicati.
Ad esempio, dopo aver riscritto l'indirizzo: ...dominio.it/index.php?id=123&num=42 in
qualcosadipicomprensibilecome:...dominio.it/scarpenumero42,richiamandosiauno
chel'altro,ilbrowsercimostrerebbelastessapagina.
Non stiamo qui a spiegare che si potrebbero utilizzare tecniche di reindirizzamento per
evitareilproblemadeiduplicatiamonte,macilimiteremoautilizzareunascappatoiacheci
vieneoffertadalrobots.txt,impedendolascansionedeifilecontenentiilpuntointerrogativo
?cherappresentanol'indirizzoURLdinamicodellapagina.
Vediamocome:
Useragent:*
Disallow:/*?
Qui sopra con l'asterisco dopo la slash /, stiamo indicando a tutti i robots (ma potremmo
scegliere anche solo il Crawler SlurpdiYahooperesempio) che: "tutto" ci che segue il
punto interrogativo ? non deve essere indicizzato. Abbiamo cos evitato quindi che il
Googlebot, per esempio, seguendo i due indirizzi e trovandoli terminanti sulla stessa
paginaincontriprobleminelcomprenderelastrutturadelnostrositomettendoinpericolo
l'interoposizionamentodeifileinquestione.
Differenzetraindicizzazioneescansione
Quandosiparladimotoridiricercalascansioneeindicizzazionehannounsignificatoben
precisochebenetenereamentepercomprenderemegliocomefunzionanoiprocessidi
unmotorediricerca.
Indicizzazione: nel nostro caso significa alla lettera: inserire dei dati nell'indice di un
motorediricerca,peresempiounapaginaweb.
Scansione:semprenelnostrocaso,sifgnificaallalettera:processaredeidatiinformatici
(peresempiolapaginaweb)perinserirliinunindice.
Quindi,quandoimpediamoqualcosanelrobots.txt,stiamodicendoalCrawler:nonfarela
scansione, cio, non entrare in questo file per aggiornare le informazioni e/o inserirlo
nell'indicedellaricercaorganica.
Non fare la scansione per non significa "non indicizzare", e quindi per questo motivo
potremmosempretrovaredeifilenell'indicediGooglemasottoformadidatielencati"per
conoscenza"prividellosnippetdidescrizione.Cioaccadeperchvengonotrovatilincati,
peresempionelwebattraversoaltrerisorse,opercheranostatiinizialmenteindicizzatie
successivamenteapparsanelrobots.txtl'informazionedinonfarnepilascansione.
Se il Cralwer Googlebot trova in un altro sito l'indirizzo del nostro file bloccato, o lo trova
lincatonelnostrositoinqualchepagina,costrettoaentrarcieafarnelascansione,ma,
unavoltaprocessatinuovamenteidati,primadiindicizzarlochiederalrobots.txtdelnostro
sito se questo file libero da restrizioni, e, trovandolo bloccato, lo inserir nell'indice
supplementaresenzaunosnippetdidescrizione(conilsolotitolodellapagina).
Motivodiquestaapparenteincongruenza
Questo accade quando il Googlebot trova questo file prima del suo blocco e lo indicizza.
Unavoltabloccatonelrobots.txt,gli viene impedito di farne la scansione, ma attraverso
questo file non gli viene chiesta la rimozione dall'indice. Per questo lo trasferisce in un
indicesupplementaredalqualeverrfuorisoloserichiamatoattraversol'operatoresite:e
apparirsenzalosnippet(ladescrizionesottoiltitolo).
Rimozionediunapaginaindicizzata
09/11/13 robots.txt esempio pratico visto dal Crawler | User-agent Disallow:
www.webxall.net/robots.txt.html 4/5
Perpoterrichiederelarimozionedall'indicedellapaginabloccatadalrobots.txtmaancora
presente per conoscenza nell'indice supplementare, bisogna seguire una prassi molto
semplice:
La prima operazione da fare quella di inserire nella pagina in questione una meta tag
robotsimpostatasunoindex,nofollow.
La seconda operazione quella di togliere il blocco del file dal robots.txt, altrimenti il
Googlebotnonpotrsaperecheldentroc'lametarobotsimpostatasunoindex.
Una volta che il blocco della scansione della pagina viene tolto, si passa avanti con la
terzaeultimaoperazione:
AprireglistrumentiperiwebmasterdiGoogle,entrarenellasezioneSalute>Visualizza
come Google, richiedere il recupero della pagina in questione e una volta avvenuto,
cliccare su Invia all'indice come URL. A questo punto il Googlebot passer da quella
paginatrovandolametatagrobotsimpostatasunoindexelarimuoverdefinitivamentedal
suoindice.
Perifiledinaturadinamicadovenonpossibileinserireunametatagrobotsesclusivaper
loro,sidovrripiegaresullarichiestadirimozioneattraversoglistrumentiperiwebmaster,
dopocheilfile,serichiamato,rispondeconunerrore404o410.
Una volta fatte queste operazioni nei casi in cui il file rimane nella root del dominio ed
nuovamente scansibile e indicizzabile, bene reimpostare il blocco nel robots.txt per
evitarecheilGooglebotrientrisuquellapaginaelareindicizzi.
Eccezioni:
VietiamoatuttiiRobotsl'indicizzazionedelsito.
Useragent:*
Disallow:/
ConlaSlashsubitodopoDisallow:,indichiamochel'indicizzazionedell'interositovietata
atuttiiBrowser.(nelmetatagrobotsdellapaginaHtmlil:"noindex,nofollow")
LametatagRobots
SitengapresentechenellapaginaHtmlconsigliabileinserirelametarobotsaventenel
suocontenutoindex,followselapaginanonhaparticolarirestrizioni.
Fateattenzione!Sel'indicizzazionedellapaginainquestionevienebloccatadalrobots.txt,
unametarobotsaggiuntasuccessivamenteinessadiventapraticamenteinutile,inquantoil
Crawler prima di fare la scansione di un file, controlla (almeno una volta giornalmente) il
robots.txt per accertarsi che il file da indicizzare non sia bloccato. Quindi se fosse gi a
conoscenza che il file bloccato non entrerebbe nella pagina e di conseguenza non
riuscirebbeascoprirequellameta.
Se la pagina deve essere esclusa dalle indicizazzioni e cancellata dall'indice, si inserir
unametarobotsnoindex,nofollowsenzafaremenzionediessanelrobots.txt!
Lametarobotsnell'Headerdellapaginasarsimileallaseguente:
<metaname="robots"content="noindex,nofollow">
Peripismanettoni,Apacheoffreattraversoilfile.htaccesslaviamiglioreperindicareal
robot che la pagina pu essere cancellata, facendo rispondere il server alla richiesta del
Crawlerdiscaricarla,conunerrore410(Gone).
Ilmessaggioinviatoinrispostadalserverindica:
Ilfileassente,noncisonoredirectaunaltroindirizzoelasuaassenzapermanente!
Generalmente questo fa si che il Googlebot o altri Spider rimuovano immediatamente
l'indirizzodelfiledalloroindice.
09/11/13 robots.txt esempio pratico visto dal Crawler | User-agent Disallow:
www.webxall.net/robots.txt.html 5/5
Combinazioniparametrinellametarobots
Nellametatagrobots,possonoessereutilizzateleseguenticombinazioniperinformarlosu
cosadevefare:
index,follow=Indicizzalapaginaeseguiilink
noindex,nofollow=Nonindicizzarlaenonseguireilink(rimuoviladall'indice)
index,nofollow=Indicizzalamanonseguireilink
noindex,follow=Nonindicizzarlamaseguiilink
all=index,follow
none=noindex,nofollow
Comeespostoquisopra,sipossonoancheusareglistandardAlloNone,rispettivamente
indicantiglioperatori:index,follow,enoindex,nofollow.
Delle eccezioni (nel proibire l'indicizzazione), si possono raggiungere inserendo delle
Passwords o indicando dei diritti di ingresso CHMOD attraverso il tuo software FTP, in
baseallarestrizionidellapagina.
MentreinvecenellapaginaHtmlperevitarecheilrobotseguaunparticolarelink,siusa
l'attributorel="nofollow",inserendolocomeseguenell'esempio:
<a rel="nofollow" href="http://www.esempio.it/"> Questo link non verr preso in
considerazionepericalcolidelpagerank</a>.
Si tenga presente che l'attributo "rel="nofollow"" viene riconosciuto ufficialmente solo da
Google,BingeYahoo.PerglialtriSpidernoncisononotizieufficialisulriconoscimentodi
questoelemento.
Controlloonlinedelrobots.txt
Controllate direttamente dopo aver compilato il testo, la sua funzionalit e l'eventuale
presenzadierrori,dopoaverloinseritoonlinenellaRootdelvostrosito.(Rootlaradice,la
directory principale sul server dove trovate per esempio la pagina index del sito) Per
inserireonlinenellaRootilrobots.txt,bastacompilareiltestocomedaesempiquisopra,
nominarlo "robots.txt" facendo attenzione al carattere usato, che deve essere tutto
minuscolo,einserirloinfinecomeunqualsiasidocumentohtmlnellaRoot.
L'indirizzodelvostrorobots.txtsarquindi:http://www.iltuodominio.it/robots.txt

Questol'indirizzodovepotretefareiltest:Testonlinerobots.txt
Ilsitoufficialedovepotretetrovaremaggioriinformazioni:www.robotstxt.org
AltreinformazionisuGooglebotpotraitrovarlecliccandosu:GoogleBotInfoSite

Autore:AngeloPalma

Copyright()20052013WebXall
Ust.IdNr:DE260690338Germany