Sei sulla pagina 1di 55

Risorse di Rete e Web 2.

0 per il lavoro Sociale


Corso di Studio in Servizio Sociale
A.A. 2015-2016

6.La ricerca sul Web


Antonio Capodieci

Edizione 2015-16
Una visualizzazione [di una parte] del web
3

La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links
WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
Una visualizzazione [di una parte] del web
4
Una visualizzazione [di una parte] del web
5
Come trovare l'informazione in rete
6

 Directories
Indici strutturati di argomenti (gestiti da una redazione)
 Wikipedia
Enciclopedia collaborativa
 Motori di ricerca
Query  Risultati
 Motori semantici
www.wolframalpha.com, …
 Sistemi di Q&A sociale
Yahoo! Answer, …
 Esplorazione
Browsing, serendipity
Web directories
7

 Storicamente, il primo strumento di ausilio alle ricerche


nel Web
 Classificazione gerarchica dei siti (e non delle pagine) in
categorie e sottocategorie, a più livelli, effettuata "a
mano" -> varie "tassonomie"
 Directories “generaliste” e directories verticali o di nicchia,
anche prodotte in modo collaborativo
 http://en.wikipedia.org/wiki/Web_directory
Tassonomia
8

Emporio celeste dei riconoscimenti benevoli


 Raggruppamento (Enciclopedia cinese, J.L.Borges, 1973)
di oggetti in Gli animali si dividono in:
classi, secondo a) Appartenenti all’imperatore
qualche criterio b) Imbalsamati
c) Ammaestrati
d) Lattonzoli
 taxis=ordine e) Sirene
f) Favolosi
nomos=regola g) Cani randagi
h) Inclusi in questa classificazione
 Ogni tassonomia i) Che si agitano come pazzi
j) Innumerevoli
è arbitraria, e k) Disegnati con un pennello finissimo di peli di
dipende dagli cammello
obiettivi l) Eccetera
m) Che hanno ritto il vaso
n) Che da lontano sembrano mosche.
Yahoo! (http://dir.yahoo.com)
9

- Nasce come “La guida al


WWW di Jerry e David”,
nel 1994
- Qui la home del 1996, da
www.archive.org

http://en.wikipedia.org/wik
i/Internet_Archive
The Open Directory Project (ODP)
10

 Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/


 Directory gratuita, aperta e multilingua
 Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e
manutenuta da una comunità di editor volontari
 http://en.wikipedia.org/wiki/Open_Directory_Project
Domoz vs Yahoo!
11

Dmoz Yahoo!
Wikipedia come strumento di ricerca
12

 Wikipedia è un formidabile strumento di ricerca e accesso


al web
 Ogni voce di Wikipedia è corredata da numerosi link
interni ed esterni, che spesso permettono di raggiungere i
siti più significativi correlati all’argomento esaminato
 Inoltre Wikipedia contiene numerosi indici e directories,
fra cui anche veri e propri portali tematici

(http://en.wikipedia.org/wiki/Portal:Contents/Portals)
Motori di ricerca per il Web
13

 Componente software (utilizzabile come servizio


online) progettato per ricercare informazioni sul
World Wide Web
 Le informazioni (di solito nella forma di link) sono
presentate in una serie di Search Engine Results
Page (SERP)
 La qualità di un motore si valuta sulla base della
pertinenza e rilevanza dei risultati
Motori di ricerca
14

Una storia complessa, iniziata negli anni '90. Oggi, i


primi:
Google
- Dal 1998
Baidu
- dal 2000, cinese
Yahoo!
- Con motori esterni (dal 2009 "Powered by Bing")
Bing
- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)
Search engine market share
15

Dic 2013, solo desktop

Fonte:
http://www.netmarketshare.com
Motori di ricerca: struttura
16

Query
Query
Interfaccia
processing
Risultat
i
(SERP)
Ranking Indici + cached
dei risultati pages
Front-end process
Back-end process

Richiest Pagine
Crawler web
e Crawler
WWW Crawler Indicizzatore
Pagine
web
Web crawling
18

 I crawler (robot, spider, bot) sono programmi che


navigano il Web, esaminando le diverse pagine e
seguendo i link in esse presenti
 Seguono opportune politiche di navigazione (per es.
per decidere quando riesaminare una pagina già vista)
 L'interazione con i Web server segue specifici
protocolli (per es. robot exclusion protocol, o
robot.txt)
 Non tutto il Web è accessibile ai crawler
robots.txt: esempio
19

www.domain.com /

robots.t
xt
User-agent: Google
Disallow /utenti/foto
about utenti
Allow: *
Crawl-delay: 20 sec

foto
Deep vs surface Web
20

 Non tutto il Web è accessibile ai motori di ricerca


 Il Web invisibile ("deep Web") è parecchi ordini di
grandezza più vasto del Web visibile ("surface Web")
 Deep Web, esempi:
 Pagine "vietate" dai Web server (robots.txt)
 Pagine generate dinamicamente a fronte di query o di input forniti
attraverso form
 Pagine senza link entranti
 Pagine accessibili tramite registrazione e login
 Ecc.
Tipi di query
21

 Informativa
Obiettivo: trovare un'informazione
 Navigazionale
Obiettivo: trovare una pagina web, che conosco già
 Risorsa
Obiettivo: trovare una risorsa (non informativa) disponibile sul
web

 Il risultato è di solito (ma non sempre!) una lista di link a pagine


web
 Evoluzione: dal contenitore (anche) al contenuto
Uso dei motori di ricerca
22

 Web e banche dati sono i campi in cui i motori


di ricerca sono più usati

 Google - che indicizza oltre 9 miliardi di pagine


- è il motore di ricerca più usato al mondo
Funzionamento dei motori di ricerca
23

 In risposta alla richiesta dell’utente, i motori


di ricerca elencano i siti recuperati in ordine di
rilevanza rispetto alla domanda posta

 Per stabilire tale rilevanza, ogni motore di


ricerca classifica allinterno del proprio indice
le pagine trovate usando i propri algoritmi
Google PageRank
24

 Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a


Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford
University
 L'idea: la "importanza" di una pagina Web è tanto maggiore quante più
sono le pagine Web (a loro volta "importanti") che la linkano
 In sostanza, è il meccanismo con cui vengono valutati i paper
accademici
 S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search
engine”
 1998: Brin e Page fondano Google Inc

R.Polillo - Marzo 2014


Pesi e misure: PageRank
25

 PageRank assegna un peso a ogni elemento della pagina e


la classifica in base
 al contenuto della pagina (occorrenza dei termini
cercati)
 al numero di link che puntano alla pagina
 al contenuto delle pagine che linkano alla pagina
 Linkando le proprie pagine a un’altra pagina, gli utenti
influenzano (nel bene e nel male) la sua valutazione da
parte di Google
PageRank: esempio
26

1
1 7

1
1
6

R.Polillo - Marzo 2014


PageRank: esempio
27

http://en.wikipedia.org/wiki/PageRank
Per la spiegazione dell'algoritmo: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-
R.Polillo - Marzo 2014
L’algoritmo: altri criteri
28

 Google utilizza oltre 200 criteri per il ranking delle pagine


 I criteri sono segreti e in continua evoluzione
 Esempi:
 Parole chiave nella pagina (titolo, header, testo …)
 Età del sito
 Qualità dei contenuti
 Ranking fra i siti di analogo argomento
 Numero di accessi via URL della pagina
 Numero di accessi da parte di chi cerca
 Tempo speso sulla pagina dagli utenti
 ….

R.Polillo - Marzo 2014


Limiti dei motori di ricerca
29

I motori di ricerca…
 setacciano periodicamente il web rintracciando le
pagine grazie ai loro contenuti
 aggiornano i propri indici fotografando la realtà
documentaria in un dato momento
 possono non trovare tutti i risultati utili
 classificano le pagine web con criteri in gran parte non
noti
 algoritmi proprietari, base di ricerca non dichiarata

 non hanno un effettivo controllo sulla qualità dei


documenti trovati
Prossimità dei termini cercati
30

 Google attribuisce un valore positivo alla


vicinanza dei termini cercati all'interno della
pagina
 Le pagine in cui le parole cercate sono adiacenti
sono mostrate per prime nell’elenco dei risultati
 Perché?
 Il presupposto di Google è che più i termini cercati
dall’utente sono vicini all’interno di una pagina, più la
pagina è di suo interesse
Google Suggest e Web history
31

 Via via che si digita nella casella di ricerca, la funzione di


autocompletamento (Google Suggest) mostra ricerche simili
effettuate dagli utenti
 Se si è collegati con il proprio account Google i primi
suggerimenti si baseranno su proprie ricerche effettuate in
passato
 Le ricerche fatte con l’account Google sono mantenute nella
Cronologia Web (Web history) e da qui possono essere eseguite
nuovamente
 I suggerimenti possono essere disattivati sospendendo o
rimuovendo la Cronologia Web e uscendo dall’account Google
 Informazioni sulla Cronologia Web
http://support.google.com/accounts/bin/topic.py?hl=it&topic=14148
La ricerca sul web
32

 Google cerca esattamente e soltanto le parole


digitate nel campo di ricerca:
 ignora le Stop Words, cioè i termini che
servono a legare più parole chiave (quel, il,
the, that, why..)
 il singolare è diverso dal plurale
 non c’è distinzione tra lettere minuscole e
maiuscole non può cercare parole tronche
Caratteri per la ricerca - 1
33

 Asterisco (*): sostituisce una o più parole intere fra due


termini (Presidente * Italiana), come anche ogni termine
ignoto (Presidente *)
 L’asterisco riempie uno spazio vuoto
 Da usare solo con parole intere, non con parole
troncate
 Meno (-): da inserire prima di un termine che non si vuol
cercare. Va preceduto, ma non seguito da spazio.
 Per trovare pagine sulle protesi escludendo le
pagine sulla Repubblica Italiana : Repubblica -
Italiana
Caratteri per la ricerca - 2
34

 Per trovare solo una frase esatta è utile


inserire le parole fra virgolette
 “Assistenti Sociali”
 “Pubblica Amministrazione”

 Le virgolette servono anche per trovare i


termini ignorati da Google, le cosiddette
stopword: the, of, or... del, di, in, la...
 protesi “di ginocchio”
 Disagio “dei giovani”
 “Disagio “dei giovani”
Operatori per la ricerca
35

 Usando il booleano OR (in MAIUSCOLO) si trovano


le pagine in cui è presente sia il termine A sia il
termine B, o anche uno solo di essi
In alternativa, si possono separare le parole col
simbolo |
 Disagio OR disturbo
 Sociale | sociali

 Il booleano AND non va digitato: Google lo usa


automaticamente
Cercare specifici documenti - 1
36

 Filetype: per stabilire il tipo di file da recuperare


 evidence based medicine filetype:pdf
 Site: per restringere la ricerca a un sito o a un
dominio
 Assisenti sociali site:www.comune.brindisi.it
 guidelines site:.gov (con o senza punto prima del dominio)
 Link: per visualizzare le pagine che linkano a un
sito
 link:pubmed central
 Define: per ottenere la definizione di un termine
 Define:social science
Cercare specifici documenti - 2
37

 Stands for: per sciogliere sigle e acronimi


 IBM stands for

 Related: per trovare siti simili o collegati a quello


indicato
 related:http://www.unisalento.it
Cercare specifici documenti - 3
38

 Allintext: per trovare pagine che hanno nel testo


tutti i termini indicati
 Allintext: assistenti sociali
 Allintitle: per trovare pagine che hanno nel titolo

tutti i termini indicati


 allintitle:allergic contact dermatitis
 Allinurl: per trovare pagine che hanno nell’URL

tutti i termini indicati


 allinurl: disagio giovanile
Operatori di calcolo
39

 x + y addizione
 x – y sottrazione
 x / y divisione (es. 10 / 2)
 x * y moltiplicazione (es. 2 * 4)
 x% of y percentuale (es. 25% of 10)
 x % y resto della divisione (es. 5 % 2)
 x^y elevamento a potenze (es. 2^4)
Ricerca avanzata
40

 Link: per visualizzare le pagine collegate


(link) ad un preciso URL
(es.:link:www.unimi.it)
Ricerca avanzata: 1. Contenuti
41

I campi di ricerca sono combinati con booleani


preimpostati per trovare le pagine che…
 contengono tutte le parole inserite
oppure
 contengono una parola o una frase esatta
oppure
 contengono una qualunque delle parole inserite
oppure
 non contengono una o più parole
Sono indicate le modalità per impostare le diverse
ricerche direttamente nella stringa di ricerca del
motore
Ricerca avanzata: 2. Limiti
42

Una volta definita, la ricerca può essere circoscritta a


determinate pagine in base a...

 lingua
 area geografica
 ultimo aggiornamento
 sito o dominio
 posizione delle parole
 formato delle pagine
 diritti di utilizzo (licenza d’uso)
I campi della ricerca avanzata
43
Da ricordare
44

 La ricerca in Google non fa distinzione fra termini


di ricerca scritti in maiuscolo o in minuscolo
 La posizione dei termini all’interno delle pagine
ne influenza il ranking
 Google privilegia i siti descritti con keyword
chiare, precise e facilmente intuibili dagli utenti
Google libri
45

http://books.google.it
 Consultazione gratuita di parti di volumi

(anche protetti da copyright)


 Frontespizio, indice
 Descrizione del contenuto, capitoli saggio
 L’intera opera (se non soggetta a copyright)
 Indice
 Informazioni sugli autori
 Recensioni sul web
Ricerca libri avanzata
46
La letteratura accademica
47

Google propone come primo risultato una selezione di Articoli


accademici
Google Scholar
48

http://scholar.google.it/
Nato nel 2004 per la ricerca della letteratura
accademica, sia online sia conservata in specifiche
biblioteche
 documenti pubblicati o in corso di stampa
 libri
 tesi
 atti di congressi
 articoli
 abstract
 report tecnici
Google scholar: copertura disciplinare e fonti
49

 Scienze di base: chimica, fisica, biologia


 Umane: arte, letteratura
 Scienze applicate: medicina, economia …
 Editori
 Agenzie governative
 Società scientifiche e ordini professionali
 Repository universitari e istituzionali
Impostare le preferenze: importazione dei risultati
50
Impostare le preferenze: link
51
alle biblioteche
La ricerca libera
52

La frase pain relief è stata chiusa tra virgolette per escludere la


ricerca delle due singole parole.
La parola osteoarthritis è preceduta dalla tilde per includere anche i
sinonimi
La ricerca avanzata
53
 La parte superiore del modulo di ricerca avanzata permette di
ricercare i termini sia nel titolo dell’articolo che nel corpo dello
stesso
 La parte inferiore dà la possibilità di parametrare la ricerca per
autore, data, rivista
La ricerca per pubblicazione è un’opzione che andrebbe utilizzata
solo quando si è certi che un determinato articolo sia pubblicato
su una determinata rivista.
Ciò infatti potrebbe condizionare la completezza dei risultati perché
Google raccoglie le informazioni da un insieme di fonti molto
diverse.
Anche la ricerca per data potrebbe non essere completa a causa
delle possibili lacune nella indicizzazione bibliografica.
I link di Google Scholar
54

1
2 3

4 7
5 6

1. Titolo (con le parole cercate in neretto)


2. Autore
3. Fonte
4. Documenti che citano il riferimento in questione
5. Altri documenti di interesse collegato
6. Elenca le versioni del documento presenti su web
7. Segnala la presenza del documento in biblioteche specializzate
8. Accesso al FT in rete di ateneo
Le citazioni e gli indici bibliometrici
55

 L’analisi citazionale è una delle funzioni più


caratteristiche di Scholar
 L’ordine col quale restituisce i risultati si basa sul
numero e sulla qualità delle citazioni che i singoli
articoli hanno ricevuto
 Scholar non calcola automaticamente l’H index, ma
sono alcuni software a farlo, partendo dai dati
recuperati da Scholar
 Il più conosciuto e aggiornato è Publish or Perish; è
gratuito e deve essere installato sul proprio pc:
http://www.harzing.com/pop.htm
Google Trends
56

http://www.google.com/trends

 Applicazione che fornisce i dati relativi alle ricerche eseguite


nel database di Google e alle news correlate
 Un diagramma misura l’interesse degli utenti di Google per
determinati termini e argomenti
 Le ricerche sono analizzate per periodo, città, regione,
lingua
 Per effettuare una comparazione fra più termini di ricerca,
questi vanno separati da una virgola (dreaming, nightmare)
57 Buon lavoro!

Potrebbero piacerti anche