Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Digital Libraries
Created @October 20, 2021 1:20 PM
Tags
Introduction to XML
Information representation
La domanda principale? Come descrivere i contenuti di una biblioteca e i contenuti del web?
Classificazione
È un concetto di mettere insieme gli stessi documenti che sono in relazione tra di loro.
Dobbiamo definire il modo in cui li considero simili. La classificazione per soggetti è una
delle migliori, l’idea è di avere poche categorie che servono per decidere la co-locazione
fisica dei documenti.
Digital Libraries 1
Catalogazione
L’idea più dettagliata. Per creare una descrizione del contenuto della biblioteca. Nel catalogo
si mette il surrogato dei documenti, cioè la sintassi di ciò che c’è nello scaffale. L’idea alla
base di questo ordinamento è quello di concetto di access point. Qual è l’elemento che io
voglio usare per andare a cercare il mio documento.
Access Point - è un elemento bibliografico con cui ho ordinato il mio catalogo. (Gli elementi
principali sono: titolo, autore, argomento ecc)
User Task
Authority Files
Dobbiamo sapere lo spelling esatto dei nomi, perché non c’è un modo univoco. Non si parla
solo delle persone, ma anche per località geografiche, nome aziende ecc.
Gli authority files sono dei grossi libroni che contengono le scritture dei nomi (standard).
*aggiungono anche altre informazioni addizionali biografici. Il mantenimento è costoso.
Subject Headings
Stesso ragionamento con SH. Quello che vale per i nomi, vale anche con i argomenti.
Esempi di LCSH:
Digital Libraries 2
UF (use for) BT (broader term) NT (narrower term) RT (related term) SA (see also)
C’è una serie dei libri, che da le regole per descrivere un documento. Ci sono migliaia di
regole che dicono come esattamente un bibliotecario deve descrivere un documento che
arriva in biblioteca. (libri, documento, opere) .
Con l’arrivo dei calcolatori negli anni 60/70, le biblioteche hanno messo dentro per primo il
catalogo: l’immagine della scheda del catalogo oppure il testo contenuto nella scheda
bibliografica. Si chiama OPAC - Online Public Access Catalog
OPAC più usato è WorldCat
MARC
Una volta avuti questi OPAC, si pone il problema, ma non possiamo scambiare queste
informazioni. NO! L’OPAC non è altro che una rappresentazione. C’era bisogno di uno
standard per poter scambiarsi le informazioni tra biblioteche. L’utente che va a cercare
documento in un posto A, può andare a cercare anche in posto B. La catalogazione è un
lavoro costoso e lungo. E anche qui si arriva al discorso del MARC. Idea del risparmio nelle
biblioteche nel avere un formato comune. È un risparmio di risorse.
UNIMarc è un formato di riferimento standard per favorire la circolazione dei dati, per
condividerli, scambiarli o derivarli.
È basata su un sistema di numeri, lettere e simboli per identificare i campi sulla scheda,
fornisce una descrizione precisa e condivisibile dell’oggetto.
Ogni scheda bibliografica è divisa in campi, c’è un campo per l’autore, uno per un titolo
informativo e cosi via. Questi campi sono suddivisi a sua volta in sotto-campi. I campi
possono essere ripetibili. Ogni campo è associato a un numero di 3 cifre, chiamato “tag”.
Ogni tag identifica il campo che lo segue. Due posizioni di carattere che seguono ogni tag.
Uno dei due può essere usato come “indicatore”. In alcuni campi sono il primo o il secondo
viene usato. In altri vengono usati entrambi le posizioni. E in alcuni ancora nessuna dei due.
Digital Libraries 3
Resources in the web: Metadata, Dublin Core
Per il Web si affronta lo stesso argomento di catalogazione e classificazione dei documenti.
Il contenuto del web è stato chiamato risorse mentre la sua descrizione Metadata. Nel giro di
un paio di anni, il web è esploso. Sia in termini di quantità (data bases, repertori) , che di
varietà (immagini, audio, video suoni, 3D ecc)
È arrivato Il fenomeno di Self-Publishing. Quando gli autori hanno iniziato ad usare il web
per pubblicare articoli e ricerche. Ora siamo nel web, chiunque può pubblicarsi online, su
parla dei metadati ora, la descrizione dei contenuti nel web.
Self-publishing
Prima le pubblicazioni erano su carta. Il meccanismo era: scrivo un articolo per la
pubblicazione, il giornale manda l’articolo agli esperti (peer review) e ne danno il giudizio (il
suo valore, se copiato o no) quindi passano circa 1-2 anni.
Poi è arrivato self-publishing con web, gli autori pubblicavano i loro articoli sulle proprie
pagine personali.
Gli istituti hanno reagito a questo fenomeno mettendo su quello che era database, ma
chiamati Institutional Repositories.
Institutional Repositories
Prima si trattava di un database di questi pubblicazioni digitali. Non c’era un punto centrale.
Digital Libraries 4
Hanno cominciato a collezionare le pubblicazioni scientifiche. A questo punto IR ha avuto un
po di vantaggi:
METADATA
Alcuni definizioni:
informazioni comprensibili
Stesso discorso per il catalogo. Serve per l’utente a trovare le risorse, a identificare la risorsa
giusta, infine a selezionare e acquisire quella risorsa.
Anche per descrivere il contesto: la produzione e manutenzione, distribuzione e archiviazione
della risorsa, come preservarli a lungo termine, i profili di cui si potrebbe applicare.
Non è una semplice scheda bibliografica. Permette di fare tutte le funzioni di una scheda
bibliografica (trovare le risorse e catalogarle) ma possono fornire anche informazioni
aggiuntive (software giusto per la gestione, supportare l’archiviazione e la conservazione)
Digital Libraries 5
Embedded MetaData and Stand-alone MetaData
I metadati possono essere incorporati in un oggetto digitale oppure possono essere conservati
separatamente.
administrative metadata - descrivono cosa si può fare con la risorsa. È la gestione dei
diritti, i modi migliori per preservare questa risorsa.
DUBLIN CORE
È nato dal mondo dei Institutional Repositories. È diventato uno standard internazionale. È
descritto almeno in 3 standard (ISO standard, NISO standard, IETF RFC)
Entità informali:
W3C - World Wide Web Consortium - esiste come entità formale, ma funziona
attraverso raccomandazioni. Consorzio di industrie e centri di ricerca che stabiliscono i
protocolli delle applicazioni del web.
Digital Libraries 6
È estensibile! É stata fatta in due modi, aggiungendo nuovi elementi (dai 15 iniziali ai 22
elementi), aggiungendo dei qualificatori (informazioni addizionali che permettono di
specificare meglio gli elementi (element refinements) o specificare meglio i valori che posso
dare a quegli elementi (encoding schemes - sintassi e vocabolario)
Nuovi elementi
Audience
Provenance
RightsHolder
Instructional Method
Accrual Method/Periodicity/Policy
il vocabolario
sintassi
dumb-down
Digital Libraries 7
one-to-one
appropriate values
Il Dublin Core è uno standard minimalista, con l’idea che deve essere applicabile a una
categoria di oggetti più vasta e può essere usata da tutti.
Dopo aver saputo tutto del Dublin Core, dopo aver avuto una risorsa, dopo averla descritta, si
pone il problema di mettere questa descrizione dentro il calcolatore.
Expressing Dublin Core significa prendere la nostra definizione di Dublin Core e metterlo in
una dorma che può essere messa dentro il calcolatore.
Pagine HTML (si può descrivere i metadati dentro il html tag meta, queste informazioni
non sono essenzialmente per il browser)
come documento XML (XML è una sintassi per annotare i documenti, ci sono i valori
dei metadati)
Digital Libraries 8
materiali che non hanno struttura propria (spesso testi).
Il modello concettuale è il modello alla google (schermo dove scrivo tot parole, ricerca e vai)
Ma cosa c’è dietro? Il motore di ricerca dietro le quinte deve fare due cose:
L’idea di indice è che io ho le parole che sono dentro i documenti e per ogni parola ho un
documento da cui viene.
dopo la richiesta, rapidamente, deve applicare un algoritmo che calcola la rilevanza dei
documenti che ha trovato, di questa query, rispetto a quello che potrebbe essere
l’esigenza di informazione espressa dalla query!
Indicazione - Indice
Poi bisogna costruire un indice, una volta fatto, diventa in grado di poter accettare delle
query!
L’indice è un’estensione del concetto di Concordanza nel IR. L’idea è data una parola, in un
documento andare a trovare le parole in corrispondenza di quella parola e vedere in che
contesto esiste. Sapere quali sono tutti i documenti in cui compare tale parola.
Digital Libraries 9
L’indice dovrà contenere una lista di termini diversi che appaiono in tutta la collezione. Per
ogni termine, la lista dei documenti nei quali appare quel termine. Informazioni aggiuntive
relative ai termini.
Digital Libraries 10
fornisce le indicazioni = documenti e parola appaiono in tot documenti.
Ma in aggiunta ci sono il numero di parole in cui compare.
capire il formato di documento che abbiamo. che linguaggio è, ottenere la lingua, tipo di
documento, codifica dei caratteri (es. UTF-8). Serve per estrarre il testo da documenti,
per farla diventare una stringa di parole, separati da spazi.
tokenizzazione = ogni parola diventa un termine. Ripulire dalle ose che non servono
(apostrofi etc)
Eliminazione delle stop words . Eliminare le lettere comuni/diffuse che non servono a
nulla per identificare un documento (es. tutti i documenti che contengono “and”)
Digital Libraries 11
Some important terms!
documents - collezione
number of terms - numero che ci interessa, rappresenta la lunghezza del lessico, costruito
con le parole distinti contenute nei documenti.
index pointers - quanto è grosso l’indice, associazione fra parola/ termini e numero di
documenti in cui appare quel termine. Somma della lunghezza della postings list.
test collections
Per avere idea quanto sia grande l’indice, si torna al discorso quanto spazio abbiamo bisogno
per rappresentare il mio indice.
*per esempio, Per rappresentare un index pointer dun una collezione TREC, ho bisogno di 20
bit.
C’é bisogno di un indice per ogni parola della collezione. Per ogni documento devo
memorizzare la posizione in cui indice compare. Bisogna ragionare in termini di megabyte e
gigabyte.
L’indice viene compresso - l’idea della compressione è un meccanismo molto usato. L’idea è
quella di avere un meccanismo di codifica che prende l’informazione che entra dentro, fa
sopra delle operazioni matematiche in modo tale che il numero di bit che esce da questo
meccanismo di codifica sia abbastanza più piccolo di quello che entrava. M poi devo
decomprimere, quando questa informazione arriva a destinazione, quindi devo recuperarla in
una forma originale.
Digital Libraries 12
Il lessico viene tenuto in memoria, viene gestita in tabella colonne, invece posting lists sono
tenuti in disk
Document frequency (quanti documenti contengono quel termine) è tenuto in lessico.
Per i lessici più piccoli c’è un meccanismo delle tabelle Hash. L’idea alla base è quella di
avere un algoritmo Hash, il quale prende in ingresso una stringa di caratteri e ci fa sopra delle
operazioni matematiche che trasformano la stringa in un numero. (le hash table l’idea è di
avere un algoritmo che trasforma una stringa dei caratteri in un numero)
succede che il meccanismo di esecuzione della query dipende da come sono strutturati i
dati all’interno del calcolatore.
dati strutturati
semi strutturati
non strutturati
avere una exact match, ossia - una ricerca esatta rispetto alla mia query.
per questo si parla di query booleana - il mio risultato deve avere la connotazione chiara
per dire se soddisfa o no la query. recupero quello che appartiene alla query.
Digital Libraries 13
Nel nostro mondo quello che si fa, è un Relevance based retrieval. Recupero
informazioni basate all’importanza che loro hanno rispetto alla Query. Non è più una
query booleana.
Il discorso del Free Text Retrieval - non supponiamo la struttura del testo . In un certo senso
si cercano documenti che contengono X parole , ma la trasformazione della query non è in
termini 01, ma in fatto di termini se compaiono o non compaiono. L’idea di ricerca su dati
non strutturati è l’idea di cercare i concetti, non le parole.
Componenti di un motore di ricerca
Tokkenizzazione allo stesso modo che ho fatto per i documenti (query parser) ottengo
dei token dello stesso tipo dei criteri che ci sono nel lessico.
Usando l’indice, cerco quel sottoinsieme di documenti che soddisfano i termini della mia
query (query engine)
Ultimo passo è il formatter, i risultati che escono dalla query devono essere formattati in
modo che possono essere visualizzati da un umano (formatter)
La query è una sequenza di termini di query senza connettività booleana esplicita. Alcuni di
questi termini di query potrebbero essere assenti in un documento.
Non è pratico:
Digital Libraries 14
considerare l’AND di tutti i termini delle query
C’è bisogno di definire un metodo per calcolare una misura di rilevanza tra la query e un
documento. Il risultato può essere ordinato secondo la misura di rilevanza.
Rappresentazione di documenti
Si parla del sistema di rilevanza che ha riguardato la query. Il discorso di rilevanza deve avere
il modello che c’è dietro.
Quindi, l’idea è prendere tutti i termini della query come se fosse un documento anche quelli
e cercare un modo per misurare la rilevanza del documento che rappresenta la query e i
documenti che sono nella collezione. Se ho un meccanismo per farlo, ecco che diventa facile
per il sistema fare l’ordinamento di rilevanza.
Questo è il modello che c’è dietro. Per seguirlo bisogna rappresentare i documenti in modo
che sia gestibile dal calcolo della rilevanza. Il problema è come rappresentare un documento
in modo che poi sia utile? L’idea è rappresentare un documento con la lista delle parole che
contiene = bag of words. È stata la prima idea.
Il modo più semplice e immediato è quello di associare ogni documento a un vettore, a una
lista di numeri. E questo vettore ha tanti elementi quanto sono i termini del lessico. Si
visualizza il lessico e diventa semplice.
Gli elementi del vettore sono:
Zero (0) per quelle parole del lessico che non appaiono nel documento.
un numero (peso) per le tot parole del lessico contenente nel documento.
Digital Libraries 15
Architettura di un motore di ricerca
Dove il mondo esterno è il web e l’user che fa le domande. Il motore di ricerca ha queste tre
componenti principali
- web crawler - parte dei motori di ricerca che va in giro per il web a recuperare le pagine,
per poi indicizzarle
- indexer
- e dopodiché il motore di ricerca è pronto a ricevere le query (search)
Le pagine che vengono indicizzate sono le pagine statiche. Ma sempre più nel mondo del
web, vediamo le pagine dinamiche. Le pagine dinamiche non possono essere indicizzate.
Quindi quando si parla di indicizzazione, si parla di web di superficie. Le pagine dinamiche
fanno parte del deep web. Non si può misurare la profondità.
Crawling
Searching and Ranking (in real time) mettere in ordine di rilevanza ranking basato sul
contenuto della pagina
Display of results
Digital Libraries 16
- la stessa, affrontata nel mondo del web con RDF (descrive pezzetti del mondo e come
vengono applicati poi nel web vero, LOD)
Prendo un pezzetto dell’argomento che voglio modellare, descrivere e dopodiché devo andare
a identificare proprietà a relazioni e lo formalizzo. Lo descrivo in modo preciso andando a
definirmi una serie di entità (le classi che sono il focus di interesse), una serie di attributi (i
dati che caratterizzano le istanze delle entità) e una serie di relazioni (mettono in
collegamento le istanze di entità).
Esistono due modelli concettuali nel mondo delle biblioteche digitali.
find
identify
select
obtain
Digital Libraries 17
Il modello deve aiutare ad eseguire questi 4 task più semplice e utile possibile per l’utente
finale
Work - opera - Quello che è in mente nell’artista. È l’idea che ha avuto l’artista. Quando si ha
un idea, poi va espressa. Si parla de Expression.
Entità del gruppo 3 rappresentano quelle che sono il contenuto dell’opera. Il modello dice che
dal momento che un’opera può rappresentare qualsiasi cosa, allora l’opera ha un soggetto,
che sono queste 4 entità. Ci vuole un concetto più astratto (Concept), le cose concrete
dell’opera (Object), Event rappresenta il periodo/tempo dell’opera, mentre Place riguarda la
collocazione geografica.
FRBR family
Questo modello ha presentato almeno sue punti deboli. Uno è quello di non includere nel
modello le Authority Files (i libroni che raccolgono tutte le possibili scritture per un nome,
Digital Libraries 18
tutte le possibili ortografie per un nome di diversi spelling e indicano qual è quella
raccomandata)
In questo modello iniziale di 10 entità, le Authority Files non trovava posto, non si sapeva
come inserire questo modello. Allora il modello ha continuato ad essere raffinato ed espanso ,
e sono state publicate due estensioni di questo modello
????????????
RECAP
Il mondo delle biblioteche è partito inizialmente con FRBR (modello concettuale della
scheda bibliografica, che in sostanza cerca di allargarsi difinendo un modello concettuale a
grafo)
Un percorso quasi analogo è successo nel Web. Anche il web a un certo puto dopo inizio,
dopo aver definito HTML, sapendo che c’è questa possibilità del link, dei collegamenti, è
venuta idea di poter descrivere le cose in un modo molto più ricco rispetto a HMTL. Nel
web il punto di partenza è stata la rappresentazione della conoscenza.
La differenza tra il web e biblioteche, è che le biblioteche son partite da un pezzetto di mondo
abbastanza chiaro e delimitato (scheda bibliografica). Mentre per il web, c’è un meccanismo
più generalizzato, descrive ciò che c’è nel web. Nel web parte dal concetto di risorsa. La
risorsa è un qualunque cosa che posso definire come identificatore. Anche se il meccanismo è
partito per descrivere le risorse per il web, una volta avuto il meccanismo, posso descrivere
anche risorse che non sono nel web, risorse che non posso scaricare. Nessuno mi vieta di
descriverle e di mettere sul web. Posso descrivere cose non digitali, ottenendo una
descrizione digitale sul web.
Questa è l’idea alla base di meccanismo di descrizione.
Ma cosa sono le risorse, possono essere qualunque cosa di cui posso fare una descrizione.
Possono essere oggetti digitali, fisici, o astratti ecc.
Digital Libraries 19
Risorse e metadata
I metadata possono essere associati con qualunque risorsa: fisica, digital, risorsa astratta etc.
Tutte le risorse sono identificate da una URI, ossia una stringa di caratteri che identifica in
modo non ambiguo una particolare risorsa. Oggi si usa la parola IRI, che sta per International
Resource Identifier.
🔖 La differenza sta nel fatto che la URI (è un identificatore unico per una qualunque
risorsa) ha una sintassi propria definita. La URI è una stringa di caratteri, con un
certo formato, in formato ASCII.
C’è anche una altra sigla URL, la quale sta per Uniform Resource Locator. Rappresenta
indirizzo di rete per accedere a questa risorsa a cui è associata la URI. Ad esempio sono le
stringhe di caratteri presenti nella pagina HTML i link. URN non è stato più usato, Con il
concetto di “Nome” al posto di “Locator”
URLs
Dettagli sulla URL è
Digital Libraries 20
L’interoperabilità è lo scambio di informazioni tra due entità responsabili per queste
informazioni. Le biblioteche hanno sviluppato un sistema Z39-50 e il web hanno sviluppato
un sistema chiamato OAI-PMH.
Digital Libraries 21