Digital Libraries

📔
Digital Libraries
Created @October 20, 2021 1:20 PM
Tags
History and architecture of computers
Networking, OSI and Internet
Introduction to XML
Introduction to data compression
Information representation
Introduction to the course
A conceptual model of digital libraries
Concept maps for the conceptual model
CATALOGUING Bibliographic records OPAC MARC
Bibliographic records and metadata
La domanda principale? Come descrivere i contenuti di una biblioteca e i contenuti del web?
Classificazione
È un concetto di mettere insieme gli stessi documenti che sono in relazione tra di loro.
Dobbiamo definire il modo in cui li considero simili. La classificazione per soggetti è una
delle migliori, l’idea è di avere poche categorie che servono per decidere la co-locazione
fisica dei documenti.
Digital Libraries 1
Catalogazione
L’idea più dettagliata. Per creare una descrizione del contenuto della biblioteca. Nel catalogo
si mette il surrogato dei documenti, cioè la sintassi di ciò che c’è nello scaffale. L’idea alla
base di questo ordinamento è quello di concetto di access point. Qual è l’elemento che io
voglio usare per andare a cercare il mio documento.
Access Point - è un elemento bibliografico con cui ho ordinato il mio catalogo. (Gli elementi
principali sono: titolo, autore, argomento ecc)
La motivazione iniziale del catalogo è stato fare l’inventario per trovare

rapidamente le richieste. Lo scopo è di facilitare l’accesso alla
biblioteca
User Task
Un processo di un visitatore che va a cercare un documento, è stato diviso in 4 passi diversi.
find (trovare l’entità che corrisponde al criterio di ricerca del visitatore)
identify (identificare ogni entità ritrovata, capire che documento è)
select (selezionare documenti trovati, che voglio consultare)
acquire/obtain (ottenere il documento che l’utente cercava)
Fino agli anni 50/60 questo catalogo veniva materializzato su carta, su

schede di cartoncino
Microfishe Reader - La scheda bibliografica doveva essere divisa in zone.
Authority Files
Dobbiamo sapere lo spelling esatto dei nomi, perché non c’è un modo univoco. Non si parla
solo delle persone, ma anche per località geografiche, nome aziende ecc.
Gli authority files sono dei grossi libroni che contengono le scritture dei nomi (standard).
*aggiungono anche altre informazioni addizionali biografici. Il mantenimento è costoso.
Subject Headings
Stesso ragionamento con SH. Quello che vale per i nomi, vale anche con i argomenti.
La loro bibbia è LCSH (Library of Congress Subject Headings)
Esempi di LCSH:
Digital Libraries 2
UF (use for) BT (broader term) NT (narrower term) RT (related term) SA (see also)
AACR2R (seconda edizione)
C’è una serie dei libri, che da le regole per descrivere un documento. Ci sono migliaia di
regole che dicono come esattamente un bibliotecario deve descrivere un documento che
arriva in biblioteca. (libri, documento, opere) .
Con l’arrivo dei calcolatori negli anni 60/70, le biblioteche hanno messo dentro per primo il
catalogo: l’immagine della scheda del catalogo oppure il testo contenuto nella scheda
bibliografica. Si chiama OPAC - Online Public Access Catalog
OPAC più usato è WorldCat
MARC
MAchine Readable Cataloging
Una volta avuti questi OPAC, si pone il problema, ma non possiamo scambiare queste
informazioni. NO! L’OPAC non è altro che una rappresentazione. C’era bisogno di uno
standard per poter scambiarsi le informazioni tra biblioteche. L’utente che va a cercare
documento in un posto A, può andare a cercare anche in posto B. La catalogazione è un
lavoro costoso e lungo. E anche qui si arriva al discorso del MARC. Idea del risparmio nelle
biblioteche nel avere un formato comune. È un risparmio di risorse.
UNIMarc è un formato di riferimento standard per favorire la circolazione dei dati, per
condividerli, scambiarli o derivarli.
È basata su un sistema di numeri, lettere e simboli per identificare i campi sulla scheda,
fornisce una descrizione precisa e condivisibile dell’oggetto.
Ogni scheda bibliografica è divisa in campi, c’è un campo per l’autore, uno per un titolo
informativo e cosi via. Questi campi sono suddivisi a sua volta in sotto-campi. I campi
possono essere ripetibili. Ogni campo è associato a un numero di 3 cifre, chiamato “tag”.
Ogni tag identifica il campo che lo segue. Due posizioni di carattere che seguono ogni tag.
Uno dei due può essere usato come “indicatore”. In alcuni campi sono il primo o il secondo
viene usato. In altri vengono usati entrambi le posizioni. E in alcuni ancora nessuna dei due.
Digital Libraries 3
Resources in the web: Metadata, Dublin Core
Per il Web si affronta lo stesso argomento di catalogazione e classificazione dei documenti.
Il contenuto del web è stato chiamato risorse mentre la sua descrizione Metadata. Nel giro di
un paio di anni, il web è esploso. Sia in termini di quantità (data bases, repertori) , che di
varietà (immagini, audio, video suoni, 3D ecc)
È arrivato Il fenomeno di Self-Publishing. Quando gli autori hanno iniziato ad usare il web
per pubblicare articoli e ricerche. Ora siamo nel web, chiunque può pubblicarsi online, su
parla dei metadati ora, la descrizione dei contenuti nel web.
Self-publishing
Prima le pubblicazioni erano su carta. Il meccanismo era: scrivo un articolo per la
pubblicazione, il giornale manda l’articolo agli esperti (peer review) e ne danno il giudizio (il
suo valore, se copiato o no) quindi passano circa 1-2 anni.
Poi è arrivato self-publishing con web, gli autori pubblicavano i loro articoli sulle proprie
pagine personali.
Gli istituti hanno reagito a questo fenomeno mettendo su quello che era database, ma
chiamati Institutional Repositories.
Institutional Repositories
Prima si trattava di un database di questi pubblicazioni digitali. Non c’era un punto centrale.
Digital Libraries 4
Hanno cominciato a collezionare le pubblicazioni scientifiche. A questo punto IR ha avuto un
po di vantaggi:
ha il vantaggio sia l’autore che l’istituto
la velocità e facilitazione di pubblicazioni, anche facilitazione in condivisione e lo

sviluppo dei materiali didattici
METADATA
Alcuni definizioni:
informazioni comprensibili
dati associati a oggetti
dati strutturati sulle risorse
dati strutturati sui dati
informazioni strutturate che descrivono, spiegano, localizzano o altro semplifica il

recupero, l’utilizzo o la gestione di una risorsa di informazioni.
Diversi usi del termine metadata:
Database Management Systems (informazioni comprensibili sulla macchina)
World Wide Web: record che descrivono “risorse”
Ambiente della biblioteca: qualsiasi schema formale di descrizione del documento,

applicabile a qualsiasi tipo di oggetto, digitale o non digitale.
Quindi la tradizionale catalogazione delle biblioteche è una forma di metadati. MARC21 ,

AACR2R sono lo standard dei metadati.
I metadati possono essere associati a qualunque entità: fisica, digitale, risorsa astratta etc...
A cosa servono?
Stesso discorso per il catalogo. Serve per l’utente a trovare le risorse, a identificare la risorsa
giusta, infine a selezionare e acquisire quella risorsa.
Anche per descrivere il contesto: la produzione e manutenzione, distribuzione e archiviazione
della risorsa, come preservarli a lungo termine, i profili di cui si potrebbe applicare.
Non è una semplice scheda bibliografica. Permette di fare tutte le funzioni di una scheda
bibliografica (trovare le risorse e catalogarle) ma possono fornire anche informazioni
aggiuntive (software giusto per la gestione, supportare l’archiviazione e la conservazione)
Digital Libraries 5
Embedded MetaData and Stand-alone MetaData
I metadati possono essere incorporati in un oggetto digitale oppure possono essere conservati
separatamente.
È meglio conservare metadata separatamente in database, e linkare con gli oggetti

I tipi di metadata
descriptive metadata - servono per descrivere la risorsa (titolo, autore)
structural metadata - posso avere oggetti digitali composti da più file
technical metadata - indica hardware o il software usato per convertire i materiali in

formato digitale
administrative metadata - descrivono cosa si può fare con la risorsa. È la gestione dei
diritti, i modi migliori per preservare questa risorsa.
DUBLIN CORE
È nato dal mondo dei Institutional Repositories. È diventato uno standard internazionale. È
descritto almeno in 3 standard (ISO standard, NISO standard, IETF RFC)
Entità informali:
IETF - esperti che definiscono gli standard di internet a livello operativo
RFC - sotto-forma di RFC, IETF pubblica le raccomandazioni , RFC fa i suoi commenti,

Sono dei Recommendation Standard
W3C - World Wide Web Consortium - esiste come entità formale, ma funziona
attraverso raccomandazioni. Consorzio di industrie e centri di ricerca che stabiliscono i
protocolli delle applicazioni del web.
Elementi di Dublin Core
Il Dublin Core ha definito 15 elementi per descrivere le risorse.
Content - Title, Subject, Description, Type, Source, Relation, Coverage
Intellectual Property - Creator, Contributor, Publisher, Rights
Instantiation - Date, Format, Identifier, Language.
Tutti gli elementi sono opzionali, ripetibili, possono essere mostrati in

qualunque ordine.
Digital Libraries 6
È estensibile! É stata fatta in due modi, aggiungendo nuovi elementi (dai 15 iniziali ai 22
elementi), aggiungendo dei qualificatori (informazioni addizionali che permettono di
specificare meglio gli elementi (element refinements) o specificare meglio i valori che posso
dare a quegli elementi (encoding schemes - sintassi e vocabolario)
Nuovi elementi
Audience
Provenance
RightsHolder
Instructional Method
Accrual Method/Periodicity/Policy
Element refinements (raffinamento) - questa qualificazione restringe il significato

dell’elemento iniziale. Significa definire una sottoclasse di un certo elemento.
Encoding schemes - questi qualificatori identificano e specificano gli schemi di

interpretazione di un valore di un elemento, di un certo meta-dato! Informazioni aggiuntivi,
nel modo tale chi legga i dati, può specificare il valore.
due categorie, encoding schemes che specificano:
il vocabolario
sintassi
Ci sono tre elementi:
dumb-down
Digital Libraries 7
one-to-one
appropriate values
Visione storica di Dublin Core

È nato verso la metà degli anni 90, per l’enorme sviluppo delle pubblicazioni scientifiche sul
web, messe senza nessun descrizione. La comunità scientifica necessitava di definire un
meccanismo semplice, alla portata di tutti, per poter descrivere quelle pubblicazioni!
La conoscenza degli elementi DC servirà al progetto.
****definizione degli 15 elementi***
MARC e Dublin Core

Anche MARC si può descrivere come un insieme di metadati come il Dublin Core, ma è uno
standard di definizione di metadati molto ricco, ben sviluppato da professionisti.
Il Dublin Core è uno standard minimalista, con l’idea che deve essere applicabile a una
categoria di oggetti più vasta e può essere usata da tutti.
Expressing Dublin Core
Dopo aver saputo tutto del Dublin Core, dopo aver avuto una risorsa, dopo averla descritta, si
pone il problema di mettere questa descrizione dentro il calcolatore.
Expressing Dublin Core significa prendere la nostra definizione di Dublin Core e metterlo in
una dorma che può essere messa dentro il calcolatore.
Ci sono 3 modi principali per farlo.
Pagine HTML (si può descrivere i metadati dentro il html tag meta, queste informazioni
non sono essenzialmente per il browser)
come documento XML (XML è una sintassi per annotare i documenti, ci sono i valori
dei metadati)
Più usata oggi è triple RDF (Resource Description Framework)
Information retrieval INDEXING

Uno dei capitoli principali di Biblioteche Digitali: Information Retrieval and Search Engines.
Senza motori di ricerca sarebbe difficile trovare qualcosa.
IR or Information Retrieval (free text retrieval) è una disciplina nata negli anni 70, quando i
calcolatori hanno cominciato ad avere successo. È una disciplina che permette di trovare
Digital Libraries 8
materiali che non hanno struttura propria (spesso testi).
Il modello concettuale è il modello alla google (schermo dove scrivo tot parole, ricerca e vai)
Ma cosa c’è dietro? Il motore di ricerca dietro le quinte deve fare due cose:
costruire un indice (decidere un sottoinsieme di documenti che potrebbero essere di

interesse, il secondo mettere in ordine di rilevanza questo sottoinsieme di documenti)
L’idea di indice è che io ho le parole che sono dentro i documenti e per ogni parola ho un
documento da cui viene.
dopo la richiesta, rapidamente, deve applicare un algoritmo che calcola la rilevanza dei
documenti che ha trovato, di questa query, rispetto a quello che potrebbe essere
l’esigenza di informazione espressa dalla query!
Indicazione - Indice
Primo passo è l’indicizzazione, il passo più importante!

Consiste nel dare dei documenti ai motori di ricerca, dargli una collezione di documenti.
Poi bisogna costruire un indice, una volta fatto, diventa in grado di poter accettare delle
query!
Meccanismo, come funziona?
Come indicizzare una collezione dei documenti?

Query - di solito è una sequenza di parole
I risultati escono in ordine di rilevanza.
Indice nel libro - i capitoli del libro
Catalogo - indice della biblioteca
Concordanza - sapere la posizione della parola in un libro
L’indice è un’estensione del concetto di Concordanza nel IR. L’idea è data una parola, in un
documento andare a trovare le parole in corrispondenza di quella parola e vedere in che
contesto esiste. Sapere quali sono tutti i documenti in cui compare tale parola.
Una collezione è un set di documenti, ognuno descritto da un set di

termini rappresentativi.
— definire in anticipo su quale sia il documento della collezione —
pdf, immagine, capitolo di un libro, pagine di un libro.
— definire la “granularità” dell’indice
Digital Libraries 9
L’indice dovrà contenere una lista di termini diversi che appaiono in tutta la collezione. Per
ogni termine, la lista dei documenti nei quali appare quel termine. Informazioni aggiuntive
relative ai termini.
Un’altro esempio d’indice:
Digital Libraries 10
fornisce le indicazioni = documenti e parola appaiono in tot documenti.
Ma in aggiunta ci sono il numero di parole in cui compare.
Processo di input del testo

Vediamo come costruire un indice, la sequenza delle operazioni:
capire il formato di documento che abbiamo. che linguaggio è, ottenere la lingua, tipo di
documento, codifica dei caratteri (es. UTF-8). Serve per estrarre il testo da documenti,
per farla diventare una stringa di parole, separati da spazi.
tokenizzazione = ogni parola diventa un termine. Ripulire dalle ose che non servono
(apostrofi etc)
normalizzazione = ( a. accenti e segni diacritici
b. case folding = ridurre le maiuscole in minuscole. Eliminare gli acronimi.

c. stemming = cercare la radice di una parola in modo che tutte le parole diventino un’unica
parola (es. organize, organizes, organization - organiz)
d. lemmatizzazione - es. am/are/is = be. Portale la parola alla sua radice.
Eliminazione delle stop words . Eliminare le lettere comuni/diffuse che non servono a
nulla per identificare un documento (es. tutti i documenti che contengono “and”)
Some important terms!
documents - collezione
number of terms - numero che ci interessa, rappresenta la lunghezza del lessico, costruito
con le parole distinti contenute nei documenti.
index pointers - quanto è grosso l’indice, associazione fra parola/ termini e numero di
documenti in cui appare quel termine. Somma della lunghezza della postings list.
dimensione totale - interessa poco oggi
test collections
TREC - Text Retrieval Conference (collezioni trec)

documenti, numero di parole, numero dei termini distinti, index pointers (il numero di
occorrenze di ogni termine in ogni documento, associazione fra una parola nel lessico e un
documento in cui compare), total size (mbytes)
Index Size
Per avere idea quanto sia grande l’indice, si torna al discorso quanto spazio abbiamo bisogno
per rappresentare il mio indice.
*per esempio, Per rappresentare un index pointer dun una collezione TREC, ho bisogno di 20
bit.
C’é bisogno di un indice per ogni parola della collezione. Per ogni documento devo
memorizzare la posizione in cui indice compare. Bisogna ragionare in termini di megabyte e
gigabyte.
L’indice viene compresso - l’idea della compressione è un meccanismo molto usato. L’idea è
quella di avere un meccanismo di codifica che prende l’informazione che entra dentro, fa
sopra delle operazioni matematiche in modo tale che il numero di bit che esce da questo
meccanismo di codifica sia abbastanza più piccolo di quello che entrava. M poi devo
decomprimere, quando questa informazione arriva a destinazione, quindi devo recuperarla in
una forma originale.
Ci sono due tipi di compressione e decompressione:
algoritmi di compressione - loseless. es. le cartelle zippate. L’idea è che quando si fa

l’operazione di decompressione, la stringa di bit che esce è uguale alla stringa che è
entrata prima, senza perdita.
algoritmi di compressione con perdita - lossy. Si fa sostanzialmente per gli immagini e

suoni. Quando si fa decompressione, l’informazione che si ottiene non è come prima, ma
è minore, perché perde informazioni. (jpeg, mp3)
Il lessico viene tenuto in memoria, viene gestita in tabella colonne, invece posting lists sono
tenuti in disk
Document frequency (quanti documenti contengono quel termine) è tenuto in lessico.
Term Frequency vengono tenuti con inverted lists.

La ricerca binaria o hash tables si usa per accedere al lessico
Tabelle Hash
Per i lessici più piccoli c’è un meccanismo delle tabelle Hash. L’idea alla base è quella di
avere un algoritmo Hash, il quale prende in ingresso una stringa di caratteri e ci fa sopra delle
operazioni matematiche che trasformano la stringa in un numero. (le hash table l’idea è di
avere un algoritmo che trasforma una stringa dei caratteri in un numero)
Information retrieval RANKING

Si parla di come si fa il ranking cioè ordinamento di una query.
Si parte dall’information need. Poi si effettua la Query. La Query viene inviata e ne viene
valutato il risultato. Se soddisfa, l’operazione finisce.
Sennò riformula dal passo della query. Processo che si fa senza pensare quando si usa google.
Dopo questo processo che succede.
succede che il meccanismo di esecuzione della query dipende da come sono strutturati i
dati all’interno del calcolatore.
Ci sono tre livelli di una ricerca su
dati strutturati
semi strutturati
non strutturati
Significa che in aggiunta ai dati, ho informazione su come sono organizzate (strutturate),

come sono semi organizzate o una sequenza di immagini, ma nessuna nozione sulla struttura
che posso avere. Bisogna considerarlo quando si fa una query.
Altre considerazioni importanti:
avere una exact match, ossia - una ricerca esatta rispetto alla mia query.
per questo si parla di query booleana - il mio risultato deve avere la connotazione chiara
per dire se soddisfa o no la query. recupero quello che appartiene alla query.
Nel nostro mondo quello che si fa, è un Relevance based retrieval. Recupero
informazioni basate all’importanza che loro hanno rispetto alla Query. Non è più una
query booleana.
Dati Strutturati - query booleana

I dati strutturati tendono a riferire l’informazione in tabelle
Dati semi strutturati - query booleana

Le query semi strutturate sono tipiche dei cataloghi: perché sono nati come trasposizione in
Machine Readable, come schede bibliografiche, organizzato in campi (OPAC), distinguo
delle zone chiamati campi. Di solito si definisce come ricerca a campi. Esempio è la struttura
delle slide che ha zone identificate (titolo, testo strutturato con i punti)
Bisogna specificare i campi in cui devo fare la ricerca. È un tipo di Query che può aggiungere
informazioni di altro tipo.
Dati non strutturati - query booleana
Il discorso del Free Text Retrieval - non supponiamo la struttura del testo . In un certo senso
si cercano documenti che contengono X parole , ma la trasformazione della query non è in
termini 01, ma in fatto di termini se compaiono o non compaiono. L’idea di ricerca su dati
non strutturati è l’idea di cercare i concetti, non le parole.
Componenti di un motore di ricerca
Tokkenizzazione allo stesso modo che ho fatto per i documenti (query parser) ottengo
dei token dello stesso tipo dei criteri che ci sono nel lessico.
Usando l’indice, cerco quel sottoinsieme di documenti che soddisfano i termini della mia
query (query engine)
A questo punto scatta il meccanismo del ranking, l’ordinamento = i documenti vengono

ordinati in base alla loro rilevanza rispetto alla query (relevance ranker)
Ultimo passo è il formatter, i risultati che escono dalla query devono essere formattati in
modo che possono essere visualizzati da un umano (formatter)
Modello per le “free test queries”
La query è una sequenza di termini di query senza connettività booleana esplicita. Alcuni di
questi termini di query potrebbero essere assenti in un documento.
Non è pratico:
considerare l’AND di tutti i termini delle query
considerare l’OR di tutti i termini delle query
C’è bisogno di definire un metodo per calcolare una misura di rilevanza tra la query e un
documento. Il risultato può essere ordinato secondo la misura di rilevanza.
Rappresentazione di documenti
Si parla del sistema di rilevanza che ha riguardato la query. Il discorso di rilevanza deve avere
il modello che c’è dietro.
Quindi, l’idea è prendere tutti i termini della query come se fosse un documento anche quelli
e cercare un modo per misurare la rilevanza del documento che rappresenta la query e i
documenti che sono nella collezione. Se ho un meccanismo per farlo, ecco che diventa facile
per il sistema fare l’ordinamento di rilevanza.
Questo è il modello che c’è dietro. Per seguirlo bisogna rappresentare i documenti in modo
che sia gestibile dal calcolo della rilevanza. Il problema è come rappresentare un documento
in modo che poi sia utile? L’idea è rappresentare un documento con la lista delle parole che
contiene = bag of words. È stata la prima idea.
Passo successivo: è come rappresentare questa sporta di parole in un modo matematico?

Il calcolatore può fare solo i calcoli, non confronti. Quindi il problema è quello di
rappresentare i documenti in modo matematico. In modo da poter dare in pasto a una
formula, a un algoritmo, il quale mi darà un numero.
Il modo più semplice e immediato è quello di associare ogni documento a un vettore, a una
lista di numeri. E questo vettore ha tanti elementi quanto sono i termini del lessico. Si
visualizza il lessico e diventa semplice.
Gli elementi del vettore sono:
Zero (0) per quelle parole del lessico che non appaiono nel documento.
un numero (peso) per le tot parole del lessico contenente nel documento.
Cos’è il vettore? Lista ordinata di numeri, che può andare da 1 a N.
Architettura di un motore di ricerca
Dove il mondo esterno è il web e l’user che fa le domande. Il motore di ricerca ha queste tre
componenti principali
- web crawler - parte dei motori di ricerca che va in giro per il web a recuperare le pagine,
per poi indicizzarle
- indexer
- e dopodiché il motore di ricerca è pronto a ricevere le query (search)
Le pagine che vengono indicizzate sono le pagine statiche. Ma sempre più nel mondo del
web, vediamo le pagine dinamiche. Le pagine dinamiche non possono essere indicizzate.
Quindi quando si parla di indicizzazione, si parla di web di superficie. Le pagine dinamiche
fanno parte del deep web. Non si può misurare la profondità.
Funzioni principali di un motore di ricerca

Le funzioni principali sono:
Crawling
Indexing (in parallelo con Crawling)
Searching and Ranking (in real time) mettere in ordine di rilevanza ranking basato sul
contenuto della pagina
Ranking (nel web)
Display of results
Conceptual models: FRBR and LRM

Knowledge Representation
Seguiamo sempre le due strade parallele:
- l’idea della rappresentazione della conoscenza affrontata nel mondo delle biblioteche, dove
abbiamo FRBR
- la stessa, affrontata nel mondo del web con RDF (descrive pezzetti del mondo e come
vengono applicati poi nel web vero, LOD)
La rappresentazione della conoscenza interessa, ma perché?
La rappresentazione della conoscenza è il Santo Graal dell’Informatica, della scienza. Uno

dei campi più studiati negli anni 60 è stato il NLP.
Il discorso è ricomparso negli ultimi anni, prendendo il nome di Ontologies. Le ontologie
sono il modo che abbiamo oggi per rappresentare in modo più formale le conoscenza che
abbiamo di un certo campo.
D’oggi è migliorata la nostra conoscenza al come funziona il cervello
Cos’è un modello concettuale?
È un modello formalizzato.
Prendo un pezzetto dell’argomento che voglio modellare, descrivere e dopodiché devo andare
a identificare proprietà a relazioni e lo formalizzo. Lo descrivo in modo preciso andando a
definirmi una serie di entità (le classi che sono il focus di interesse), una serie di attributi (i
dati che caratterizzano le istanze delle entità) e una serie di relazioni (mettono in
collegamento le istanze di entità).
Esistono due modelli concettuali nel mondo delle biblioteche digitali.
FRBR, LRM - mondo biblioteche

RDF Schema - Mondo Web
FRBR
Sta per Functional Requirements for Bibliographic Records

È un modello iniziato verso gli anni 90
È un modello concettuale astratto dell’universo bibliografico, basato sulle entity-relationship
(entità, relazioni e attributi)
FRBR è stato definito con in mente gli User tasks principali
find
identify
select
obtain
Il modello deve aiutare ad eseguire questi 4 task più semplice e utile possibile per l’utente
finale
FRBR è un modello basato su 10 entità divise in 3 gruppi
Gruppo 1 - rappresenta le sue diverse manifestazioni, i suoi differenti livelli

Rappresenta l’opera, Il documento che vogliamo descrivere. il suo lavoro
WORK - EXPRESSION - MANIFESTATION - ITEM
Work - opera - Quello che è in mente nell’artista. È l’idea che ha avuto l’artista. Quando si ha
un idea, poi va espressa. Si parla de Expression.
Expression - espressione - Modo in cui intrinsecata quest’opera. Sottoforma di parole,

musica, immagini, suoni, movimenti. E molte combinazioni di tutte queste forme. Modo in
cui si può esprimere l’opera, l’idea che c’è nella testa.
Manifestation - Manifestazione
È la rappresentazione fisica dell’espressione dell’opera
Item - Esemplare di una manifestazione
Gruppo 2 - l’autore della risorsa, il responsabile
PERSON - CORPORATE BODY
Sono le entità responsabili per il contenuto intellettuale o artistico, la produzione e diffusione

fisica o la custodia delle entità del primo gruppo
Persona è l’autore singolo
Corporate Body è un gruppo di persone, discorso più collettivo.
Gruppo 3 - il contenuto, di cosa parla questa risorsa
CONCEPT - OBJECT- EVENT - PLACE
Entità del gruppo 3 rappresentano quelle che sono il contenuto dell’opera. Il modello dice che
dal momento che un’opera può rappresentare qualsiasi cosa, allora l’opera ha un soggetto,
che sono queste 4 entità. Ci vuole un concetto più astratto (Concept), le cose concrete
dell’opera (Object), Event rappresenta il periodo/tempo dell’opera, mentre Place riguarda la
collocazione geografica.
FRBR family
Questo modello ha presentato almeno sue punti deboli. Uno è quello di non includere nel
modello le Authority Files (i libroni che raccolgono tutte le possibili scritture per un nome,
tutte le possibili ortografie per un nome di diversi spelling e indicano qual è quella
raccomandata)
In questo modello iniziale di 10 entità, le Authority Files non trovava posto, non si sapeva
come inserire questo modello. Allora il modello ha continuato ad essere raffinato ed espanso ,
e sono state publicate due estensioni di questo modello
2009 FRAD / libroni dei nomi. Focus sul gruppo 2
2010 FRSAD / librone dei Subjects. Focus del gruppo 3
????????????
RECAP
Il mondo delle biblioteche è partito inizialmente con FRBR (modello concettuale della
scheda bibliografica, che in sostanza cerca di allargarsi difinendo un modello concettuale a
grafo)
Un percorso quasi analogo è successo nel Web. Anche il web a un certo puto dopo inizio,
dopo aver definito HTML, sapendo che c’è questa possibilità del link, dei collegamenti, è
venuta idea di poter descrivere le cose in un modo molto più ricco rispetto a HMTL. Nel
web il punto di partenza è stata la rappresentazione della conoscenza.
La differenza tra il web e biblioteche, è che le biblioteche son partite da un pezzetto di mondo
abbastanza chiaro e delimitato (scheda bibliografica). Mentre per il web, c’è un meccanismo
più generalizzato, descrive ciò che c’è nel web. Nel web parte dal concetto di risorsa. La
risorsa è un qualunque cosa che posso definire come identificatore. Anche se il meccanismo è
partito per descrivere le risorse per il web, una volta avuto il meccanismo, posso descrivere
anche risorse che non sono nel web, risorse che non posso scaricare. Nessuno mi vieta di
descriverle e di mettere sul web. Posso descrivere cose non digitali, ottenendo una
descrizione digitale sul web.
Questa è l’idea alla base di meccanismo di descrizione.
RDF and RDF scheme: Resource Description Framework

RDF sta per Resource Description Framework
RDF è un meccanismo per descrivere risorse.
Ma cosa sono le risorse, possono essere qualunque cosa di cui posso fare una descrizione.
Possono essere oggetti digitali, fisici, o astratti ecc.
Risorse e metadata
I metadata possono essere associati con qualunque risorsa: fisica, digital, risorsa astratta etc.
e risorse hanno come un punto di partenza l’avere un identificatore. Questo identificatore

prende il nome di URI.
Tutte le risorse sono identificate da una URI, ossia una stringa di caratteri che identifica in
modo non ambiguo una particolare risorsa. Oggi si usa la parola IRI, che sta per International
Resource Identifier.
🔖 La differenza sta nel fatto che la URI (è un identificatore unico per una qualunque
risorsa) ha una sintassi propria definita. La URI è una stringa di caratteri, con un
certo formato, in formato ASCII.
Nella IRI i caratteri della stringa vengono dall’alfabeto UNICODE.
IRI International Resource Identifier

URI Uniform Resource Identifier
URL Uniform Resource Locator. Rappresenta indirizzo di rete per accedere a questa risorsa
a cui è associata la URI.
URN Uniform Resource Name
C’è anche una altra sigla URL, la quale sta per Uniform Resource Locator. Rappresenta
indirizzo di rete per accedere a questa risorsa a cui è associata la URI. Ad esempio sono le
stringhe di caratteri presenti nella pagina HTML i link. URN non è stato più usato, Con il
concetto di “Nome” al posto di “Locator”
URLs
Dettagli sulla URL è
Semantic Web and Linked Open Data
Interoperability: the Z39.50 protocol
L’interoperabilità è lo scambio di informazioni tra due entità responsabili per queste
informazioni. Le biblioteche hanno sviluppato un sistema Z39-50 e il web hanno sviluppato
un sistema chiamato OAI-PMH.
Interoperability: the OAI-PMH protocol

Digital Libraries

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Digital Libraries

Caricato da

Copyright:

Formati disponibili

📔

History and architecture of computers

Networking, OSI and Internet

Introduction to data compression

Introduction to the course

A conceptual model of digital libraries

Concept maps for the conceptual model

CATALOGUING Bibliographic records OPAC MARC

Bibliographic records and metadata

La motivazione iniziale del catalogo è stato fare l’inventario per trovare

Un processo di un visitatore che va a cercare un documento, è stato diviso in 4 passi diversi.

find (trovare l’entità che corrisponde al criterio di ricerca del visitatore)

identify (identificare ogni entità ritrovata, capire che documento è)

select (selezionare documenti trovati, che voglio consultare)

acquire/obtain (ottenere il documento che l’utente cercava)

Fino agli anni 50/60 questo catalogo veniva materializzato su carta, su

Microfishe Reader - La scheda bibliografica doveva essere divisa in zone.

La loro bibbia è LCSH (Library of Congress Subject Headings)

AACR2R (seconda edizione)

MAchine Readable Cataloging

ha il vantaggio sia l’autore che l’istituto

la velocità e facilitazione di pubblicazioni, anche facilitazione in condivisione e lo

dati associati a oggetti

dati strutturati sulle risorse

dati strutturati sui dati

informazioni strutturate che descrivono, spiegano, localizzano o altro semplifica il

Diversi usi del termine metadata:

Database Management Systems (informazioni comprensibili sulla macchina)

World Wide Web: record che descrivono “risorse”

Ambiente della biblioteca: qualsiasi schema formale di descrizione del documento,

Quindi la tradizionale catalogazione delle biblioteche è una forma di metadati. MARC21 ,

È meglio conservare metadata separatamente in database, e linkare con gli oggetti

descriptive metadata - servono per descrivere la risorsa (titolo, autore)

structural metadata - posso avere oggetti digitali composti da più file

technical metadata - indica hardware o il software usato per convertire i materiali in

IETF - esperti che definiscono gli standard di internet a livello operativo

RFC - sotto-forma di RFC, IETF pubblica le raccomandazioni , RFC fa i suoi commenti,

Elementi di Dublin Core

Il Dublin Core ha definito 15 elementi per descrivere le risorse.

Content - Title, Subject, Description, Type, Source, Relation, Coverage

Intellectual Property - Creator, Contributor, Publisher, Rights

Instantiation - Date, Format, Identifier, Language.

Tutti gli elementi sono opzionali, ripetibili, possono essere mostrati in

Element refinements (raffinamento) - questa qualificazione restringe il significato

Encoding schemes - questi qualificatori identificano e specificano gli schemi di

due categorie, encoding schemes che specificano:

Ci sono tre elementi:

Visione storica di Dublin Core

La conoscenza degli elementi DC servirà al progetto.

****definizione degli 15 elementi***

MARC e Dublin Core

Expressing Dublin Core

Ci sono 3 modi principali per farlo.

Più usata oggi è triple RDF (Resource Description Framework)

Information retrieval INDEXING

costruire un indice (decidere un sottoinsieme di documenti che potrebbero essere di

Primo passo è l’indicizzazione, il passo più importante!

Meccanismo, come funziona?

Come indicizzare una collezione dei documenti?

I risultati escono in ordine di rilevanza.

Indice nel libro - i capitoli del libro

Catalogo - indice della biblioteca

Concordanza - sapere la posizione della parola in un libro

Una collezione è un set di documenti, ognuno descritto da un set di

**definizione degli 15 elementi*