Sei sulla pagina 1di 12

Linked Data – Antonella Iacono

Dal World Wide Web al Web Semantico

Nel 2001 Berners-Lee annuncia nell’articolo The Semantic Web una svolta semantica: il Web
Semantico considerata come un’estensione del Web attuale, dove l’informazione ha un significato
ben definito e permette alle persone e ai computer di cooperare.
Web Semantico  informazioni provviste di metadati che ne connotano semanticamente il
contenuto.
Il Web attuale presenta molti limiti, infatti non era concepito per le macchine, ma per le persone.
Non sempre l’informazi9one si trova in un solo punto del Web, ma è contenuta in diversi siti che
non dialogano. HTML, il formato usato per esprimere le pagine web, non è in grado di esprimere la
semantica.
Il Web semantico nasce quindi come soluzione, consente il superamento dell’Information Retrieval
tradizionale facilitando il ritrovamento dei documenti e l’integrazione con altri. Le risorse vengono
collegate tra loro.
Il Web 1.0 collegava i documenti; il Web 2.0 collega le persone ai contenuti generati (Social
media), il Web 3.0 mette in relazione i dati per produrre ed organizzare la conoscenza (Web dei
dati).

Evoluzione del web

Il web si regge su tre elementi:


1) URL  schema di identificazione e indirizzamento di una pagina web;
2) HTTP  trasmissione d’informazione sul web mediante un’architettura di tipo client-
service;
3) HTML  linguaggio di markup per la formattazione dei documenti ipertestuali.
Nel 1998 il W3C rilascia le specifiche XML (per colmare i limiti di HTML), il primo passo verso il web
strutturato. Consente di definire il significato degli elementi contenuti in un documento,
rendendolo così machine-readeble.
A partire dal 2005 il web ha conosciuto un primo cambiamento: WEB 2.0 dove al centro c’è la
socialità, che si caratterizza per le app social networking, che consentono agli utenti di collaborare
e condividere contenuti. In questo modo gli utenti diventano prosumers (consumers + producers).
La novità è la grande facilità con cui si possono produrre contenuti nel Web. Il Web 2.0 non ha
modificato la struttura del Web, ma ne ha aumentato l’uso e la quantità di risorse.

L’architettura del Web semantico

L’architettura del Web semantico viene descritta come un grafico a strati costituito da alcuni
elementi fondanti.

1. URI e UNICODE (espressione dei testi non ASCII);

1
2. XML e namespace (XMLNS) forniscono la sintassi al web e consentono di dotare gli
attributi e elementi XML;
3. RDF e RDF Schema  RDF è un modello logico che consente di rappresentare le relazioni
tra le risorse attraverso triple mediante il linguaggio XML. RDFS rappresenta un linguaggio
ontologico elementare in cui vengono definiti i concetti base come classe, risorsa, ecc..
4. Ontology vocabulary  SPARQL è il principale linguaggio di interrogazione del Web
semantico. Le ontologie propongono domini disciplinari e consentono alle macchine di
dedurre informazioni tramite meccanismi computazionali create tramite linguaggi
ontologici (OWL);
5. Logic – Proof – Trust  proof consente di stabilire l’autorevolezza delle inferenze prodotte
dal SW; Trust permette di verificare che le fonti siano attendibili

Web semantico e Linked data

Si distinguono due fasi di sviluppo del SW:


1. 1999 – 2006  approccio top down dell’ontologia fondazionale, un web basato sull’AI che
operano come assistenti personali degli utenti. I limiti di questa visione risiedevano nella
difficoltà di esprimere la semantica naturale e definire un sostrato ontologico comune. Era
impossibile raggiungere uno standard ontologico universalmente accettato;
2. 2006 –  possibilità di creare una semantica dal basso, partendo quindi dalle
rappresentazioni della conoscenza per arrivare successivamente all’organizzazione della
conoscenza. Una soluzione per quest’idea sono i LD, che permettono di strutturare i dati,
sono basati sull’interoperabilità e sono più aperti alle caratteristiche del web che è
un’ambiente dinamico.

Open data e Linked open data

Utilizzare i Linked data significa creare dati che siano del Web e non sul Web. Con i LD è possibile
pubblicare dati leggibili ed interpretabili da una macchina, il cui significato è espresso da una
stringa di parole e marcatori (tripla) per costruire un reticolo di dati collegati appartenenti ad un
dominio e collegabili ad altri dataset appartenenti ad altri domini presenti sul web. Il concetto di
LD è legato a quello di Open data  si parla di LOD. L’importanza degli Open data si manifesta
sotto diversi aspetti, come ad esempio i dati di interesse ambientale, economico, medico…
Il movimento Open data ha l’obiettivo di rendere accessibili i dati della ricerca senza restrizioni o
limitazioni.
Il punto di riferimento per le comunità open è l’OKFN (Open knowledge Foundation), nata del
2004, promuove la conoscenza aperta e la condivisione dei dati che possono essere liberamente
riutilizzati e ridistribuiti. Questi obiettivi però comprendono l’essere comprensibili dalle macchine.
Un aspetto fondamentale degli open data è la possibilità di riutilizzo dei dati tramite appropriate
licenze.

2
Dal Web dei documenti al Web dei dati

HTML è il principale strumento per la pubblicazione dei dati sul web, ma non consente di estrarre
significato dai testi. I documenti testuali vengono connessi gli uni agli altri tramite collegamenti
ipertestuali. Possono essere compresi dall’uomo ma non dalle macchine.
Microformati consentono di inglobare dati strutturati dentro le pagine web, ma hanno un limite: i
dati sono relativi a set molto piccoli e non sono in grado di esprimere relazioni complesse.
API, sviluppate con il Web 2.0, è un insieme di procedure che permettono l’espletamento di un
compito all’interno di un certo programma. Ad esempio, le API di Google sono Google Maps o
Google Books.
Attraverso HTML nel Web si crea una rete di documenti (Web of documents) connessi tramite link;
mentre nel Semantic web c’è uno spazio globale di dati collegati.
 Web ipertestuale (Web dei documenti) è fatto di dati SCONNESSI tra loro:
- descrizione piatta di oggetti e documenti;
- semantica non connaturata negli oggetti ma apportata dagli umani;
- non comprensibile dalle macchine.
 Web semantico (Web dei dati):
- dataset costituito da dati che hanno specifiche relazioni tra loro;
- relazioni strutturate in base alla natura degli oggetti;
- relazioni comprese dalle macchine.
Linked data è un modo per pubblicare e connettere dati nel web servendosi di una struttura
standard fornita dal linguaggio RDF.

I principi dei Linked data

I Linked data sono una metodologia per il raggiungimento del Web semantico, è una serie di
buone pratiche per pubblicare nel Semantic web. I quattro principali noti come “Linked data
principles”:
1. utilizzo di URI per identificare oggetti e concetti;
2. gli URI devono essere deferenziabili (accessibili) quindi è necessario utilzizare il protocollo
HTTP per recuperare la descrizione della risorsa.
3. Utilizzare il data model RDF per pubblicate dati strutturati
4. Utilizzo dei link RDF per collegare le cose (non documenti), collegare dati provenienti da
diversi dataset.

RDF data model

RDF è uno standard sviluppato per descrivere semanticamente le risorse e le loro relazioni. Il
modello si compone di tre parti:
3
1. Soggetto: identifica la risorsa descritta;
2. Predicato: proprietà della risorsa;
3. Oggetto: valore della proprietà della risorsa.
Le asserzioni sono dette triple e sono unità minime di significato espresse in forma di gradi in RDF.
Esempio  Dante Alighieri – è autore di – La divina Commedia
Una volta espresso un certo numero di asserzioni, le macchine sono in grado di dedurre
conoscenza tramite un meccanismo INFERENZIALE. L’INFERENZA  processo deduttivo con il
quale da due proposizioni si deduce la verità di una proposizione da un’altra giudicata vera.
Le triple sono codificate in linguaggio XML ed è molto importante per la loro apertura e riutilizzo.
Gli elementi della tripla per essere riutilizzabili devono essere espressi tramite URI deferenziabili. I
link utilizzati sono chiamati link RDF che collegano “cose” e il tipo di collegamento è specificato nel
link stesso.
Nel SW esistono tre tipi di link:
1. Link relazionali  esprimono collegamento tra diversi dataset puntando a cose, persone,
luoghi, ecc…;
2. Link di identità  collegano URI di dataset diversi che si riferiscono alla stessa cosa o
concetto;
3. Link di vocabolario  puntano dal dato alle definizioni dei termini dei vocabolari usati per
descrivere il dato stesso.
Un'altra distinzione è tra link interni (stesso dataset) e link esterni (namespace diversi).
La sintassi ufficiale per esprimere RDF è RDF/CML, basata sul linguaggio XML.
RDF ha alcuni termini predefiniti:
 type (rdf:type)  serve a indicare che il soggetto di una tripla fa parte della classe
oggetto della tripla stessa
 property (rdf:property)  denota la classe dei predicati e viene usata per indicare che
alcuni termini sono predicati.
RDF permette inoltre di creare delle classi contenitore (Bag) che sono usati per trattare insiemi
come un tutt’uno e sono utili quando ci si vuole riferire all’insieme come un’unica entità.

Vocabolari e ontologie

Affinché il meccanismo della connessioni dei dati possa funzionare, è necessario definire i
vocabolari di riferimenti che consentono di stabilire quali termini usare per descrivere una risorsa
e le sue proprietà. Nel WS vocabolari ed ontologie sono usati per descrivere e rappresentare
un’area di interesse. Lo scopo dei vocabolari è classificare i termini che vengono usati in un settore
disciplinare.
Nel WS non c’è una vera e propria distinzione tra vocabolari e ontologie.
La possibilità di organizzare la conoscenza dipende dall’uso dei formalismi. I modelli formali sono
la base dei modelli matematici e di quelli destinati alle macchine.
Per il WS è necessario utilizzare un modello formale che permette di condividere significati ed
esprimere differenze. La modellazione semantica deve prevedere diversi livelli di espressività che
4
sono necessari per trattare dello stesso argomento a livelli diversi. Vocabolari e ontologie sono
necessari per permettere di esprimersi in merito a qualsiasi cosa usando le proprie entità, relazioni
e terminologia.
I Linked data forniscono una tecnologia per collegare ontologie prodotte da comunità diverse.
Un’ontologia è uno schema strutturato e condiviso di concetti tra loro correlati che descrive
un’area della conoscenza utilizzando linguaggi non ambigui. Con esse è possibile superare i limiti
dell’Information Retrieval tradizionale. A differenza dei thesauri (espressività limitata), le ontologie
possiedono un’espressività semantica molto superiore e permettono di rappresentare e descrivere
le caratteristiche e di esplicitare le relazioni.
Nel WS ontologie e vocabolari sono usati per creare dataset, set di dati che rappresentano una
collezione di risorse o grafi che appartengono allo stesso campo disciplinare e che sono identificati
tramite URI. L’insieme dei dataset forma oggi un grafo chiamato Web of data, ovvero un grafo di
dati che può contenere qualunque tipologia di dato.

Descrivere le ontologie: i linguaggi RDFS OWL, SKOS

RDF Schema
È un linguaggio per descrivere ontologie leggere in RDF (vocabolari consistenti in un elenco di
elementi e proprietà). Per dichiarare ad esempio che Alighieri è autore della Divina Commedia,
bisogna specificare che il primo è una persona e il secondo è un libro, e lo si fa descrivendo due
classi (libro, film) come sottoclasse (rdf:subClassOf) della classe Opera.

OWL
È uno standard sviluppato dal W3C per esprimere ontologie nel SW che estende l’espressività di
RDFS. Oggi siamo arrivati ad OWL2. Questi linguaggi svolgono la stessa funzione di RDFS,
strutturano le informazioni, ma a livello più alto. Esistono tre versioni di OWL:
OWL Lite e OWL-DL  Si richiamano alle logiche descrittive e consentono di avere un grado di
calcolabilità. OWL Full  altamente espressivo, è aperto all’espressione di formule non decidibili.
OWL permette di definire enunciati che riguardano classi, proprietà e istanze. Tra i termini, uno
molto importante è il predicato owl:sameAs che denota una relazione di uguaglianza tra due
risorse (consente di creare collegamenti tra due ontologie).

SKOS
È un vocabolario sviluppato per esprimere gerarchie di concetti più complesse e progettato per
supportare sistemi di organizzazione delle conoscenze (KOS) come thesauri, schemi di
classificazione. La classe principale è skos:Concept; definisce inoltre predicati che permettono di
instaurare relazione tra i concetti, e predicati che collegato concetti ai termini usati per esprimerli.
L’aspetto più interessante è la possibilità di esprimere schemi concettuali differenti prevedendo la
possibilità di collegarli e mettendo in relazione concetti appartenenti a schemi diversi.

5
Le ontologie e i vocabolari più usati per creare Linked open data sono reperibili dalla directory
Linked open vocabularies (LOV). Si segnalano:
 FOAF (Friend of a friend)  ontologia che descrive le persone, le loro attività e può essere
usata per descrivere le liste di autorità.

Il Web dei dati

Le origini del Web dei dati risalgono al 2007 con il Linked open data project che aveva lo scopo di
convertire i dataset esistenti in strumenti aperti per pubblicare dataset in RDF. Da allora il numero
dei dataset liberamente disponibili è cresciuto enormemente e la crescita è visibile nella Linked
open data cloud. I principali dataset spaziano nelle diverse discipline. Alcuni dei principali sono:
 DBPedia: sforzo per estrarre informazione strutturata da Wikipedia, assegna URI alle cose e
ai concetti e ha costituito la base per lo sviluppo di collegamenti ad altri dataset;
 Dataset governativi: sono motivo di trasparenza per i foversi e l’impulso alla realizzazione
dell’Open governament.

Annotazione semantica di pagine Web


La pubblicazione di dataset sottoforma di LD prevede che si possa pubblicare un set di dati
interpretabile da una macchina. La via di sviluppo è duplice: creazione di nuovi motori di ricerca
più sofisticati e intelligenti (motori di ricerca semantici) che raccolgono e indicizzano le
informazioni presenti nella Linked open data cloud per fornire risposte a domande poste nel
linguaggio naturale (come Google); recupero di informazioni semantiche sfruttando i microformati
e i microdata. L’annotazione di una pagina web avviene riferendosi ad un solo vocabolario o
ontologia oppure attraverso tagging semantico.

RDFa (attribute)
È una raccomandazione che consente di annotare semanticamente i RDF una pagina web. in
questo modo è possibile includere nello stesso documento nel formato XHTML, sia il contenuto
che gli elementi semantici. Utilizzando attributi come about, property, resource, è possibile
introdurre gli elementi semantici. Il processo di estrazione e di generazione delle triple si base
sull’individuazione del contesto (soggetto della tripla) individuato nell’attributo about, a cui
vengono associati gli attributi property e resource per creare la tripla. Il tag <base> identifica il
contesto associato al documento (vedi p. 40).

Microformati
È una specifica che consente di aggiungere metadati semantici all’interno dei documenti HTML
utilizzando attributi e tag già presenti in HTML.
HTML 5 e microdata
È lo standard destinato a sostituire HTML. Tra le principali novità c’è l’aggiunta di tag di markup
semantico per i documenti. I microdata sono un’evoluzione dei microformati, e consentono di
6
aggiungere specifici attributi per determinare ambiti definiti dal microformato, fornendo
informazioni comprensibili alle macchine. I microdata vengono utilizzati nell’ambito del progetto
Schema.org (scopo di migliorare il recupero semantico da parte dei motori di ricerca tradizionali)
per incorporare dati semantici strutturati nelle pagine web ed incoraggiare gli sviluppatori delle
pagine web ad utilizzare i vocabolari presenti in Schema.org.

I dati delle biblioteche e il loro utilizzo nel Web semantico


Le biblioteche producono sempre dati autorevoli e di qualità e hanno interesse a pubblicare i dati
nel Web semantico per due motivi: per rendere raggiungibili i dati dei loro cataloghi; il web
beneficia dei dati autorevoli delle biblioteche. Tuttavia, piuttosto che gli OPAC, gli utenti
preferiscono affidarsi ai motori di ricerca per iniziare le proprie ricerche.
I dati prodotti dalle biblioteche sono racchiusi entro formati non interoperabili con il web: se
questi dati non sono interoperabili, le biblioteche rischiano di rimanere escluse dal circuito
dell’informazione in rete. Oggi le biblioteche cominciato ad abbandonare i formati di scambio di
dati bibliografici come MARC (non interoperabili) e pubblicano i loro dati come Linked data. Per
farlo è necessario strutturare i record bibliografici secondo il modello RDF, creare vocabolari e
rendere disponibili dataset contenenti dati catalografici degli OPAC in modo che siano aperti,
interoperabili e riutilizzabili.

Le iniziative delle biblioteche. Dataset, vocabolari, scemi di metadati


Le biblioteche hanno iniziato a produrre alcuni archivi bibliografici come LD. Le iniziative
riguardano la creazione di tre categorie di strumenti:
1. Dataset che descrivono le risorse bibliografiche
Nel settore delle biblioteche, i principali dataset esistenti sono quelli che mettono a disposizione i
dati di cataloghi in RDF.
BNF  pubblica i suoi dati nel web, li rende accessibili ai motori di ricerca e riutilizzabili nel web
semantico. Data.bnf.fr pubblica pagine web relative a opere, autori, soggetti. I dati vengono
raggruppati, modellati, arricchiti e pubblicati nella semantica di RDF. Una parte di dati viene da
fonti esterne come DBPedia e VIAF.
Europeana  è la biblioteca digitale che riunisce i contenuti digitalizzati dalle istituzioni culturali
dei 27 Paesi dell’UE.
2. Vocabolari e ontologie
Vocabolari della LOC  pubblica il suo vocabolario sottoforma di LD creando Linked data service,
una piattaforma dove sono resi disponibili i principali standard e vocabolari mantenuti
dall’istituzione. Tra i vocabolari ci sono LCC (Classification), schema di classificazione che ha
pubblicato una sezione di classi come LD, e LCSH (Subject headings) soggettario per i materiali
posseduti.
VIAF  raggruppa virtualmente gli authority files dei nomi ricorrenti dei cataloghi in un solo
servizio di authority.
7
3. Schemi di metadati, essenziali per descrivere insieme di elementi come entità e attributi di
entità
RDA  descrizione dei contenuti per le risorse bibliografiche. È uno standard aperto strutturato
attorno al modello FRBR.
FRBR
Dublin Core  set di metadati di 15 elementi, ognuno dei quali è definito usando un set di 10
attributi.

Pubblicare Linked open data. Il workflow, le tecnologie, le licenze


Il web dei dati è costituito da dati collegati. Affinchè si costituisca questo gigantesco grafo, è
necessario attivare il processo di pubblicazione del LD che riguarda le fasi del procedimento, le
soluzioni tecnologiche e le licenze.
Workflow
1) Identificazione delle fonti dalle quali estrarre i dati (valutazione e analisi delle fonti);
2) Modellazione del vocabolario che induce a considerare la possibilità di usare vocabolari
diversi già esistenti o la creazione di nuove ontologie;
3) Generazione di file di dati RDF tramite diversi linguaggi di mappatura. Si deve decidere se è
necessario procedere con operazioni di trasformazione e pulizia dei dati.
4) Creazione di collegamenti con altri dataset: si stabiliscono equivalenze con altri dataset che
contengono dati equivalenti a quello creato, collegando i dataset tramite URI. Per le
equivalenze si usano ontologie come SKOS e OWL.
5) Pubblicazione del dataset nel web semantico. I dati potranno essere interrogati tramite
SPARQL entpoints, applicazioni che utilizzano il linguaggio di interrogazione SPARQL.
Prima di pubblicare i dati, è necessaria una check list per misurare la rispondenza del proprio
dataset a una lista di qualità necessarie per la pubblicazione: qualità dei dati, link ad altri dataset,
uso di licenze…
Nella fase finale è inoltre necessario pubblicare i metadati relativi al dataset che si sta pubblicando
e prepararlo in modo che sia visibile da altri dataset nel web.
Il passo successivo è registrare il dataset nel registro CKAN, un registro di open data fornito dalla
Open Knowledge Foundation e la segnalazione ai motori di ricerca come Google.
Soluzioni tecnologiche
La pubblicazione dei dati bibliografici sottoforma di Linked data apre le biblioteche alla strada
dell’integrazione e ad una nuova struttura del record bibliografico (generalmente basato su
standard strettamente bibliografici). Nella creazione di LD le biblioteche si trovano di fronte alcune
problematiche:
 Identificatori univoci persistenti (URI)  è necessario assegnare URI alle risorse
bibliografiche per poter richiamarli in applicazioni estere tramite API e tecnologia mushup.
Tuttavia, quasi mai le biblioteche utilizzano URI e spesso non sono compatibili col SW.

8
Utilizzare URI http consente di collegare dati bibliografici ad altri dataset esistenti. La scelta
degli URI per classi e concetti è particolarmente complessa.
 Creazione di data model  significa scegliere i vocabolari da utilizzare per esprimere entità
e relazioni. Il modello utilizzato per esprimere l’universo bibliografico è FRBR e quindi si
farà riferimento a entità, attributi e relazioni previste dalla famiglia FRBR.
 Collegamento tra dataset, che è il cuore dei Linked data e l’allineamento semantico
consiste nel produrre link RDF tra entità semanticamente equivalenti, similari, presenti in
altri dataset. Le ontologie forniscono le modalità per il collegamento dei dati di diversi
dataset attraverso linguaggi come RDFS, SKOS o OWL. Nella fase di costruzione del
dataset, le biblioteche devono individuare le fonti interne con le quali produrre gli
allineamenti semantici e fornire allineamenti semantici con le fonti esterne, utilizzando
vocabolari e relazioni.
 Creazione di nuove ontologie  quando è necessario, la biblioteca può creare un’ontologia
per definire classi e proprietà non previsti da altri schemi.
Le licenze
Produrre Linked data vuol dire rendere pubblicamente aperti quei dati  si utilizza più
propriamente la denominazione LOD. Il concetto di apertura conduce alle definizioni di open data
e di open knowledge volte al libero utilizzo, riutilizzo e distribuzione della conoscenza senza alcuna
restrizione legale.
Secondo i principi dell’OpenBiblio, i dati bibliografici contenuti in OPAC dovranno essereforniti in
modalità compatibile con il Linked data e con licenze adeguate. Generalmente negli OPAC, la
fruizione e il riutilizzo dei dati non sono sempre garantiti. In quest’ambito, l’OKF (Foundation) ha
stabilito dei principi da adottare per produrre dati bibliografici aperti:
 Utilizzo di una licenza esplicita, robusta e appropriata ai dati;
 Utilizzare i dati nelle modalità definite dalla open definition (senza restrizione, massima
fruizione e riutilizzo);
 Utilizzare licenze come CC0 (Creative Commons).
Licenze Creative Commons  vanno dalla più restrittiva alla più permissiva. Sono strutturate in
due parti: una indica quali sono le libertà concesse dagli autori, la seconda le condizioni di utilizzo.
La CC0 è quella più idonea ai LOD perché rinuncia a tutti i diritti.
Per incoraggiare la produzione di dati il più possibile aperti nel WS, è stata introdotta una
classificazione per indicare il grado di rispondenza di un dataset ai principi dei LOD:
1 stella  chi pubblica dati sul web sotto licenza aperta in qualsiasi formato (sola disponibilità
online del dato);
2 stelle  dati pubblicati come dati strutturati codificati con formati proprietari che sono più
aperti e accessibili;
3 stelle  dati sul Web e usano software non proprietari (es CSV e non Excel);
4 stelle  pubblicazione dei dataset tramite standard del W3C (RDF e SPARQL) utilizzando gli URI
per identificare i dati e interrogarli tramite SPARQL;
5 stelle  dati aperti e collegati (LOD) tramite l’uso di vocabolari RDF.

9
La più importante risorsa per la pubblicazione di dati è il Final report del Library linked data
incubator group (2012), un gruppo che ha l’obiettivo lo studio di fattibilità dei LLD (Library linked
data): quali requisiti devono avere i dati bibliografici per poter essere interconnessi e pienamente
utilizzabili nel Web Semantico. Questo ha posto nuove basi nel modo in cui i metadati prodotti
dalle biblioteche possono essere fruibili nell’intero Web (non solo in OPAC). I dati, quindi, devono
avere una maggiore granularità; il data model deve avere maggiore complessità e bisogna
utilizzare nuove tecnologie e formati più adatti alla rappresentazione dei dati.

Dal record al dato: atomizzazione e decostruzione del record bibliografico

L’uso dei dati bibliografici nel web semantico richiede che abbiano forme di registrazione
caratterizzate da più granularità. La struttura della registrazione bibliografica codificata in MARC
ha rallentato il processo di evoluzione dei cataloghi elettronici (perché record bibliografico =
blocco unico). Nella progettazione di OPAC ci si è concentrati solo sulle funzioni di ricerca,
lasciando indietro standard aperti. Con la formulazione del modello FRBR (1998) si è avviato un
processo verso un record bibliografico più granulare. Anche con RDA sono stati fatti passi avanti 
recepiscono il modello RDF, descrivono le entità da rappresentare nei record bibliografici in
element sets e definiscono gli attributi in appositi vocabolari. Uno degli element sets di RDA
definisce le relazioni espresse nella parte centrale di ogni tripla, dove vengono esplicitate le
tipologie delle relazioni tra le triple. Le relazioni vengono espresse dal set RDA roles (ruoli di
autore, regista…).
Nei linked data, un record bibliografico viene sostituito da un grafo costituito da diverse triple che
collegano diversi dataset e utilizzano diversi vocabolari. La creazione dei dati sarà così più
granulare poiché ogni record sarà costituito dalla sintesi di un numero molto vasto di triple.
Utilizzando il modello RDF per esprimere un record catalografico, si possono ottenere numerosi
vantaggi:
 Controllo bibliografico di autorità
È l’uso di forme normalizzate degli accessi nominali e semantici e il mantenimento della relazione
tra i documenti. Nel data model RDF ogni parte di una tripla è identificata da URI, anche i predicati,
in modo da essere riutilizzati. In questo modo vengono risolti anche i problemi relativi agli
pseudonimi o per titoli o soggetti simili.

 Riutilizzo di dataset esistenti e approccio distribuito alla creazione dei dati bibliografici
I dati bibliografici potranno provenire da dataset di natura bibliografica e non bibliografica. La
possibilità di collegare un dato al VIAF porta alla semplificazione del lavoro di catalogazione e a
vantaggi nella ricerca. Ricercando come forme desiderata si può arrivare a diverse varianti.

 Interoperabilità tecnologica
L’utilizzo di formati come RDF e RDF/CML consente di produrre dati interoperabili SKOS basati su
XML. L’interoperabilità diventa cruciale per evitare l’isolamento dei dati. In questo senso,
BIBFRAME è un nuovo modo di rappresentare dati bibliografici per sostituire il formato MARC,
consentendo di scambiare risorse in rete, e di produrre dati bibliografici in cui è possibile
identificare le entità coinvolte.

10
 Riduzione dei costi
Uno degli obiettivi è ridurre i costi di catalogazione. Se il record bibliografico viene sostituito da un
insieme di dati collegati, il carico di lavoro può essere ridistribuito sulle comunità del Web.

 Superamento delle barriere linguistiche


Il progetto VIAF è il primo tentativo in questa direzione. L’URI è totalmente indipendente dal
linguaggio e consente di collegare diverse descrizioni allo stesso concetto.

 Produzione di dati modulari, condivisibili e riutilizzabili


La tecnologia LOD è immediata: sono immediatamente disponibili e utilizzabili da tutti.

Linked data e ricerca semantica


La ricerca semantica è un punto critico nella progettazione dei cataloghi elettronici. È importante
fornire all’utente anche modalità di ricerca indirette (es. browsing di classi e soggetti), ma non
sempre questi vengono offerti.
FRSAD  schema concettuale di IFLA per modellare l’aboutness delle opere e introduce un
modello fondato sulle entità thema (concetto ovvero soggetto fi un opera) e nomen (sequenza di
segni utilizzati per riferirsi al thema). Introduce anche nuove relazioni come la relazione thema-
thema (gerarchiche) e la relazione nomen-nomen (partitive o di equivalenza). Il modello
concettuale thema-nomen trova riscontro negli schemi di codifica del SW come in SKOS.
SKOS  definisce classi e proprietà per esprimere la struttura di base e il contenuto di schemi
concettuali come thesauri. È un modello basato sul concetto e definisce la separazione tra concetti
e etichette già espressa in FRSAD.
OWL  costruito per modellare ontologie di concetti nel WS con un significato definito. Consente
di esprimere le relazioni tra i vari concetti espressi da FRSAD.
I modelli SKOS e OWL opportunamente combinati permettono di manifestare concetti (accessi per
soggetti e per classi e le loro relazioni) e di mappare concetti presenti in diversi schemi.
La conversione di soggetti, thesauri, ontologie nei linguaggi del SW richiede un lavoro concettuale
impegnativo per risolvere problemi. SKOS e OWL permettono di esprimere nel linguaggio del SW
anche gli accessi per classe. Per rendere fruibili i dati di uno schema di classificazione come dati
collegati, bisgna codificare la semantica dello schema in RDF/SKOS. La Dewey è stata
recentemente pubblicata in RDF per la parte relativa ai sommari, e non ha comportato particolari
problemi. Tuttavia, ci sono alcuni problemi per quanto riguarda lo schema di classificazione. Studi
recenti hanno dimostrato che è molto complesso tradurre in SKOS dei numeri costruiti e
particolari intestazioni come voci centrate che consentono di mettere in relazione un insieme di
numeri a un particolare concetto.
In Italia  collaborazione tra BNCF e Comune di Firenze: collegare attraverso LD dati bibliografici
relativi al nuovo Soggettario espresso in SKOS. Attraverso il collegamento di dataset di diversa
natura e la mappatura di concetti, la ricerca per soggetto viene enormemente potenziata.

FRBR e Web semantico: un incontro possibile?

11
Gli OPAC più avanzati non usano ancor ai modelli FRBR. Data.bnf.fr è un buon esempio di
piattaforma LD che sfruttai dati bibliografici e le descrizioni provenienti da OPAC per produrre
visualizzazioni basate su FRBR. La piattaforma ha le capacità di trasformazione e arricchimento dei
dati. La ricerca è costruita sulle tre principali modalità di accesso: opera, autore, argomento e le
pagine legate alle tre entità sono costantemente aggiornate mediante LD. Le pagine sono
arricchite dai altri dataset coe DBPedia.

Linked data e nuove prospettive dell’accesso bibliografico

La tecnologia LD permette di sviluppare quattro tipologie di interoperabilità:


1. Tecnica  tra sistemi e applicazioni;
2. Semantica  significato condivisibile tramite URI che collega concetti a termini;
3. Delle risorse umane  convergenza dei dati e dei servizi che si sviluppano attorno ad essi
(competenze)
4. Organizzativa  servizi delle istituzioni che operano nel campo del Cultural Heritage, della
ricerca scientifica, dei servizi culturali.

12

Potrebbero piacerti anche