Sei sulla pagina 1di 17

RIASSUNTO METODOLOGIE INFORMATICHE E DISCIPLINE

UMANISTICHE – CAP. 7/8/9

CAPITOLO 7 – I sistemi di analisi del testo e la linguistica computazionale

La disponibilità crescente di corpora di dati non strutturati (come i file html) o semi-strutturati
(come i file xml) ha di recente accresciuto le possibilità di lavorare con sistemi automatici di
analisi del testo.
Con analisi del testo si intende il procedimento che consente di estrarre tutte le parole presenti in
testo e di stabilire il numero di volte in cui ciascuna forma occorre. Tali risultati permettono di
ragionare sull'uso di un certo vocabolario e di stabilire delle ipotesi interpretative sul lessico.
Per poter operare con sistemi automatici di analisi è importante disporre di corpora. Un corpus si
deve basare su una serie di regole di aggregazione, selezione e organizzazione precise, necessarie
affinché la collezione possa essere sottoposta a un'analisi linguistica.
La linguistica computazionale è la disciplina che per prima ha affrontato il problema del
trattamento automatico del linguaggio naturale, con l'obiettivo di acquisire conoscenza da
documenti testuali. Iniziatore di questi studi è Roberto Busa a cui si deve la compilazione, del
1946, dell'Index Thomisticus, una raccolta dell'indice e delle concordanze degli Opera Omnia di
San Tommaso.
1. Forme di text retrieval
La prima fase di analisi di un testo in forma digitale è la verifica della presenza delle forme testuali
all'interno del testo. Questo procedimento in linguistica computazionale è chiamato tokenizzazione,
individuazione cioè di tutte le unità minime del testo.
Successivamente si verificano il numero di volte in cui compaiono, ossia le occorrenze (tokens). Il
fine è la produzione dell'indice, ossia l'elenco di tali parole, che costituisce il vocabolario delle
forme grafiche (types) così come e dove compaiono nel testo. Diremo che il type è la parola in
astratto mentre il token è la parola che occorre in un punto definito e in un certo numero di volte in
un testo.
Passo successivo è la collocazione delle parole rispetto al contesto testuale d'uso (concordanze) e la
verifica di quante volte ciascuna forma grafica occorre (frequenze).
Per realizzare indici è necessario un software: esistono molteplici programmi che sono in grado di
effettuare operazioni di text retrieval, cioè di reperimento dati all’'interno di un corpus testuale.
1.1. Concordanze
Un programma di concordanze è un applicativo che consente di elencare tutte le parole presenti un
testo, presentandole in ordine alfabetico, accompagnate da un contesto, che permette di coglierne il
senso, e da una serie di indicazioni, che permettono la localizzazione all'interno del testo.
Non sempre vanno elaborate tutte le parti del testo. Generalmente si tendono ad omettere articoli,
congiunzioni, preposizioni, ossia le cosiddette parole vuote (empty words) che non forniscono
aiuto alla ricerca o non sono portatrici di significato.
Si parlerà invece di parole piene per aggettivi, sostantivi, verbi e avverbi in quanto veicolano un
significato individuabile.
Tuttavia, vi sono casi in cui si studiano i legami sintattici, dove solo proprio le parole vuote ad
essere l'oggetto della ricerca.
L'analisi delle concordanze dunque permette di verificare il contesto d'uso del vocabolario e
permette di disambiguare impieghi diversi del lessico, agevolando il confronto fra diversi
significati di uno stesso termine.
1.2. Indici
Un'indice è la lista dei vocaboli all'interno di un testo o di un corpus dove ogni parola è
accompagnata dal riferimento in cui la parola stessa si trova. Talvolta l'indice può riportare alcune
statistiche relative alla frequenza relativa ai vocaboli presenti all'interno del testo.
1.3. Frequenze
La lista delle frequenze di un testo mostra le parole che lo compongono accompagnate dal numero
di volte in cui occorrono.
Possono riportare le parole o rispettando l'ordine alfabetico, o ordinando i vocaboli a partire da
quello con il maggiore o minore numero di frequenza.
L'obiettivo di tali indagini è di verificare quale sia la tendenza di un autore nell'usare un preciso
vocabolo ritenendo che la scelta di certe parole definisca l'impronta di ogni scrittore.
2. Dal text retrieval alla text analysis
Per acquisire un’informazione linguistica dal testo a livello morfologico, lessicale, sintattico e
semantico bisognerà procedere con altri strumenti come la normalizzazione, lemmatizzazione, part
of speech, tagging e parsing.
2.1. Normalizzazione e annotazione
I procedimenti di individuazione di parole composte, riduzioni di articoli con apostrofo,
identificazione e scioglimento di sigle, ma anche riconoscimento di nomi prossimi sono delle
operazioni che possono essere delegate solo parzialmente alla macchina e quindi l'intervento
dell'uomo è indispensabile per ottenere risultati validi.
Per ottenere dei risultati attendibili nella fase di text analysis è necessario intervenire con la
cosiddetta annotazione del testo.
Annotare un testo significa arricchirlo di informazioni sui diversi aspetti. La sua forma più comune
è l'assegnazione di marcatori o etichette alle porzioni di testo delle quali si vuole dare una qualche
indicazione a livello morfo-lessicale, sintattico o semantico. Queste indicazioni sono
generalmente espresse in un linguaggio formale e utilizzando un vocabolario standardizzato, come
xml con schema tei.
Queste informazioni possono essere aggiunte direttamente nel corpo del testo (inline markup) o
possono essere definite in un file separato ed essere richiamate tramite collegamento (stand-off
annotation).
2.2. I livelli dell'analisi del testo
Possiamo definire tre livelli di analisi e quindi tre tipologie di annotazione:
- Morfo lessicale: associazione dei vocaboli a una determinata categoria grammaticale;
- Sintattico: analisi linguistica per la ricostruzione della struttura sintattica della frase;
- Semantico: contestualizzazione d'uso di una parola all'interno del costrutto sintattico.

Per poter lavorare a questi tre livelli, il primo passo è poter disporre di risorse linguistiche:
- Dizionario macchina: versione elettronica di un dizionario tradizionale che elenca tutti i lessemi e
associa a ciascuno di essi le informazioni tipiche di un dizionario tradizionale. Può essere quindi
usato nella fase di analisi morfo-lessicale, oggetto principale di studio della lessicografia;
- Un lessico di frequenza è un elenco di forme e di lemmi con indicazioni della frequenza d'uso.
Rispetto a un corpus definito, generalmente è usato per l'estrazione di parole chiave dal testo;
- Una rete semantico-concettuale vuole, invece, associare ogni lessema a un concetto e, quindi, a
una classe semantica di riferimento. Ma vuole anche individuare le relazioni che i concetti e le
classi intrattengono. Un possibile strumento per operare questo tipo di analisi è il database lessicale
WordNet per la lingua inglese e ItalWordNet per l'italiano.
2.2.1. Analisi morfo-lessicale
Il tokenizzatore è uno strumento che consente di selezionare le unità minime espresse sotto forma
di sequenze di caratteri separate da spazio. È necessario che la fase di tokenizzazione sia
accompagnato da un procedimento di identificazione dei tokens significativi ai fini della successiva
analisi. Questo significa operare a diversi livelli:
- Normalizzare le varianti ortografiche delle parole che possono presentarsi sotto diverse forme;
- Separare parole che sono formate da più token ma sono rappresentative di unità linguistiche
differenti (parole unite tramite apostrofo);
- Unione di elementi differenti in un unico token in quanto rappresentative di un'unica parola (come
le parole composte).
Effettuata la normalizzazione, ogni token può essere associato alla parte del discorso cui ogni forma
può essere ricondotta.
Il limite della tokenizzazione è che permette di estrarre il solo elenco delle forme. Sarebbe utile
poter disporre per le diverse forme del lemma di riferimento. Quindi bisognerà adottare delle
procedure che permettono di trasformare i token in lemmi.
Lemmatizzare un testo significa individuare un unico lemma, cioè un'unica forma grammaticale
per i vocaboli che sono caratterizzati dall'essere forme flesse: i tempi dei verbi, i sostantivi, gli
aggettivi, articoli, pronomi, cioè tutte le parti del discorso che sono dotate di un genere e numero.
Esistono programmi specifici per la lemmatizzazione come il Workpacage. Anche il dizionario
macchina può essere utile: può infatti agevolare l'operazione che verrà condotta in forma semi-
automatica. Infatti, con un dizionario macchina è possibile associare la categoria grammaticale di
riferimento a ciascun lemma.
2.2.2. Analisi sintattica
È rappresentata dal processo di parsing che associa un determinato valore sintattico agli elementi di
una frase.
Il primo passo è caratterizzato dalla POS tagging o marcature delle parti del discorso. Il tagger
POS è un programma che è in grado di associare un'etichetta descrittiva a ogni costituente
grammaticale.
Il pos tagging, inoltre, permette di disambiguare la part of speech di ciascun componente.
Esistono, infatti, parole che, a seconda del contesto sintattico, possono avere un ruolo diverso.
Inoltre, permette anche di associare una categoria sintattica con cui ogni forma occorre in un dato
contesto linguistico. Nello specifico diremmo che, mentre un analizzatore morfologico associa il
token al lemma e ne definisce le caratteristiche grammaticali, il chunking è il procedimento di
segmentazione del testo in gruppi sintattici.
Le parole che compongono una frase possono essere ricondotte a un gruppo funzionale di
riferimento, cioè a un sintagma, e i sintagmi possono essere inseriti in uno schema di relazioni di
dipendenza grammaticale.
Il parse indentificherà le dipendenze grammaticali principali tipiche dell'analisi logica (soggetto,
tipi di complemento, verbo).
Un corpus annotato dal punto di vista della struttura sintattica è detto treebank.
2.2.3. Analisi semantica
L'oggetto dell'analisi semantica è la ricostruzione del significato del vocabolario presente nel testo.
Un primo problema è disambiguare parole polisemiche quando il costrutto sintattico non l'ha
consentito.
Il livello successivo è passare dai termini ai concetti. Parleremo di categorizzazione semantica per
le diverse parole che rientrano nel medesimo raggruppamento concettuale. A livello di annotazione
semantica si distingue tra:
- specificazione del significato di un elemento desunto da una risorsa lessicale;
- marcatura dei ruoli semantici che descrivono la funzione semantica svolta dal predicato come
agente (chi svolge l'azione), paziente o tema (il referente) destinatario o beneficiario.
Lo strumento utilizzato è la rete semantico-concettuale che consente di associare una definizione a
un termine e di stabilire relazioni di dipendenza semantica fra il termine in questione e gli
iponimi/iperonimi/olonimi.
3. Tipologie di ricerca sul testo e interrogazione significativa
La verifica della frequenza d'uso di un termine è funzionale al procedimento di estrazione delle
parole chiave: tanto più un termine ricorre in un testo, tanto più è rappresentativo del suo contenuto
ma tanti più documenti riportano una certa parola tanto meno questa è significativa.
A livello di ricerca di parole i programmi permettono anche di effettuare interrogazioni sul testo o
sul corpus. È possibile ricercare co-occorrenze di forme, cioè sequenze di parole utilizzando gli
operatori ("fiore rosa" fra virgolette per cercare una sequenza, ma anche fiore + rosa per cercare un
testo o una porzione di testo in cui entrambi i termini compaiono) oppure cercare solo la radice di
una parola impiegando opportuni operatori logici (amor* per cercare tutte le forme che hanno amor
come radice ma qualunque desinenza).
A questa ricerca si affianca quella delle collocations, parole o lemmi che in abbinamento esprimono
un preciso concetto.
4. L'analisi dello stile
Sui risultati dell'analisi del testo affonda le proprie radici l'analisi statistica della lingua. A un
primo livello è possibile compiere un’indagine circa la frequenza di apparizione di alcune parole, o
la lunghezza delle stesse, in una determinata opera o in un corpus. Si entra così nel campo delle
analisi stilometriche, cioè misurare la lunghezza di parole o la lunghezza di frasi.
Al fondo di ogni metodo informatico per l'analisi dei testi sta la convinzione che esista qualcosa
ossia lo stile che è formalmente definibile e descrivibile, ed è ciò che caratterizza l'opera di un
autore e lo distingue da altri. Dunque, può divenire oggetto di ricerca. Non solo: l'analisi stilistica
può condurre a formulare risultati come la autorship attribuition ossia assegnare la paternità a un
testo di cui non si conosce o si dubiti dell'autore.
CAPITOLO 8 – Semantic Web: modelli, architettura e linguaggi
La home page di uno dei principali strumenti dedicati al Semantic Web, ossia il sito del World Wide
Web Consortium riporta che "The semantic webs provides a common framework that allows data to
be shared and reused across application".
Il web semantico è un'attività mirata all'estensione delle capacità sintattiche e semantiche
dell'attuale enorme archivio di dati rappresentato dal www.
Questa estensione va interpretata come volontà/necessità di ampliare le potenzialità del web: da un
lato per agevolare il recupero di informazioni da parte dell'utente, dall'altro per permettere ai
programmi di comprendere il significato dei documenti e consentire alle applicazioni di dialogare
tra di loro, condividendo non solo la dimensione semantica del vocabolario ma anche i concetti. Il
problema è che lo stesso vocabolo può essere espresso in termini differenti e quindi il caso di
polisemia può limitare la conoscenza.
Uno degli obiettivi del Semantic Web è di fare del web un luogo dove gestire collegamenti
semantici. Questo significa che il link dovrebbe descrivere il luogo in cui porta, dovrebbe avere,
cioè, capacità semantica, dove per "semantica" si intende un meccanismo che sa predire il valore
della sua azione. In altre parole, la specificazione del rapporto che lega la parola "attiva" all'oggetto
che verrà attivato dal link.
Nello specifico potremmo ragionare su quattro livelli, che rappresentano quattro limitazioni del web
attuale:
- la ricerca e il recupero di documenti: questa operazione viene fatta o navigando i link
ipertestuali, che collegano i documenti fra di loro, o attivando uno dei link in un elenco, risultato di
un'interrogazione effettuata a partire da un motore di ricerca tramite parole chiavi. Non sempre però
quest'operazione ci permette di ottenere i documenti di cui eravamo alla ricerca: da un lato perché
non abbiamo usato la parola chiave giusta o per problemi di sinonimia (non tutti usiamo lo stesso
vocabolo per esprimere lo stesso concetto) o per polisemia; dall'altro perché esiste un Deep Web,
non raggiungibile dai motori di ricerca;
- la ricerca e il recupero di informazioni: si possono recuperare singoli documenti, ma se si vuole
trovare delle informazioni, non è detto che esistano dei documenti che contengano le informazioni
che interessano all'utente, oppure se ci sono documenti che contengono informazioni che
interessano l'utente, devono essere ricercate all'interno dei documenti;
- la correlazione fra l'informazione disponibile: cercare informazioni che riguardano ambiti
diversi richiede una navigazione attraverso documenti diversi. Non è detto che i collegamenti
stabiliti da chi ha realizzato una pagina web siano gli stessi collegamenti logici che interessano la
nostra ricerca;
- il dialogo fra applicazioni: sarebbe utile se i programmi potessero dialogare in modo che
l'interrogazione dell'utente sia il risultato di una ricerca globale.

1. Rappresentazione della conoscenza e interoperabilità


Questi quattro livelli possono essere risolti ragionando su due concetti che sono alla base del
Semantic Web: il problema dei modi della gestione della conoscenza e le modalità utili a
garantire l'interoperabilità.
Uno degli obiettivi di Tim-Berners Lee è un web nel quale agiscano agenti software intelligenti,
cioè applicazioni che sono in grado di capire il contenuto delle pagine web e di condurre l'utente
direttamente all'informazione ricercata. Un'agente dovrebbe essere in grado di:
- comprendere il significato dei testi in rete;
- creare dei percorsi in base alle informazioni richieste dall'utente;
- spostarsi di sito in sito collegando logicamente elementi diversi, pertinenti all'informazione
richiesta.
Capire il significato dei dati significa associare ai nomi delle definizioni condivise e creare delle
relazioni fra i significati. Entriamo così nel campo del knowledge management, cioè della gestione
della conoscenza. Sono cinque i processi di gestione della conoscenza coinvolti:
- acquisizione;
- rappresentazione;
- elaborazione;
- condivisione;
- utilizzo.
Rappresentare la conoscenza è uno degli elementi fondamentali del Semantic Web.
Affinché le applicazioni possano capirsi è necessario che venga garantita l'interoperabilità sia sul
piano tecnologico (aderire a linguaggi standard) sia sul piano semantico (accedere a un repertorio di
conoscenze condivise).
È sull'impiego del linguaggio che bisogna operare per permettere il ragionamento automatico. Il
www non è un database ma una serie di pagine, in formato html, e quindi, in assenza di un modello
logico, l'unica possibilità è lavorare a livello di metalinguaggio, ossia un'informazione aggiuntiva
all'informazione costituita dai testi disponibili sul www. Queste informazioni aggiuntive sono
chiamate metadati, "dati sui dati", la cui funzione è descrivere il contenuto veicolato dalle singole
pagine web.
2. I metadati del Sematic Web: dai vocabolari controllati all'ontologia
Il procedimento di definizione dei metadati nel Semantic Web si basa su tre livelli:
- acquisire e/o definire tassonomie e thesauri;
- formalizzare i concetti tramite le ontologie;
- consentire i procedimenti logici per il ragionamento automatico.
L'obiettivo finale è modellizzare in modo adeguato la conoscenza di un dominio specifico.

2.1. Ripartiamo dai metadati: il vocabolario Dublin Core

Il Dublin Core è un vocabolario ideato per assegnare etichette basilari alle risorse della rete.
Le sue caratteristiche possono essere sintetizzate in:
- fornire un elenco prestabilito di nomi di marcatori;
- garantire l'uso di tale vocabolario di metadati tramite diversi linguaggi formali perché il
DC non dipende da alcuna sintassi.
Ll nome deriva dal fatto che questo progetto è considerato il nucleo (core) delle meta-
informazioni interessanti per qualunque risorsa e perché è nato da un'iniziativa di
bibliotecari, archivisti ed esperti di markup svoltasi nel 1995 a Dublino (Ohio).
DC versione 1 ha stabilito 15 categorie di meta-informazioni, cioè 15 elementi utili per la
catalogazione di risorse di rete.
La versione 2 ha aggiunto i qualificatori. Ili loro obiettivo è duplice:
- raffinamento degli elementi: fornire alcuni significati più precisi ai termini;
- supporto per schemi di codifica: consentire l'associazione di certi elementi a vocabolari
controllati, cioè a schemi predefiniti e condivisi. Questo significa utilizzare un vocabolario
condiviso dalla comunità.
Nello specifico è necessario distinguere tra:
- un indice di classificazione, che permette di definire una voce di soggetto rispetto a un
contesto gerarchico nel quale la voce è inserita;
- e un soggetto, che è invece un termine scelto come predefinito, cui fare riferimento per
descrivere un dato concetto.

2.2. I modelli semantici per i metadati


Un primo livello finalizzato alla normalizzazione del lessico è formato dall'uso di un
vocabolario controllato o linguaggio di indicizzazione. È necessario che tale vocabolario
sia contestualizzato rispetto a una gerarchia di riferimento: devono essere definite classi o
categorie di riferimento, all'interno delle quali i termini siano organizzate in modo
gerarchico secondo relazioni di specificità o generalità. Due esempi sono:
- tassonomia: classifica le informazioni in una struttura associativa senza esplicitare le
nature dei collegamenti;
- thesauri: linguaggio di indicizzazione controllato in modo da rendere esplicite le relazioni
a priori fra i concetti. Con il thesauro è possibile risolvere i problemi di ambiguità,
polisemie, omonimie.

2.3. Il modello concettuale


Se le tassonomie e i thesauri fissano una semantica per arricchirla, si deve passare a
modelli concettuali e a teorie logiche.
Possiamo definire il modello concettuale come il modello di una particolare area di
conoscenza, chiamata dominio, che rappresenta le entità del dominio (classi), le relazioni
che intercorrono tra esse, espresse sotto forma di attributi (proprietà), e dei valori che questi
attributi possono avere.
L'ontologia, dunque, è una descrizione formale esplicita dei concetti di un dominio
specifico. I passi che portano alla creazione di un’ontologia sono:
1. definire i concetti del dominio (classi);
2. organizzare i concetti in una gerarchia tassonomica;
3. specificare gli attributi dei concetti;
4. stabilire istanze dei concetti.
Il dc non è un’ontologia ma fornisce solo un vocabolario di elementi per la descrizione di
una risorsa. Affinché possa essere considerato un'ontologia, ogni elemento dovrebbe essere
espresso secondo i principi appena esposti.

3. Architettura e linguaggi del semantic web


L'architettura del Semantic Web è rappresentata da un'articolazione a livelli, ciascuno caratterizzato
da un linguaggio. L'interoperabilità sintattica e semantica sarà garantita dall'impiego di
standard, per i linguaggi, e dall'utilizzo di un comune vocabolario, strutturato in un modello
concettuale.

3.1. Il livello di base: Unicode e URI


Il linguaggio naturale dispone di forme sinonimiche per esprimere lo stesso concetto.
L'identificazione univoca delle risorse in rete è fondamentale per poter escludere possibili
ambiguità nella denominazione degli oggetti.
La soluzione a questo problema sono gli URI che hanno il compito di localizzare le risorse
sul web.
Questo è reso possibile in quanto gli URI indentificano un'informazione (che sia una risorsa
o un documento) tramite un'informazione (Il suo nome univoco). Sono quindi un primo
esempio di metadato semantico.
Tramite gli URI, dunque, ogni risorsa è identificata univocamente ed è quindi sempre
rintracciabile.
Un altro problema è la questione degli alfabeti. La soluzione proposta è l'adozione dello
standard Unicode, codifica di caratteri che associa a ognuno di essi un numero univoco
indipendentemente dalla piattaforma in uso, dal programma o dal linguaggio utilizzato.
Unicode e gli Uri sono dunque alla base dell'architettura del Semantic Web.

3.2. Il livello della scrittura: XML, XML Schema, Namespace


XML è stato scelto dal Semantic Web come il linguaggio per la rappresentazione dei
documenti e riveste un ruolo centrale ai fini dell'interoperabilità sintattica. XML è infatti
uno standard, è portabile fra hardware e software, consente di definire personali linguaggi
di rappresentazione formale dei dati, ed è facilmente comprensibile dall'uomo e leggibile
dalla macchina.
Per la denominazione delle etichette è stato definito il meccanismo dei Namespace. Tramite
tale meccanismo, è possibile qualificare i nomi degli elementi associando un prefisso
identificativo da anteporre al nome dell'elemento. In questo modo, è possibile identificare
univocamente quell'elemento rispetto al medesimo usato in un ambito diverso e da un
diverso codificatore.
Il meccanismo dei Namespace si basa sugli URI, nel senso che i nomi degli elementi
devono essere stabiliti creando un file raggiungibile tramite URI.
Fra i diversi linguaggi che affiancano l'xml, il linguaggio xml Schema è stato creato per
descrivere in dettaglio la struttura di un documento xml valido ed ha la funzione di gestire
elementi, attributi, relazioni, ma anche di specificare tipi di dato semplici e complessi.

3.3. il livello delle asserzioni: RDF E RDF Schema


Per fare in modo che i metadati semantici siano utilizzabili dalle macchine è necessario che
vengano espresse tramite un linguaggio trattabile sia sul piano sintattico che quello
semantico. Per avere questo obiettivo, servono linguaggi che, prima di definire la semantica
di un documento, permettano di poterla esprimere attraverso asserzioni. Ciò è possibile
tramite RDF che permette di standardizzare il modo in cui vengono definiti i metadati in
rete, fornendo un modello espressivo per descrivere un oggetto di informazione. Questo è
possibile perché RDF consente di basare la dichiarazione su tre tipi di oggetti, cioè risorse,
proprietà e asserzioni.
- una risorsa può essere una o un insieme di pagine web oppure un oggetto che fisicamente
può non trovarsi nel web. L'importante è che questa risorsa sia univocamente individuata da
un URI;
- una proprietà è un attributo che descrive una risorsa ed è dotato di un valore;
- risorse e proprietà sono esprimibili attraverso un'asserzione che si può descrivere come
l'associazione di una proprietà a una risorsa. L'asserzione viene espressa attraverso una
tripla: soggetto (risorsa) + predicato (proprietà) + oggetto (valore della proprietà). L'asserto
può esprimere qualunque valore ed è dotato di valore di verità.
Tuttavia, rdf non fornisce nessuna indicazione sul vocabolario da usare per le proprietà (il dc
potrebbe essere una soluzione) ma nemmeno descrive la possibile tipologia delle proprietà.
Per questo motivo è stato progettato rdf Schema, un linguaggio dichiarativo che fornisce
una sintassi per definire e descrivere possibili tipologie di classi e proprietà utili a
identificare una risorsa.

3.4. Il livello delle ontologie: OWL


Obiettivo finale è dunque quello di arrivare alla creazione di ontologie. Rdf schema
presenta delle lacune laddove è necessario esprimere l'equivalenza semantica di proprietà
sintatticamente differenti. Con questo linguaggio non è possibile creare ontologie che
permettano la creazione di classificazioni sistematiche e che risultino ristrette ad un
dominio specifico.
Un'ontologia infatti, nel Semantic Web, è intesa come la rappresentazione esplicita del
significato dei termini impiegati e della loro interrelazione. Il w3c propone il linguaggio owl
e lo divide in tre sotto linguaggi:
- owl lite che permette di esprimere semplici vincoli e gerarchie di classificazione ed è
rivolto principalmente alla formalizzazione di tassonomie e thesauri;
- owl dl permette di disporre di notevole espressività, garantendo che il sistema di inferenza
estrarrà tutte le conclusioni, ed è basato sul modello delle logiche descrittive;
- owl full permette di sfruttare tutta la libertà sintattica di rdf, ma senza alcuna garanzia che il
sistema estrarrà tutte le conclusioni possibili.
Un'alternativa a owl è Topic Maps, un meccanismo ideato per la rappresentazione di
tassonomie e reti semantiche cui associare qualunque risorsa informativa. Si basa sul
concetto di topic. inteso come qualunque cosa che può essere descritta, e su quello di
relation, per definire qualunque tipo di relazione che può sussistere fra i diversi topic.
CAPITOLO 9 – Un nuovo paradigma: la biblioteca digitale
Archivisti e bibliotecari sono stati fra i primi ad aver partecipato attivamente alla realizzazione di
collezioni digitali, studiando per primi i sistemi per la creazione, descrizione e accesso al
patrimonio posseduto dagli istituti di conservazione. Questo patrimonio è rappresentato da libri
antichi e moderni, riviste, documenti, fotografie, opere d'arte, video, tutto ciò che è conservato
presso le strutture deputate alla conservazione del cultural heritage.
L'esigenza di mettere a disposizione dell'utenza le informazioni ha condotto a una riflessione sulle
modalità necessarie a permettere la consultazione dei contenuti. Creare oggetti digitali, infatti,
significa realizzare unità informative che siano conservate in modo durevole e identificate
univocamente.
Compito di una biblioteca digitale è provvedere ai tre livelli, ovvero produzione, archiviazioni e
disseminazione di oggetti.
Compito, invece, di un esperto in gestione di documenti digitali è far fronte a questi tre livelli con
competenze specifiche: conoscere le fonti, saper creare oggetti digitali, saperli descrivere e
conoscere i sistemi di interrogazione degli oggetti digitali. Essere in grado, insomma, di creare un
sistema informativo complesso.
Sono due gli aspetti su cui si è concentrato il dibattito degli ultimi anni sulle biblioteche digitali: la
digital preservation, la conservazione degli oggetti digitali nel tempo e l'interoperabilità.

1. Il concetto di biblioteca digitale


Definiamo biblioteca digitale una collezione di documenti digitali strutturati, dotata di
un'organizzazione complessiva coerente di natura semantica e tematica, che si manifesta mediante
un insieme di relazioni interdocumentali e intradocumentali e mediante un adeguato apparato
metainformativo.
Da questa definizione abbiamo alcune importanti riflessioni:
- innanzitutto, che ci troviamo di fronte a una collezione di documenti e questo significa che, oltre
al singolo documento, bisogna riflettere sul collegamento che è possibile stabilire.
- questa collezione deve essere omogenea, cioè ogni BD ha una raccolta di oggetti digitali relativa a
un determinato ambito di interesse.
- altro elemento importante è che questa collezione deve essere strutturata, cioè organizzata in una
forma riconoscibile.
- dal punto di vista del contenuto, i materiali, cioè i documenti, possono essere born digital, oppure
possono essere il risultato di un procedimento di digitalizzazione e possono riguardare diversi
formati (testo, audio, video, immagini).
- allo stesso modo la BD può essere multiformato, cioè può gestire diversi media.
- altro elemento è che la BD deve avere metadati associati: ogni singolo documento deve essere
identificato rispetto al contesto, ma anche la collezione deve essere descritta e identificata.
- a livello inter e intradocumentale diremo che le relazioni fra i documenti non devono essere
limitate alla sola collezione, ma devono allargarsi ad altri documenti e collezioni. Questo significa
che, da un lato all'interno di una BD ci potranno essere oggetti che sono fisicamente conservati in
diversi istituti, dall'altro che è auspicabile collegare risorse di più biblioteche e renderle fruibili da
un'unica interfaccia di accesso.
Per concludere diremo che spesso il World Wide Web è considerato un paradigma di BD. In realtà
manca del requisito fondamentale ossia una collezione strutturata.

2. I servizi di una BD
Per l'umanista la biblioteca digitale rappresenta la possibilità di accedere a materiali digitalizzati di
varia natura. L'utente ha accesso alla raccolta di tali oggetti digitali, o meglio al digital repository,
consultando i materiali senza necessariamente sapere dove gli originali sono fisicamente conservati
(e senza doversi recare presso gli istituti che hanno tali oggetti).
In generale una BD dovrebbe provvedere alle stesse funzioni che una biblioteca tradizionale
possiede, come l’acquisizione selettiva dei materiali, la loro adeguata conservazione e
preservazione nel tempo, organizzazione rispetto alla collezione e catalogazione, ma anche
supporto al reperimento e alla consultazione. L'utente deve aver accesso ai materiali: deve poterli
trovare e fruire ma anche poterli interrogare, rispetto a una biblioteca tradizionale.

3. Strategie funzionali di un sistema di BD


Elaborare strategie di creazione di una biblioteca digitale significa riflettere sui servizi che
tradizionalmente caratterizzano una biblioteca tradizionale.
Bisogna dunque definire un piano di progettazione del workflow che porta alla creazione della BD.
Supponendo di partire da materiali su supporto analogico, la procedura consisterà in:
catalogazione, digitalizzazione, archiviazione, produzione dei metadati, eventuale conversione
del formato degli oggetti digitali in uno web-compliant, pubblicazione sul web.

3.1. Le tecnologie: formati e standard


Creare una biblioteca digitale significa adottare formati di memorizzazione che garantiscano
l'interoperabilità. Questo significa adottare standard compatibili con il www e portabili
fra piattaforme hardware e software diverse.
Se la BD deve nascere su oggetti digitali nativi bisogna provvedere alle eventuali
conversioni di formato e/o risoluzione: per esempio un'immagine nativa in TIFF dovrà
essere convertita in JPEG per la distribuzione sul www.
Se la creazione della BD parte da oggetti analogici la digitalizzazione verrà condotta in base
a tecniche diverse a seconda del materiale e del tipo di supporto.
Pianificare un progetto di digitalizzazione significa selezionare adeguatamente il materiale
da destinare alla BD, considerando che questa operazione sarà effettuata per consentire
l'accesso a materiali che sarebbero difficilmente consultabili e per preservare gli originali
più facilmente deperibili.
Ovviamente il lavoro sarà condotto nel rispetto delle norme sul copyright e sul diritto
d'autore.
Per quanto riguarda le biblioteche digitali basate su raccolte di testi si riscontrano le seguenti
tipologie di codifica:
- codifiche solo testo (ASCII, ISO 8859-1, UNICODE);
- formati applicativi proprietari come Postscript, PDF, Rtf;
- codifiche non proprietarie ma legati a singoli applicativi come COCOA o DBT;
- linguaggi di markup HTML/XHTML;
- linguaggi di markup basati sull'SGML o sull'XML che impiegano la TEI oppure altri
schemi come l'Encoded Archival Description.
La rilevanza assegnata ai linguaggi di codifica strutturale è dettata dalla necessità di:
1. evitare il ricorso a formati proprietari, che limitano la portabilità;
2. interpretare la struttura logica espresse dalle fonti evitando l'adozione di codifiche "puro
testo".
L'xml nello specifico è lo standard eletto per il markup di documenti di tipo testuale che
vadano a popolare una biblioteca digitale.
Alla necessità dell'uso di standard si affianca l'esigenza di usare applicativi open source.
Altra cosa molto importante è l'identificazione univoca delle risorse che è lo strumento
necessario per fornire la chiave unica di accesso agli oggetti digitali. L'identificatore è il
mezzo che consente di collegare la risorsa alla sua descrizione. È quindi indispensabile che
non sia un indicatore statico ma dinamico che si adegui, cioè, all'eventuale mutamento di
localizzazione fisica della risorsa. Il meccanismo degli uri permette ciò.
Altri standard sono stati definiti a questo fine, ossia svincolare l'oggetto dalla sua
localizzazione e sono l'Uniform Resource Name e il Digital Object Identifier che assegna
stringhe numeriche a ogni oggetto digitale.
In generale gli identificatori (handle) sono gli strumenti fondanti di un sistema di BD,
perché il reperimento di ogni oggetto della raccolta rappresenta la chiave per il recupero
dell'informazione. In questo modo, ogni oggetto digitale conservato nel repository della BD,
potrà essere identificato tramite una stringa univoca, che ne consentirà il reperimento, a
prescindere dal luogo fisico di conservazione dell'oggetto.

3.2. I metadati: modelli, schemi e vocabolari


La scelta dei metadati è fondamentale nella creazione di una BD perché veicola le
operazioni sulla raccolta digitale. Definire un set di metadati significa, da un lato scegliere
con quale formalismo esprimerli, dall'altro quali etichette descrittive utilizzare.
I metadati si dividono in tre classi:
- metadati descrittivi: è la descrizione bibliografica della risorsa elettronica. Questo
livello prevede anche la descrizione di risorse correlate: è opportuno dunque descrivere
anche la fonte materiale da cui la versione digitale è tratta;
- metadati gestionali e amministrativi: si possono articolare su ulteriori tre livelli, ossia
metadati tecnici che documentano sui formati utilizzati; metadati di preservazione che
informano su procedure e tecnologie adottate nella digitalizzazione e metadati di gestione
dei diritti ossia le restrizioni e le licenze sull'uso della risorsa;
- metadati strutturali: la funzione è di descrivere sia la struttura logica del contenuto di
una risorsa digitale (introduzione, capitoli, indice ecc) sia la struttura fisica (elenco dei file
che compongono l'oggetto digitale).

3.3. Conservazione e preservazione degli oggetti digitali


Il problema della preservazione può essere soggetto a tre tipi di problematiche:
- degradazione dei media;
- dipendenza da determinati hardware e software;
- possibile obsolescenza di sistemi e applicazioni.
Le soluzioni sono:
1. migrazioni progressive e periodiche delle informazioni da un supporto fisico di
conservazione a uno nuovo;
2. emulazione del software originale;
3. mantenimento integrale dell'oggetto digitale assieme all'hardware e al software necessari
per leggerlo.
Al concetto di preservazione dei dati è strettamente correlato quello di persistenza: non solo
gli oggetti digitali devono essere accessibili nel lungo periodo ma le BD devono essere
persistenti, cioè i dati devono sopravvivere all'esecuzione del programma che li ha creati.
Xml in questo senso è un linguaggio non vincolato ad un'applicazione specifica, assicura
leggibilità nel tempo e portabilità tra piattaforme diverse.

4. Il problema dell’interoperabilità

Il primo livello di interoperabilità sintattica è costituito dall’uso di formati di archiviazione dei dati
standardizzati che garantisca l’interscambio. Le BD devono interagire tra loro ma al momento
risultano isolate. L’uso diversificato di linguaggi e tecnologie, infatti, non permette la
comunicazione tra le risorse. Sarebbe necessario lo sviluppo di middleware, un insieme di modelli,
protocolli, interfacce utilizzati come strumento unico e condiviso per integrare applicazioni
sviluppate su sistemi eterogenei.
Affinché le BD possano dialogare tra loro è necessario che condividano il sistema di
rappresentazione della componente meta-informativa. Funzione dei metadati: descrizione di una
risorsa elettronica e consentire l’interrogazione sulle diverse BD agevolando l’integrazione
finalizzata all’accesso in un unico ambiente condiviso.
Soluzione → creazione di tavole di corrispondenza tra gli elementi utilizzati.
Harvesting → dei metadati consentirebbe di associare un termine alla sua connotazione e
identificazione.

Potrebbero piacerti anche