Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INFORMATICHE E
DISCIPLINE UMANISTICHE di
Francesca Tomasi
Informatica
Università degli Studi di Verona
26 pag.
INTRODUZIONE
Informatica: disciplina che si occupa del trattamento automatico dell’informazione.
Scienze dell’informazione → discipline che si occupano dei processi e dei sistemi di reperimento, trasformazione e trasmissione dei
dati informativi: informatica identificata come scienza.
La computer science costringe a trasformare i dati in sistemi formali: costruiti in base a precisi schemi e regole. Ambiguità e
indeterminatezza devono essere sostituite da schemi e regole, strutture e modelli. Il fondamento teorico: analisi dei sistemi di
progettazione e creazione di oggetti computabili (quello che è formalizzato diventa computabile, quindi risolvibile).
Origini
IU affonda le proprie radici nella linguistica computazionale, nel 1949 Padre Roberto Busa inizia a produrre l’ index
verborum degli opera omnia di Tommaso d’Aquino.
1966 fondazione della rivista “Computers and the Humanities”.
Nascita nel 1970 di due associazioni: Association for Literary and Linguistic Computing (1973) e Association for Computer
in the Humanities (1978) → editor di un’altra importante rivista: “Literary and Linguistic Computing”.
Fine degli anni ottanta: la disponibilità di personal computer porta alla nascita delle biblioteche digitali.
Anni novanta: segnati dall’avvento del World Wide Web che consente la pubblicazione online di materiali in formato
digitale.
Non si ricerca un’informatica per le discipline umanistiche ma si vogliono coniugare le due materie. L’informatica non deve essere
uno strumento a uso dell’umanista ma deve essere pensata come fondamento per una riflessione sui metodi della ricerca
umanistica.
PARTE PRIMA
L’INFORMAZIONE E L’INFOMATICA
1 FORMALIZZAZIONE ED ELABORAZIONE DELL’INFORMAZIONE: LA MACCHINA E I SUOI LINGUAGGI
Calcolatore → macchina in grado di eseguire compiti espressi in modo formale (basati su precise regole e comunicati attraverso un
codice). La rappresentazione dell’informazione avviene attraverso simboli, la trasmissione avviene in formato digitale: i simboli
diventano computabili quando espressi in forma comprensibile alla macchina.
Le istruzioni sono segnalate alla macchina tramite programmi. Il calcolatore → è un esecutore di programmi, un programma è un
insieme di informazioni espresse in modo formale tramite algoritmo. I linguaggi di programmazione traducono l’algoritmo in forma
eseguibile dal calcolatore.
Le operazioni eseguite dalla macchina possono essere descritte in modo astratto.
Componenti principali:
1. Hardware: insieme dei dispositivi fisici;
2. Software: programmi per risolvere classi di problemi. Il software base della macchina è il sistema operativo (gestisce
applicazioni e interazione tra uomo-macchina).
Applicativi → programmi che possono essere eseguiti dal calcolatore.
Il codice binario
Il dato viene comunicato alla macchina con un determinato codice dotato di un’articolazione di segni e di un insieme di
combinazioni di questi segni.
Codice binario → codice notazionale a base 2, la macchina può manipolare due simboli: 0 e 1; è in grado di codificare un infinito
numero di fenomeni, a posizione dei numeri è significativa (sistema posizionale).
Oggetto digitale → sequenza di 0 e 1, si parla di bit (cifra binaria): unità di misura necessaria a calcolare quanti 0 e/o 1 compongono
un oggetto digitale. Ogni simbolo = 1 bit; byte = sequenza di 8 bit.
Digitale → oggetto caricato nella memoria del computer. Si parla di rappresentazione digitale in riferimento al dato espresso
tramite una codifica (per le immagini si usa codificare ogni singolo punto pixel sulla base di alcuni parametri). Le diverse modalità di
rappresentazione del dato in formato binario daranno luogo a diversi formati di dato.
Tramite codifica il dato binario diventa informazione: bit → unità minima di informazione.
Comunicazione uomo-macchina: i dati sono comunicati tramite unità di input e tramite codice noto all’uomo, arrivano alla
macchina che li interpreta in un suo codice per poi restituirli tramite unità di output.
La codifica dei caratteri
Ogni oggetto della realtà viene identificato tramite un’aggregazione di simboli convenzionali. Primo codice → quello con cui
vengono immessi i dati nella macchina. Fino alla fine degli anni Cinquanta l’immissione dei dati avveniva tramite codice binario.
Per rappresentare i caratteri tramite due soli valori (0 e 1) è sufficiente definire una corrispondenza biunivoca che associ il
repertorio di simboli notazionali a una sequenza di codici elaborati ricorrendo alla sola notazione binaria.
Tavola di corrispondenza → insieme ordinato di caratteri codificati tramite ricorso alla notazione binaria.
Codice ASCII: rappresentazione di 128 simboli, formata da sequenze binarie di 7 bit per ogni simbolo. Codice basato
sull’alfabeto delle lingue anglosassoni, perciò la sequenza base è stata incrementata di un elemento (8 bit) per arrivare
a rappresentare 256 possibili segni. Si verifica una proliferazione di derivazioni dall’originale ASCII a 7 bit, che ha portato
una riduzione della leggibilità dei dati memorizzati su supporto elettronico tra ambienti hardware e software diversi. Per
contrastare → definite tavole standard per agevolare lo scambio di documenti elettronici (metodo codificato dallo
standard ISO 8859-n).
Codice Unicode: nel 1991 era codificato con 16 bit, comprendeva 65.536 caratteri permettendo di contenere gli
elementi necessari per la maggior parte delle lingue del mondo. Il file è molto “pesante” perciò sono stati creati dei
charset detti UTF → usa una tecnic di bit-shifting per codificare caratteri Unicode. Usa 7 bit per codificare i primi 127
caratteri corrispondenti all’ASCII standard e attiva l’8 bit solo quando serve la codifica Unicode. Vantaggio: il documento
è visualizzabile con un normale editor di testi. L’Unicode è importante perché assunto come standard dei linguaggi di
markup come sistema di interscambio sul web. Strumento fondamentale anche per l’umanista perché consente di
rappresentare speciali utili nel campo dello studio delle scritture antiche (paleografia).
Procedure di risoluzione di problemi: il concetto di algoritmo
Oggetto digitale → costituito da una sequenza di bit. È un file (documento elettronico, immagine digitale, video) caricati nella
memoria del computer. Un file è anche un programma, applicazione che è in grado di creare un file di testo, immagine, audio o
video. Alla base del funzionamento della macchina stanno i programmi. L’elaboratore è un esecutore di programmi e un
programma è il risultato dell’analisi del problema, della sua risoluzione. Il calcolatore è una macchina in grado di far fronte a
procedure di risoluzione di problemi.
Algoritmo → la macchina è in grado di eseguire operazioni solo se comprensibili dallo strumento automatico, cioè espresse sotto
forma di una sequenza finita di mosse, univocamente interpretabili, necessarie a risolvere un problema in un tempo determinato.
Esecutore di algoritmi → capacità di accettare dati in ingresso, elaborarli, svolgendo determinate operazioni elementari e produrre
un risultato. Scrittura dell’algoritmo è compito dell’operatore umano.
L’algoritmo deve rispettare delle condizioni:
1. Univocità e non ambiguità: significato univoco, esprimere l’algoritmo tramite linguaggio formalizzato basato su precise
regole.
2. Finitezza ed eseguibilità delle istruzioni: composto da sequenza discreta (numerabile) di comandi, per risolvere un
problema nel modo più veloce possibile utilizzando la minima quantità di risorse fisiche della macchina (efficienza).
3. Terminatezza o completezza: sequenza di istruzioni determinata e finita, la procedura deve terminare.
Qualunque problema espresso in modo formalmente corretto e non ambiguo può essere espresso sotto forma di algoritmo e
quindi essere espresso in un programma tramite linguaggio di programmazione → linguaggio formale dotato di sintassi e semantica
non ambigua. Vengono utilizzati diagrammi di flusso per agevolare la descrizione di algoritmi, consentono la descrizione grafica
delle istruzioni tramite forme geometriche: blocco di operazione che contiene l’azione da eseguire (rettangolo), blocco di decisione
che segnala una condizione che si deve verificare (rompo), blocchi esterni indicano l’inizio e la fine dell’algoritmo (cerchi), le linee di
flusso indicano i collegamenti tra i blocchi segnalando l’ordine di esecuzione (frecce). L’ordine è fondamentale.
Strutture sequenziali e strutture selettive → non sono sufficienti per rappresentare la casistica di azioni che può essere espressa in
un algoritmo. Bisogna aggiungere la possibilità ciclica, si parla di iterazione in riferimento a un costrutto algoritmico che preveda il
ripetersi di azioni e/o condizioni.
Linguaggi per algoritmi
Un calcolatore è un esecutore di algoritmi:
1. Risoluzione: ricerca dell’algoritmo risolutivo delegata all’uomo;
2. Codifica: formulazione dell’algoritmo in un linguaggio adatto al calcolatore;
3. Esecuzione: delle istruzioni, delegata alla macchina.
Linguaggi di “basso livello” (linguaggio macchina e assembly)
Linguaggio di programmazione → insieme di istruzioni comprensibili da uno specifico calcolatore, denominato linguaggio macchina,
distante dal linguaggio naturale, difficilmente utilizzabile per la scrittura di algoritmi. Costituito da sequenze di bit rappresentate da
serie di 0 e 1. Nasce l’esigenza di stabilire una corrispondenza fra le sequenze di bit e un linguaggio simbolico più vicino al
linguaggio naturale → linguaggi assembly, composti da espressioni più facilmente memorizzabili dall’operatore umano. Il
programma scritto in assembly viene tradotto in linguaggio macchina.
Sono detti linguaggi di “basso livello” perché composti da istruzioni elementari che la macchina deve compiere, non adatti a
programmazione che richiede istruzioni concise e strutturate.
Linguaggi di “alto livello”
Linguaggi più vicini alle modalità di ragionamento umano, quindi più simili nelle modalità di scrittura. Sono contemporaneamente
comprensibili dall’uomo ed eseguibili dal calcolatore, e devono essere concisi, semplici, sintetici e univoci.
Codice sorgente → con il quale è scritto il programma tramite opportuno linguaggio, deve essere tradotto per consentire
l’esecuzione del programma da parte della macchina. Primi linguaggi ad alto livello: FORmula TRANslator, Common Business
Oriented Language¸ poi sostituiti da ALGOrithmic Language. Si è poi affermato lo stile di programmazione orientato agli oggetti: C+
+, C# (sharp), Java.
Linguaggi imperativi → i comandi sono una sequenza di passi e il programma è un insieme di comandi.
Linguaggi dichiarativi → enfasi posta sulla descrizione delle caratteristiche che deve avere la soluzione e il programma è un insieme
di dichiarazioni.
Programmazione orientata agli oggetti → paradigma basato sulla modellazione dei dati, ogni entità viene modellata per mezzo di
un oggetto che dispone di attributi (stato) e può avere determinati comportamenti. Ogni oggetto appartiene ad una classe, si
definisce come istanza della classe, ha quindi caratteristiche che condivide con gli altri oggetti che appartengono alla stessa classe.
Tramite le sottoclassi possiamo costruire gerarchie di classi: ogni sottoclasse “eredita” stati e comportamenti della classe da cui
discende.
Interpretazione e compilazione
Due sistemi per implementare un linguaggio di programmazione:
1. Interpretazione: l’interprete è un programma che, seguendo riga per riga le istruzioni del codice di alto livello le esegue
passo per passo.
2. Compilazione: il compilatore traduce interamente il codice sorgente in codice macchina creando un codice oggetto
eseguito dall’elaboratore.
Elementi di un linguaggio di programmazione
Ogni linguaggio di programmazione è dotato di un sistema formale per la codifica dell’algoritmo. Vocabolario e segni di
interpunzione regolano il processo di codifica.
Correttezza sintattica → controllata dall’interprete o dal compilatore.
Correttezza semantica → riguarda l’aderenza della soluzione ottenuta al problema originariamente posto.
Ogni linguaggio ha specifica notazione per esprimere la sintassi (detta anche grammatica) che riguarda le regole che devono essere
rispettate per comunicare in modo corretto.
Grammatica → consiste di:
1. simboli non terminali, cioè le categorie sintattiche (lettere MAIUSCOLE);
2. simboli terminali, ovvero sequenze di caratteri che devono essere considerate in modo unitario (lettere minuscole);
3. regole di produzione.
Notazione più comune: Backus-Naur Form (BNF).
Ogni linguaggio formale si basa su una specifica grammatica ed esistono diverse tipologie di grammatiche formali classificate da
Chomsky conosciuta come Gerarchia di Chomsky.
Dati, istruzioni e operazioni
Operazioni elementari → (aritmetiche, di lettura, scrittura, stampa, visualizzazione), possono essere risolte dalla macchina quando
espresse sotto forma di istruzioni. °operazioni matematiche, °istruzioni di ingresso e uscita sono le tipiche azioni che la macchina è
in grado di eseguire. I dati espressi sotto forma di nomi simbolici sono chiamati variabili. Ad ogni dato viene associata una variabile
che lo identifica e questa procedura avviene utilizzando un identificatore simbolico che rappresenta quel particolare dato.
3
Protocolli TCP/IP → serie di protocolli elaborata da Cerf e Kahn. Compito: gestione della trasmissione dei dati a livello di trasporto e
di rete. Si basa sulla tecnica di commutazione di pacchetto: il TCP suddivide il flusso di dati in pacchetti mentre l’IP gestisce
l’instradamento e li inoltra ai nodi di destinazione.
I protocolli sono pubblici. Ogni nodo della rete (host) deve essere individuato in modo univoco, il tutto è garantito dall’impiego di
indirizzi rappresentati sotto forma di stringhe numeriche.
Indirizzo IP → sequenza numerica (quattro gruppi di cifre separate da un punto, ciascun gruppo con valori 0<x<255) che identifica
univocamente ogni macchina della rete in modo gerarchico. È convertito in indirizzo simbolico di dominio tramite il Domain Name
System.
1. Architettura client server: una macchina (client) richiede un servizio ad un’altra macchina (server);
2. Modello peer-to-peer: i nodi della rete che comunicano rivestono ruoli interscambiabili.
Il www: decentralizzazione e universalità
L’dea del web nasce alla fine degli anni ottanta presso il CEERN di Ginevra grazie a Tim Berners-Lee. Obiettivo originario era di
trovare un sistema per consentire a dati relativi a software, persone e progetti di ricerca di essere collegati fra loro.
Enquire → primo programma ad anticipare i WWW. Usava collegamenti fra le diverse pagine di informazione, ogni pagina era un
nodo e per creare nuovi nodi era necessario collegarsi ad un nodo già esistente.
Tangle → successore, sistema di documentazione globale, sono collegamenti fra ogni tipo di informazione.
Decentralizzazione delle risorse e universalità di accesso sono le componenti fondamentali. Come modello del sistema viene scelto
l’ipertesto che permette di collegare fra loro i dati e quindi associare informazioni tramite l’hypertext links.
Nel 1990 nasce il WWW → editor di ipertesti (programma per la scrittura e la composizione) e browser (programma per lettura e
navigazione).
Nel 1994 nasce il World Wide Web Consortium (W3C).
L’architettura del WWW
Il Web è un’architettura basata sugli ipertesti che si serve di Internet, intesa come infrastruttura fisica di comunicazione e intesa
come insieme di protocolli.
Strutture costitutive fondamentali del Web:
URI: per identificare il documento tramite un nome convenzionale persistente. L’URL è un sottoinsieme dell’URI ed è
l’indirizzo fisico con il quale ogni risorsa viene recuperata sul Web.
HTTP: protocollo di scambio dei dati e si basa su una serie di regole minime condivise, è dichiarato nell’URL.
HTML: linguaggio del W3C per la pubblicazione di costrutti ipertestuali navigabili. I documenti visualizzabili sul Web sono
scritti in HTML e quello che vediamo è il risultato dell’interpretazione di questo codice da parte del software.
L’uso di questi standard è garanzia di interoperabilità tecnica ovvero possibilità di consentire a sistemi diversi di dialogare fra loro. È
lo strumento necessario a garantire l’interscambio dei dati.
Le pratiche del W3C raccomandano:
L’indipendenza dal software;
L’adozione di standard per la codifica dei caratteri;
Creazione e diffusione di standard per l’accessibilità.
I linguaggi per l’architettura del WWW
Linguaggio HTML → strumento necessario alla descrizione del contenuto e della struttura logica di un documento.
Tre funzioni:
1. Permettere di definire l’articolazione delle porzioni testuali;
2. Consentire di incorporare oggetti multimediali;
3. Gestire i collegamenti ipertestuali.
Fondamentalmente si tratta di un linguaggio per la formattazione delle pagine, il vocabolario è legato all’aspetto del documento.
È un’architettura a livelli in cui le diverse componenti delle pagine sono nettamente separate in modo tale che ad ognuna di esse
corrisponda un livello indipendente.
Esiste un deep Web “nascosto” che i motori di ricerca non possono interrogare;
Le pagine non più aggiornate rimangono comunque nel database del motore di ricerca;
La query con parole chiave non è detto che restituisca proprio l’argomento che stiamo cercando.
Google rappresenta il motore di ricerca più utilizzato dagli utenti. Tra le principali caratteristiche:
- Velocità nei tempi di risposta;
- Numero di pagine archiviate nel database;
- Tecnica matematica del relevance ranking ovvero la modalità di selezione dei risultati restituiti dall’utente.
Più un sito è linkato e più in alto sarà nella lista dei risultati. Altre funzionalità: ricerca avanzata, ricerca per immagini, ricerca di libri,
Google Scholar per la ricerca sulla letteratura accademica.
La ricerca bibliografica: dagli OPAC alle biblioteche digitali
Le biblioteche hanno studiato e realizzato sistemi per poter accedere facilmente alle collezioni. Il catalogo è il veicolo per tale
reperimento. Gli strumenti automatici di navigazione all’interno delle collezioni bibliografiche hanno favorito un reperimento
dell’informazione più veloce e una moltiplicazione delle modalità di ricerca.
OPAC → catalogo elettronico che consente di interrogare le biblioteche aderenti. L’utilizzo degli OPAC consente di reperire un
determinato titolo, di ricercare tutte le opere di un determinato autore. Si parla di biblioteca elettronica.
OPAC del Servizio Bibliotecario Nazionale (SBN): notizie relative ad una pubblicazione e sapere quali sono le biblioteche
che sul territorio nazionale hanno un determinato volume.
Meta-OPAC Azalai (MAI): è possibile ricercare su molteplici cataloghi per verificare il posseduto di documenti poco
comuni.
OPAC locali che possono arginare la ricerca.
ACNP: catalogo italiano dei periodici.
Sito dell’AIB: repertorio di tutti i cataloghi italiani.
Il desiderio di una consultazione diretta dei testi ha favorito la nascita di Biblioteche digitali nel portale Internet Culturale.
Progetto europeo Michael → tramite il quale è possibile esplorare le collezioni digitali di musei, archivi, biblioteche in Italia, Francia,
Regno Unito ricercando per tema, area geografica, periodo storico.
Una nuova tipologia di risorsa elettronica: e-prints → documenti elettronici rappresentati da articoli scientifici in attesa di
pubblicazione su riviste cartacee. Vengono riversati su database dedicati, chiamati repositories, accessibili via Web.
Le collezioni di testi letterari
Collezioni digitali → siti che si propongono di offrire una prospettiva globale della raccolta dei testi rispetto ad un ambito nazionale
e/o linguistico.
Collezioni digitali specifiche: testi relativi a specifico autore e certo periodo storico, corrente culturale o determinato
genere letterario.
Collezioni digitali generali: copertura dell’intera tradizione letteraria nazionale classica o contemporanea.
Caratteristiche di tali siti:
Modalità di accesso ai contenuti;
Possibilità di interrogazione;
Formati dei file.
L’assenza di regole univoche comporta anche l’assenza di criteri condivisi dalla comunità dei fruitori. L’esistenza di regole è
necessaria ad autenticare la qualità del testo elettronico e a valutare l’attendibilità dell’informazione trasmessa.
Prima garanzia di qualità:
- Linguaggio utilizzato;
- Sistema di navigazione chiaro ed efficace;
- Dichiarazione dell’autore del sito (presenza di copyright e possibilità di identificare l’ente);
- Elementi paratestuali;
8
- Riferimenti bibliografici;
- Aggiornamento dei materiali;
- Link alle altre risorse online (sitografia ragionata).
La dimensione collaborativa della rete: blog e wiki
Blog e Wiki costituiscono il Web 2.0.
Wiki → sito web che permette a ciascuno dei suoi utilizzatori di aggiungere contenuti ma anche di modificare quelli già esistenti
inseriti da altri utilizzatori.
Blog → sito web pensato perché un singolo pubblichi i suoi scritti (post).
Sistemi che consentono di creare pagine web sul server remoto: Conten Management System (CMS) condivide il trend dominate
del Web ovvero la distinzione della forma e del contenuto.
CMS → applicazioni che mettono a disposizione anche una struttura di sito definita. È possibile disporre di un’organizzazione dei
contenuti a livello di elementi della navigazione e di una serie di modelli grafici con cui gestire l’aspetto del sito.
10
Query → interrogazione effettuata su una o più relazioni che genera una particolare vista del DB. Possono essere effettuare tramite
stringhe di caratteri semplici, operatori jolly, operatori algebrici, operatori booleani o connettivi logici, operatori aritmetici o di
concatenamento, operatori di confronto.
Basi di dati per l’umanista e linee di evoluzione
I DB sono importanti per l’umanista perché molte delle informazioni di interesse sono fruibili sotto forma di basi di dati (raccolte
bibliografiche) ma anche perché l’umanista è in grado di comprendere come descrivere e organizzare tali contenuti, capendo quali
domande fare per ottenere determinate risposte.
Metadati → etichette descrittive di qualunque oggetto digitale. Dalla definizione dei metadati si possono individuare gli elementi
costitutivi di ogni raccolta.
Database full-text → per le raccolte di testi elettronici, in cui uno dei campi del DB ospita il testo integrale. Si possono integrare
immagini digitali, e diversi altri media.
Il modello a oggetti è utilizzato quando la collezione è costituita da dati multimediali, questo modello permette di gestire i dati
come oggetti complessi e unitari consentendo di stabilire relazioni facilmente.
I principali strumenti:
- L’oggetto, tipo di dato complesso.
- Proprietà, che descrive la struttura degli oggetti e le operazioni.
- Classe, raggruppa gli oggetti dello stesso tipo.
Sistemi informativi distribuiti → le risorse Web a cui accediamo sono originate da DB. È pensato come ambiente collaborativo a
distanza.
La modellazione concettuale
Modellazione concettuale → prima fase di progettazione di un DB. È un procedimento concreto di formalizzazione. Si definisce il
modello partendo da oggetti della realtà che possono essere raggruppati in classi sulla base della condivisione di determinate
proprietà. Vengono create delle classi e stabilite delle relazioni semantiche (= il collegamento stabilito tra due oggetti è in grado di
specificare il senso della relazione.
Astrazione → sistema che consente di evidenziare alcune proprietà degli oggetti osservati.
1. Astrazioni di classificazione: classe intesa come insieme di oggetti con le medesime proprietà. Gli oggetti che
appartengono ad una classe sono istanze della classe. Instance-of.
2. Astrazioni di aggregazione: definiscono una nuova classe a partire da altre classi identificabili come proprietà della prima.
Si crea una nuova classe partendo da caratteristiche condivise. Part-of.
3. Astrazioni di generalizzazione: definiscono nuove classi da altre già esistenti che sono dipendenti gerarchicamente dalla
nuova classe definita. Subset-of.
Formalismo per la modellazione concettuale è il modello E/R, costituito da due componenti:
1. Costrutti per esprimere i concetti del modello: entità, relazioni e attributi.
2. Notazione per rappresentare tali costrutti: rettangolo, rombo e freccia.
Entità → classe di oggetti dotati di proprietà comuni.
Occorrenza di un’entità (istanza) → oggetto di quella classe.
Successivamente si procede con la definizione delle relazioni ovvero la specificazione del legame che sussiste tra le entità.
Attributi → descrivono le proprietà di entità e relazioni. Esistono attributi semplici e attributi composti.
11
PARTE SECONDA
LA RAPPRESENTAZIONE DELL’INFORMAZIONE
4 LA TESTUALITÀ DIGITALE: I LINGUAGGI DI MARKUP
Il primo livello di codifica è un processo che consente di comunicare dati all’elaboratore, tramite un codice che consente il dialogo
tra macchina e uomo: il codice ASCII e il successore Unicode. Questo livello è un processo di conversione di un dato analogico al
formato digitale. Tuttavia la codifica del testo basata sulle sole tavole dei codici consente di rappresentare nella memoria del
computer solo la sequenza dei segni grafici che rappresentano il testo. Un testo contiene diverse informazioni a diversi livelli, che
superano la mera sequenza di caratteri. Si distingue la codifica di basso livello (codifica dei dati elementari) dalla codifica di alto
livello (markup) → possibilità di aggiungere alla sequenza di caratteri altre stringhe di caratteri: i marcatori, utili a descrivere
determinati aspetti funzionali alla produzione del documento elettronico.
Markup → è chiamato annotazione del testo, è il passo preliminare per ogni operazione di successiva elaborazione o trattamento
del documento digitale.
Per l’umanista la codifica dei caratteri e il markup rappresentano un processo interpretativo e di moderazione del testo, risultato
dell’analisi di quest’ultimo. Viene costruito un modello del testo più adatto alle esigenze della rappresentazione elettronica.
Codificare tramite linguaggi formali di rappresentazione del testo contribuisce ad arginare la perdita di elementi significativi per la
trasmissione del messaggio.
Classificazione delle tipologie di markup
1. Proprietario vs non proprietario: il markup può essere creato da un’azienda che lega le istruzioni di codifica all’applicativo
oppure si presenta come un set di istruzioni standardizzate e condivise da un insieme di organizzazioni.
2. Leggibile vs non leggibile: può essere delegato ad un applicativo che incorpora e nasconde i valori, si definisce leggibile
quando non è necessario ricorrere a nessun programma per la visualizzazione e interpretazione del codice da parte
dell’utente.
3. Orientato al layout (presentazionale) vs orientato alla struttura (descrittivo o analitico): si possono utilizzare i marcatori
per definire caratteristiche fisiche del documento o per segnalare elementi di struttura logica.
4. Procedurale vs dichiarativo: nel primo caso il markup si presenta sotto forma di istruzioni che specificano caratteristiche
di output del documento. Nel secondo le indicazioni di markup sono orientate alla descrizione di certe caratteristiche
formali.
Da queste tipologie deriva la classificazione dei documenti in base al formato dei dati: ogni applicativo lega il documento prodotto
con una certa marcatura a uno specifico formato. L’unico formato non marcato è il “solo testo”.
Il markup: dal layout alla struttura
Il termine markup deriva dalla stampa tipografica tradizionale in riferimento a quella serie di simboli e annotazioni che l’autore o
editore aggiunge al manoscritto per istruire lo stampatore sulle caratteristiche del documento destinato alla stampa.
Funzione dei linguaggi di markup → fornire un insieme di strumenti che consentano di aggiungere notizie sul testo riguardanti:
1. Aspetto: formattazione e disposizione degli elementi nella pagina.
2. La struttura logica: funzione dei blocchi di testo.
Word processors → programmi che consentono all’utente di effettuare operazioni di scrittura, correzione e lettura del testo,
permettendo la preparazione del formato del testo al fine della stampa. I sistemi di text processing basati sull’impiego di un word
processors sono detti di tipo WYSIWYG (what you see is what you get). Questi sistemi agevolano il lavoro dell’utente
consentendogli di interagire con l’interfaccia grafica. Il problema è che questi sistemi legano l’elaborazione del testo a un
determinato programma, tendendo problematica la portabilità tra ambienti hardware e software diversi. Impiegando dei caratteri
di controllo invisibili, si rende il file leggibile esclusivamente dal sistema che l’ha generato.
Si parla di linguaggi di marcatura del testo (markup languages) → linguaggi che si basano su un insieme di istruzioni e indicazioni
orientate alla descrizione dei fenomeni di strutturazione, composizione, impaginazione del testo. I marcatori sono sequenze di
caratteri visibili che vengono immessi dentro il file, direttamente accanto alla sequenza di caratteri, marcando blocchi di testo cui
intendono assegnare una determinata funzione. In questo modo è garantita la leggibilità.
Markup procedurale e markup dichiarativo
Differenza nella tipologia e nella funzione dei marcatori utilizzati.
1. Markup procedurale (specifico): insieme di istruzioni operative che indicano localmente la struttura tipografica e
compositiva della pagina. “Procedurale” perché indica alla macchina le procedure di trattamento cui deve sottoporre la
sequenza di caratteri al momento della stampa. Linguaggi procedurali: TeX e LaTeX, primi linguaggi di marcatura ad
occuparsi dell’aspetto tipografico. Alcune informazioni circa il testo vengono però perdute, in quanto non segnalate, e si
rivela necessario conoscerne esattamente la resa tipografica per poterne accedere. Inoltre un linguaggio di questo tipo,
comporta uno stretto legame con il software in grado di interpretare le istruzioni, limitando la portabilità. Le istruzioni di
formattazione vengono fissate una volta per tutte. → (limiti)
2. Markup dichiarativo (generico): i simboli di markup vengono impiegati come indicatori di struttura. I linguaggi sono
costituiti da un insieme di marcatori (tags) che indicano la funzione logico-strutturale assolta dal blocco di testo cui si
12
riferiscono. Questi linguaggi dichiarativi sono classificabili come linguaggi descrittivi (a livello di struttura). Delegano ad
altri linguaggi il compito del layout, cioè l’assegnazione di uno stile agli elementi logici. I principali linguaggi sono: SGML e
il suo derivato HTML. Perciò i linguaggi dichiarativi: si basano sulla descrizione della struttura logica del documento
(utilizzati a scopo descrittivo), il formato dei dati non è proprietario, i marcatori sono leggibili dall’utente.
Le origini del markup dichiarativo: SGML
Elaborato nel 1986 da Goldfarb, con lo scopo di definire uno schema linguistico standard a livello internazionale nell’ambito della
codifica dei testi. Obiettivo: consentire l’interscambio di documenti in formato elettronico tra ambienti hardware e software
differenti e garantire la portabilità dei dati.
SGML → si basa su un markup generico, si fonda sull’idea che ogni documento sia dotato di una struttura astratta definibile tramite
un’organizzazione rigidamente gerarchica dei suoi elementi costitutivi. La struttura astratta di un documento viene identificata in
una rappresentazione ad albero: ogni nodo corrisponde ad un elemento, i rami sono le relazioni tra elementi (inclusione, ordine,
ricorrenza), le foglie sono gli elementi finali (caratteri del testo).
SGML consente di definire in modo personale e autonomo un insieme di marcatori che consentano di fare il markup della struttura
logica del documento. Il gruppo di marcatori individua una classe di documenti testuali che presentano le medesime caratteristiche
strutturali. Classe → si intende una serie di documenti che condividono determinate proprietà.
Ogni porzione testuale può essere individuata e descritta tramite un nome convenzionale (elemento) racchiuso tra due delimitatori
(tag di apertura e di chiusura). È possibile associare degli attributi agli elementi.
SGML è dotato di una sintassi astratta e non fornisce alcuna indicazione circa il vocabolario per gli elementi. È un metalinguaggio
che fornisce le regole sintattiche necessarie all’edificazione di altri linguaggi di markup di testi che si configurano come modelli del
testo (insieme di testi aventi caratteristiche logico-strutturali analoghe).
Il valore dei marcatori va specificato in un vocabolario di marcatura: “definizione del tipo di documento”, o DTD.
DTD → grammatica del metalinguaggio per la rappresentazione di determinati parametri logico-strutturali di gruppi di documenti
aventi le medesime caratteristiche. Ciascun macro-raggruppamento (testo letterario, in prosa, in versi) è un tipo di documento. La
DTD rappresenta lo schema di codifica cui il testo fa riferimento con il compito di definire i diversi aspetti della fonte che possono
essere oggetto di intervento interpretativo e di specificare il vocabolario associato a ciascuno degli aspetti. Nella DTD sono elencati
gli oggetti necessari all’elaborazione di un adeguato linguaggio di codifica:
Marcatori per gli elementi, che identificano la serie delle proprietà di un testo o di una certa classe di documenti.
Descrizione del contenuto di ogni elemento.
Marcatori per gli attributi assegnabili a un qualsivoglia elemento.
I simboli per le entità che possono occorrere all’interno del documento e che rappresentano i caratteri non esistenti nel
code set impiegato nella codifica, forme contratte che vanno estese in fase di layout, oggetti esterni.
Per il set di caratteri, SGML propone l’ISO 646, comune nel mondo anglofono. Qualora si verificasse l’esigenza di rappresentare
caratteri o simboli speciali che non rientrano in ISO 646 (lettere accentate maiuscole), SGML consente l’impiego dei riferimenti di
identità.
Il markup XML esprime il valore della stringa di caratteri cui il tag è associato, a prescindere delle modalità di resa grafica. La
codifica è focalizzata sulla struttura, quindi sul valore dei blocchi logici, documentando l’ordinamento gerarchico che sovrintende
all’organizzazione degli elementi della fonte. I tags utili possono essere creati a piacimento e ciascun elemento essere poi
specificato nella DTD o in un XML schema che permette di descrivere la struttura dei documenti XML tramite la stessa sintassi XML.
La DTD non è in grado di distinguere tra tipi di dati ed elementi XML che appartengono ad un dato tipo. Con XML schema è possibile
definire de tipi di dati e poi dichiarare quali elementi fanno parte di ciascun tipo: si tratta di un linguaggio formale espressivo. Anche
un singolo documento conforme a XML deve essere associato ad uno schema che ne specifica la grammatica. Il documento XML
che fa riferimento ad uno schema si dice “valido”, ma XML consente anche la distribuzione di documenti privi di schemi well-
formed che rispettano le regole.
XML per la rappresentazione dei dati semi-strutturati
XML → linguaggio self describing, dispone degli strumenti sufficienti per essere autonomo nella descrizione di un documento. È un
sistema per la descrizione analitica di ipotesi interpretative espresse sul testo ed è un linguaggio di interscambio tra applicazioni. È
in grado di rappresentare un dato semi-strutturato.
Documento DATA CENTRIC: dispongono di una struttura individuabile. Oggetti che possono essere rappresentati in un
database.
Documento DOCUMENT CENTRIC: struttura sommariamente risolvibile. Oggetti che possono essere rappresentati meglio
tramite tecnologie di markup.
XML è in grado di risolvere documenti di entrambi i tipi. Da un punto di vista data centric consente di assegnare al dato una
struttura. Oggetti document centric sono pensati per essere letti da un utente umano e l’uso di XML si colloca a livello di descrizione
degli elementi costitutivi. XML è un formato di dato, un sistema per la codifica con obiettivi di conservazione e scambio dei dati,
rappresenta il dato assegnandogli una struttura.
13
Struttura (rappresentazione) → modalità di organizzazione delle parti di un dato (grafo, tabella, albero). Da essa dipendono le
operazioni.
Modello (contenuto) → operazioni che si possono fare sui valori delle diverse componenti. Questo modello è l’ontologia, intesa
come definizione, rispetto a un dominio, di concetti e relazioni fra i concetti.
La DTD e XML schema, assegnano un vocabolario (denominazione degli elementi tramite un lessico convenzionale) e una sintassi
(relazione di dipendenza gerarchica fra gli elementi).
XML e database
XML prevede l’interazione con strumenti per la creazione, interrogazione e trasformazione dei dati. Dispone di strumenti DDL
(definizione dello schema) e DML (interrogazione e manipolazione dei dati) tipici del DBMS.
Come formato di database XML ha dei vantaggi: è self-describing, è portabile e può descrivere i dati sottoforma di struttura ad
albero. Ma non può essere propriamente definito come un formato di database ma come un formato di rappresentazione dei dati.
Il markup come processo: riproduzione o interpretazione?
Il testo è un oggetto complesso, inteso come architettura a livelli. All’atto della rappresentazione elettronica alcune proprietà
vengono riprodotte mentre altre saranno irrilevanti.
Rappresentazione → processo di astrazione, è una selezione.
Modello (del testo) → scelta di determinati aspetti che dell’oggetto digitale si intendono rappresentare.
Vi sono molteplici livelli analitici, non sarà possibile intervenire su tutti in quanto ogni operazione di digitalizzazione e successiva
marcatura richiede l’esplicitazione di un punto di vista, ma è indispensabile realizzare un prodotto suscettibile di multiformi
elaborazioni computazionali. Si comprende così la flessibilità di un sistema di notazione che permette di rappresentare qualsiasi
aspetto del testo e di esprimere livelli diversi di interpretazione della fonte. Non esiste un modello universale del testo: ogni
modello è il risultato della specificità della risorsa e del punto di vista assunto, quindi dell’analisi testuale che si vuole operare.
In fase di realizzazione di un oggetto digitale bisogna chiarire:
- Tipologia degli strumenti da utilizzare in fase di produzione;
- Varietà degli interventi interpretativi.
Impiego del markup dichiarativo per duplice esigenza:
1. Realizzare prodotti portabili, svincolati da un linguaggio proprietario. Ricorrendo al solo set ASCII/Unicode non si pone il
pericolo della deperibilità nel tempo.
2. Interpretazione delle diverse istanze dell’oggetto di analisi, direttamente proporzionale agli aspetti che si vogliono
indagare.
Problemi a un duplice livello di markup:
Aspetti testuali: il testo nel suo valore astratto.
Dimensione documentaria: concretizzazione materiale del testo.
Markup → processo autodescrittivo, descrizione della struttura del testo tramite il sistema di scrittura, che permette di esplicitarne
caratteri altrimenti impliciti. L’operazione di codifica è il riflesso di un’attività interpretativa volta alla rappresentazione di molteplici
livelli del testo. La codifica dei caratteri e il markup sono espressione della personale teoria del testo che il codificatore intende
porre. Qualunque livello di codifica è sempre attività semiotica (segni).
Problemi teorici dei linguaggi di markup: la notazione del testo
Il testo è un’organizzazione gerarchica degli elementi costitutivi. Teoria chiamata Ordered Hierachicas Content Objects (OHCO)
presenta i limiti della teoria gerarchica → derivati dalla modalità della rappresentazione dell’informazione imposta dalla sintassi dei
linguaggi di markup. Non tutti gli oggetti testuali sono rigidamente gerarchici, mentre il markup SGML/XML impone questo tipo di
rappresentazione. L’impostazione gerarchica pone limiti alla rappresentazione di strutture “fluide” (come le varianti d’autore).
Le “gerarchie concorrenti” non sono facilmente rappresentabili in una struttura gerarchica in quanto possono inficiare
l’organizzazione logica degli elementi. Le gerarchie sovrapposte rompono la “ben formatezza” dell’XML.
La teoria OHCO sostiene che quando due strutture si sovrappongono, appartengono a due livelli distinti di interesse interpretativo;
deve essere quindi deciso il livello che si vuole descrivere. Accanto è stato proposto (a livello tecnico), lo stand-off markup
un’annotazione del testo non embedded (ovvero incorporata all’interno del testo) ma salvata in un documento a parte e richiamata
dal file XML contenente il testo. A tutto ciò si somma l’ambiguità della notazione di testo, per la quale Sperberg-McQueen distingue
fra markup presentazionale e markup analitico.
Con il markup presentazionale si può rappresentare un fenomeno tipografico, dall’altro lato con un markup analitico si assegna alla
stringa un valore di contenuto. I segni tipografici che indicano fenomeni semantici devono essere oggetto di markup analitico.
Il testo come successione di invarianti grafiche non esiste, perché ogni scelta fa riferimento a un documento che quel testo
trasmette. All’atto della memorizzazione elettronica esiste un testo come riprodotto da uno specifico esemplare materiale, una
sequenza, codificata e variabile di significati grafici. Il concetto di testo si espande.
14
15
- Come fenomeno materiale in cui gli elementi relativi alla forma grafica e alla materica svolgono un importante ruolo
semiotico.
A struttura di rete o grafo: tutte le pagine possono essere tra di loro collegate (più utilizzata).
Oltre la struttura: architettura e strategie comunicative
Principale rischio dell’ipertesto è il disorientamento: genera nel lettore un senso di “mancanza di centro”. L’attenzione è rivolta ai
link e il salto da un link all’altro può essere compiuto senza una ragione specifica e può far dimenticare l’idea che aveva motivato
l’attivazione del link.
Architettura
Architettura → organizzazione dell’ipertesto nelle sue pagine. La struttura dell’ipertesto è connessa con la navigazione, ed è nella
maggior parte dei casi di tipo gerarchico.
Elementi dell’architettura:
- Strumenti di navigazione: fornire al lettore un’idea dei contenuti proposti e far capire le modalità con cui è stato costruito
e strutturato l’ipertesto (orientare il lettore tra i materiali).
- Elementi della pagina: parti in cui si articolano le unità di lettura, ovvero testata,corpo, barra di navigazione, piè di pagina.
Strumenti della navigazione:
Metanavigazione: sezione contenente gli strumenti di aiuto e funzionalità generali (contatti, motore di ricerca). Si trova
sotto la testata del sito o nel piè di pagina.
Navigazione principale o globale: le voci del navigatore devono avere un nome significativo che evochi i contenuti della
navigazione.
Navigazione secondaria: sistema di navigazione separato da quello principale, comprende i livelli gerarchicamente
dipendenti dalla navigazione primaria. È costituita anche dalla navigazione contestuale: sistema di navigazione che collega
concettualmente un documento ad un insieme più vasto di documenti.
Briciole di pane: indicano all’utente in quale struttura si trova, mostrando il percorso dalla home page fino alla pagina
corrente.
Comunicazione
Modalità di scrittura e design delle pagine: strumenti che garantiscono chiarezza comunicativa. Vi è l’esigenza di rendere i contenuti
comprensibili anche alla fascia di utenti “deboli”, con disabilità, con limitate disponibilità tecnologiche.
Elementi della comunicazione:
Rispetto dei principi di web design: uso corretto di colori, caratteri, immagini.
Impiego di uno stile di scrittura adeguato al medium: stile chiaro e conciso (struttura a paragrafi), presentazione layout
coerente in tutto il sito (titoli), periodi semplici e brevi.
Dall’ipertesto al sito Web: accessibilità e usabilità
Accessibilità e usabilità → parole chiave del web che identificano i principi da rispettare per garantire efficienza ed efficacia nella
comunicazione. Caratteristiche a cui dovrebbero far riferimento i siti web.
Sito web accessibile → quando il suo contenuto informativo e gli elementi interattivi sono fruibili dagli utenti indipendentemente
dalle loro disabilità, tecnologie disponibili e dal contesto in cui operano mentre accedono al sito.
Web usability → riguarda la necessità di realizzare siti che vadano il più possibile incontro alle necessità dell’utente finale. È legata
ai bisogni del lettore in termini di capacità di ricezione del messaggio che un sito intende comunicare.
Gli ipertesti letterari
Gli ipertesti narrativi come Afternoon, a Story di Michael Joyce sono un esempio di scrittura pensata per la modellazione
ipertestuale. L’ipertesto letterario è inteso come forma di espressione e di rappresentazione dell’analisi di un testo. Nella
progettazione di ipertesti, il testo è oggetto centrale della comunicazione, oggetto di una molteplicità di livelli di indagine,
strumento informazionale complesso.
Il primo livello della rappresentazione informatica di un testo letterario è la trascrizione, un primo atto di modellazione è costituito
dalla scelta dell’esemplare di riferimento e dalla sua successiva memorizzazione. Il passo successivo è la definizione dei
collegamenti. Si passa dal testo alla gestione dei possibili collegamenti (link). L’ipertestualizzazione intesa come scelta delle
correlazioni fra gli elementi ritenuti significativi ai fini dell’analisi del testo. Attenzione al significato dei link.
Link in-text (in riferimento al rapporto che il testo intrattiene con sé stesso):
Paratesto (intertitoli, sottotitoli): elementi che accompagnano il testo, senza essere testo in senso stretto.
Apparato di commento a diversi livelli (lessicale, linguistico, storico, grammaticale).
Secondo momento è rappresentato dal legame del testo con altri testi correlati a livello di:
- Intertesto: citazioni dirette di altre opere.
- Metatesto: informazioni di commento e testi critici.
- Architesto: nozioni di approfondimento.
Classificazione delle tipologie di link:
Dentro al testo.
Fra testo e altri testi.
Fra testo e commento.
17
- GIF: no perdita dati, memorizza 256 colori, non adatto alle foto a colori.
18
- JPEG: fino a 16,7 milioni di colori, la compressione comporta la perdita di dati, formato più utilizzato sul Web.
- PNG: creato per il web, riunisce tutti i vantaggi dei formati precedenti. Visualizzazione da 256 a 16,7 milioni di colori,
compressione senza perdita di dati.
- TIFF: produce immagini di elevata qualità, per l’archiviazione a lunga durata, visualizza 16,7 milioni di colore e non è
compatibile con il web.
Il trattamento dell’immagine digitale: sistemi di digital image processing
Le immagini digitali non decadono nel tempo, nella copia e nell’uso. Possono essere sottoposte a manipolazione. I sistemi di
trattamento delle immagini sono finalizzati a migliorare la qualità di una fonte.
Le tecniche più utilizzate sono di image enhancement finalizzate ad aumentare il grado di leggibilità dell’oggetto originale lavorando
a livello di profondità del pixel (componente cromatica).
Leggibilità → comprensione della componente informativa trasmessa dall’oggetto digitale (es: macchie di inchiostro, foxing, agenti
decoloranti, abrasioni, cancellature).
Restauro virtuale → recuperare fonti danneggiate per cause chimiche, fisiche, biologiche.
Sistemi di “fotoritocco” → gestione luminosità e contrasto, regolazione del colore.
Sistemi di pattern recognition
Pattern recognition → procedure tese al riconoscimento automatico degli elementi di una fonte, con il fine di una loro
classificazione.
Pattern → oggetto identificabile.
Riconoscimento → assegnazione del pattern a una classe di riferimento e quindi raggruppamento dei diversi pattern.
Procedimento di clustering → orientato alla suddivisione dei pattern in gruppi sulla base di classi.
Fra le tecniche si ricordano i procedimenti per l’identificazione della scrittura manoscritta, alla base risiede la necessità di generare
modelli grafici sui quali basare il successivo riconoscimento automatico. Prima di tutto si provvede alla segmentazione
dell’immagine di un testo (individuare lettere e simboli). Il risultato si configura come la creazione di una collezione di forme (diversi
glifi con cui è realizzato ogni elemento dell’alfabeto).
Linee guida per i progetti di digitalizzazione delle immagini
La creazione deve rispettare i criteri di conservazione, trattamento e fruizione dei materiali.
Istituto Centrale per il Catalogo Unico (ICCU) → fornire linee guida per progetti di digitalizzazione di fonti del patrimonio nazionale
di archivi, biblioteche. Obiettivo delle linee guida è di definire i criteri da rispettare per i progetti di digitalizzazione.
Per digitalizzare una collezione di immagini:
Garantire interoperabilità tra applicazioni e accessibilità alle collezioni digitali;
Assicurare un livello alto delle collezioni (TIFF);
Evitare riscansione in futuro provvedendo a progressive conversioni dei materiali nei nuovi formati (preservazione a lungo
termine);
Definire un sistema di storage scalabile e durevole;
Adottare sistemi per gestire il copyright delle immagini;
Provvedere ad un apparato di metadati correlati (affiancare all’immagine contenuti informativi sull’immagine stessa).
Descrizione e annotazione dell’immagine
Associare all’immagine una componente meta-informativa. Il compito è documentare le caratteristiche dell’oggetto digitale ai tre
livelli previsti dagli standard di metadati per gli oggetti del patrimonio culturale: descrittivo, amministrativo-gestionale, strutturale.
Descrivere un’immagine significa associare metadati ma anche assegnare termini che descrivano il contenuto dell’immagine stessa,
descrizione importante perché l’informazione può essere recuperata tramite sistemi automatici.
Iconclass → mette a disposizione un elenco strutturato di descrittori di soggetto.
Cattura delle immagini e riconoscimento ottico
Testo → intendiamo una sequenza di caratteri, compresi dall’elaboratore come sequenza di valori binari manipolabili dall’utente.
Nel testo la sequenza di riferisce ad un carattere alfabetico, mentre nelle immagini si riferisce al colore.
Tre aspetti:
1. Ricerca per stringhe di caratteri: text retriva (recupero automatico di stringhe di caratteri);
2. Manipolazione del testo: possibili interventi analitici sul piano morfo-lessicale, sintattico e semantico;
3. Tipologie di interrogazione: finalizzate all’information retrieval e all’information extraction.
La linguistica computazionale ha affrontato il problema del Trattamento Automatico del Linguaggio naturale (TAL o NLP): serie di
pratiche orientate alla creazione di strumenti per accedere al contenuto digitale dei dati linguistici con l’obiettivo di acquisire
conoscenza da documenti testuali.
Primo momento di analisi: possibilità di reperire l’elenco delle parole presenti all’interno di un testo.
Secondo momento: sistemi di manipolazione di stringhe, analisi automatica del testo ed estrazione di informazioni dai
dati sono i nuovi strumenti per l’accesso ai contenuti digitali. Obiettivo: acquisire nuova conoscenza dai testi.
Negli studi letterari: sistemi di analisi stilistica, orientata allo studio del vocabolario d’autore.
Forme di text retrieval
Prima fase di analisi: verifica della presenza delle parole chiamato procedimento di tokenizzazione.
Tokenizzzione → individuazione (da parte della macchina) di tutte le unità minime del testo distinguendo le parole semanticamente
composte da quelle che andrebbero scomposte in più unità.
Il processo consiste dell’estrapolare tutte le forme presenti all’interno del testo, per verificare il numero di volte in cui compaiono
cioè definire le occorrenze (serie dei token). Fine: produrre l’indice, elenco delle parole che costituisce il vocabolario delle forme
grafiche (types), così come e dove compaiono nel testo.
Type → parola in astratto.
Token → parola che occorre in un punto definito e in un certo numero di volte nel testo.
Passo successivo: collocazione delle parole rispetto al contesto testuale d’uso (concordanze) e la verifica di quante volte ciascuna
forma grafica occorre (frequenze), tramite programmi di text retrieval cioè di reperimento di dati all’interno di un corpus testuale.
L’operazione preliminare è la scelta oculata del testo base, selezionato come riferimento per la versione elettronica.
Concordanze
Programma di concordanze → applicativo che consente di enucleare tutte le parole in un testo, in ordine alfabetico, accompagnate
da un contesto e da una serie di indicazioni che permettono reperimento e localizzazione.
Si tende ad espungere le “parole vuote” (articoli, congiunzioni). Le “parole piene” sono aggettivi, sostantivi, verbi, in quanto termini
che veicolano un significato individuale. Le parole vuote sono comunque importanti, nei casi in cui si studiano i legami sintattici.
L’analisi delle concordanze consente di verificare il contesto d’uso del vocabolario e permette di disambiguare impieghi diversi del
lessico. Quando condotta su un corpora di grandi dimensioni, permette di definire il lessico di un autore.
Indici
Indice → caso di concordanza priva di contesto. È la lista dei vocaboli contenuti in un testo. Può riportare alcune statistiche relative
alla frequenza dei vocaboli.
Frequenze
Lista di frequenza → mostra le parole accompagnate dal numero di volte in cui occorrono, ed eventualmente dalla percentuale
rispetto al numero totale di parole. La posizione che occupa il vocabolo nella lista è detta “rango”.
Hapax → parole che compaiono una sola volta, possono essere significativi per l’analisi.
Sono stati condotti studi esaminando parti del testo semanticamente non rilevanti, con l’obiettivo di verificare quale sia la tendenza
di un autore nell’impiego di un preciso vocabolario, ritenendo che la scelta di certe parole definisca l’impronta di ogni scrittore.
L’informatica permette di ottenere con maggiore rapidità e su una massa di dati più ampia, risultati più attendibili.
Dal text retrieval alla text analysis
Vera e propria analisi del testo mirata al recupero di informazione. Normalizzazione, lemmatizzazione, part of speech, tagging,
parsing, riduzione della sinonimia e dell’omografia, estrazione automatica delle parole chiave e categorizzazione semantica:
caratterizzano l’attività di Natural Language Processing (NLP).
Normalizzazione e annotazione
L’intervento dell’uomo è indispensabile per ottenere risultati validi. Necessario operare sul testo un pre-processing teso alla
normalizzazione: individuazione di parole composte, riduzione di articoli con apostrofo, scioglimento di sigle, riconoscimento di
nomi propri.
Annotazione del testo → arricchirlo di informazioni sui differenti aspetti linguistici. La più comune forma di annotazione è
l’assegnazione di etichette o marcatori alle porzioni di testo delle quali si vuole fornire un’indicazione a livello morfo-lessicale,
sintattico o semantico. Espresse in un linguaggio formalizzato e standardizzato (XML).
Authorship attribution → analisi statistica di opere apocrife o anonime, al fine di individuarne l’autore.
24
Elaborare strategie di implementazione di una biblioteca digitale significa riflettere sui servizi che tradizionalmente caratterizzano
una biblioteca tradizionale. Necessario definire un piano di progettazione del flusso di lavoro che porta alla creazione della BD:
catalogazione, digitalizzazione, archiviazione, produzione dei materiali, conversione del formato degli oggetti digitali e
pubblicazione sul web.
Livelli della BD:
- Modalità di memorizzazione e archiviazione dei documenti a livello di linguaggi e formati;
- Sistemi di descrizione delle risorse a livello di attribuzione dei metadati;
- Procedimenti di conservazione e preservazione degli oggetti digitali.
Le tecnologie: formati e standard
Creare una biblioteca digitale significa adottare standard compatibili con www e quindi portabili fra piattaforme hardware e
software diversi (interoperabilità). Devono essere utilizzati formati compatibili con la rete e quindi portabili provvedendo ad
eventuali conversioni. Pianificare un progetto di digitalizzazione significa selezionare il materiale da destinare alla BD, per
consentire l’accesso a materiali e per preservare gli originali.
Importanza dei linguaggi di markup:
1. Evitare il ricorso a formati proprietari che limitano la portabilità e non tengono conto della preservazione delle fonti.
2. Interpretare la struttura logica espressa dalle fonti evitando l’adozione di codifiche “puro testo”.
XML → standard eletto per il markup di documenti di tipo testuale che vadano a popolare una biblioteca digitale. Utilizzare
applicativi open source che consentono l’adeguamento all’evoluzione continua delle tecnologie.
Identificatore → mezzo che consente di collegare la risorsa alla sua descrizione. Deve essere un indicatore dinamico, che si adegui
all’eventuale mutamento della localizzazione fisica della risorsa. Gli identificatori sono gli strumenti fondanti di un sistema di BD
perché il reperimento di ogni oggetto della raccolta rappresenta la chiave per il recupero dell’informazione.
I metadati: modelli, schemi e vocabolari
La scelta dei metadati veicola le operazioni sulla raccolta digitale. Le caratteristiche dell’oggetto digitale sono descritte utilizzando
standard in essere e sviluppati nel mondo bibliotecario, archivistico e museale.
I metadati si dividono in tre classi:
1. Descrittivi: descrizione bibliografica della risorsa elettronica, descrivere non solo la risorsa elettronica ma anche la fonte
materiale da cui la versione digitale è stata tratta.
2. Metadati gestionali e amministrativi: si dividono in tecnici, di preservazione e di gestione dei diritti.
3. Strutturali: descrivono la struttura logica del contenuto ma anche la struttura fisica.
Modello FRBR → tentativo di elaborare un modello concettuale che permetta di identificare i requisiti della descrizione
catalografica.
Per risolvere il livello dei metadati gestionali e amministrativi è stato definito il set MAG che incorpora gli elementi del DC e
definisce un vocabolario per i metadati.
Viene poi proposto METS → uno schema XML per la creazione di documenti di raccordo tra i vari componenti di una risorsa digitale
e i metadati che li descrivono, è infatti finalizzato alla descrizione delle relazioni strutturali che intercorrono e la struttura logica del
contenuto. Vuole designarsi come uno schema contenitore. Vuole proporre un modo per collegare i metadati al contenuto digitale.
Conservazione e preservazione degli oggetti digitali
Conservare → definire adeguati sistemi di storage degli oggetti digitali. Il problema della preservazione è che l’informazione può
essere soggetta a problematiche come: degradazione dei media, dipendenza da determinati hardware e software, obsolescenza di
sistemi e applicazioni.
Soluzioni:
- Migrazioni delle informazioni da un supporto fisico di conservazione a uno nuovo.
- Emulazione del software originale.
- Mantenimento integrale dell’oggetto digitale assieme all’hardware e software in grado di leggerlo.
Concetto di persistenza → oggetti digitali accessibili nel lungo periodo, ma i dati devono sopravvivere all’esecuzione del programma
che li ha creati.
Il problema dell’interoperabilità
Il primo livello di interoperabilità sintattica è costituito dall’uso di formati di archiviazione dei dati standardizzati che garantisca
l’interscambio. Le BD devono interagire tra loro ma al momento risultano isolate, l’uso diversificato di linguaggi e tecnologie non
permette la comunicazione tra le risorse. Sarebbe necessario lo sviluppo di middleware → insieme di modelli, protocolli, interfacce
utilizzati come strumento unico e condiviso per integrare applicazioni sviluppate su sistemi eterogenei.
Affinché le BD possano dialogare tra loro è necessario che condividano il sistema di rappresentazione della componente meta-
informativa. Funzione dei metadati: descrizione di una risorsa elettronica e consentire l’interrogazione sulle diverse BD agevolando
l’integrazione finalizzata all’accesso in un unico ambiente condiviso. Soluzione → creazione di tavole di corrispondenza tra gli
elementi utilizzati.
Harvesting → dei metadati consentirebbe di associare un termine alla sua connotazione e identificazione.
25
Modello di self archiving OAI → pensato per la disseminazione e l’accesso ai metadati in ambiente condiviso. I metadati possono
essere incorporati nel documento o collegati tramite sistemi di puntamento.
Un modello: il framework OAIS
OAIS → sistema di archiviazione aperta che mira a definire un modello logico di riferimento per oggetti digitali e metadati associati.
Archiviazione aperta: libero accesso della comunità ad un unico ambiente di riversamento, immagazzinamento e accesso ai dati.
Archivio: inteso come conservazione dell’informazione a lungo termine disponibile per la comunità.
OAIS si basa sull’interazione fra il produttore di oggetti digitali e il consumatore, mediato da un management dei dati e dal cuore
che è l’archivio stesso.
Cinque fasi, componenti funzionali dell’archivio:
1. Immissione
2. Archiviazione
3. Gestione
4. Accesso
5. Amministrazione
26