Sei sulla pagina 1di 27

METODOLOGIE

INFORMATICHE E
DISCIPLINE UMANISTICHE di
Francesca Tomasi
Informatica
Università degli Studi di Verona
26 pag.

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

INTRODUZIONE
Informatica: disciplina che si occupa del trattamento automatico dell’informazione.
Scienze dell’informazione → discipline che si occupano dei processi e dei sistemi di reperimento, trasformazione e trasmissione dei
dati informativi: informatica identificata come scienza.

La computer science costringe a trasformare i dati in sistemi formali: costruiti in base a precisi schemi e regole. Ambiguità e
indeterminatezza devono essere sostituite da schemi e regole, strutture e modelli. Il fondamento teorico: analisi dei sistemi di
progettazione e creazione di oggetti computabili (quello che è formalizzato diventa computabile, quindi risolvibile).

Informatica umanistica e Humanities computer science:


IU → sistema complesso perché si focalizza sulle interconnessioni fra le discipline (umanistiche e scientifiche).
Esiste una serie di comuni metodologie informatiche che percorre le discipline umanistiche tradizionali che costituisce una base
condivisa per le operazioni di rappresentazione e conservazione delle fonti, modalità di manipolazione e criteri del trattamento e
forme di distribuzione.

Origini
 IU affonda le proprie radici nella linguistica computazionale, nel 1949 Padre Roberto Busa inizia a produrre l’ index
verborum degli opera omnia di Tommaso d’Aquino.
 1966 fondazione della rivista “Computers and the Humanities”.
 Nascita nel 1970 di due associazioni: Association for Literary and Linguistic Computing (1973) e Association for Computer
in the Humanities (1978) → editor di un’altra importante rivista: “Literary and Linguistic Computing”.
 Fine degli anni ottanta: la disponibilità di personal computer porta alla nascita delle biblioteche digitali.
 Anni novanta: segnati dall’avvento del World Wide Web che consente la pubblicazione online di materiali in formato
digitale.

Non si ricerca un’informatica per le discipline umanistiche ma si vogliono coniugare le due materie. L’informatica non deve essere
uno strumento a uso dell’umanista ma deve essere pensata come fondamento per una riflessione sui metodi della ricerca
umanistica.

PARTE PRIMA
L’INFORMAZIONE E L’INFOMATICA
1 FORMALIZZAZIONE ED ELABORAZIONE DELL’INFORMAZIONE: LA MACCHINA E I SUOI LINGUAGGI
Calcolatore → macchina in grado di eseguire compiti espressi in modo formale (basati su precise regole e comunicati attraverso un
codice). La rappresentazione dell’informazione avviene attraverso simboli, la trasmissione avviene in formato digitale: i simboli
diventano computabili quando espressi in forma comprensibile alla macchina.
Le istruzioni sono segnalate alla macchina tramite programmi. Il calcolatore → è un esecutore di programmi, un programma è un
insieme di informazioni espresse in modo formale tramite algoritmo. I linguaggi di programmazione traducono l’algoritmo in forma
eseguibile dal calcolatore.
Le operazioni eseguite dalla macchina possono essere descritte in modo astratto.
Componenti principali:
1. Hardware: insieme dei dispositivi fisici;
2. Software: programmi per risolvere classi di problemi. Il software base della macchina è il sistema operativo (gestisce
applicazioni e interazione tra uomo-macchina).
Applicativi → programmi che possono essere eseguiti dal calcolatore.

Elementi di teoria dell’informazione


Informatica → intesa come scienza, disciplina che studia sistemi di rappresentazione ed elaborazione dell’informazione.
Calcolatore → strumento, automa, macchina capace di svolgere in modo automatico determinate attività. Di fronte ad un problema
esegue delle operazioni specifiche per arrivare ad una soluzione.
Dato e informazione
Dato → privo di significato, diventa informazione quando è in grado di apportare un bagaglio conoscitivo. È l’oggetto su cui si opera
con un certo trattamento informatico.
Informazione → significato del dato.
Contestualizzazione → applicazione di una struttura.
Il dato contestualizzato diventa informazione. Ogni tipo di dato deve essere codificato per essere compreso, elaborato dalla
macchina e diventare informazione.
1

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Il codice binario
Il dato viene comunicato alla macchina con un determinato codice dotato di un’articolazione di segni e di un insieme di
combinazioni di questi segni.
Codice binario → codice notazionale a base 2, la macchina può manipolare due simboli: 0 e 1; è in grado di codificare un infinito
numero di fenomeni, a posizione dei numeri è significativa (sistema posizionale).
Oggetto digitale → sequenza di 0 e 1, si parla di bit (cifra binaria): unità di misura necessaria a calcolare quanti 0 e/o 1 compongono
un oggetto digitale. Ogni simbolo = 1 bit; byte = sequenza di 8 bit.
Digitale → oggetto caricato nella memoria del computer. Si parla di rappresentazione digitale in riferimento al dato espresso
tramite una codifica (per le immagini si usa codificare ogni singolo punto pixel sulla base di alcuni parametri). Le diverse modalità di
rappresentazione del dato in formato binario daranno luogo a diversi formati di dato.
Tramite codifica il dato binario diventa informazione: bit → unità minima di informazione.
Comunicazione uomo-macchina: i dati sono comunicati tramite unità di input e tramite codice noto all’uomo, arrivano alla
macchina che li interpreta in un suo codice per poi restituirli tramite unità di output.
La codifica dei caratteri
Ogni oggetto della realtà viene identificato tramite un’aggregazione di simboli convenzionali. Primo codice → quello con cui
vengono immessi i dati nella macchina. Fino alla fine degli anni Cinquanta l’immissione dei dati avveniva tramite codice binario.
Per rappresentare i caratteri tramite due soli valori (0 e 1) è sufficiente definire una corrispondenza biunivoca che associ il
repertorio di simboli notazionali a una sequenza di codici elaborati ricorrendo alla sola notazione binaria.
Tavola di corrispondenza → insieme ordinato di caratteri codificati tramite ricorso alla notazione binaria.
 Codice ASCII: rappresentazione di 128 simboli, formata da sequenze binarie di 7 bit per ogni simbolo. Codice basato
sull’alfabeto delle lingue anglosassoni, perciò la sequenza base è stata incrementata di un elemento (8 bit) per arrivare
a rappresentare 256 possibili segni. Si verifica una proliferazione di derivazioni dall’originale ASCII a 7 bit, che ha portato
una riduzione della leggibilità dei dati memorizzati su supporto elettronico tra ambienti hardware e software diversi. Per
contrastare → definite tavole standard per agevolare lo scambio di documenti elettronici (metodo codificato dallo
standard ISO 8859-n).
 Codice Unicode: nel 1991 era codificato con 16 bit, comprendeva 65.536 caratteri permettendo di contenere gli
elementi necessari per la maggior parte delle lingue del mondo. Il file è molto “pesante” perciò sono stati creati dei
charset detti UTF → usa una tecnic di bit-shifting per codificare caratteri Unicode. Usa 7 bit per codificare i primi 127
caratteri corrispondenti all’ASCII standard e attiva l’8 bit solo quando serve la codifica Unicode. Vantaggio: il documento
è visualizzabile con un normale editor di testi. L’Unicode è importante perché assunto come standard dei linguaggi di
markup come sistema di interscambio sul web. Strumento fondamentale anche per l’umanista perché consente di
rappresentare speciali utili nel campo dello studio delle scritture antiche (paleografia).
Procedure di risoluzione di problemi: il concetto di algoritmo
Oggetto digitale → costituito da una sequenza di bit. È un file (documento elettronico, immagine digitale, video) caricati nella
memoria del computer. Un file è anche un programma, applicazione che è in grado di creare un file di testo, immagine, audio o
video. Alla base del funzionamento della macchina stanno i programmi. L’elaboratore è un esecutore di programmi e un
programma è il risultato dell’analisi del problema, della sua risoluzione. Il calcolatore è una macchina in grado di far fronte a
procedure di risoluzione di problemi.
Algoritmo → la macchina è in grado di eseguire operazioni solo se comprensibili dallo strumento automatico, cioè espresse sotto
forma di una sequenza finita di mosse, univocamente interpretabili, necessarie a risolvere un problema in un tempo determinato.
Esecutore di algoritmi → capacità di accettare dati in ingresso, elaborarli, svolgendo determinate operazioni elementari e produrre
un risultato. Scrittura dell’algoritmo è compito dell’operatore umano.
L’algoritmo deve rispettare delle condizioni:
1. Univocità e non ambiguità: significato univoco, esprimere l’algoritmo tramite linguaggio formalizzato basato su precise
regole.
2. Finitezza ed eseguibilità delle istruzioni: composto da sequenza discreta (numerabile) di comandi, per risolvere un
problema nel modo più veloce possibile utilizzando la minima quantità di risorse fisiche della macchina (efficienza).
3. Terminatezza o completezza: sequenza di istruzioni determinata e finita, la procedura deve terminare.
Qualunque problema espresso in modo formalmente corretto e non ambiguo può essere espresso sotto forma di algoritmo e
quindi essere espresso in un programma tramite linguaggio di programmazione → linguaggio formale dotato di sintassi e semantica
non ambigua. Vengono utilizzati diagrammi di flusso per agevolare la descrizione di algoritmi, consentono la descrizione grafica
delle istruzioni tramite forme geometriche: blocco di operazione che contiene l’azione da eseguire (rettangolo), blocco di decisione
che segnala una condizione che si deve verificare (rompo), blocchi esterni indicano l’inizio e la fine dell’algoritmo (cerchi), le linee di
flusso indicano i collegamenti tra i blocchi segnalando l’ordine di esecuzione (frecce). L’ordine è fondamentale.

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Strutture sequenziali e strutture selettive → non sono sufficienti per rappresentare la casistica di azioni che può essere espressa in
un algoritmo. Bisogna aggiungere la possibilità ciclica, si parla di iterazione in riferimento a un costrutto algoritmico che preveda il
ripetersi di azioni e/o condizioni.
Linguaggi per algoritmi
Un calcolatore è un esecutore di algoritmi:
1. Risoluzione: ricerca dell’algoritmo risolutivo delegata all’uomo;
2. Codifica: formulazione dell’algoritmo in un linguaggio adatto al calcolatore;
3. Esecuzione: delle istruzioni, delegata alla macchina.
Linguaggi di “basso livello” (linguaggio macchina e assembly)
Linguaggio di programmazione → insieme di istruzioni comprensibili da uno specifico calcolatore, denominato linguaggio macchina,
distante dal linguaggio naturale, difficilmente utilizzabile per la scrittura di algoritmi. Costituito da sequenze di bit rappresentate da
serie di 0 e 1. Nasce l’esigenza di stabilire una corrispondenza fra le sequenze di bit e un linguaggio simbolico più vicino al
linguaggio naturale → linguaggi assembly, composti da espressioni più facilmente memorizzabili dall’operatore umano. Il
programma scritto in assembly viene tradotto in linguaggio macchina.
Sono detti linguaggi di “basso livello” perché composti da istruzioni elementari che la macchina deve compiere, non adatti a
programmazione che richiede istruzioni concise e strutturate.
Linguaggi di “alto livello”
Linguaggi più vicini alle modalità di ragionamento umano, quindi più simili nelle modalità di scrittura. Sono contemporaneamente
comprensibili dall’uomo ed eseguibili dal calcolatore, e devono essere concisi, semplici, sintetici e univoci.
Codice sorgente → con il quale è scritto il programma tramite opportuno linguaggio, deve essere tradotto per consentire
l’esecuzione del programma da parte della macchina. Primi linguaggi ad alto livello: FORmula TRANslator, Common Business
Oriented Language¸ poi sostituiti da ALGOrithmic Language. Si è poi affermato lo stile di programmazione orientato agli oggetti: C+
+, C# (sharp), Java.
Linguaggi imperativi → i comandi sono una sequenza di passi e il programma è un insieme di comandi.
Linguaggi dichiarativi → enfasi posta sulla descrizione delle caratteristiche che deve avere la soluzione e il programma è un insieme
di dichiarazioni.
Programmazione orientata agli oggetti → paradigma basato sulla modellazione dei dati, ogni entità viene modellata per mezzo di
un oggetto che dispone di attributi (stato) e può avere determinati comportamenti. Ogni oggetto appartiene ad una classe, si
definisce come istanza della classe, ha quindi caratteristiche che condivide con gli altri oggetti che appartengono alla stessa classe.
Tramite le sottoclassi possiamo costruire gerarchie di classi: ogni sottoclasse “eredita” stati e comportamenti della classe da cui
discende.
Interpretazione e compilazione
Due sistemi per implementare un linguaggio di programmazione:
1. Interpretazione: l’interprete è un programma che, seguendo riga per riga le istruzioni del codice di alto livello le esegue
passo per passo.
2. Compilazione: il compilatore traduce interamente il codice sorgente in codice macchina creando un codice oggetto
eseguito dall’elaboratore.
Elementi di un linguaggio di programmazione
Ogni linguaggio di programmazione è dotato di un sistema formale per la codifica dell’algoritmo. Vocabolario e segni di
interpunzione regolano il processo di codifica.
Correttezza sintattica → controllata dall’interprete o dal compilatore.
Correttezza semantica → riguarda l’aderenza della soluzione ottenuta al problema originariamente posto.
Ogni linguaggio ha specifica notazione per esprimere la sintassi (detta anche grammatica) che riguarda le regole che devono essere
rispettate per comunicare in modo corretto.
Grammatica → consiste di:
1. simboli non terminali, cioè le categorie sintattiche (lettere MAIUSCOLE);
2. simboli terminali, ovvero sequenze di caratteri che devono essere considerate in modo unitario (lettere minuscole);
3. regole di produzione.
Notazione più comune: Backus-Naur Form (BNF).
Ogni linguaggio formale si basa su una specifica grammatica ed esistono diverse tipologie di grammatiche formali classificate da
Chomsky conosciuta come Gerarchia di Chomsky.
Dati, istruzioni e operazioni
Operazioni elementari → (aritmetiche, di lettura, scrittura, stampa, visualizzazione), possono essere risolte dalla macchina quando
espresse sotto forma di istruzioni. °operazioni matematiche, °istruzioni di ingresso e uscita sono le tipiche azioni che la macchina è
in grado di eseguire. I dati espressi sotto forma di nomi simbolici sono chiamati variabili. Ad ogni dato viene associata una variabile
che lo identifica e questa procedura avviene utilizzando un identificatore simbolico che rappresenta quel particolare dato.
3

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Istruzione di assegnamento → consente di associare un nome a una variabile.


Costante → valori fissi assegnati a certi dati.
Parole chiave → specifiche, identificano certe istruzioni da tradurre.
Classe delle istruzioni di controllo → ha il compito di controllare l’ordine di esecuzione delle istruzioni:
 condizionali: se l’esecuzione è condotta solo al verificarsi di particolari condizioni (IF … ELSE);
 iterative: l’algoritmo impone di tornare a un passo precedente al verificarsi di una condizione che definisce un ciclo o
loop.
Tipi e strutture di dati
Ogni linguaggio di programmazione dispone di tipi di dato (data type) detti primitivi o atomici.
Tipo di dato → insieme dei valori e delle operazioni che possono essere applicate a quei valori (tipi composti e tipi strutturati).
Il programmatore può aggregare diverse componenti per trasmettere l’informazione utilizzando alcuni costrutti (insiemi, vettori,
matrici, schede).
Strutture di dati → in riferimento all’organizzazione delle informazioni (liste, reti, grafi, alberi).
Principi di logica binaria
L’algoritmo procede per scelte binarie, ogni momento del processo algoritmico è dipendente da una condizione che può essere
vera o falsa: proposizione logica. Logica binaria perché basata su un valore di verità binario (V o F).
Tipo di dato logico → quando i valori sono V o F.
Algebra booleana → le operazioni logiche principali sono AND (congiunzione), OR (disgiunzione), NOT (negazione). I due valori di
verità possono essere 0 (F) e 1 (V). La combinazione dei due valori produce tavole di verità.
Il calcolatore: dall’architettura logica alle componenti fisiche
L’ideazione della macchina astratta è il risultato delle prime teorizzazioni sulla computabilità o calcolabilità e ha consentito la
nascita dei calcolatori. La macchina comprende simboli che può computare sulla base di determinate regole. Attraverso la
rappresentazione astratta di una macchina si analizza il suo comportamento senza la necessità di realizzazione fisica. La macchina
può essere definita come un sistema formale perché basata su u insieme finito di elementi base rappresentato da simboli, e un
insieme finito di regole di trasformazione di tali elementi.
Macchina astratta di Alan Turing
La macchina è un risolutore di problemi. Verificare se ogni algoritmo possa essere risolto in modo automatico è un problema che
matematici come Alan Turing si sono posti.
Automa → macchina capace di svolgere in maniera automatica operazioni particolari che portano ad un risultato.
Si deve ad Alan Turing l’identificazione formale delle caratteristiche che una macchina astratta deve avere, è un potente strumento
concettuale. Composta da tre elementi:
1. nastro infinito: suddiviso in caselle/celle che possono contenere un solo simbolo.
2. Testina di lettura/scrittura: che legge il simbolo sulla quale è posizionata e scrive sul nastro, c’è un meccanismo che
muove il nastro a destra e sinistra.
3. Unità di controllo: in grado di far spostare la testina e determinare una serie finita di stati che la macchina può assumere.
La macchina di Turing si definisce un automa a stati finiti. Per simularne il funzionamento:
 Si definisce un alfabeto finito;
 Si sviluppano i vari stati attraverso descrizione formale;
 Si risolve il problema.
Si può ipotizzare che ad ogni algoritmo corrisponda un automa risolutore. Ogni problema risolvibile tramite algoritmo può condurre
alla progettazione di una specifica macchina di Turing.
Macchina di Turing universale → macchina programmabile in grado di memorizzare la descrizione di una qualsiasi macchina di
Turing e simularne il comportamento. La macchina di Turing svolge un solo programma, mentre quella universale è un calcolatore
con memorizzazione di più programmi in grado di svolgere algoritmi diversi.
Il modello di Von Neumann
Neumann ha compreso che la macchina universale poteva avere una realizzazione pratica. Costruzione dei primi calcolatori
elettronici basati sui principi della macchina universale di Turing: Electronic Discrete Variable Automatic Computer (EDVAC) è il
capostipite dei moderni calcolatori.
Elementi funzionali:
 Memoria: presenti i dati e i programmi;
 Unità di controllo centrale: interpreta le istruzioni prelevate dalla memoria e invia alle altre unità i segnali per
l’esecuzione delle operazioni;
 Unità aritmetica: esegue operazioni aritmetiche e restituisce i risultati all’utente tramite apposita unità;
 Unità di input: immissione di dati e programmi;
 Unità di output: mostra risultati.

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

L’hardware dei moderni calcolatori


Le componenti di Neumann sono alla base dell’hardware dei calcolatori. La memoria interna (centrale) conserva temporaneamente
i dati e le istruzioni. È una memoria volatile che contiene i dati fin quando l’elaboratore è acceso (RAM): sotto forma di celle di
memoria ciascuna con un proprio indirizzo. Ogni cella è in grado di memorizzare una parola (word).
Il compito della CPU è di leggere le istruzioni espresse in linguaggio macchina dalla memoria interna, decodificarle ed eseguirle. La
CPU è composta da: 1) unità di controllo (decodifica istruzioni) e 2) unità aritmetico-logica (esegue operazioni aritmetiche e
logiche). La CPU dispone di una speciale memoria (denominata registro) dove vengono immagazzinati i dati e istruzioni che stanno
per essere o sono stati processati. Due tipi di registro: 1) registro indirizzi (rappresentare l’indirizzo della cella di memoria cui la CPU
accede) e il 2) registro dati (nel quale vengono copiati i dati letti dalla memoria).
Il bus di sistema (bus dati, bus indirizzi e bus controllo) ha la funzione di collegare fra di loro le diverse unità consentendo lo
scambio dei dati. La memoria esterna (di archiviazione) contiene dati e programmi in modo persistente ed è indicata come
memoria di massa (hard disk, floppy disk). Le periferiche di Input/Output consentono di interagire con la macchina.
Dall’hardware al software
Hardware → insieme dei dispositivi fisici, affinchè l’utente possa interagire con tali dispositivi è necessaria una mediazione
rappresentata dal sistema operativo software → necessario alla creazione di un ambiente nel quale i programmi applicativi possono
lavorare. Il SO consente al programmatore di interagire con il calcolatore tramite una visione astratta delle risorse hardware e
rappresenta il primo software caricato all’accensione del calcolatore.
Software applicativi → programmi che possono essere utilizzati dall’utente per risolvere determinate classi di problemi.
Il sistema operativo
È il primo programma (software) con il quale l’utente interagisce con la macchina. Gestisce gli elementi fisici del calcolatore
(hardware) e agisce come piattaforma per i programmi. Inoltre opera da intermediario fra l’utente e la struttura fisica.
Il SO:
 Interpreta ed esegue i comandi;
 Gestisce i dati;
 Gestisce le risorse fisiche dell’hardware.
Interfaccia → strumento che media fra l’utente e i dispositivi hardware e software e permette di interagire in modo semplice.
1) Interfaccia a caratteri: comandi impartiti tramite istruzioni in un linguaggio comprensibile alla macchina;
2) Interfaccia grafica: l’utente può lavorare manipolando una rappresentazione grafica delle componenti.
Interfaccia amichevole → facilmente utilizzabile dall’utente, metafora della scrivania.
Gli strati del SO
Architettura per strati:
 Gestore dei processi (= programmi in fase di esecuzione);
 Gestore della memoria principale, che coordina le sezioni della memoria RAM;
 Gestore dei dispositivi di I/O;
 Gestore dei file system, strumento con cui l’utente registra i propri dati;
 Gestore della memoria secondaria, memorizzazione permanente di dati e programmi.
I programmi applicativi
Programmi applicativi → dotati di particolare interfaccia con cui l’utente può manipolare i contenuti. Ogni applicativo gestisce uno
specifico formato di dati.
Un file è costituito da nome ed estensione che specifica il tipo di dato, quindi il formato → si intende la classe dei documenti e uno
dei differenti formati di quella classe.
Formati proprietari → leggibili da uno specifico applicativo;
Formati non proprietari → non legati a un programma.

2 LA RETE E L’INFORMAZIONE MULTIMEDIALE


Il principale strumento di Internet è i World Wide Web → come architettura informativa e sistema di accesso interattivo ad oggetti
multimediali. La facilità del linguaggio, ovvero l’HTML, ha condotto alla creazione di siti web di interesse per l’umanista.
Internet: rete di calcolatori e protocolli
Internet → strumento di trasmissione e diffusione dell’informazione in formato digitale, consente lo scambio dei dati. La sua nascita
si colloca nel 1969, nel periodo della Guerra Fredda. Costruito per il dipartimento della Difesa degli Stati Uniti. La rete doveva
consentire il dialogo fra le macchine e assicurare le comunicazioni.
Quando si parla di Internet ci si riferisce all’infrastruttura e al sistema inteso come serie di regole standardizzate. La comunicazione
avviene tramite protocolli di comunicazione che sono gli strumenti che garantiscono la comunicazione ai diversi livelli nei quali si
articola Internet.

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Protocolli TCP/IP → serie di protocolli elaborata da Cerf e Kahn. Compito: gestione della trasmissione dei dati a livello di trasporto e
di rete. Si basa sulla tecnica di commutazione di pacchetto: il TCP suddivide il flusso di dati in pacchetti mentre l’IP gestisce
l’instradamento e li inoltra ai nodi di destinazione.
I protocolli sono pubblici. Ogni nodo della rete (host) deve essere individuato in modo univoco, il tutto è garantito dall’impiego di
indirizzi rappresentati sotto forma di stringhe numeriche.
Indirizzo IP → sequenza numerica (quattro gruppi di cifre separate da un punto, ciascun gruppo con valori 0<x<255) che identifica
univocamente ogni macchina della rete in modo gerarchico. È convertito in indirizzo simbolico di dominio tramite il Domain Name
System.
1. Architettura client server: una macchina (client) richiede un servizio ad un’altra macchina (server);
2. Modello peer-to-peer: i nodi della rete che comunicano rivestono ruoli interscambiabili.
Il www: decentralizzazione e universalità
L’dea del web nasce alla fine degli anni ottanta presso il CEERN di Ginevra grazie a Tim Berners-Lee. Obiettivo originario era di
trovare un sistema per consentire a dati relativi a software, persone e progetti di ricerca di essere collegati fra loro.
Enquire → primo programma ad anticipare i WWW. Usava collegamenti fra le diverse pagine di informazione, ogni pagina era un
nodo e per creare nuovi nodi era necessario collegarsi ad un nodo già esistente.
Tangle → successore, sistema di documentazione globale, sono collegamenti fra ogni tipo di informazione.
Decentralizzazione delle risorse e universalità di accesso sono le componenti fondamentali. Come modello del sistema viene scelto
l’ipertesto che permette di collegare fra loro i dati e quindi associare informazioni tramite l’hypertext links.
Nel 1990 nasce il WWW → editor di ipertesti (programma per la scrittura e la composizione) e browser (programma per lettura e
navigazione).
Nel 1994 nasce il World Wide Web Consortium (W3C).
L’architettura del WWW
Il Web è un’architettura basata sugli ipertesti che si serve di Internet, intesa come infrastruttura fisica di comunicazione e intesa
come insieme di protocolli.
Strutture costitutive fondamentali del Web:
 URI: per identificare il documento tramite un nome convenzionale persistente. L’URL è un sottoinsieme dell’URI ed è
l’indirizzo fisico con il quale ogni risorsa viene recuperata sul Web.
 HTTP: protocollo di scambio dei dati e si basa su una serie di regole minime condivise, è dichiarato nell’URL.
 HTML: linguaggio del W3C per la pubblicazione di costrutti ipertestuali navigabili. I documenti visualizzabili sul Web sono
scritti in HTML e quello che vediamo è il risultato dell’interpretazione di questo codice da parte del software.
L’uso di questi standard è garanzia di interoperabilità tecnica ovvero possibilità di consentire a sistemi diversi di dialogare fra loro. È
lo strumento necessario a garantire l’interscambio dei dati.
Le pratiche del W3C raccomandano:
 L’indipendenza dal software;
 L’adozione di standard per la codifica dei caratteri;
 Creazione e diffusione di standard per l’accessibilità.
I linguaggi per l’architettura del WWW
Linguaggio HTML → strumento necessario alla descrizione del contenuto e della struttura logica di un documento.
Tre funzioni:
1. Permettere di definire l’articolazione delle porzioni testuali;
2. Consentire di incorporare oggetti multimediali;
3. Gestire i collegamenti ipertestuali.
Fondamentalmente si tratta di un linguaggio per la formattazione delle pagine, il vocabolario è legato all’aspetto del documento.
È un’architettura a livelli in cui le diverse componenti delle pagine sono nettamente separate in modo tale che ad ognuna di esse
corrisponda un livello indipendente.

Utilizzo di due standard:


1. XHTML: per contenuto e struttura. Linguaggio che limita il set delle istruzioni alla struttura e lasciare ad altri linguaggi il
layout. Le indicazioni sono stringhe di caratteri che vengono aggiunte all’interno del documento e sono chiamate
marcatori o tags.
2. Fogli di stile CSS: per la presentazione. Fogli a “cascata”, la funzione è di fornire comandi per arricchire l’aspetto visuale
ed estetico di una pagina. Le istruzioni di formattazione possono essere raccolte in un file e richiamate ad ogni pagina del
sito.
Il codice HTML consiste in una serie di indicazioni descrittive racchiuse tra parentesi uncinate e aggiunte all’inizio e alla fine di ogni
porzione testuale a cui si intende assegnare una determinata caratteristica. Il marcatore finale è costituito dall’istruzione preceduta
da uno slash.
6

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Marcatori → definiscono le caratteristiche di struttura e aspetto del documento.


Attributi → descrivono determinate caratteristiche dell’elemento, vanno inseriti nel marcatore dopo l’elemento separati da uno
spazio e seguiti dal simbolo di uguale.
HTML ci permette di gestire:
 Indicazioni a livello di struttura;
 Indicazioni a livello di formattazione;
 Inserimento di immagini;
 Gestione dei collegamenti ipertestuali;
A questi due livelli (struttura e aspetto) si deve aggiungere il Javascript e gli applet Java → strumenti che gestiscono l’interatività,
ovvero rispondono a determinate azioni dell’utente.
Il Web e la multimedialità
Il Web è il fondamento della multimedialità in quanto ambiente di integrazione di media diversi.
Multimediale → sistema che utilizza diverse tipologie di media. Con il processo di digitalizzazione i media possono diventare oggetti
manipolabili dalla macchina.
Campionamento e quantizzazione → operazioni che consentono la trasformazione di un segnale analogico in forma digitale.
Il testo, come veicolo di trasmissione, è inteso come ogni forma di rappresentazione digitale.
Le immagini
La componente iconografica ha forte valore comunicativo. Problemi nell’atto della creazione di immagine digitale:
 Risoluzione dell’immagine e profondità del colore: qualità dell’immagine digitale rispetto all’originale;
 Formato del file: agilità di consultazione, file leggeri e veloci da visualizzare per evitare tempi di caricamento della pagina
troppo lunghi.
Formati → GIF, JPEG, PNG.
File audio
Formato più noto → MP3, formato compresso che consente di gestire file più leggeri rispetto ad altri presenti sul Web. È un
formato portabile. L’audio deve essere valutato anche come istanza di apprendimento alternativa alla lettura e utile strumento di
memorizzazione dei contenuti.
I video
Esistono diversi sistemi per incorporare filmati sul Web: applet Java ma anche applicazioni specifiche.
MPEG → formato compresso divenuto standard per la creazione di filmati.
Web e metadati: identificare le risorse elettroniche
Metadati → meta informazioni, rappresentano la possibilità di aggiungere a una pagina Web indicazioni relative alla sua
identificazione e connotazione. L’obiettivo di tali elementi è di consentire un recupero e una gestione più efficiente dei documenti.
Si tratta di dati pensati per le macchine, consentono un’indicizzazione dei contenuti funzionale ad agevolare le macchine nel
recupero delle sole notizie di interesse effettivo per l’utente.
Al tag <META> dell’HTML spetta il compito di ospitare tali notizie, tramite una serie di attributi basilari che costituiscono un primo
livello di auto-catalogazione delle pagine Web. Pochi descrittori quali:
 Nome dell’autore;
 Descrizione del contenuto;
 Elenco delle parole chiave;
 Software con il quale il documento è stato creato;
 Set di caratteri e il tipo di documento (in termini di formato).
Ai metadati spetta il compito di trasformare i documenti in informazioni.
Interrogare il Web: motori di ricerca e directory
Per recuperare documenti sul Web:
1. Conoscere l’indirizzo URL della risorsa;
2. Attraverso mortori di ricerca, cataloghi o directory.
Directory → forma di organizzazione dei siti Web che segue uno schema di classificazione per argomento. Ogni directory definisce
una serie di categorie di riferimento entro le quali far rientrare sottocategorie dipendenti e quindi mira ad assegnare ogni sito ad
una delle categorie predefinite nell’albero gerarchico. La definizione e la scelta di far appartenere un sito a una di tali classi è il
risultato di un lavoro condotto dall’uomo. La categorizzazione è mirata alla selezione dei siti dai contenuti ritenuti più significativi
dall’utente. Le directory più note: Yahoo e Google.
Motori di ricerca → risorsa cui l’utente fa più ricorso. L’interrogazione (query) avviene tramite parole chiave che consentono il
reperimento di pagine e relativi URL. Accade a livello di interfaccia utente, lato browser. I motori di ricerca indicizzano il Web in
modo automatico tramite specifici software (spiders). Interrogare il Web tramite motore di ricerca significa interrogare la base dati
che è stata indicizzata da quello specifico motore. I motori di ricerca mirano ad indicizzare tutti gli URL.
Meta-motore → sito che cerca sul Web utilizzando diversi motori.
7

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Un motore di ricerca è costituito da:


 Programma che interroga il Web (indicizza le pagine);
 Database che raccoglie e archivia le parole estratte;
 Interfaccia utente;
L’interrogazione può anche avvenire attraverso gli operatori logici AND, OR, NOT.
Supporto di notazioni → parola*: troncamento; “parola e parola”: cercare una frase così come viene scritta.
Valutazione della validità del motore di ricerca tramite due parametri:
1. Precisione del risultato dell’interrogazione in relazione al rapporto fra le pagine trovate e quello delle pagine rilevanti; la
relevance è un punteggio numerico che rappresenta quanto ciascun risultato incontri i bisogni informativi dell’utente che
ha formulato la query.
2. Recall: capacità del motore di trovare il maggior numero di pagine rilevanti rispetto a tutte quelle trovate.

 Esiste un deep Web “nascosto” che i motori di ricerca non possono interrogare;
 Le pagine non più aggiornate rimangono comunque nel database del motore di ricerca;
 La query con parole chiave non è detto che restituisca proprio l’argomento che stiamo cercando.
Google rappresenta il motore di ricerca più utilizzato dagli utenti. Tra le principali caratteristiche:
- Velocità nei tempi di risposta;
- Numero di pagine archiviate nel database;
- Tecnica matematica del relevance ranking ovvero la modalità di selezione dei risultati restituiti dall’utente.
Più un sito è linkato e più in alto sarà nella lista dei risultati. Altre funzionalità: ricerca avanzata, ricerca per immagini, ricerca di libri,
Google Scholar per la ricerca sulla letteratura accademica.
La ricerca bibliografica: dagli OPAC alle biblioteche digitali
Le biblioteche hanno studiato e realizzato sistemi per poter accedere facilmente alle collezioni. Il catalogo è il veicolo per tale
reperimento. Gli strumenti automatici di navigazione all’interno delle collezioni bibliografiche hanno favorito un reperimento
dell’informazione più veloce e una moltiplicazione delle modalità di ricerca.
OPAC → catalogo elettronico che consente di interrogare le biblioteche aderenti. L’utilizzo degli OPAC consente di reperire un
determinato titolo, di ricercare tutte le opere di un determinato autore. Si parla di biblioteca elettronica.
 OPAC del Servizio Bibliotecario Nazionale (SBN): notizie relative ad una pubblicazione e sapere quali sono le biblioteche
che sul territorio nazionale hanno un determinato volume.
 Meta-OPAC Azalai (MAI): è possibile ricercare su molteplici cataloghi per verificare il posseduto di documenti poco
comuni.
 OPAC locali che possono arginare la ricerca.
 ACNP: catalogo italiano dei periodici.
 Sito dell’AIB: repertorio di tutti i cataloghi italiani.
Il desiderio di una consultazione diretta dei testi ha favorito la nascita di Biblioteche digitali nel portale Internet Culturale.
Progetto europeo Michael → tramite il quale è possibile esplorare le collezioni digitali di musei, archivi, biblioteche in Italia, Francia,
Regno Unito ricercando per tema, area geografica, periodo storico.
Una nuova tipologia di risorsa elettronica: e-prints → documenti elettronici rappresentati da articoli scientifici in attesa di
pubblicazione su riviste cartacee. Vengono riversati su database dedicati, chiamati repositories, accessibili via Web.
Le collezioni di testi letterari
Collezioni digitali → siti che si propongono di offrire una prospettiva globale della raccolta dei testi rispetto ad un ambito nazionale
e/o linguistico.
 Collezioni digitali specifiche: testi relativi a specifico autore e certo periodo storico, corrente culturale o determinato
genere letterario.
 Collezioni digitali generali: copertura dell’intera tradizione letteraria nazionale classica o contemporanea.
Caratteristiche di tali siti:
 Modalità di accesso ai contenuti;
 Possibilità di interrogazione;
 Formati dei file.
L’assenza di regole univoche comporta anche l’assenza di criteri condivisi dalla comunità dei fruitori. L’esistenza di regole è
necessaria ad autenticare la qualità del testo elettronico e a valutare l’attendibilità dell’informazione trasmessa.
Prima garanzia di qualità:
- Linguaggio utilizzato;
- Sistema di navigazione chiaro ed efficace;
- Dichiarazione dell’autore del sito (presenza di copyright e possibilità di identificare l’ente);
- Elementi paratestuali;
8

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

- Riferimenti bibliografici;
- Aggiornamento dei materiali;
- Link alle altre risorse online (sitografia ragionata).
La dimensione collaborativa della rete: blog e wiki
Blog e Wiki costituiscono il Web 2.0.
Wiki → sito web che permette a ciascuno dei suoi utilizzatori di aggiungere contenuti ma anche di modificare quelli già esistenti
inseriti da altri utilizzatori.
Blog → sito web pensato perché un singolo pubblichi i suoi scritti (post).
Sistemi che consentono di creare pagine web sul server remoto: Conten Management System (CMS) condivide il trend dominate
del Web ovvero la distinzione della forma e del contenuto.
CMS → applicazioni che mettono a disposizione anche una struttura di sito definita. È possibile disporre di un’organizzazione dei
contenuti a livello di elementi della navigazione e di una serie di modelli grafici con cui gestire l’aspetto del sito.

3 SISTEMI INFORMATIVI E BASI DI DATI


Quando si vogliono creare delle collezioni bisogna mettere in relazione tra di loro elementi diversi è necessario ragionare sulle
modalità che consentono tale correlazione. La creazione di un insieme organizzato di dati richiede un’accurata analisi delle
caratteristiche del corpus. La collezione potrà essere rappresentata da 1) raccolte esistenti di fonti, oppure 2) il risultato di una
selezione di dati operata al fine della creazione di una nuova raccolta.
Due momenti di analisi:
1. MODELLO CONCETTUALE → Verificare le caratteristiche della raccolta dati: in questa fase si provvede alla definizione ed
elaborazione dell’articolazione logica della collezione che consiste nell’individuazione degli elementi costitutivi della
raccolta e delle relazioni che tali elementi intrattengono.
2. MODELLO LOGICO → Definire l’obiettivo computazionale: chiarire le ragioni per le quali si intende realizzare un copus in
formato digitale. Genere e tipo di notizie che si vogliono estrarre dalla raccolta.
Le collezioni di dati: fasi di gestione → studio di un corpus di dati
1. Raccolta: certi dati saranno già disponibili in formato digitale mentre altri andranno acquisiti.
2. Archiviazione: definire un sistema di conservazione dei dati (sistema di storage).
3. Elaborazione: trasformazione dei dati in modo tale che l’informazione possa essere manipolata dalla macchina.
4. Distribuzione o disseminazione: comunicazione dei dati all’esterno.
Il concetto di database
Base di dati → raccolta di dati omogenei (stesse caratteristiche a livello di elementi costitutivi) relativi ad uno specifico dominio,
organizzati in modo strutturato e secondo precise convenzioni.
Dati strutturati → quando accessibili all’interno di un DB.
È compito di un DB gestire processi di:
 Amministrazione: progettazione, creazione, eliminazione del DB.
 Transazione: inserimento, aggiornamento, cancellazione dati.
 Interrogazione: accesso e consultazione dei dati.
I dati devono essere raccolti e rappresentati in base a regole precise e organizzati in strutture rigide. Le informazioni vengono
comunicate alla macchina attraverso i dati (costituiti da simboli che devono essere elaborati e interpretati). Il dato diventa
informazione quando inserito in un contesto cioè quando gli viene associata una struttura.
Sistema informativo e DBMS
Sistema informativo → collezione di documenti che rappresenta l’insieme dei contenuti che caratterizzano l’attività di un ente, di
un’istituzione o di un singolo individuo e che prescinde dall’automatizzazione dei dati. Una raccolta di dati è un sistema per la
raccolta, archiviazione, reperimento e diffusione delle informazioni.
Sistema informatico → piattaforma tecnologica che ospita il corpus dei dati e gestisce le informazioni in modo tale che queste
possano essere recuperate in modo automatico.
DBMS (Database Management System) → sistema software di gestione dei dati. Si occupa dell’aggiornamento, della manutenzione,
e della consultazione di un insieme di registrazioni contenute in un supporto di memoria di massa. È un insieme di programmi
rivolto alla gestione di dati di memorizzazione in formato digitale. L’SQL è diventato il linguaggio standard per lavorare su un DB.
Modello logico, schema e istanza del DB
Modello dei dati → insieme di concetti utilizzati per organizzare i dati e descriverne la struttura in modo comprensibile al
calcolatore. Esistono diverse tipologie di modelli, che corrispondono ai diversi concetti e tipi di dato e ai diversi costruttori di tipo.
 Modello gerarchico: strutture ad albero.
 Modello reticolare: uso di grafi.
 Modello relazionale: strutturazione dei dati in tabelle.
 Modello a oggetti: programmazione orientata agli oggetti.
9

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Schema di un DB → descrizione dei dati. Deriva dal modello logico utilizzato.


Istanza → serie di valori associati a un DB.
Fanno parte di un DBMS sistemi di DDL (definizione dello schema del DB) e di DML (manipolazione del DB).
Progettazione di un DB
Progettazione → momento più importante del processo di realizzazione di un DB. Compito dell’umanista è quello di riconoscere
quale informazione è possibile estrarre dalla collezione.
Tre livelli di progettazione:
1. Progettazione concettuale: livello più astratto e generale, lo scopo è la descrizione formale del corpus. Quando è espressa
in modo formale è detta schema concettuale costituito dal modello E/R (diagramma entità/relazione).
2. Progettazione logica: scopo è la scelta del modello di dati (gerarchico, reticolare, relazionale, a oggetti. Se la struttura dei
dati fa riferimento alle modalità di organizzazione dei dati, il modello dei dati ci consente di definire quale tipologia di
operazioni possiamo eseguire su dati organizzati. Si parla di schema logico in relazione alla rappresentazione dei dati, è
indipendente dalla realizzazione fisica del DB ma traduce lo schema concettuale nelle strutture dati proprie del DBMS
prescelto.
3. Progettazione fisica: livello più vicino alla macchina e deve tener conto delle sue caratteristiche. Dalla progettazione fisica
scaturisce lo schema interno dei dati.
I tre livelli corrispondono ai tre livelli di astrazione di un DBMS, fornisce una visione astratta del DB. Gli aspetti più importanti dei
sistemi di gestione dei DB: indipendenza logica dei dati e fisica dei dati.
Modello relazionale dei dati
Ideato da Codd, si basa sul concetto di tabella e di relazione. Ogni tabella è una relazione fra i suoi elementi ed è caratterizzata da
un numero fisso di colonne (attributi o campi), e da un numero variabile di righe (tuple o ennuple). L’intestazione della tabella
corrisponde al nome dell’attributo mentre le altre righe contengono i valori. Lo schema comprende il nome della tabella e il nome
degli attributi, mentre l’istanza è la serie dei valori.
Condizioni che deve rispettare una tabella perché venga definita come relazione:
- Ogni colonna deve possedere una diversa intestazione.
- La colonna deve contenere valori di tipo omogeneo relativi al medesimo dominio.
- La riga deve riportare la serie di valori che identificano ogni oggetto inserito nella tabella.
- Ordine di righe e colonne è irrilevante.
Concetti base del modello relazionale: tipi di dato, chiavi e relazioni fra tabelle
Un DB supporta diversi tipi di dato: caratteri e stringhe, numeri, valori booleani, dati in codice binario (immagini). Ciascuna riga
deve essere identificata univocamente. Una chiave è un campo della tabella necessario ad accogliere valori che rappresentano in
modo univoco ogni ennupla, denominato campo ID (identificatore univoco). Il campo chiave accoglie un tipo numerico intero
perché permette di connotare senza ambiguità ciascuna riga.
Il modello relazionale deve il suo successo alla possibilità di creare collegamenti (join) basati su record e puntatori. Tramite le chiavi
è possibile mettere in relazione tabelle diverse. Generalmente una tabella non è in grado di descrivere integralmente un corpus
complesso.
Normalizzazione → procedimento mirato a eliminare ridondanze e anomalie nel DB, manifestazioni di valori che devono essere
replicati, ottenuta scomponendo una tabella in più tabelle diverse (decomposizione in forma normale), collegate poi tra loro
tramite il campo chiave.
La chiave esterna di una tabella corrisponde alla chiave primaria di un’altra tabella.
Vincoli di integrità → devono essere rispettate determinate condizioni necessarie ad una corretta rappresentazione
dell’informazione. Possono riguardare:
- La chiave (vincoli chiave).
- Valori di un attributo (vincoli di dominio).
- La serie dei valori di un’ennupla.
- Le relazioni fra tabelle (vincoli di integrità referenziale).
Interrogare le basi di dati
Il DB può essere sottoposto a interrogazione ma anche aggiornamento.
Aggiornamento → forma di ridefinizione dell’istanza di un DB.
Interrogazione → creazione di una nuova relazione.
Algebra e calcolo relazionale sono i due linguaggi che consentono di interagire con un DB.
Algebra relazionale → si basa su operatori insiemistici tradizionale (unione, intersezione e differenza) e su altri operatori più
specifici (ridenominazione, selezione e proiezione) e sull’operatore join che gestisce la correlazione tra dati contenuti in relazioni
differenti confrontandone i valori.

10

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Query → interrogazione effettuata su una o più relazioni che genera una particolare vista del DB. Possono essere effettuare tramite
stringhe di caratteri semplici, operatori jolly, operatori algebrici, operatori booleani o connettivi logici, operatori aritmetici o di
concatenamento, operatori di confronto.
Basi di dati per l’umanista e linee di evoluzione
I DB sono importanti per l’umanista perché molte delle informazioni di interesse sono fruibili sotto forma di basi di dati (raccolte
bibliografiche) ma anche perché l’umanista è in grado di comprendere come descrivere e organizzare tali contenuti, capendo quali
domande fare per ottenere determinate risposte.
Metadati → etichette descrittive di qualunque oggetto digitale. Dalla definizione dei metadati si possono individuare gli elementi
costitutivi di ogni raccolta.
Database full-text → per le raccolte di testi elettronici, in cui uno dei campi del DB ospita il testo integrale. Si possono integrare
immagini digitali, e diversi altri media.
Il modello a oggetti è utilizzato quando la collezione è costituita da dati multimediali, questo modello permette di gestire i dati
come oggetti complessi e unitari consentendo di stabilire relazioni facilmente.

I principali strumenti:
- L’oggetto, tipo di dato complesso.
- Proprietà, che descrive la struttura degli oggetti e le operazioni.
- Classe, raggruppa gli oggetti dello stesso tipo.
Sistemi informativi distribuiti → le risorse Web a cui accediamo sono originate da DB. È pensato come ambiente collaborativo a
distanza.
La modellazione concettuale
Modellazione concettuale → prima fase di progettazione di un DB. È un procedimento concreto di formalizzazione. Si definisce il
modello partendo da oggetti della realtà che possono essere raggruppati in classi sulla base della condivisione di determinate
proprietà. Vengono create delle classi e stabilite delle relazioni semantiche (= il collegamento stabilito tra due oggetti è in grado di
specificare il senso della relazione.
Astrazione → sistema che consente di evidenziare alcune proprietà degli oggetti osservati.
1. Astrazioni di classificazione: classe intesa come insieme di oggetti con le medesime proprietà. Gli oggetti che
appartengono ad una classe sono istanze della classe. Instance-of.
2. Astrazioni di aggregazione: definiscono una nuova classe a partire da altre classi identificabili come proprietà della prima.
Si crea una nuova classe partendo da caratteristiche condivise. Part-of.
3. Astrazioni di generalizzazione: definiscono nuove classi da altre già esistenti che sono dipendenti gerarchicamente dalla
nuova classe definita. Subset-of.
Formalismo per la modellazione concettuale è il modello E/R, costituito da due componenti:
1. Costrutti per esprimere i concetti del modello: entità, relazioni e attributi.
2. Notazione per rappresentare tali costrutti: rettangolo, rombo e freccia.
Entità → classe di oggetti dotati di proprietà comuni.
Occorrenza di un’entità (istanza) → oggetto di quella classe.
Successivamente si procede con la definizione delle relazioni ovvero la specificazione del legame che sussiste tra le entità.
Attributi → descrivono le proprietà di entità e relazioni. Esistono attributi semplici e attributi composti.

11

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

PARTE SECONDA
LA RAPPRESENTAZIONE DELL’INFORMAZIONE
4 LA TESTUALITÀ DIGITALE: I LINGUAGGI DI MARKUP
Il primo livello di codifica è un processo che consente di comunicare dati all’elaboratore, tramite un codice che consente il dialogo
tra macchina e uomo: il codice ASCII e il successore Unicode. Questo livello è un processo di conversione di un dato analogico al
formato digitale. Tuttavia la codifica del testo basata sulle sole tavole dei codici consente di rappresentare nella memoria del
computer solo la sequenza dei segni grafici che rappresentano il testo. Un testo contiene diverse informazioni a diversi livelli, che
superano la mera sequenza di caratteri. Si distingue la codifica di basso livello (codifica dei dati elementari) dalla codifica di alto
livello (markup) → possibilità di aggiungere alla sequenza di caratteri altre stringhe di caratteri: i marcatori, utili a descrivere
determinati aspetti funzionali alla produzione del documento elettronico.
Markup → è chiamato annotazione del testo, è il passo preliminare per ogni operazione di successiva elaborazione o trattamento
del documento digitale.
Per l’umanista la codifica dei caratteri e il markup rappresentano un processo interpretativo e di moderazione del testo, risultato
dell’analisi di quest’ultimo. Viene costruito un modello del testo più adatto alle esigenze della rappresentazione elettronica.
Codificare tramite linguaggi formali di rappresentazione del testo contribuisce ad arginare la perdita di elementi significativi per la
trasmissione del messaggio.
Classificazione delle tipologie di markup
1. Proprietario vs non proprietario: il markup può essere creato da un’azienda che lega le istruzioni di codifica all’applicativo
oppure si presenta come un set di istruzioni standardizzate e condivise da un insieme di organizzazioni.
2. Leggibile vs non leggibile: può essere delegato ad un applicativo che incorpora e nasconde i valori, si definisce leggibile
quando non è necessario ricorrere a nessun programma per la visualizzazione e interpretazione del codice da parte
dell’utente.
3. Orientato al layout (presentazionale) vs orientato alla struttura (descrittivo o analitico): si possono utilizzare i marcatori
per definire caratteristiche fisiche del documento o per segnalare elementi di struttura logica.
4. Procedurale vs dichiarativo: nel primo caso il markup si presenta sotto forma di istruzioni che specificano caratteristiche
di output del documento. Nel secondo le indicazioni di markup sono orientate alla descrizione di certe caratteristiche
formali.
Da queste tipologie deriva la classificazione dei documenti in base al formato dei dati: ogni applicativo lega il documento prodotto
con una certa marcatura a uno specifico formato. L’unico formato non marcato è il “solo testo”.
Il markup: dal layout alla struttura
Il termine markup deriva dalla stampa tipografica tradizionale in riferimento a quella serie di simboli e annotazioni che l’autore o
editore aggiunge al manoscritto per istruire lo stampatore sulle caratteristiche del documento destinato alla stampa.
Funzione dei linguaggi di markup → fornire un insieme di strumenti che consentano di aggiungere notizie sul testo riguardanti:
1. Aspetto: formattazione e disposizione degli elementi nella pagina.
2. La struttura logica: funzione dei blocchi di testo.
Word processors → programmi che consentono all’utente di effettuare operazioni di scrittura, correzione e lettura del testo,
permettendo la preparazione del formato del testo al fine della stampa. I sistemi di text processing basati sull’impiego di un word
processors sono detti di tipo WYSIWYG (what you see is what you get). Questi sistemi agevolano il lavoro dell’utente
consentendogli di interagire con l’interfaccia grafica. Il problema è che questi sistemi legano l’elaborazione del testo a un
determinato programma, tendendo problematica la portabilità tra ambienti hardware e software diversi. Impiegando dei caratteri
di controllo invisibili, si rende il file leggibile esclusivamente dal sistema che l’ha generato.
Si parla di linguaggi di marcatura del testo (markup languages) → linguaggi che si basano su un insieme di istruzioni e indicazioni
orientate alla descrizione dei fenomeni di strutturazione, composizione, impaginazione del testo. I marcatori sono sequenze di
caratteri visibili che vengono immessi dentro il file, direttamente accanto alla sequenza di caratteri, marcando blocchi di testo cui
intendono assegnare una determinata funzione. In questo modo è garantita la leggibilità.
Markup procedurale e markup dichiarativo
Differenza nella tipologia e nella funzione dei marcatori utilizzati.
1. Markup procedurale (specifico): insieme di istruzioni operative che indicano localmente la struttura tipografica e
compositiva della pagina. “Procedurale” perché indica alla macchina le procedure di trattamento cui deve sottoporre la
sequenza di caratteri al momento della stampa. Linguaggi procedurali: TeX e LaTeX, primi linguaggi di marcatura ad
occuparsi dell’aspetto tipografico. Alcune informazioni circa il testo vengono però perdute, in quanto non segnalate, e si
rivela necessario conoscerne esattamente la resa tipografica per poterne accedere. Inoltre un linguaggio di questo tipo,
comporta uno stretto legame con il software in grado di interpretare le istruzioni, limitando la portabilità. Le istruzioni di
formattazione vengono fissate una volta per tutte. → (limiti)
2. Markup dichiarativo (generico): i simboli di markup vengono impiegati come indicatori di struttura. I linguaggi sono
costituiti da un insieme di marcatori (tags) che indicano la funzione logico-strutturale assolta dal blocco di testo cui si
12

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

riferiscono. Questi linguaggi dichiarativi sono classificabili come linguaggi descrittivi (a livello di struttura). Delegano ad
altri linguaggi il compito del layout, cioè l’assegnazione di uno stile agli elementi logici. I principali linguaggi sono: SGML e
il suo derivato HTML. Perciò i linguaggi dichiarativi: si basano sulla descrizione della struttura logica del documento
(utilizzati a scopo descrittivo), il formato dei dati non è proprietario, i marcatori sono leggibili dall’utente.
Le origini del markup dichiarativo: SGML
Elaborato nel 1986 da Goldfarb, con lo scopo di definire uno schema linguistico standard a livello internazionale nell’ambito della
codifica dei testi. Obiettivo: consentire l’interscambio di documenti in formato elettronico tra ambienti hardware e software
differenti e garantire la portabilità dei dati.
SGML → si basa su un markup generico, si fonda sull’idea che ogni documento sia dotato di una struttura astratta definibile tramite
un’organizzazione rigidamente gerarchica dei suoi elementi costitutivi. La struttura astratta di un documento viene identificata in
una rappresentazione ad albero: ogni nodo corrisponde ad un elemento, i rami sono le relazioni tra elementi (inclusione, ordine,
ricorrenza), le foglie sono gli elementi finali (caratteri del testo).
SGML consente di definire in modo personale e autonomo un insieme di marcatori che consentano di fare il markup della struttura
logica del documento. Il gruppo di marcatori individua una classe di documenti testuali che presentano le medesime caratteristiche
strutturali. Classe → si intende una serie di documenti che condividono determinate proprietà.
Ogni porzione testuale può essere individuata e descritta tramite un nome convenzionale (elemento) racchiuso tra due delimitatori
(tag di apertura e di chiusura). È possibile associare degli attributi agli elementi.
SGML è dotato di una sintassi astratta e non fornisce alcuna indicazione circa il vocabolario per gli elementi. È un metalinguaggio
che fornisce le regole sintattiche necessarie all’edificazione di altri linguaggi di markup di testi che si configurano come modelli del
testo (insieme di testi aventi caratteristiche logico-strutturali analoghe).
Il valore dei marcatori va specificato in un vocabolario di marcatura: “definizione del tipo di documento”, o DTD.
DTD → grammatica del metalinguaggio per la rappresentazione di determinati parametri logico-strutturali di gruppi di documenti
aventi le medesime caratteristiche. Ciascun macro-raggruppamento (testo letterario, in prosa, in versi) è un tipo di documento. La
DTD rappresenta lo schema di codifica cui il testo fa riferimento con il compito di definire i diversi aspetti della fonte che possono
essere oggetto di intervento interpretativo e di specificare il vocabolario associato a ciascuno degli aspetti. Nella DTD sono elencati
gli oggetti necessari all’elaborazione di un adeguato linguaggio di codifica:
 Marcatori per gli elementi, che identificano la serie delle proprietà di un testo o di una certa classe di documenti.
 Descrizione del contenuto di ogni elemento.
 Marcatori per gli attributi assegnabili a un qualsivoglia elemento.
 I simboli per le entità che possono occorrere all’interno del documento e che rappresentano i caratteri non esistenti nel
code set impiegato nella codifica, forme contratte che vanno estese in fase di layout, oggetti esterni.
Per il set di caratteri, SGML propone l’ISO 646, comune nel mondo anglofono. Qualora si verificasse l’esigenza di rappresentare
caratteri o simboli speciali che non rientrano in ISO 646 (lettere accentate maiuscole), SGML consente l’impiego dei riferimenti di
identità.
Il markup XML esprime il valore della stringa di caratteri cui il tag è associato, a prescindere delle modalità di resa grafica. La
codifica è focalizzata sulla struttura, quindi sul valore dei blocchi logici, documentando l’ordinamento gerarchico che sovrintende
all’organizzazione degli elementi della fonte. I tags utili possono essere creati a piacimento e ciascun elemento essere poi
specificato nella DTD o in un XML schema che permette di descrivere la struttura dei documenti XML tramite la stessa sintassi XML.
La DTD non è in grado di distinguere tra tipi di dati ed elementi XML che appartengono ad un dato tipo. Con XML schema è possibile
definire de tipi di dati e poi dichiarare quali elementi fanno parte di ciascun tipo: si tratta di un linguaggio formale espressivo. Anche
un singolo documento conforme a XML deve essere associato ad uno schema che ne specifica la grammatica. Il documento XML
che fa riferimento ad uno schema si dice “valido”, ma XML consente anche la distribuzione di documenti privi di schemi well-
formed che rispettano le regole.
XML per la rappresentazione dei dati semi-strutturati
XML → linguaggio self describing, dispone degli strumenti sufficienti per essere autonomo nella descrizione di un documento. È un
sistema per la descrizione analitica di ipotesi interpretative espresse sul testo ed è un linguaggio di interscambio tra applicazioni. È
in grado di rappresentare un dato semi-strutturato.
 Documento DATA CENTRIC: dispongono di una struttura individuabile. Oggetti che possono essere rappresentati in un
database.
 Documento DOCUMENT CENTRIC: struttura sommariamente risolvibile. Oggetti che possono essere rappresentati meglio
tramite tecnologie di markup.
XML è in grado di risolvere documenti di entrambi i tipi. Da un punto di vista data centric consente di assegnare al dato una
struttura. Oggetti document centric sono pensati per essere letti da un utente umano e l’uso di XML si colloca a livello di descrizione
degli elementi costitutivi. XML è un formato di dato, un sistema per la codifica con obiettivi di conservazione e scambio dei dati,
rappresenta il dato assegnandogli una struttura.

13

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Struttura (rappresentazione) → modalità di organizzazione delle parti di un dato (grafo, tabella, albero). Da essa dipendono le
operazioni.
Modello (contenuto) → operazioni che si possono fare sui valori delle diverse componenti. Questo modello è l’ontologia, intesa
come definizione, rispetto a un dominio, di concetti e relazioni fra i concetti.
La DTD e XML schema, assegnano un vocabolario (denominazione degli elementi tramite un lessico convenzionale) e una sintassi
(relazione di dipendenza gerarchica fra gli elementi).
XML e database
XML prevede l’interazione con strumenti per la creazione, interrogazione e trasformazione dei dati. Dispone di strumenti DDL
(definizione dello schema) e DML (interrogazione e manipolazione dei dati) tipici del DBMS.
Come formato di database XML ha dei vantaggi: è self-describing, è portabile e può descrivere i dati sottoforma di struttura ad
albero. Ma non può essere propriamente definito come un formato di database ma come un formato di rappresentazione dei dati.
Il markup come processo: riproduzione o interpretazione?
Il testo è un oggetto complesso, inteso come architettura a livelli. All’atto della rappresentazione elettronica alcune proprietà
vengono riprodotte mentre altre saranno irrilevanti.
Rappresentazione → processo di astrazione, è una selezione.
Modello (del testo) → scelta di determinati aspetti che dell’oggetto digitale si intendono rappresentare.
Vi sono molteplici livelli analitici, non sarà possibile intervenire su tutti in quanto ogni operazione di digitalizzazione e successiva
marcatura richiede l’esplicitazione di un punto di vista, ma è indispensabile realizzare un prodotto suscettibile di multiformi
elaborazioni computazionali. Si comprende così la flessibilità di un sistema di notazione che permette di rappresentare qualsiasi
aspetto del testo e di esprimere livelli diversi di interpretazione della fonte. Non esiste un modello universale del testo: ogni
modello è il risultato della specificità della risorsa e del punto di vista assunto, quindi dell’analisi testuale che si vuole operare.
In fase di realizzazione di un oggetto digitale bisogna chiarire:
- Tipologia degli strumenti da utilizzare in fase di produzione;
- Varietà degli interventi interpretativi.
Impiego del markup dichiarativo per duplice esigenza:
1. Realizzare prodotti portabili, svincolati da un linguaggio proprietario. Ricorrendo al solo set ASCII/Unicode non si pone il
pericolo della deperibilità nel tempo.
2. Interpretazione delle diverse istanze dell’oggetto di analisi, direttamente proporzionale agli aspetti che si vogliono
indagare.
Problemi a un duplice livello di markup:
 Aspetti testuali: il testo nel suo valore astratto.
 Dimensione documentaria: concretizzazione materiale del testo.
Markup → processo autodescrittivo, descrizione della struttura del testo tramite il sistema di scrittura, che permette di esplicitarne
caratteri altrimenti impliciti. L’operazione di codifica è il riflesso di un’attività interpretativa volta alla rappresentazione di molteplici
livelli del testo. La codifica dei caratteri e il markup sono espressione della personale teoria del testo che il codificatore intende
porre. Qualunque livello di codifica è sempre attività semiotica (segni).
Problemi teorici dei linguaggi di markup: la notazione del testo
Il testo è un’organizzazione gerarchica degli elementi costitutivi. Teoria chiamata Ordered Hierachicas Content Objects (OHCO)
presenta i limiti della teoria gerarchica → derivati dalla modalità della rappresentazione dell’informazione imposta dalla sintassi dei
linguaggi di markup. Non tutti gli oggetti testuali sono rigidamente gerarchici, mentre il markup SGML/XML impone questo tipo di
rappresentazione. L’impostazione gerarchica pone limiti alla rappresentazione di strutture “fluide” (come le varianti d’autore).
Le “gerarchie concorrenti” non sono facilmente rappresentabili in una struttura gerarchica in quanto possono inficiare
l’organizzazione logica degli elementi. Le gerarchie sovrapposte rompono la “ben formatezza” dell’XML.
La teoria OHCO sostiene che quando due strutture si sovrappongono, appartengono a due livelli distinti di interesse interpretativo;
deve essere quindi deciso il livello che si vuole descrivere. Accanto è stato proposto (a livello tecnico), lo stand-off markup
un’annotazione del testo non embedded (ovvero incorporata all’interno del testo) ma salvata in un documento a parte e richiamata
dal file XML contenente il testo. A tutto ciò si somma l’ambiguità della notazione di testo, per la quale Sperberg-McQueen distingue
fra markup presentazionale e markup analitico.
Con il markup presentazionale si può rappresentare un fenomeno tipografico, dall’altro lato con un markup analitico si assegna alla
stringa un valore di contenuto. I segni tipografici che indicano fenomeni semantici devono essere oggetto di markup analitico.
Il testo come successione di invarianti grafiche non esiste, perché ogni scelta fa riferimento a un documento che quel testo
trasmette. All’atto della memorizzazione elettronica esiste un testo come riprodotto da uno specifico esemplare materiale, una
sequenza, codificata e variabile di significati grafici. Il concetto di testo si espande.

14

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Le grammatiche standard per la rappresentazione dei dati umanistici


Text processing dipende dalla personale teoria sviluppata sul testo e ogni teoria riflette un individuale modello della fonte. Tale
modello deriva da due circostanze: 1) specificità della risorsa (tipologia documentaria); 2) caratteristiche dell’analisi del testo e del
successivo trattamento automatico. Ogni modello del testo è l’espressione del livello di analisi testuale che lo studioso intende
affrontare. Due limiti del concetto di testo: 1. problematicità della definizione della nozione di genere e 2. ambiguità del concetto di
punto di vista.
Genere letterario → non esiste un genere in sé, molti testi sono il risultato della sovrapposizione di diverse strutture e articolazioni
logiche. La struttura del testo può spesso essere il risultato di una scelta editoriale o la volontà dell’autore.
Concetto di punto di vista: chiama in causa le esigenze interpretative. Non esiste un modello di testo universale, ogni modello è il
risultato di un’attività esegetica (concetto di testo per il filologo è diverso per il narratologo, linguista).
Macro livelli di intervento interpretativo (punti di vista assumibili sulla fonte):
 Struttura: per codifica della struttura, individuazione delle partizioni principali e secondarie del testo (suddivisione in
capitoli).
 Rappresentazione/formato: aspetto fisico del documento, riproduzione in formato digitale (markup di grassetti e corsivi,
sottolineati). Gli aspetti di formato sono importanti nell’interpretazione del significato del testo.
 Fenomeni interlineari/contenuto: scelta specifica dei fenomeni in relazione alle esigenze analitiche del lavoro di resa
elettronica.
Per agevolare la portabilità dei prodotti è stato realizzato un progetto:
TEI → è una DTD per i testi umanistici, modello di codifica che vuole contemplare tutta una serie di fenomeni di interesse
umanistico e trovare per ciascuno di essi un vocabolario unico. Obiettivo: arrivare a una formalizzazione utile a normalizzare i
criteri, le modalità e il lessico di markup. Grammatica avente il compito di assegnare un vocabolario normalizzato normalizzato
all’XML, metalinguaggio che fornisce norme sintattiche.
La Text Encoding Initiative (TEI)
Dal 1987 è stato avviato un progetto internazionale per sviluppare un modello di codifica normalizzato che mettesse ordine tra
modelli e linguaggi di rappresentazione dell’informazione testuale in formato elettronico → progetto chiamato TEI.
TEI → per definire uno standard di codifica orientato alla gestione dei dati umanistico-letterari per consentire l’interscambio dei
documenti. Utilizzato l’SGML come linguaggio e come set di caratteri l’ISO 646. Predilezione per un markup di tipo dichiarativo,
tuttavia sono previsti marcatori di tipo procedurale utilizzabili quando è necessaria una forte aderenza del testo elettronico al suo
originale cartaceo. La TEI definisce uno schema di carattere generale, orientato all’ambito umanistico, non rigido. Gli elementi
previsti sono oltre 500. Lo schema prevede la possibilità di modifiche e di estensioni. Divisione dello schema in molteplici
frammenti ognuno impiegabile a seconda della tipologia testuale da marcare o a seconda degli scopi di ricerca. Per agevolare
l’apprendimento e l’impiego dello schema è stata prevista una divisione del modello in tre grandi blocchi:
1. Core tag set: elementi presenti in tutti i documenti TEI, compresi i metadati;
2. Base tag set: suddiviso in prosa, versi, testo drammatico, testi parlati, dizionari;
3. Additional tag set: in cui sono compresi vari frammenti come link o analisi stilistica.
TEI Lite → sottoinsieme della TEI, versione semplificata dello schema di codifica definito da quest’ultima, che permette di facilitare
la realizzazione di testi in formato elettronico senza richiedere lo studio dell’intero schema e consentendo la creazione di
documenti TEI-compliant (cioè compatibili).
La struttura TEI: testo e metadati
Ogni testo codificato secondo la TEI è costituito da:
1. Un TEI header (testata): informazioni editoriali.
2. Un TEI text: trascrizione codificata del testo in versione integrale.
Nella “testata” della TEI sono contenute le informazioni utili per la descrizione bibliografica del testo elettronico e del suo
esemplare originale di riferimento, le modalità e le caratteristiche della codifica, le note non bibliografiche e le revisioni. Notizie che
possono definirsi come i metadati della risorsa, cioè le meta-informazioni utili a descrivere il testo elettronico prodotto e il
documento materiale utilizzato come esemplare per la trascrizione digitale. Una codifica adeguata deve considerare in prima
battuta la natura del testo.
L’elemento text si divide in:
 <front> e <back>: necessari qualora il documento riporti delle informazioni all’inizio o fine del testo vero e proprio.
 <body>: introduce il corpo del testo. Suddivisioni ulteriori che evidenziano la scansione logica del testo e la sua
articolazione in sezioni di vario livello (paragrafi, linee, titoli).
 <group>: nel caso di una serie di testi facenti parte della medesima pubblicazione, ognuno dotato della propria
individualità.
Dibattito sul principio del What is text:
- Inteso come invariante di segni grafici, oggetto astratto gerarchicamente organizzato;

15

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

- Come fenomeno materiale in cui gli elementi relativi alla forma grafica e alla materica svolgono un importante ruolo
semiotico.

5 IPERTESTI E IPERMEDIA: PROGETTAZIONE E SVILUPPO


Il sito Web è un insieme di documenti che circolano sulla rete ma anche un insieme di protocolli, di linguaggi. L’ipertesto non è un
oggetto che si ritrova necessariamente solo sulla rete.
Ipertesto → può essere considerato un modello in quanto rappresentazione di una certa porzione della realtà osservata dal
progettista e fruita dal lettore.
Per una definizione del concetto di ipertesto
Ipertesto → ogni forma di testualità che si presenta in blocchi o in unità di lettura collegati tra loro da link. Un tipo di strutturazione
delle informazioni che consente al lettore di percorrere in modo interattivo una grande quantità di informazioni in modi scelti dal
lettore stesso.
Concetti che stanno alla base dell’ipertesto:
 Multisequenzialità e multilinearità: organizzazione dei contenuti in modo che siano liberamente fruiti dal lettore, secondo
il suo progetto di ricerca. Autonomia della lettura trasversale dei materiali (non unico percorso di lettura). La presunta
libertà è veicolata dalle scelte di collegamento fra le unità di contenuto definite dall’autore.
 Interattività: possibilità offerta al lettore di manipolare i documenti, di agire nel testo e con il testo, di compiere delle
scelte e prendere decisioni. L’ipertesto può essere pensato come luogo di lavoro condiviso e l’interattività essere un
momento del dialogo collettivo.
 Multimedialità (associazione dei media): i diversi formati che possono essere utilizzati per la creazione di un ipertesto
permettono di parlare di ipermedia. L’ipertesto non è un oggetto stabile e definito ma un organismo potenzialmente in
evoluzione. Al lettore è richiesto un adeguamento progressivo.
La nascita del concetto di ipertesto prima della sua realizzazione pratica
Il concetto di ipertesto nasce dalla riflessione teorica degli anni quaranta attorno alla necessità di collegare informazioni tra loro.
Negli anni novanta l’ipertesto trova nell’HTML il linguaggio per comunicare, nell’HTTP il protocollo per circolare sulla rete Internet,
nell’URL il sistema di indirizzamento univoco dell’informazione e nel browser il software di interfaccia.
Il Memex di Bush
Bush immagina un sistema di interconnessione delle informazioni chiamato Memex, con lo scopo di collegare il patrimonio
testuale. Comunicare informazioni è ritenuta una necessità. Viene presentato come una scrivania elettronica di lavoro, in cui
ciascuno può memorizzare e archiviare libri, immagini, documenti. È una macchina che lavora su microfilm e prevede che ogni
fonte di informazione venga resa disponibile sotto forma di sequenze di fotogrammi. Bush propone un modello associativo: la
mente umana opera per associazioni, e la funzione del Memex è di consentire all’utente di creare relazioni. Si tratta del tentativo di
riprodurre i processi mentali e meccanicizzare la selezione per associazione.
Hypertext secondo Nelson
Nelson conia il termine ipertesto, intendendo una scrittura non sequenziale, basata sul presupposto che il pensiero umano non
ragiona in modo sequenziale ma funziona per collegamenti.
Progettare l’ipertesto: dalla mappa concettuale all’implementazione
Primo passo per la progettazione: elaborazione della rete di correlazioni che sussistono fra i concetti coinvolti.
Mappa concettuale → per definire il rapporto che intercorre tra le varie unità logiche di informazione. Ragiona per parole chiave,
l’obiettivo è di permettere di definire quale tipo di connessione logica esiste tra queste parole. La mappa si può tradurre nello
schema dell’ipertesto.
All’atto della realizzazione pratica di un ipertesto bisognerà risolvere alcune questioni:
 Qual è il contenuto? Obiettivo formativo che si pone l’ipertesto. Definire quali sono i materiali che andranno a popolare le
pagine dell’ipertesto.
 A chi è rivolto il messaggio? Stabilire l’audience dell’ipertesto, definire a quale comunità di utenti si rivolge.
 Qual è il mezzo di comunicazione prescelto? L’integrazione di media è uno dei punti di forza dell’ipertesto.
 Dove siamo? Capire quale sia il luogo della navigazione, pensare ad un sistema di navigazione che metta l’utente nelle
condizioni di sapersi orientare fra i materiali.
 Quando lo facciamo? L’ipertesto deve contestualizzare cronologicamente la produzione degli oggetti digitali e il loro
eventuale aggiornamento.
Strutture per ipertesti
Modalità di creazione dei collegamenti tra pagine:
 Ipertesti a sequenza lineare: scorrere le pagine una dopo l’altra, una variante è costituita da quella assiale, in cui le pagine
sono coordinate da una pagina di collegamento.
 A struttura gerarchica o albero: da una pagina radice si diramano altre pagine di primo livello, gerarchicamente ordinate.
 A griglia: combinazione delle due precedenti.
16

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

 A struttura di rete o grafo: tutte le pagine possono essere tra di loro collegate (più utilizzata).
Oltre la struttura: architettura e strategie comunicative
Principale rischio dell’ipertesto è il disorientamento: genera nel lettore un senso di “mancanza di centro”. L’attenzione è rivolta ai
link e il salto da un link all’altro può essere compiuto senza una ragione specifica e può far dimenticare l’idea che aveva motivato
l’attivazione del link.
Architettura
Architettura → organizzazione dell’ipertesto nelle sue pagine. La struttura dell’ipertesto è connessa con la navigazione, ed è nella
maggior parte dei casi di tipo gerarchico.
Elementi dell’architettura:
- Strumenti di navigazione: fornire al lettore un’idea dei contenuti proposti e far capire le modalità con cui è stato costruito
e strutturato l’ipertesto (orientare il lettore tra i materiali).
- Elementi della pagina: parti in cui si articolano le unità di lettura, ovvero testata,corpo, barra di navigazione, piè di pagina.
Strumenti della navigazione:
 Metanavigazione: sezione contenente gli strumenti di aiuto e funzionalità generali (contatti, motore di ricerca). Si trova
sotto la testata del sito o nel piè di pagina.
 Navigazione principale o globale: le voci del navigatore devono avere un nome significativo che evochi i contenuti della
navigazione.
 Navigazione secondaria: sistema di navigazione separato da quello principale, comprende i livelli gerarchicamente
dipendenti dalla navigazione primaria. È costituita anche dalla navigazione contestuale: sistema di navigazione che collega
concettualmente un documento ad un insieme più vasto di documenti.
 Briciole di pane: indicano all’utente in quale struttura si trova, mostrando il percorso dalla home page fino alla pagina
corrente.
Comunicazione
Modalità di scrittura e design delle pagine: strumenti che garantiscono chiarezza comunicativa. Vi è l’esigenza di rendere i contenuti
comprensibili anche alla fascia di utenti “deboli”, con disabilità, con limitate disponibilità tecnologiche.
Elementi della comunicazione:
 Rispetto dei principi di web design: uso corretto di colori, caratteri, immagini.
 Impiego di uno stile di scrittura adeguato al medium: stile chiaro e conciso (struttura a paragrafi), presentazione layout
coerente in tutto il sito (titoli), periodi semplici e brevi.
Dall’ipertesto al sito Web: accessibilità e usabilità
Accessibilità e usabilità → parole chiave del web che identificano i principi da rispettare per garantire efficienza ed efficacia nella
comunicazione. Caratteristiche a cui dovrebbero far riferimento i siti web.
Sito web accessibile → quando il suo contenuto informativo e gli elementi interattivi sono fruibili dagli utenti indipendentemente
dalle loro disabilità, tecnologie disponibili e dal contesto in cui operano mentre accedono al sito.
Web usability → riguarda la necessità di realizzare siti che vadano il più possibile incontro alle necessità dell’utente finale. È legata
ai bisogni del lettore in termini di capacità di ricezione del messaggio che un sito intende comunicare.
Gli ipertesti letterari
Gli ipertesti narrativi come Afternoon, a Story di Michael Joyce sono un esempio di scrittura pensata per la modellazione
ipertestuale. L’ipertesto letterario è inteso come forma di espressione e di rappresentazione dell’analisi di un testo. Nella
progettazione di ipertesti, il testo è oggetto centrale della comunicazione, oggetto di una molteplicità di livelli di indagine,
strumento informazionale complesso.
Il primo livello della rappresentazione informatica di un testo letterario è la trascrizione, un primo atto di modellazione è costituito
dalla scelta dell’esemplare di riferimento e dalla sua successiva memorizzazione. Il passo successivo è la definizione dei
collegamenti. Si passa dal testo alla gestione dei possibili collegamenti (link). L’ipertestualizzazione intesa come scelta delle
correlazioni fra gli elementi ritenuti significativi ai fini dell’analisi del testo. Attenzione al significato dei link.
Link in-text (in riferimento al rapporto che il testo intrattiene con sé stesso):
 Paratesto (intertitoli, sottotitoli): elementi che accompagnano il testo, senza essere testo in senso stretto.
 Apparato di commento a diversi livelli (lessicale, linguistico, storico, grammaticale).
Secondo momento è rappresentato dal legame del testo con altri testi correlati a livello di:
- Intertesto: citazioni dirette di altre opere.
- Metatesto: informazioni di commento e testi critici.
- Architesto: nozioni di approfondimento.
Classificazione delle tipologie di link:
 Dentro al testo.
 Fra testo e altri testi.
 Fra testo e commento.
17

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

 Fra testo e approfondimenti sul testo.


Edizioni critiche ipertestuali
Dopo l’avvento del WWW si è passati alla riflessione sulle nuove modalità di rappresentazione dell’informazione e sulla possibilità
di utilizzare i linguaggi di markup per segnalare interventi interpretativi.
Rappresentare il codex unicus
Limite delle edizioni tradizionali è rappresentato dalla perdita della particolarità del sistema grafematico e fono-morfologico
d’autore o delle scelte dello stampatore. Se sottoposti ad adeguato markup, i fenomeni possono essere rispettati e mantenuti come
si presentano negli originali. Al markup è affidato il compito della normalizzazione.
Le forme del commento
L’apparato di commento consente di superare la staticità della tradizionale edizione cartacea.
L’interazione testo-immagine
Possibilità di affiancare alla trascrizione elettronica il corrispettivo originale in formato digitale. Nulla quanto il testo originale è
apportatore di informazione. Dato di tipo logico.

6 PRINCIPI DI DIGITALIZZAZIOE E GESTIONE DELLE IMMAGINI


Digitalizzare (un’immagine) → tradurre la rappresentazione analogica in forato digitale, con lo scopo di preservare l’originale
dall’usura o fornire la possibilità di ulteriori manipolazioni.
Due modalità di conversione:
1. Operazione di riconoscimento ottico della fonte: conversione della fonte cartacea in una sequenza di caratteri (creazione
file formato testo).
2. Riproduzione di una copia estratta dall’originale (creazione file formato immagine).
Scansione e cattura delle immagini
Unità I/O → contatto comunicativo con gli agenti esterni.
Unità di Input → compito di ricevere le informazioni dall’operatore, codificarle in una struttura adeguata alle esigenze di
elaborazione dell’unità centrale. Hanno la funzione di digitalizzare i dati in ingresso secondo codifica di tipo binario.
Digitalizzazione → processo di memorizzazione di un documento attraverso la sua conversione in una sequenza di caratteri binari
ciascuno dei quali corrisponde ad una porzione del documento originale.
Il concetto di pixel: tipi Il concetto di immagine e risoluzione
I sistemi di digitalizzazione lavorano dividendo l’immagine in una griglia o matrice di punti, assegnando a ciascuno di essi un valore,
per mezzo di una sequenza numerica binaria, per poi memorizzare i valori dei punti in forma sequenziale nel computer. Ogni punto
è chiamato pixel (in riferimento allo schermo) o dot (in riferimento alla stampa).
Parametri da considerare nella creazione:
1. Numero di punti con cui dividere l’immagine originale (risoluzione spaziale): dpi significa “punti per pollice” ed è l’unità di
misura utilizzata per misurare il numero di pixel. Maggior numero di pixel in ogni pollice e maggiore è la risoluzione.
2. Profondità del pixel: gamma di valori che ogni pixel può assumere (risoluzione cromatica).
 Immagini in b/n (risoluzione in bicromia): la gamma di valori è limitata. I pixel assumono solo due valori cioè 0
(nero) ed 1 (bianco). Immagini a 1 bit con profondità di pixel = 2.
 Immagini in scala di grigio (risoluzione palette): si ottengono le greyscale images aumentando la profondità del
pixel. Usa fino a 8 bit per ogni punto, ovvero 256 possibili livelli di grigio.
 Immagini a colori (risoluzione true color): lo scanner, dopo aver diviso l’immagine in pixel, misura il colore di
ogni punto assegnando un valore. Formato Red, Green and Blue (RGB): il colore di ogni singolo pixel è dato da
tre valori di 8 bit ciascuno. I tre valori combinati costituiscono il colore del pixel.
Spazio occupato in memoria: formato immagine (b x h) * ppi * profondità / 8
Tecniche di scansione delle immagini
 Materiali in b/n: aumentare la profondità del pixel non conduce a un miglioramento della qualità ma solo ad
un’occupazione maggiore di memoria. La strategia è aumentare i ppi.
 Materiali in scala di grigio: miglior resa digitale aumentando la profondità del pixel.
 Materiali a colori e manoscritti: i manoscritti, anche se in b/n, bisogna mantenere una risoluzione bassa con alcuni colori.
Perciò bisognerà operare una scansione dei materiali manoscritti trattandoli come immagini a colori.
Per ottenere un’immagine di qualità la scansione andrebbe operata direttamente sull’oggetto originale → esempio catena della
digitalizzazione (microfilm): più passaggi sono presenti all’interno della catena e peggiore sarà l’immagine digitale.
I formati dei file: conservazione e distribuzione
 Compressi (con o senza perdita dati): GIF, JPEG, PNG → per la distribuzione, file più leggeri e veloci da (s)caricare.
 Privi di compressione: TIFF → per l’archiviazione nel lungo periodo ma richiedono una memoria di massa consistente.

- GIF: no perdita dati, memorizza 256 colori, non adatto alle foto a colori.
18

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

- JPEG: fino a 16,7 milioni di colori, la compressione comporta la perdita di dati, formato più utilizzato sul Web.
- PNG: creato per il web, riunisce tutti i vantaggi dei formati precedenti. Visualizzazione da 256 a 16,7 milioni di colori,
compressione senza perdita di dati.
- TIFF: produce immagini di elevata qualità, per l’archiviazione a lunga durata, visualizza 16,7 milioni di colore e non è
compatibile con il web.
Il trattamento dell’immagine digitale: sistemi di digital image processing
Le immagini digitali non decadono nel tempo, nella copia e nell’uso. Possono essere sottoposte a manipolazione. I sistemi di
trattamento delle immagini sono finalizzati a migliorare la qualità di una fonte.
Le tecniche più utilizzate sono di image enhancement finalizzate ad aumentare il grado di leggibilità dell’oggetto originale lavorando
a livello di profondità del pixel (componente cromatica).
Leggibilità → comprensione della componente informativa trasmessa dall’oggetto digitale (es: macchie di inchiostro, foxing, agenti
decoloranti, abrasioni, cancellature).
Restauro virtuale → recuperare fonti danneggiate per cause chimiche, fisiche, biologiche.
Sistemi di “fotoritocco” → gestione luminosità e contrasto, regolazione del colore.
Sistemi di pattern recognition
Pattern recognition → procedure tese al riconoscimento automatico degli elementi di una fonte, con il fine di una loro
classificazione.
Pattern → oggetto identificabile.
Riconoscimento → assegnazione del pattern a una classe di riferimento e quindi raggruppamento dei diversi pattern.
Procedimento di clustering → orientato alla suddivisione dei pattern in gruppi sulla base di classi.
Fra le tecniche si ricordano i procedimenti per l’identificazione della scrittura manoscritta, alla base risiede la necessità di generare
modelli grafici sui quali basare il successivo riconoscimento automatico. Prima di tutto si provvede alla segmentazione
dell’immagine di un testo (individuare lettere e simboli). Il risultato si configura come la creazione di una collezione di forme (diversi
glifi con cui è realizzato ogni elemento dell’alfabeto).
Linee guida per i progetti di digitalizzazione delle immagini
La creazione deve rispettare i criteri di conservazione, trattamento e fruizione dei materiali.
Istituto Centrale per il Catalogo Unico (ICCU) → fornire linee guida per progetti di digitalizzazione di fonti del patrimonio nazionale
di archivi, biblioteche. Obiettivo delle linee guida è di definire i criteri da rispettare per i progetti di digitalizzazione.
Per digitalizzare una collezione di immagini:
 Garantire interoperabilità tra applicazioni e accessibilità alle collezioni digitali;
 Assicurare un livello alto delle collezioni (TIFF);
 Evitare riscansione in futuro provvedendo a progressive conversioni dei materiali nei nuovi formati (preservazione a lungo
termine);
 Definire un sistema di storage scalabile e durevole;
 Adottare sistemi per gestire il copyright delle immagini;
 Provvedere ad un apparato di metadati correlati (affiancare all’immagine contenuti informativi sull’immagine stessa).
Descrizione e annotazione dell’immagine
Associare all’immagine una componente meta-informativa. Il compito è documentare le caratteristiche dell’oggetto digitale ai tre
livelli previsti dagli standard di metadati per gli oggetti del patrimonio culturale: descrittivo, amministrativo-gestionale, strutturale.
Descrivere un’immagine significa associare metadati ma anche assegnare termini che descrivano il contenuto dell’immagine stessa,
descrizione importante perché l’informazione può essere recuperata tramite sistemi automatici.
Iconclass → mette a disposizione un elenco strutturato di descrittori di soggetto.
Cattura delle immagini e riconoscimento ottico
Testo → intendiamo una sequenza di caratteri, compresi dall’elaboratore come sequenza di valori binari manipolabili dall’utente.
Nel testo la sequenza di riferisce ad un carattere alfabetico, mentre nelle immagini si riferisce al colore.

7 I SISTEMI DI ANALISI DEL TESTO E LA LINGUISTICA COMPUTAZIONALE


La disponibilità di corpora (collezioni), ha accresciuto la possibilità di lavorare con sistemi automatici di analisi del testo
consentendo progressi nel campo dello studio del linguaggio naturale.
Analisi del testo → procedimento, insieme degli strumenti applicativi, che consente di estrarre tutte le parole presenti in un testo,
stabilendo il numero di volte in cui ciascuna forma occorre.
Un corpus si deve basare su una serie di regole di aggregazione, selezione e organizzazione precise, necessarie affinché la collezione
possa essere sottoposta ad un’analisi linguistica funzionale e ottenere risultati significativi.
Corpora → collezioni di grandi dimensioni di testi orali o scritti, conservati in formato elettronico e dotati di strumenti di
consultazione informatici.
Linguistica computazionale → si concentra sullo sviluppo di formalismi descrittivi del funzionamento di una lingua naturale.
19

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Tre aspetti:
1. Ricerca per stringhe di caratteri: text retriva (recupero automatico di stringhe di caratteri);
2. Manipolazione del testo: possibili interventi analitici sul piano morfo-lessicale, sintattico e semantico;
3. Tipologie di interrogazione: finalizzate all’information retrieval e all’information extraction.
La linguistica computazionale ha affrontato il problema del Trattamento Automatico del Linguaggio naturale (TAL o NLP): serie di
pratiche orientate alla creazione di strumenti per accedere al contenuto digitale dei dati linguistici con l’obiettivo di acquisire
conoscenza da documenti testuali.
 Primo momento di analisi: possibilità di reperire l’elenco delle parole presenti all’interno di un testo.
 Secondo momento: sistemi di manipolazione di stringhe, analisi automatica del testo ed estrazione di informazioni dai
dati sono i nuovi strumenti per l’accesso ai contenuti digitali. Obiettivo: acquisire nuova conoscenza dai testi.
Negli studi letterari: sistemi di analisi stilistica, orientata allo studio del vocabolario d’autore.
Forme di text retrieval
Prima fase di analisi: verifica della presenza delle parole chiamato procedimento di tokenizzazione.
Tokenizzzione → individuazione (da parte della macchina) di tutte le unità minime del testo distinguendo le parole semanticamente
composte da quelle che andrebbero scomposte in più unità.
Il processo consiste dell’estrapolare tutte le forme presenti all’interno del testo, per verificare il numero di volte in cui compaiono
cioè definire le occorrenze (serie dei token). Fine: produrre l’indice, elenco delle parole che costituisce il vocabolario delle forme
grafiche (types), così come e dove compaiono nel testo.
Type → parola in astratto.
Token → parola che occorre in un punto definito e in un certo numero di volte nel testo.
Passo successivo: collocazione delle parole rispetto al contesto testuale d’uso (concordanze) e la verifica di quante volte ciascuna
forma grafica occorre (frequenze), tramite programmi di text retrieval cioè di reperimento di dati all’interno di un corpus testuale.
L’operazione preliminare è la scelta oculata del testo base, selezionato come riferimento per la versione elettronica.
Concordanze
Programma di concordanze → applicativo che consente di enucleare tutte le parole in un testo, in ordine alfabetico, accompagnate
da un contesto e da una serie di indicazioni che permettono reperimento e localizzazione.
Si tende ad espungere le “parole vuote” (articoli, congiunzioni). Le “parole piene” sono aggettivi, sostantivi, verbi, in quanto termini
che veicolano un significato individuale. Le parole vuote sono comunque importanti, nei casi in cui si studiano i legami sintattici.
L’analisi delle concordanze consente di verificare il contesto d’uso del vocabolario e permette di disambiguare impieghi diversi del
lessico. Quando condotta su un corpora di grandi dimensioni, permette di definire il lessico di un autore.
Indici
Indice → caso di concordanza priva di contesto. È la lista dei vocaboli contenuti in un testo. Può riportare alcune statistiche relative
alla frequenza dei vocaboli.
Frequenze
Lista di frequenza → mostra le parole accompagnate dal numero di volte in cui occorrono, ed eventualmente dalla percentuale
rispetto al numero totale di parole. La posizione che occupa il vocabolo nella lista è detta “rango”.
Hapax → parole che compaiono una sola volta, possono essere significativi per l’analisi.
Sono stati condotti studi esaminando parti del testo semanticamente non rilevanti, con l’obiettivo di verificare quale sia la tendenza
di un autore nell’impiego di un preciso vocabolario, ritenendo che la scelta di certe parole definisca l’impronta di ogni scrittore.
L’informatica permette di ottenere con maggiore rapidità e su una massa di dati più ampia, risultati più attendibili.
Dal text retrieval alla text analysis
Vera e propria analisi del testo mirata al recupero di informazione. Normalizzazione, lemmatizzazione, part of speech, tagging,
parsing, riduzione della sinonimia e dell’omografia, estrazione automatica delle parole chiave e categorizzazione semantica:
caratterizzano l’attività di Natural Language Processing (NLP).
Normalizzazione e annotazione
L’intervento dell’uomo è indispensabile per ottenere risultati validi. Necessario operare sul testo un pre-processing teso alla
normalizzazione: individuazione di parole composte, riduzione di articoli con apostrofo, scioglimento di sigle, riconoscimento di
nomi propri.
Annotazione del testo → arricchirlo di informazioni sui differenti aspetti linguistici. La più comune forma di annotazione è
l’assegnazione di etichette o marcatori alle porzioni di testo delle quali si vuole fornire un’indicazione a livello morfo-lessicale,
sintattico o semantico. Espresse in un linguaggio formalizzato e standardizzato (XML).

Livelli di analisi di un testo


 Morfo-lessicale: associazione dei vocaboli ad una categoria grammaticale.
 Sintattico: costrutto delle frasi, analisi linguistica per la ricostruzione sintattica.
20

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

 Semantico: combinazione di lessico, morfologia e sintassi.


Risorse linguistiche per poter lavorare a questi tre livelli:
 Dizionario macchina (versione elettronica di quello tradizionale), che elenca tutti i lessemi ed è utilizzato nella fase di
analisi morfo-lessicale.
 Lessico di frequenza: elenco di forme e lemmi con annessa frequenza, per l’estrazione di parole chiave dal testo.
 Rete semantico-concettuale: associare ogni lessema ad un concetto, classe semantica di riferimento.
Analisi morfo-lessicale
La fase di tokenizzazione deve essere accompagnata da identificazione dei tokens, si opera a vari livelli:
 Normalizzazione delle varianti ortografiche delle parole,
 Separazione di parole che sono costituite da più token, ma rappresentative di unità linguistiche differenti,
 Unione di elementi differenti in un unico token.
L’uso di un dizionario macchina è utile alla normalizzazione delle forme. Ogni token poi viene associato alla parte del discorso,
determinando la Part Of Speech. Tramite analizzatore morfologico (programma che effettua l’analisi grammaticale di ogni forma)
ogni componente lessicale può essere descritta in termini di categoria grammaticale di appartenenza.
Stemming → processo automatico utile ad estrarre la radice di una parola rimuovendo le desinenze.
Lemmatizzare un testo → individuare un unico lemma, unica forma grammaticale per i vocaboli che nelle lingue naturali sono
caratterizzati dall’essere forme flesse.
Obiettivo lemmatizzazione: ricondurre a unità le forme, raccogliendole sotto un’unica forma base.
I dizionari macchina possono agevolare l’operazione di lemmatizzazione, con i quali è possibile associare la categoria grammaticale
di riferimento a ciascun lemma. Altro compito della lemmatizzazione: risolvere problemi di ambiguità fra diverse forme base cui
può corrispondere una stessa forma flessa.
Analisi sintattica
Processo di parsing → procedimento di analisi linguistica necessario a ricostruire la struttura sintattica di una frase.
Primo passo: POS tagging o marcatura delle parti del discorso. È una comune annotazione morfo-sintattica, in cui vengono associate
etichette descrittive ad ogni costituente grammaticale.
Chunking → procedimento di segmentazione del testo in gruppi sintattici.
Le parole che compongono una frase possono essere ricondotte ad un sintagma e i sintagmi essere inseriti in uno schema di
relazioni di dipendenza grammaticale.
Parser → analizzatore sintattico che identifica le dipendenze grammaticali principali.
Analisi semantica
L’oggetto di analisi semantica è la ricostruzione del significato del vocabolario presente nel testo. Bisogna disambiguare le parole
polisemiche e passare dai termini ai concetti.
Categorizzazione semantica → associazione di una comune categoria espressa tramite assegnazione di un marcatore.
A livello di annotazione semantica si distingue tra:
 Specificazione del significato di un elemento desunto da una risorsa lessicale che associa la parola ad una descrizione
semantica;
 Marcatura dei ruoli semantici che descrivono la funzione semantica svolta da un certo costituente nell’evento espresso
dal predicato di cui è argomento.
Strumento utilizzato: rete semantico-concettuale che consente di associare una definizione a un termine e di stabilire relazioni di
dipendenza semantica fra il termine e gli iponimi (termini subordinati), gli iperonimi (termini sovraordinati).
Tipologie di ricerca sul testo e interrogazione significativa
Frequenza di uso di un termine è utile per l’estrazione delle parole chiave. La verifica delle concordanze ci permette di ragionare
sull’impiego del vocabolario. Se la concordanza è condotta su un corpus semanticamente annotato, permette anche di fare analisi
per sinonimi e concetti. Se condotta su un corpus lemmatizzato, è possibile interrogare il lemma e le diverse forme con cui lo stesso
lemma è proposto e utilizzato nel testo.
Ricerca di collocations → verifica della presenza di parole che co-occorrono fornendo un senso specifico.
Passo successivo è l’information extraction → possibilità di individuare dati pertinenti, estrarli dai documenti e strutturarli in un
certo formato.
Sistemi di clustering (raggruppamento) e di classificazione permettono di trasformare i documenti in informazione e quindi in
conoscenza.
Analisi dello stile
Analisi stilo metriche → indagini che consistono nell’applicazione di tecniche statistiche allo studio delle caratteristiche dello stile di
un testo. Possono aiutare a chiarire problematiche di tipo letterario.
Lo stile è ciò che caratterizza l’opera di un autore, e lo distingue rispetto ad altri simili per genere, epoca e argomento.
Stilisti fingerprint → caratteristiche tipiche e distintive di un’opera, serie di usi stilistici. Per indagare i vocaboli che ricorrono più di
sovente e giungere a caratterizzare lo stile proprio di uno scrittore.
21

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Authorship attribution → analisi statistica di opere apocrife o anonime, al fine di individuarne l’autore.

8 SEMANTIC WEB: MODELLI, ARCHITETTURA E LINGUAGGI


Il sito del W3C nella sezione relativa all’attività del consorzio, specifica essere mirata all’estensione delle capacità sintattiche e
semantiche dell’archivio del www. Estensione interpretata come volontà di ampliare le potenzialità del Web, per agevolare il
recupero dei documenti e informazioni, per permettere ai programmi di comprendere il significato dei documenti, consentendo alle
applicazioni di dialogare tra loro condividendo parole chiave e concetti.
Obiettivi del Semantic Web → fare del web un luogo in grado di gestire collegamenti semantici e ciò significa che il collegamento
(link) dovrebbe possedere capacità semantica. Con “semantico” si intende un meccanismo che sa predire il valore della sua azione.
Limitazioni del web attuale:
1. Ricerca e recupero di documenti, non sempre si ottengono i documenti di cui eravamo alla ricerca.
2. Ricerca e recupero di informazioni, non è detto che esistano documenti contenenti informazioni intese come risultato di
un ragionamento logico individuale.
3. Correlazione fra l’informazione disponibile, ovvero i collegamenti stabiliti da chi ha creato la pagina web non è detto che
siano gli stessi logici che interessano la nostra ricerca.
4. Dialogo fra le applicazioni, utile per ottenere un risultato globale.
Rappresentazione della conoscenza e interoperabilità
Obiettivo di Tim-Berners Lee è un Web nel quale agiscano agenti software intelligenti in grado di capire il contenuto e capaci di
condurre l’utente direttamente all’informazione ricercata. Un agente dovrebbe essere in grado di:
 Comprendere il significato de testi sulla rete;
 Creare percorsi in base alle informazioni richieste dall’utente;
 Spostarsi di sito in sito collegando logicamente elementi diversi.
Knowledge management → gestione della conoscenza intesa come relazione fra concetti.
Processi di gestione della conoscenza:
1. Acquisizione,
2. *Rappresentazione,
3. Elaborazione,
4. Condivisione,
5. Utilizzo.
*Rappresentare la conoscenza → necessario affinché le macchine abbiano accesso a un insieme strutturato di informazioni e a una
serie di regole di inferenza da impiegare per il ragionamento automatico.
Interoperabilità → da un punto di vista tecnico: adesione a linguaggi standard che garantiscono il dialogo.
Da un punto di vista semantico: accedere a un repertorio di conoscenze condivise sfruttabili in modo autonomo.
Una delle proposte del Semantic Web è di corredare le risorse di informazioni su se stesse: metadati (“dati sui dati”), la cui funzione
è descrivere il contenuto. Aggiungere marcatori alle diverse porzioni di un documento elettronico significa analizzare il testo ed
esprimere una meta-informazione MA non vuol ancora dire aggiungere un significato ai dati che sia elaborabile dalle macchine.
I metadati del Semantic Web: dai vocabolari controllati all’ontologia
Il processo di definizione dei metadati nel Semantic Web si basa su una sequenza di passi progressivi finalizzati al passaggio dalla
definizione di un modello semantico all’elaborazione del modello concettuale. Tre livelli:
1. Acquisire e/o definire tassonomie e thesauri (=insieme delle parole chiave che danno accesso ad una banca dati),
2. Formalizzare i concetti tramite le ontologie,
3. Consentire procedimenti logici (logica descrittiva) per il ragionamento automatico.
Obiettivo finale: modellizzare in modo adeguato la conoscenza di un dominio specifico definendo le relazioni → significa definire
una lingua “franca” e stabilire i rapporti fra i concetti in uso nella lingua.
Ripartiamo dai metadati: il vocabolario Dublin Core
I metadati nel www sono informazioni che parlano di informazioni. Per la definizione di un vocabolario più ricco si ricorre alla
Dublin Core → vocabolario ideato per assegnare etichette basilari alle risorse della rete. Le più importanti caratteristiche:
- Fornire un elenco prestabilito di nomi di marcatori.
- Garantire l’utilizzo del vocabolario di metadati tramite differenti linguaggi formali, perché il DC è indipendente da
qualunque sintassi.
La descrizione di una risorsa elettronica si avvicina alla catalogazione libraria cioè alla descrizione di una risorsa bibliografica.
 DC versione 1: ha stabilito quindici categorie di meta-informazioni cioè elementi, opzionali e ripetibili, utili per la
catalogazione di risorse di rete.
 DC versione 2: ha aggiunto un meccanismo di specificazione delle categorie ovvero i qualificatori, introducendo un
elenco iniziale di denominazioni per tali oggetti. Obiettivo dei qualificatori: rendere più specifico il significato di certi
elementi del DC e consentire l’associazione di certi elementi a vocabolari controllati.
22

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

- Raffinamento degli elementi: significati più precisi sui termini.


- Supporto per schemi di codifica: utilizzare un vocabolario condiviso dalla comunità per esprimere determinati
valori.
Distinguere tra:
 Indice di classificazione consente di definire una voce di soggetto rispetto a un contesto gerarchico nel quale la voce è
inserita.
 Soggetto: termine scelto come predefinito, cui fare riferimento per descrivere un dato concetto.
Modelli semantici per i metadati
Primo modello finalizzato alla normalizzazione del lessico è costituito dall’uso di un vocabolario controllato o linguaggio di
indicizzazione. Alcuni metadati richiedono che il valore venga selezionato rispetto ad un insieme aperto di valori. Necessità di
univocità semantica: relazione biunivoca tra termine e concetto. Occorre standardizzare forme e termini in modi convenzionali e
quindi riferirsi a termini preferiti come stabiliti in un vocabolario controllato. Necessario che tale vocabolario sia contestualizzato
rispetto ad una gerarchia di riferimento. Obiettivo della tassonomia: classificare le informazioni entro una struttura associativa
definendo le connessioni fra i termini ma senza esplicitare la natura del collegamento.
Thesaurus → vocabolario di un linguaggio di indicizzazione controllato, organizzato in maniera formale. È possibile risolvere i
problemi connessi all’uso del linguaggio naturale.
Relazioni semantiche:
 Sinonimica (equivalenza): identifica il termine preferito all’interno di un gruppo di termini sinonimi;
 Gerarchia: descrive un albero di termini tra i quali esiste un rapporto di subordinazione (iponimi) o di sovraordinazione
(iperonimi);
 Associativa: relazione fra termini non definibile secondo la classificazione vista.
Il modello concettuale
Tassonomie e thesauri fissano una semantica per arricchirla, con l’obiettivo di consentire il ragionamento da parte degli agenti
software. Si deve passare poi a modelli concettuali e teorie logiche.
Ontologia → descrizione formale esplicita dei concetti di un dominio specifico. Se popolata di istanze e completata con regole di
inferenza viene denominata base di conoscenza.
Passi che portano a creare un’ontologia:
1. Definire concetti del dominio,
2. Organizzarli in una gerarchia tassonomica,
3. Specificare gli attributi dei concetti e le relazioni tra loro,
4. Stabilire le istanze dei concetti.
Architettura e linguaggi del Semantic Web
Rappresentata da un’articolazione a livelli, ciascuno caratterizzato da un linguaggio. L’interoperabilità sintattica e semantica è
garantita dall’impiego di standard e dall’utilizzo di un vocabolario comune.
Il livello base: Unicode e URI
Identificazione univoca delle risorse in rete è importante per stabilire codici di comunicazione non ambigui (a differenza del
linguaggio naturale). È possibile poi esprimere su di essa asserzioni finalizzate alla descrizione del suo contenuto.
Soluzione al “problema dei nomi”: URI ovvero un meccanismo per identificare una specifica risorsa, consentono di rintracciare le
risorse. URI → primo esempio di metadato semantico. Si evita così il problema della volatilità degli indirizzi perché tramite gli URI
ogni risorsa viene identificata univocamente e quindi è sempre rintracciabile.
Questione degli alfabeti: la soluzione è l’adozione di uno standard Unicode.
Il livello della struttura: XML, XML Schema, Namespace
XML → linguaggio per la rappresentazione dei documenti, è uno standard, è portabile, rigore sintattico e uso di etichette.
Per prevenire conflitti a livello di denominazione delle etichette è stato definito il meccanismo Namespaces → è possibile
qualificare i nomi degli elementi associando un prefisso identificativo da anteporre al nome dell’elemento.
Il livello delle asserzioni: RDF e RDF Schema
I metadati per essere utilizzabili dalle macchine devono essere espressi tramite un linguaggio trattabile sul piano sintattico e
semantico. Servono linguaggi che permettano di esprimere la semantica di un documento tramite asserzioni: RDF (Resource
Description Framework) strumento proposto come metalinguaggio che permette di standardizzare il modo in cui vengono definiti i
metadati in rete, fornendo un modello espressivo. Consente di basare la dichiarazione su tre tipi di oggetti:
1. Una risorsa può essere un insieme di pagine Web;
2. Proprietà → aspetto fisico dotato di un certo valore;
3. Risorse e proprietà sono esprimibili tramite un’asserzione. Viene espressa tramite tripla: soggetto + predicato + oggetto.
Semantic Web come paradigma per cui si esprimono affermazioni cioè informazioni non ambigue che esprimono relazioni.
RDF non fornisce informazioni circa il vocabolario da utilizzare per le proprietà perciò subentra il linguaggio dichiarativo RDF
Schema.
23

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Il livello delle ontologie: OWL


L’obbiettivo finale è quello di creare delle ontologie. RDF Schema presenta lacune espressive dove è necessario esprimere
l’equivalenza semantica di proprietà sintatticamente differenti, non è possibile con questo linguaggio creare ontologie che
permettano la creazione di classificazioni sistematiche.
Ontologia nel Semantic Web → intesa come la rappresentazione esplicita del significato dei termini impiegati e della loro
interrelazione. RDF e RDF Schema sono primitive ontologiche.
Il W3C propone il linguaggio OWL suddiviso in tre sottolinguaggi con diversa capacità espressiva:
- OWL lite: esprimere semplici vincoli, formalizzazione di tassonomie e thesauri.
- OWL DL: notevole espressività, basato sul modello delle logiche espressive.
- OWL full: permette di sfruttare tutta la libertà sintattica di RDF senza alcuna garanzia che il sistema estrarrà
tutte le conclusioni possibili.
Scelta del linguaggio adatto alle proprie necessità deve essere fatta a priori. Alternativa a OWL è Topic Maps → meccanismo ideato
per la rappresentazione di tassonomie e reti semantiche cui associare qualunque risorsa informativa. Si basa sul concetto di topic
(qualunque cosa che può essere descritta) e su quello di relation (per definire qualunque tipo di relazione che può sussistere fra i
diversi topic).
Lo stato finale: logica (logic), dimostrazione (proof) e fiducia (trust)
Lo strato della logica rappresentato da un linguaggio basato su principi logici o euristiche (=procedimenti che permettono di
prevedere un risultato che solo successivamente verrà dimostrato). Tramite l’utilizzo del procedimento deduttivo di inferenza è
possibile ricavare una conclusione. Le informazioni ottenute validate nello strato della dimostrazione tramite motori di validazione
generici costituiti da sequenze di formule derivate da assiomi. Lo strato della fiducia restituirà solo quelle informazioni che secondo
il richiedente proverranno da utenti di indubbia attendibilità.
Una conclusione in forma di premessa
Affinché il dato sia convertito in informazione e successivamente in conoscenza è necessario che le macchine siano in grado di
interagire con gli oggetti digitali e che le applicazioni siano interoperabili. Uno dei principali problemi dei documenti riversati sul
www è la dimensione eterogenea dei linguaggi di implementazione. Modelli e formalismi di riferimento originati da diversi sistemi
di rappresentazione rendono complesse le modalità di gestione della conoscenza. Le tecnologie del Semantic Web, intese come
linguaggi e standard, rappresentano una delle soluzioni per l’interoperabilità semantica. Solo il livello dell’ontologia può garantire la
creazione di una vera base di conoscenza.

9 UN NUOVO PARADIGMA: LA BIBLIOTECA DIGITALE


Patrimonio posseduto dagli istituti di conservazione → è rappresentato da libri antichi e moderni, riviste, documenti, fotografie,
opere d’arte e da tutto ciò che è conservato presso le strutture del patrimonio culturale.
Biblioteconomia e archivistica → discipline che hanno saputo trarre dall’informatica un importante contributo per formalizzare (in
ambiente digitale) i sistemi di descrizione, classificazione, inventariazione e soggettazione delle risorse.
Creare oggetti digitali significa realizzare unità informative che siano conservate in modo persistente e durevole, identificate
univocamente e dotate di un contenuto che comprenda sia il dato che l’informazione sul dato.
Oggetti digitali complessi → accessibili in un ambiente strutturato.
La loro progettazione richiede attenzione ai tre livelli di: produzione, archiviazione e disseminazione. Compito della biblioteca
digitale è di provvedere ai tre livelli. Un esperto in gestione di collezioni documentarie deve avere competenze specifiche ovvero
conoscere e fonti, saper creare oggetti digitali in formato opportuno, descriverli e saperli interrogare. Deve essere in grado di
creare un sistema informativo complesso.
Il concetto di biblioteca digitale
Collezione di documenti digitali strutturati dotata di un’organizzazione complessiva coerente di natura semantica e tematica che si
manifesta mediante un insieme di relazioni interdocumentali e intradocumentali e mediante un adeguato apparato
metainformativo.
Riflessioni: ci si trova di fronte a una collezione di documenti. Collezione omogenea, ogni BD dispone di una raccolta di oggetti
digitali relativa a un determinato e specifico ambito di interesse. È strutturata, organizzata in una qualche forma riconoscibile.
Multiformato ovvero può gestire diversi media in modo integrato e deve avere dei metadati associati. Le relazioni devono allargarsi
ad altri documenti e collezioni.
I servizi di una BD
Per l’umanista la biblioteca digitale rappresenta la possibilità di accedere a materiali digitalizzati di varia natura. L’utente ha accesso
alla raccolta di oggetti digitali consultando i materiali senza necessariamente sapere dove gli originali sono fisicamente conservati.
L’utente deve poter aver accesso ai materiali, poterli trovare e fruire ma rispetto ad una biblioteca tradizionale deve anche poterli
interrogare.
Requisiti funzionali di un sistema di BD

24

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Elaborare strategie di implementazione di una biblioteca digitale significa riflettere sui servizi che tradizionalmente caratterizzano
una biblioteca tradizionale. Necessario definire un piano di progettazione del flusso di lavoro che porta alla creazione della BD:
catalogazione, digitalizzazione, archiviazione, produzione dei materiali, conversione del formato degli oggetti digitali e
pubblicazione sul web.
Livelli della BD:
- Modalità di memorizzazione e archiviazione dei documenti a livello di linguaggi e formati;
- Sistemi di descrizione delle risorse a livello di attribuzione dei metadati;
- Procedimenti di conservazione e preservazione degli oggetti digitali.
Le tecnologie: formati e standard
Creare una biblioteca digitale significa adottare standard compatibili con www e quindi portabili fra piattaforme hardware e
software diversi (interoperabilità). Devono essere utilizzati formati compatibili con la rete e quindi portabili provvedendo ad
eventuali conversioni. Pianificare un progetto di digitalizzazione significa selezionare il materiale da destinare alla BD, per
consentire l’accesso a materiali e per preservare gli originali.
Importanza dei linguaggi di markup:
1. Evitare il ricorso a formati proprietari che limitano la portabilità e non tengono conto della preservazione delle fonti.
2. Interpretare la struttura logica espressa dalle fonti evitando l’adozione di codifiche “puro testo”.
XML → standard eletto per il markup di documenti di tipo testuale che vadano a popolare una biblioteca digitale. Utilizzare
applicativi open source che consentono l’adeguamento all’evoluzione continua delle tecnologie.
Identificatore → mezzo che consente di collegare la risorsa alla sua descrizione. Deve essere un indicatore dinamico, che si adegui
all’eventuale mutamento della localizzazione fisica della risorsa. Gli identificatori sono gli strumenti fondanti di un sistema di BD
perché il reperimento di ogni oggetto della raccolta rappresenta la chiave per il recupero dell’informazione.
I metadati: modelli, schemi e vocabolari
La scelta dei metadati veicola le operazioni sulla raccolta digitale. Le caratteristiche dell’oggetto digitale sono descritte utilizzando
standard in essere e sviluppati nel mondo bibliotecario, archivistico e museale.
I metadati si dividono in tre classi:
1. Descrittivi: descrizione bibliografica della risorsa elettronica, descrivere non solo la risorsa elettronica ma anche la fonte
materiale da cui la versione digitale è stata tratta.
2. Metadati gestionali e amministrativi: si dividono in tecnici, di preservazione e di gestione dei diritti.
3. Strutturali: descrivono la struttura logica del contenuto ma anche la struttura fisica.
Modello FRBR → tentativo di elaborare un modello concettuale che permetta di identificare i requisiti della descrizione
catalografica.
Per risolvere il livello dei metadati gestionali e amministrativi è stato definito il set MAG che incorpora gli elementi del DC e
definisce un vocabolario per i metadati.
Viene poi proposto METS → uno schema XML per la creazione di documenti di raccordo tra i vari componenti di una risorsa digitale
e i metadati che li descrivono, è infatti finalizzato alla descrizione delle relazioni strutturali che intercorrono e la struttura logica del
contenuto. Vuole designarsi come uno schema contenitore. Vuole proporre un modo per collegare i metadati al contenuto digitale.
Conservazione e preservazione degli oggetti digitali
Conservare → definire adeguati sistemi di storage degli oggetti digitali. Il problema della preservazione è che l’informazione può
essere soggetta a problematiche come: degradazione dei media, dipendenza da determinati hardware e software, obsolescenza di
sistemi e applicazioni.
Soluzioni:
- Migrazioni delle informazioni da un supporto fisico di conservazione a uno nuovo.
- Emulazione del software originale.
- Mantenimento integrale dell’oggetto digitale assieme all’hardware e software in grado di leggerlo.
Concetto di persistenza → oggetti digitali accessibili nel lungo periodo, ma i dati devono sopravvivere all’esecuzione del programma
che li ha creati.
Il problema dell’interoperabilità
Il primo livello di interoperabilità sintattica è costituito dall’uso di formati di archiviazione dei dati standardizzati che garantisca
l’interscambio. Le BD devono interagire tra loro ma al momento risultano isolate, l’uso diversificato di linguaggi e tecnologie non
permette la comunicazione tra le risorse. Sarebbe necessario lo sviluppo di middleware → insieme di modelli, protocolli, interfacce
utilizzati come strumento unico e condiviso per integrare applicazioni sviluppate su sistemi eterogenei.
Affinché le BD possano dialogare tra loro è necessario che condividano il sistema di rappresentazione della componente meta-
informativa. Funzione dei metadati: descrizione di una risorsa elettronica e consentire l’interrogazione sulle diverse BD agevolando
l’integrazione finalizzata all’accesso in un unico ambiente condiviso. Soluzione → creazione di tavole di corrispondenza tra gli
elementi utilizzati.
Harvesting → dei metadati consentirebbe di associare un termine alla sua connotazione e identificazione.
25

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)
Metodologie informatiche e discipline umanistiche, Francesca Tomasi

Modello di self archiving OAI → pensato per la disseminazione e l’accesso ai metadati in ambiente condiviso. I metadati possono
essere incorporati nel documento o collegati tramite sistemi di puntamento.
Un modello: il framework OAIS
OAIS → sistema di archiviazione aperta che mira a definire un modello logico di riferimento per oggetti digitali e metadati associati.
Archiviazione aperta: libero accesso della comunità ad un unico ambiente di riversamento, immagazzinamento e accesso ai dati.
Archivio: inteso come conservazione dell’informazione a lungo termine disponibile per la comunità.
OAIS si basa sull’interazione fra il produttore di oggetti digitali e il consumatore, mediato da un management dei dati e dal cuore
che è l’archivio stesso.
Cinque fasi, componenti funzionali dell’archivio:
1. Immissione
2. Archiviazione
3. Gestione
4. Accesso
5. Amministrazione

26

Document shared on www.docsity.com


Downloaded by: giara13 (gianniarancio@yahoo.it)

Potrebbero piacerti anche