Sei sulla pagina 1di 20

lOMoARcPSD|799872

Metodologie informatiche e discipline umanistiche - F. Tomasi

ARCHIVISTICA INFORMATICA (Università della Calabria)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.


Scaricato da Alessia Marrella (bellale94@live.it)
lOMoARcPSD|799872

METODOLOGIE INFORMATICHE E DISCIPLINE UMANISTICHE- F. Tomasi

INTRODUZIONE
L’informatica è una disciplina che si occupa del trattamento automatico dell’informazione.
Con scienze dell’informazione ci si riferisce in generale a tutte quelle discipline che si occupano dei processi e dei sistemi di reperimento,
conservazione, trasformazione e trasmissione dei dati informativi. Per questo è lecito asserire che la nozione di sistema di rappresentazione ed
elaborazione delle informazioni, che identifica l’informatica come scienza, è una definizione adeguata anche a descrivere la ricerca di settore
umanistico.

Ciò che la computer science costringe a fare è trasformare i dati, che identificano tutti gli oggetti portatori di informazione, in sistemi che definiremo
formali, cioè costruiti in base a precisi schemi e secondo specifiche regole. Quello che è formalizzato diventa computabile, quindi risolvibile sulla
base di processi automatici. Ambiguità e indeterminatezza devono essere sostituiti da schemi e regole, strutture e modelli.
Il fondamento teorico che sarà alla base del nostro ragionamento consisterà dunque nell’analisi dei sistemi di progettazione e creazione di oggetti
computabili.

L’IU si presenta come un sistema complesso perché focalizza sulle interconnessioni fra le discipline.
Distinzione fra IU “trasversale” e IU “specifica”—>;
Ogni disciplina di area umanistica tradizionale ha sviluppato differenti strategie computazionali, a seconda delle esigenze del settore di competenza
(la linguistica, la storia, la biblioteconomia, la letteratura, la paleografia, la codicologia, etc.), ma quasi tutte le discipline condividono metodologie
formali nella gestione automatica dei dati e concordano su di un uso non esclusivamente tecnico dello strumento informatico (Ciotti, 2002*).
Una serie di comuni metodologie informatiche percorre cioè trasversalmente le discipline umanistiche 'tradizionali' e costituisce una base condivisa
per le operazioni legate alla rappresentazione e alla conservazione delle fonti, alle modalità della sua manipolazione, ai criteri del trattamento e alle
forme della sua disseminazione.

Le origini:
• Affonda le sue radici nella linguistica computazionale. Padre Roberto Busa inizia a produrre l’index verborum (o meglio le concordanze) degli
opera omnia di Tommaso d’Aquino. Siamo nel 1949.
• Fondazione della rivista «Computer and the Humanities». Siamo nel 1966 (fino al 2004). Ora «Language Resources and Evaluation»
• Nascita di due importanti associazioni: la ALLC (Association for Literary and Linguistic Computing), fondata nel 1973, e la ACH (Association for
Computer in the Humanities) fondata nel 1978.
• I membri di ACH e ALLC sono editor di un importante rivista di settore: «Literary and Linguistic Computing» (fondata nel 1986). Ora « Digital
Scholarship in the Humanities»
• Arriviamo alla fine degli anni 80: la disponibilità dei pc permette nuove sperimentazioni;fioriscono le prime edizioni elettroniche a cui si affiancano
le prime raccolte di testi elettronici che rappresentano il fondamento per la nascita di biblioteche digitali.
• Gli anni 90 sono segnati dal WWW che consente la pubblicazione online dei materiali in formato digitale—>;ampliamento orizzonte di scambio
nella comunità dell’ IU.
• In ambito internazionale è da segnalare che ACH e ALLC si sono ad oggi federate nella “Alliance of Digital Humanities Organizations” (ADHO). Fra
le varie attività di ADHO si registra la nascita, nel 2007, della rivista elettronica «Digital Humanities Quarterly» (DHQ)

Per concludere, non si vuole un’informatica per le discipline umanistiche ma si vogliono coniugare le due materie.
L’info non deve essere strumento a uso dell’umanista ma deve essere pensata come fondamento per una riflessione sui metodi della ricerca
umanistica.

3. SISTEMI INFORMATIVI e BASI DI DATI


Quando si vogliono creare delle collezioni, su supporto elettronico, quindi mettere in relazione dei documenti oppure rappresentare gli elementi che
essi condividono, è necessario ragionare sulle modalità che consentano tale correlazione.
Come rappresentare l’informazione in una forma tale da consentire un adeguato e funzionale trattamento?
La creazione di un insieme organizzato di dati richiede un’accurata analisi delle caratteristiche del corpus, della collezione che si vuole destinare al
trattamento automatico.
Tale collezione potrà essere rappresentata da raccolte esistenti di fonti oppure può essere il risultato di una selezione di dati per creare una raccolta
ex novo; diversi sono gli aspetti che si possono rappresentare e diverse possono essere le modalità per mettere in relazione i dati e infine differenti
tipologie di relazione.
Due momenti dell’analisi del corpus, da cui dipendono le operazioni che è possibile poi effettuare sull’oggetto digitale:

- verificare le caratteristiche della raccolta dati, dalle quali deriva la scelta delle modalità di progettazione.
In questa fase si provvede alla definizione e all’elaborazione dell’articolazione logica della collezione, ovvero vengono individuati gli elementi
costitutivi della raccolta e le relazioni che tali elementi intrattengono ( MODELLO CONCETTUALE)

- definire l’obiettivo computazionale: quale genere di informazioni e quale tipo di notizie si vogliono estrarre dalla raccolta.
Lo scopo veicola le modalità della rappresentazione informatica. (MODELLO LOGICO)

Poi ci sarà la scelta dei linguaggi e applicativi in grado di gestire il processo di creazione, di manipolazione, disseminazione e fruizione del corpus.

FASI DI GESTIONE
Ci sono 4 fasi o momenti dell’analisi del corpus:
• Raccolta: definizione della modalità di acquisizione dei dati; alcuni dati sono già disponibili in formato
digitale, altri andranno acquisiti.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

• Archiviazione: definire un sistema di conservazione dei dati (sistema di storage), cioè la modalità di caricamento dei dati su un supporto fisico di
memorizzazione: formato e luogo di conservazione.
• Elaborazione: trasformazione dei dati in modo che l’info possa essere manipolata dalla macchina.
• Distribuzione o disseminazione: comunicazione dei dati all’esterno e accesso lato utente.

IL CONCETTO DI DATABASE
Una base di dati è una raccolta di dati omogenei (stesse caratteristiche a livello di elementi costitutivi) relativi a uno specifico dominio
(ambito,argomento), organizzati in modo strutturato (possono essere inseriti in griglie definite,secondo una determinata struttura logica di
riferimento) e secondo precise convenzioni.
Si parla di dati strutturati quando sono accessibili all’interno di un DB: una serie di notizie bibliografiche, un elenco di descrizioni di manoscritti,un
insieme di testi elettronici ma anche quelle tipologie di testi che hanno una struttura identificabile (una descrizione bibliografica).
Compito di un DB è gestire processi di:
• amministrazione: progettazione,creazione ed eventuale eliminazione del DB
• transazione: inserimento, aggiornamento, cancellazione dei dati
• interrogazione: accesso e consultazione dei dati

Dato-Informazione: affinché sia possibile estrarre delle informazioni i dati devono essere raccolti e rappresentati in base a regole precise e
organizzati in strutture rigide. Le info vengono comunicate alla macchina attraverso i dati (costituiti da simboli che devono essere elaborati e
interpretati) —>;
Il dato diventa informazione quando è inserito in un contesto che lo identifichi rispetto a un ambito di riferimento (diverse info, diversi contesti
d’uso), cioè quando gli viene associata una struttura. Un dato inserito in un DB diventa info perché gli viene associata una struttura (es. Dante->;
autore).

SISTEMA INFORMATIVO vs SISTEMA INFORMATICO

1. collezione di documenti che rappresenta l’insieme dei contenuti che caratterizzano l’attività di un ente, un’istituzione o di un singolo individuo e
che prescinde dall’automatizzazione dei dati. Una raccolta di dati è un sistema informativo, un sistema per la raccolta, l’archiviazione, il reperimento
e la diffusione delle informazioni. Ogni organizzazione sociale ha il suo sistema informativo più o meno formalizzato, cioè costruito sulla base di
regole predefinite (catalogo di una Biblio, inventario archivistico, lista di studenti iscritti all’uni).

2. piattaforma tecnologica che ospita il corpus dei dati e gestisce le info in modo da poterle recuperare automaticamente.

LA GESTIONE DEL DB: DBMS


Il Data Base Management System è un sistema software di gestione dei dati; si occupa dell’aggiornamento, della manutenzione e della
consultazione di un insieme di registrazioni contenute su un supporto di memoria di massa. Dunque è un insieme di programmi rivolto alla gestione
di dati memorizzati in formato digitale (es. Access). Un DBMS permette l’archiviazione,l’elaborazione e la distribuzione dei dati.

Fra i linguaggi creati per lavorare su un DB il più utilizzato è il SQL sviluppato nella seconda metà degli anni settanta e divenuto standard nell’ 86.

MODELLO LOGICO, SCHEMA E ISTANZA DEL DB (processo di progettazione e creazione di un DB)


1. Modello dei dati o modello logico = l’insieme dei concetti utilizzati per organizzare i dati e descriverne la struttura in modo comprensibile a un
calcolatore.
Dal modello scelto dipenderanno i criteri della creazione e manipolazione del corpus. Esistono diversi modelli corrispondenti ai diversi concetti, tipi di
dato, costruttori di tipo quindi alle strutture di dati utilizzabili.
-modello gerarchico: strutture ad albero (linguaggi markup dichiarativi)
-modello reticolare: grafi (pagine www)
-modello relazionale: tabelle
-modello a oggetti: legato alla programmazione orientata agli oggetti (concetti di oggetto e classe)

2. Schema= descrizione dei dati, ovvero gli aspetti della raccolta che si vogliono enucleare. Deriva dal modello logico utilizzato.
Esempio: nel modello relazionale lo schema relativo alla relazione comprende l’intestazione seguita dai nomi degli attributi.

3. Istanza= serie di valori associati al DB

Fanno parte del DBMS sistemi per la definizione dello schema (DDL) e sistemi di manipolazione del DB (DML).

PROGETTAZIONE DI UN DB
La fase della progettazione rappresenta il momento più importante nella creazione di un DB; l’umanista deve saper riconoscere quale info si può
estrarre da un corpus di dati,quindi essere in grado di modellizzare la raccolta e progettare adeguatamente il DB.

3 livelli di progettazione:

• concettuale—>; livello più astratto e generale, consiste nella descrizione formale del corpus in relazione alle sue caratteristiche.
Individua i dati, le relazioni tra dati e i vincoli esistenti , cioè definisce il modello concettuale.
Tale descrizione, quando espressa in modo formale è detta schema concettuale.
SCOPO: costruire una rappresentazione formale del corpus, indipendentemente dalla concreta realizzazione del DB e dall’ambiente tecnologico
scelto.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Il formalismo più usato e diffuso per la modellazione concettuale è il diagramma entità-relazione (o modello E/R) (proposto da Chen nel 1976) che
consta di 2 componenti essenziali: costrutti per esprimere i concetti di entità,relazioni e attributi (strutture dati del modello) e notazione per
rappresentare tali costrutti (rettangolo-entità,rombo-relazioni,freccia-attributi).

- Entità: classe di oggetti con proprietà comuni;


- Occorrenza di un’entità (=istanza): un oggetto di quella classe o entità;
- Relazioni tra entità: espresse tramite l’indicazione del motivo del legame (=relazione semantica);
- Attributi: descrivono le proprietà di entità e relazioni; semplici (singole proprietà) o composti (proprietà scomponibili).

Il procedimento di definizione del modello avviene a partire da oggetti della realtà che possono essere raggruppati in classi sulla base della
condivisione di determinate proprietà; dunque vengono create delle classi o categorie di contenuto e stabilite delle relazioni semantiche
(collegamento in grado di specificare in modo formale il senso della relazione) tra tali classi.
Tale procedimento è l’astrazione: sistema che consente di evidenziare alcune proprietà significative degli oggetti osservati, escludendo quelle
ritenute irrilevanti.

3 livelli di astrazione:
- di classificazione: si giunge alla definizione di una classe a partire da oggetti che condividono le stesse proprietà; gli oggetti della classe sono
istanze e la relazione tra istanza e classe è detta instance-of
- di aggregazione: nuova classe come risultato dell’individuazione di caratteristiche condivise tra classi gia definite; relazione semantica tra classi
originarie e classe nuova è part-of
- di generalizzazione: nuove classi da altre gia esistenti che risultano dipendenti gerarchicamente dalla nuova classe definita; relazione detta subset-
of.

Tale modello può essere poi tradotto in modello logico tramite le strutture dati previste; l’ultima fase prevederà la costruzione dello schema fisico e
quindi l’implementazione tramite un linguaggio formale, che crea l’ambiente utile per popolare il DB.

• logica—>; si individuano le strutture dati necessarie per realizzare il progetto.


SCOPO: scelta del modello di dati o logico che si focalizza sulla definizione dell’organizzazione dei dati, sulla base di determinate strutture astratte o
logiche: albero,grafo,tabella,classe.
Se la struttura dei dati si riferisce alle modalità di organizzazione dei dati, il modello ci consente di definire quali operazioni possiamo eseguire sui
dati organizzati. Si parla di schema logico in relazione alla rappresentazione dei dati, quindi alla definizione dei criteri di implementazione nel DBMS;
è indipendente dalla realizzazione fisica ma traduce lo schema concettuale nelle strutture dati proprie del DBMS scelto (che si basa infatti su uno dei
modelli logici).
Dallo schema logico possono dipendere diversi schemi esterni: “viste” di un particolare utente del DB, risultato di una query mirata a estrarre
determinati dati dalla raccolta.

• fisica—>; è il livello più vicino alla macchina e quindi al software utilizzato e deve tener conto delle sue caratteristiche.
SCOPO: definire i parametri di memorizzazione e ricerca dei dati. Dipende dal DBMS scelto. Dalla progettazione fisica scaturisce lo schema interno o
fisico dei dati: la creazione del DB in memoria di massa.

I tre schemi descritti (logico,esterno e fisico) corrispondono ai tre livelli di astrazione di un DBMS, esso fornisce una visione astratta del DB.
Questo ci riporta a un aspetto importante dei sistemi di gestione dei DB: l’indipendenza dei dati, garanzia di portabilità sia fra piattaforme diverse
sia fra software applicativi diversi, assicurata dall’architettura a livelli (logico,esterno e fisico).
Indipendenza logica : la struttura logica è indipendente dalle strutture fisiche di memorizzazione; indipendenza fisica: le modalità di memorizzazione
fisica dei file possono essere alterate senza modificare la descrizione del DB.

MODELLO RELAZIONALE DEI DATI


Ideato da Codd negli anni 70, è il modello adottato dai principali DBMS commerciali. La sua struttura dati è la tabella e si basa sul concetto di
relazione: ogni tabella è una relazione fra i suoi elementi ed è caratterizzata da un numero fisso di colonne (attributi o campi) e da un numero
variabile di righe (ennuple). L’intestazione della tabella e quindi la denominazione di ogni colonna, corrisponde al nome dell’attributo, mentre le
altre righe contengono i valori degli attributi.
Lo schema comprende il nome della tabella e i nomi degli attributi (assegnano struttura al dato) mentre l’istanza è la serie dei valori e quindi la
serie delle ennuple. Affinché una tabella sia definita come una relazione è necessario che rispetti alcune condizioni:

• ogni colonna deve avere una diversa intestazione;


• la colonna deve contenere valori omogenei, relativi allo stesso dominio,
• la riga deve riportare la serie dei valori che identificano ogni oggetto inserito nella tabella e ogni valore deve essere relativo a un diverso attributo.
Ogni riga deve essere diversa dall’altra, • l’ordine di righe e colonne è irrilevante.

Un DB supporta diversi tipi di dato: caratteri e stringhe, numeri, valori booleani (V o F), data e ora e altri dati in codice binario (es. immagini).
Uno dei requisiti fondamentali è che ciascuna riga deve essere identificata univocamente dunque deve avere almeno un valore che la distingue.
Una chiave è un campo necessario ad accogliere valori che rappresentano in modo univoco ogni ennupla, denominato campo ID (identificatore
univoco, chiave primaria).
Il campo chiave accoglie di solito un tipo numerico intero perché permette di connotare senza ambiguità ogni riga.

Il modello relazionale deve il suo successo alla possibilità di creare collegamenti (join) basati su valori (gerarchico e reticolare invece su record e
puntatori)—>; si svincola la struttura logica da quella fisica di memorizzazione e si possono portare i dati tra sistemi diversi.
E’ tramite le chiavi che si mettono in relazione tabelle diverse, operazione che permette sia di creare collegamenti fra dati altamente strutturati sia a
risolvere problemi di ridondanza o anomalia dei dati; inoltre una tabella non è sufficiente a descrivere in toto un corpus complesso.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Normalizzazione: procedimento mirato a eliminare ridondanze e anomalie dal DB, dettate dalla presenza di valori che devono essere replicati,
ottenuta scomponendo una tabella in più tabelle diverse (decomposizione in forma normale) collegate poi tra loro tramite una chiave esterna.
Essa corrisponde alla chiave primaria di un’altra tabella.

Per una corretta rappresentazione dell’informazione devono essere rispettate delle condizioni, ci sono dei vincoli di integrità specificati e definiti
sullo schema del DB e devono essere rispettati da tutte le istanze.
-vincoli di chiave: ci deve sempre essere un campo chiave
-vincoli di dominio: i valori di un attributo devono corrispondere alle caratteristiche specificate per i valori supportati dal campo
-la serie dei valori di un’ennupla deve rispettare il rapporto tra gli attributi
-vincoli di integrità referenziale: i valori di un attributo di una relazione devono comparire come valori della chiave primaria della relazione correlata.

INTERROGARE LA BASE DI DATI


Superate le fasi di progettazione e creazione del DB possiamo passare alla sua manipolazione in termini di interrogazione (creazione di una nuova
relazione, in base a un dato schema) ma anche di aggiornamento (forma di ridefinizione dell’istanza di un DB, sulla base dello schema di
riferimento).
Algebra e calcolo relazionale sono i due linguaggi che consentono di interagire con il DB. L’algebra relazionale,in particolare,si basa su operatori
insiemistici tradizionali (unione,intersezione e differenza), su altri specifici (ridenominazione,selezione e proiezione) e sull’operatore join (gestisce la
correlazione tra dati contenuti in relazioni diverse confrontandone i valori). —>; consentono la creazione di nuove relazioni partendo da relazioni
esistenti.

Una query è un’interrogazione effettuata su una o più relazioni che genera una particolare vista del DB
cioè una nuova relazione che soddisfa le richieste dell’utente. Essa può essere effettuata usando:
• stringhe di caratteri semplici o stringhe con operatori jolly (? o *)
• operatori algebrici per definire le operazioni su più relazioni
• operatori booleani o connettivi logici (AND;OR;NOT)
• operatori aritmetici o di concatenamento
• operatori di confronto

ALTRI ASPETTI IMPORTANTI


• Le DB sono importanti per l’umanista: da un lato perché molte delle info di interesse sono fruibili in questa forma (es. raccolte bibliografiche);
dall’altro perché l’umanista è in grado di comprendere come descrivere e organizzare i contenuti ma anche di capire quali domande formulare
perché sa quale risposte/info vuole ottenere.

• Metadati: etichette descrittive di qualunque oggetto digitale, costituiscono la base per la definizione dello schema.
Dalla loro definizione si possono individuare gli elementi costitutivi di ogni raccolta.

• DB full-text: comunemente utilizzato per le raccolte di testi elettronici in cui cioè uno dei campi ospita il testo integrale; in più c’è la possibilità di
incorporare non solo immagini digitali ma anche diversi altri media.

IL MODELLO A OGGETTI (Object Oriented Database Model, OODM)


Impiegato soprattutto quando la collezione è costituita da dati multimediali: testi pieni, immagini e suoni.
Permette di gestire i dati come oggetti complessi e unitari, consentendo di stabilire relazioni in modo più facile rispetto al modello relazionale. I
principali strumenti sono:
• l’oggetto: tipo di dato complesso
• la proprietà: descrive la struttura degli oggetti e le operazioni
• la classe: raggruppa oggetti dello stesso tipo

I DB E IL WEB
Il web è diventato piattaforma per il riversamento di sistemi informativi, accessibili attraverso il browser: si parla di sistemi informativi distribuiti.
Molte delle risorse cui accediamo sul web derivano da DB (es OPAC): su tali collezioni si possono fare interrogazioni tramite query, accedendo ai siti
specifici.
Il DB è anche pensato come ambiente collaborativo a distanza, soprattutto in ambiente www, perché può garantire una “rappresentazione dei dati
indipendente dalla piattaforma” informatica utilizzata, garantendo a ogni utente di poter interagire in remoto con la collezione.

4. LA TESTUALITA’ DIGITALE: I LINGUAGGI DI MARKUP


Primo livello di codifica: processo che consente di comunicare dati all’elaboratore grazie alla condivisione di un codice che permette il dialogo uomo-
macchina; il codice ASCII e poi Unicode, definendo una corrispondenza tra sequenze di bit e simboli alfanumerici, consentono la rappresentazione
del testo nella cosiddetta Machine readable form (MRF). —>;Questo livello è un processo di conversione da un dato analogico al formato digitale.

Tuttavia la codifica del testo basata sulle sole tavole dei codici, insieme ai limiti di portabilità e compatibilità comporta un’ulteriore restrizione: essa
consente di rappresentare nella memoria del computer solo la sequenza dei segni grafici che rappresentano il testo; ma un testo contiene una serie
di informazioni, a diversi livelli, che superano la mera sequenza di caratteri.
Distingueremo la codifica di ‘basso livello’ o codifica dei dati elementari da una codifica di ‘alto livello’ o rappresentazione dei dati a livello di
‘strutture intermedie’ che chiamiamo markup. —>; possibilità di aggiungere alla sequenza di caratteri che rappresentano il documento digitale,
altre stringhe di caratteri denominate marcatori, utili a descrivere determinati aspetti (relativi alla struttura logica o alle sue caratteristiche fisiche)
funzionali alla produzione del documento elettronico. Questo processo di aggiunta di stringhe al flusso dei caratteri permette di specificare
determinate caratteristiche del testo.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Il markup, chiamato in altri ambiti annotazione del testo, è il passo preliminare per ogni operazione di elaborazione o trattamento del documento
digitale.
Per l’umanista la codifica dei caratteri prima e il markup poi rappresentano un processo interpretativo, risultato dell’analisi del testo.
Riguardano quindi la costruzione di un modello di quel testo più adeguato alle esigenze della rappresentazione elettronica. —>; processo di
moderazione del testo. Codificare tramite linguaggi formali di rappresentazione del testo significa contribuire ad arginare la perdita di elementi
significativi per la trasmissione del msg: effettuare un’analisi del testo, mirata ad individuarne le caratteristiche ; formulare un’interpretazione della
fonte, sulla base delle features del documento e in modo direttamente proporzionale agli scopi del trattamento informatico.

CLASSIFICAZIONE DELLE TIPOLOGIE DI MARKUP

• proprietario vs non proprietari: può essere creato da un’azienda che lega le istruzioni di codifica all’applicativo in grado di interpretarle oppure è
un set di istruzioni standardizzate e condivise da un insieme di organizzazioni che rendono il codice disponibile alla comunità (principio dell’open
source)

• leggibile vs non leggibile: delegato a un applicativo che incorpora e nasconde i marcatori rendendo il ile prodotto interpretabile solo
dall’applicativo ( si parla anche di “formato binario”) oppure leggibile se non è necessario ricorrere a nessun programma per consentirne la
visualizzazione e (in parte) l’interpretazione da parte dell’utente.

• presentazionale (orientato al layout) vs descrittivo/analitico (orientato alla struttura): si possono utilizzare i marcatori o per definire le
caratteristiche fisiche del documento oppure per segnalare elementi di struttura logica (ruolo formale di ogni blocco testuale)

• procedurale vs dichiarativo: nel primo il markup si presenta sotto forma di istruzioni che specificano delle caratteristiche di output del documento,
nel secondo le indicazioni sono orientate alla descrizione di certe caratteristiche formali

Da queste diverse tipologie discende la classificazione dei documenti sulla base del formato dei dati: ogni sistema di marcatura consente la
creazione di un documento con un certo formato e quindi ogni applicativo lega il documento, prodotto con una certa marcatura, a uno specifico
formato.
L’unico formato non marcato è il “solo testo” costituito solo da sequenze di caratteri senza ulteriori informazioni.

La scelta del tipo di markup o del formato finale, veicola le caratteristiche del testo digitale prodotto e quindi il suo successivo utilizzo.
L’attività di markup conduce a non ignorare il problema della scelta degli elementi da comunicare alla macchina e quindi da destinare alla
conservazione; tale scelta dipende sia dalle caratteristiche del doc originale, che dal trattamento desiderato e , allo stesso modo, la scelta del tipo di
rappresentazione dei dati influenza il processo di elaborazione dell’info.

DAL LAYOUT ALLA STRUTTURA


Il termine deriva dalla stampa tipografica tradizionale per riferirsi a quell’insieme di simboli e annotazioni che l’autore o l’editore aggiunge al
manoscritto per istruire lo stampatore sulle caratteristiche del documento da destinare alla stampa (p.e. ‘centrato’, ‘titolo’, ‘nota’, ‘grassetto’, ‘a
capo’). Funzione dei linguaggi di markup è di fornire un insieme di strumenti che consentano di aggiungere notizie sul testo. Tali notizie possono
riguardare due differenti livelli:

• l’aspetto: formattazione (stili, tipi di carattere, colore e dimensione dei font, ecc.) e disposizione degli elementi nella pagina (allineamento,
organizzazione spaziale delle componenti testuali,
disposizione di note e annotazioni, ecc.).

• la struttura logica (o astratta o formale): funzione dei blocchi di testo (paragrafi, titoli, note, capitoli, ecc.), cioè organizzazione delle porzioni
secondo un sistema formale identificabile.

Siamo abituati a utilizzare programmi per la creazione e la manipolazione di documenti elettronici denominati Word-processors: programmi che
consentono all’utente di effettuare operazioni di scrittura, correzione, lettura di un qualsiasi testo, permettendo altresì la preparazione del formato
dello stesso testo al fine della stampa.
I sistemi di text processing (cioè di manipolazione o trattamento del testo) basati sull’impiego di word processors sono detti di tipo WYSISYG (What
You See Is What You Get) cioè: ciò che vedi (sullo schermo dell’elaboratore) è ciò che ottieni (una volta stampato il documento).
Questi sistemi agevolano notevolmente il lavoro dell’utente, consentendogli di interagire tramite l’interfaccia grafica.
Permettono quindi di manipolare la rappresentazione visibile sullo schermo, e gestire le attività di formattazione e impaginazione.

Il problema sostanziale è che questi sistemi legano l’elaborazione del testo ad un determinato programma, rendendo quindi problematica la
portabilità tra ambienti hardware e software diversi.
Si pensi al programma di videoscrittura Word della casa produttrice Microsoft che non solo pone limitazioni alla portabilità del formato doc da un PC
a un Macintosh, ma crea anche difficoltà di lettura da una versione all’altra del programma stesso.
Impiegando cioè, al fine della rappresentazione del testo, dei caratteri di controllo invisibili, immessi dentro il file di testo, questi linguaggi rendono
il file leggibile esclusivamente dal sistema che l’ha generato.
È l’applicativo che inserisce la marcatura, impiegando un linguaggio proprietario, che lega il prodotto finale al software di creazione.

(La Microsoft ha creato anche un formato alternativo al doc che è l’RTF, sempre proprietario ma leggibile, pensato per agevolare lo scambio di doc
tra diverse applicazioni. Consente di codificare il documento come puro testo e in più i marcatori indicano quale tipo di formattazione applicare al
semplice testo)

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Se i word processors consentono una forma di markup del testo, si parla più propriamente di markup languages, detti in italiano linguaggi di
marcatura del testo, per riferirsi a linguaggi che si basano su un insieme di istruzioni e indicazioni orientate alla descrizione dei fenomeni di
strutturazione, composizione, impaginazione del testo stesso.

I marcatori si configurano come sequenze di caratteri visibili, e vengono immessi dentro il file, secondo una determinata sintassi, immediatamente
accanto alla sequenza di caratteri a cui si riferiscono e cioè marcando direttamente i blocchi di testo cui intendono assegnare una determinata
funzione.
Garantiscono in questo modo la leggibilità del codice introdotto.

MARKUP PROCEDURALE E MARKUP DICHIARATIVO


2 diverse classi di linguaggi di markup, che differiscono per il tipo di indicazioni impiegate all’atto dell’operazione di marcatura ovvero per la
tipologia e la funzione dei marcatori utilizzati:

• markup specifico (o procedurale): primi linguaggi di marcatura ideati per occuparsi essenzialmente dell’aspetto tipografico (dunque per lo più di
tipo presentazionale) e di istruire la periferica di output.
Insieme di istruzioni operative che indicano localmente la struttura tipografica e compositiva della pagina, le spaziature, le caratteristiche del font e
l’interlineatura modificando questi parametri direttamente per le porzioni di testo cui si riferiscono.
E’ anche detta procedurale perché indica alla macchina quale procedura di trattamento riservare alla sequenza di caratteri al momento della
stampa.

LIMITI:
1) in un markup procedurale le info circa il ruolo delle componenti formali (struttura logica o astratta) vengono perdute in quanto non segnalate e
per accedervi è necessario conoscerne la resa tipografica—>; limita le ricerche;
2) stretto legame con il software in grado di interpretare le istruzioni —>; limita la portabilità;
3) le istruzioni di formattazione vengono fissate una volta per tutte—>; se si vuole alterare l’aspetto stampato di un doc è necessario modificare
tutte le istruzioni di markup.

• markup generico (o dichiarativo): i simboli non vengono impiegati come istruzioni di formattazione e di impaginazione ma prevalentemente come
indicatori di struttura.
Linguaggi costituiti da un insieme di marcatori (tags) che indicano (dichiarano) la funzione logico-strutturale del blocco di testo a cui si riferiscono.—
>; anche definiti dichiarativi.
Ragionando poi sulla descrizione del doc (a livello di struttura) sono classificabili principalmente come linguaggi descrittivi.
Anche se c’è la possibilità che un generic markup language venga usato per marcare dichiarativamente aspetti grafici della pagina (spazi bianchi,
rientri ecc) comunque, concentrandosi sulla struttura, delega ad altri linguaggi il compito del layout, cioè l’assegnazione di uno stile agli elementi
logici.

Principali linguaggi di markup dichiarativo:

• SGML, il capostipite;
• HTML, una sua diretta derivazione pensata per l’implementazione di ipertesti;
• XML, un sottoinsieme semplificato dell’SGML pensato per la realizzazione di testi elettronici fruibili anche sul Web.

I linguaggi dichiarativi:

• si basano principalmente sulla descrizione della struttura logica del documento e sono quindi prevalentemente utilizzati a scopo descrittivo;
• il formato dei dati non è proprietario;
• i marcatori sono leggibili dall’utente;
• sono platform-independent perche basati esclusivamente su istruzioni espresse in formato ‘solo testo’.

SGML
SGML (Standard Generalized Markup Language), GML prima di diventare standard, è stato elaborato nel 1986 da Charles Goldfarb con lo scopo di
definire uno schema linguistico standard a livello internazionale nell’ambito della codifica dei testi e superare la moltitudine di sistemi di codifica fino
ad allora sviluppati; obiettivo primario dello standard è consentire l’interscambio di documenti in formato elettronico tra ambienti hardware e
software differenti e garantire quindi la portabilità dei dati.

SGML si basa su di un markup generico, orientato alla descrizione della struttura logica di un documento di testo piuttosto che del suo aspetto. Si
fonda sull’idea che ogni documento sia dotato di una struttura astratta (o logica) definibile tramite una organizzazione rigidamente gerarchica dei
suoi elementi costitutivi.

La struttura astratta di un qualsiasi documento viene identificata in una rappresentazione ad albero in cui:

• a ciascun nodo dell’albero corrisponde un elemento (e cioè ogni partizione logica della fonte);
• ai rami uscenti da ogni nodo corrispondono le relazioni tra elementi e sotto- elementi ad un dato livello (le relazioni tra elementi possono essere
relazioni di inclusione, di ordine e di ricorrenza: per esempio potremmo dire che un elemento paragrafo è incluso in un elemento capitolo e può
ricorrere molteplici volte, oppure che un elemento introduzione deve precedere un elemento capitolo, ecc.);
• alle foglie corrispondono gli elementi finali (generalmente i caratteri del testo).
Un esempio di albero gerarchico per un semplice documento è: nodo radice corrispondente al testo stesso; testo composto da un’eventuale
introduzione, seguita da un certo numero di capitoli; a loro volta capitoli composti, ognuno, da un titolo, seguito da uno o più paragrafi; nodi

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

terminali, o foglie, contenenti stringhe di caratteri costituenti il testo stesso (indicati con PCDATA) o altri elementi marcati, a seconda delle esigenze
del markup.

Fondandosi su di una codifica di tipo dichiarativo, SGML consente di definire (o di dichiarare), in modo assolutamente personale ed autonomo, un
insieme di marcatori (tags) che consentano di fare il markup della struttura logica del documento.
Questo gruppo di marcatori, più precisamente, individua una classe di documenti testuali che presentano le medesime caratteristiche strutturali.
CLASSE: insieme di documenti che condividono determinate proprietà—>; i testi poetici, i testi narrativi, i testi drammatici sono per esempio tre
classi che possiedono una specifica struttura logica; una poesia sarà di conseguenza marcata secondo le proprietà della classe testi poetici.

Ogni porzione testuale può essere dunque individuata e descritta tramite ricorso ad un nome convenzionale, scelto dal codificatore, che prende il
nome di elemento (p.e. ‘p’ per paragrafo, ‘n’ per nota ecc.) racchiuso tra due delimitatori; la porzione strutturale viene quindi rappresentata tramite
un marcatore o tag di apertura ed uno di chiusura. Per i tags, la sintassi di SGML ci suggerisce una forma grafica simbolica che possiamo decidere
di rispettare o meno: parentesi ad angolo, o delimitatori, racchiudenti il nome dell’elemento, cioè l’identificatore dell’elemento, come tag d’apertura
(elemento>;); stesse parentesi ma con l’identificatore preceduto dal simbolo dello slash / per il tag di chiusura (/elemento>;). È possibile anche
associare agli elementi degli attributi, che possiedono un determinato valore.

Più esattamente diremo che SGML è dotato di una sintassi astratta che spiega come operare il markup di un documento testuale, fornendo regole
che istruiscono l’utente su come aggiungere i marcatori, senza però fornire norme specifiche sui nomi per elementi ed attributi.
SGML non fornisce dunque nessuna indicazione circa il vocabolario per gli elementi, né speciali caratteri in qualità di delimitatori.
Per questo è lecito affermare che SGML più che un linguaggio è un metalinguaggio che fornisce esclusivamente le regole sintattiche necessarie
all’edificazione di altri linguaggi di markup di testi. Dal momento che SGML ragiona per classi di documenti diremo che ciascuno di tali linguaggi
derivati si configura come un peculiare modello del testo o, più esattamente, di un insieme di testi aventi caratteristiche logico-strutturali analoghe.

Il concetto di DTD
Il valore dei marcatori va specificato in un vocabolario di marcatura, che è detto “definizione del tipo di documento”, o DTD (Document Type
Definition).
La DTD è quindi la grammatica del metalinguaggio o anche il linguaggio impiegato per la rappresentazione di determinati parametri logico-
strutturali di gruppi di documenti aventi le medesime caratteristiche.
Si pensi alla tradizionale suddivisione per il testo letterario fra testo in prosa, testo in versi, testo drammatico, testo parlato, ecc. Ciascuno di questi
macro-raggruppamenti è un tipo di documento. Ma anche il testo letterario in sé può essere considerato tale.
Si tratta di quello che è chiamato lo schema di codifica o modello cui un testo fa riferimento, che ha il compito di definire,da un lato, i diversi aspetti
della fonte che possono essere oggetto di intervento interpretativo e, dall’altro, specificare il vocabolario associato a ciascuno degli aspetti.

Caratteristiche della DTD (in essa sono elencati e definiti tutti gli oggetti necessari all’elaborazione di un adeguato linguaggio di codifica):

• i marcatori per gli elementi (elements) che identificano la serie delle proprietà di un testo o di una certa classe di documenti; per ciascuno di tali
elementi è definito un nome convenzionale che qualifica la proprietà strutturale della porzione della fonte che andrà ad identificare: p.e. ‘t’ per
testo, ‘intro’ per introduzione, ‘cap’ per capitolo, ‘p’ per paragrafo, ‘n’ per nota, ecc.;
• la descrizione del contenuto di ogni elemento (content model), quindi quali altri elementi possono apparire, con quale ordine e con quale
frequenza (una sezione sarà suddivisa in paragrafi, ogni un paragrafo potrà contenere parole e le parole potranno contenere lettere);
• i marcatori per gli attributi (attributes) assegnabili ad un qualsivoglia elemento (un titolo potrà essere caratterizzato dalla sua tipologia di livello,
un capitolo dal suo numero progressivo, ecc.);
• i simboli (stringhe di testo ascii/Unicode) per le entità (entities) che possono occorrere all’interno del documento e che rappresentano: caratteri
non esistenti nel code set impiegato alla codifica, forme contratte che vanno estese in fase di layout (per esempio un’abbreviazione), oggetti esterni
(altri file sgml o non- sgml).

Set di caratteri in SGML: ISO 646, comune nel mondo anglofono, che corrisponde alle posizioni 0-127 della tavola ASCII.
Se si verifica la necessità di rappresentare caratteri o simboli speciali (lettere accentate maiuscole) che non vi rientrano, SGML consente l’impiego
dei riferimenti di entità.
La sintassi che regola la costruzione delle entities prevede la “&”come segnale di inizio codifica e il “;” come quello di fine codifica; tra i due si
dovrà inserire il carattere da codificare affiancato da una descrizione predefinita della codifica (es. e maiuscola accentata grave—>; È).
ISO 646 viene però considerato insufficiente nei paesi che usano lingue differenti dall’inglese in quanto potrebbero esigere alfabeti completamente
diversi. SGML offre la possibilità di specificare un altro set di caratteri che si intende utilizzare, consentendo l’adozione di una tabella alternativa
all’ASCII standard—>; punto di forza: sostanziale indipendenza dalle lingue.

HTML
L’HTML (HyperText Markup Language) è un formato non proprietario basato sull’SGML, più precisamente è una DTD SGML, che nasce quindi nel
rispetto delle specifiche della sintassi dello standard e che prescrive un vocabolario legato a quella classe di documenti che sono gli ipertesti. Nato
agli inizi degli anni ‘90 e ideato da Tim Berner Lee, il padre fondatore del WWW.

Limiti della prima versione di HTML:


• incapacità di fornire un’adeguata rappresentazione dell’info;uno dei problemi che inficiano l’architettura del web limitandone le potenzialità
• non modificabile, quindi chiuso: l’autore può scegliere entro un numero predefinito di elementi, capaci di descrivere solo taluni fenomeni testuali e
non ha la facoltà di esplicitarne di diversi.
• scarsamente strutturato, dotato di una sintassi poco potente, incapace di descrivere fenomeni complessi o informazioni altamente organizzate.

• spiccata predilezione per marcatori stilistici più che strutturali, cioè una codifica improntata alla descrizione dell’aspetto fisico del documento
piuttosto che alla struttura logica.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Anche se deriva da un linguaggio dichiarativo la serie dei fenomeni che è in grado di rappresentare è di tipo principalmente presentazionale: la
maggior parte degli elementi del vocabolario HTML, fino alla versione 4.01, si concentra sulle caratteristiche visuali del documento (colore e
dimensione dei font, tipo di caratteri, allineamento delle sezioni ecc). Ora con HTML5 alcuni problemi sono stati superati...

XML
[Nato per consentire a un metalinguaggio di essere esso stesso un sistema di produzione di file e per superare i limiti dell’ HTML] Il W3C ha optato
per la realizzazione di una versione semplificata dello standard ISO SGML che ha portato allo sviluppo dell’XML.
Il progetto ha avuto inizio alla fine del 1996, nell’ambito della SGML Activity del W3C e nel Febbraio del 1998 le specifiche sono divenute una
raccomandazione ufficiale, con il nome Extensible Markup Language (XML) versione 1.0.
XML è dunque un sottoinsieme di SGML semplificato ed ottimizzato specificamente per applicazioni in ambiente Word Wide Web.
Si tratta dunque, come il suo predecessore, di un metalinguaggio, che permette di specificare molteplici classi di linguaggi di marcatura, e non
quindi una semplice applicazione SGML come HTML.
La grande novità che caratterizza XML è la descrizione logica delle informazioni testuali in un formato leggibile e comprensibile dall’utente,
prescindendo dalle indicazioni relative a come i dati devono essere visualizzati; solo in un secondo momento i dati marcati in XML possono ricevere
istruzioni circa le modalità di visualizzazione e di formattazione. Questo è possibile tramite l’impiego di un altro linguaggio: XSL (Extensible
Stylesheet Language).
Pur supportando XML i fogli di stile a cascata (CSS) esiste già una specifica per i fogli di stile, pensata per XML: l’ XSL—>;usandolo si assicura che i
documenti XML risultino formattati nello stesso modo, indipendentemente dall’applicazione che si utilizza o dalla piattaforma di visualizzazione.
Il foglio di stile, oltre ad assegnare un certo layout al documento, consente di:

• amministrare viste diverse sullo stesso file —>; a un unico doc XML possono essere associati diversi fogli di stile, ciascuno orientato alla
visualizzazione di solo certi fenomeni codificati;
• realizzare indici automatici selezionando le sole stringhe comprese tra due marcatori che identificano un certo elemento dell’indice;
• riorganizzare la successione lineare degli elementi all’interno del documento;
• creare collegamenti ipertestuali fra porzioni codificate; ecc —>; potente strumento per la gestione del dato marcato, utile da un lato a separare la
struttura dal lay-out ma anche indispensabile per automatizzare operazioni di processing sul markup.

XML, struttura logica, albero gerarchico

Un markup XML esprime quindi il valore della stringa di caratteri cui il tag è associato a prescindere dalle modalità di resa grafica. Focalizza la
codifica sulla struttura e quindi sul valore dei blocchi logici, documentando l’ordinamento gerarchico che sovrintende all’organizzazione degli
elementi della fonte.

DTD e XML Schema


A seconda delle esigenze del markup e della classe di appartenenza del documento, è possibile specificare in modo personale la serie dei marcatori
utili alla descrizione del documento.
I tags utili possono essere quindi creati a piacimento e ciascun elemento essere poi specificato nella definizione del tipo di documento (DTD) o in un
XML Schema, un constraint language che permette di descrivere la struttura dei documenti XML tramite la stessa sintassi XML.
Si tratta del nuovo sistema elaborato dal W3C, al fine di consentire di superare i limiti della DTD, che, essendo scritta con una sintassi differente da
quella dell’XML, non può essere trattata con gli stessi strumenti software in uso per l’XML.
In più la DTD non sa distinguere fra tipi di dati ed elementi XML che appartengono a un dato tipo. Con XML schema è possibile definire dei tipi di
dati e poi dichiarare quali elementi fanno parte di ciascun tipo. Si tratta di un linguaggio formale “espressivo” perché adeguato alle caratteristiche
sintattiche del file XML.

Documenti
VALIDI e BEN FORMATI
Dunque anche un singolo esemplare di documento conforme a XML può essere associato ad uno schema (ci riferiremo sia alla DTD che all’XML
Schema) che ne specifica la grammatica, nel senso di vocabolario degli elementi e relazioni gerarchiche fra gli stessi.
Il documento XML che fa riferimento ad uno schema si dice ‘valido’. Tuttavia a differenza di SGML, XML consente la distribuzione anche di
documenti privi di schemi, documenti well-formed, cioè ‘ben formati’, che rispettano le regole XML per la formazione e la collocazione dei marcatori,
pur senza richiedere il riferimento ad uno schema.

Caratteristiche sintattiche di XML

• XML richiede il rispetto di regole sintattiche rigide, che consentono però la leggibilità del file risultante su qualsiasi piattaforma.
• XML è case sensitive: il case (minuscolo o maiuscolo) utilizzato per i nomi degli elementi deve essere il medesimo in apertura e in chiusura.
• ll valore dell’attributo va sempre posto fra virgolette: immagine riferimento=“img.jpg”/>;.
• Si rende necessario un corretto annidamento dei marcatori: NON a>;b>;/a>;/b>; MA a>;b>;/b>;/a>;.
Questo vincolo dell’XML, derivato dall’SGML, limita la rappresentazione di fenomeni testuali concorrenti e impedisce la gestione di due strutture che
si intersecano, cioè delle gerarchie sovrapposte.
• Deve esistere un tag che contiene tutti gli altri, il tag root (radice).
• Possono essere utilizzati elementi ‘vuoti’, vale a dire marcatori che non racchiudono blocchi o porzioni di testo ma forniscono un’indicazione come
la fine di una riga, il cambio di una pagina, ma anche l’inserimento di un’immagine ecc. La forma può essere o tagvuoto/>; oppure
tagvuoto>;/tagvuoto>;.
• La “dichiarazione XML” (prima riga: ?xml version=“1.0” encoding=“ISO-8859-1”?>;) —>; specifica la versione del doc (DEVE comparire nel
prologo) e il set di caratteri utilizzato (encoding).
Il set ISO 8859-1 (ISO Latin 1) contiene i caratteri principali delle lingue occidentali con alfabeti latini ed è utilizzato in molte delle applicazioni
Internet (web).
Il punto interrogativo segnala la presenza di un’istruzione di elaborazione.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

• L’”istanza del documento”: l’elemento radice che comprende la serie dei tags in struttura gerarchica ecc..

XML per la rappresentazione di dati semi-strutturati


XML è detto linguaggio self-describing: ha gli strumenti sufficienti per essere autonomo nella descrizione di un documento.
Da un lato è un sistema per la descrizione analitica di ipotesi interpretative ,dall’altro è un formato di interscambio tra applicazioni, una notazione
condivisa che permette alle macchine di capirsi.
Questo anche perché XML è in grado di rappresentare un particolare tipo di dato, detto semi-strutturato.—>; un doc marcato tramite XML è detto
semi-strutturato.

Dati strutturati e non strutturati


Un romanzo, un saggio, un articolo NON sono o sono scarsamente strutturati, al contrario di una descrizione bibliografica.
In termini di file: file formato solo testo —>; formato database. In termini di documenti data centric (centrati sul dato) e document centric (centrati
sul documento): oggetti centrati sui dati dispongono di una struttura identificabile chiaramente, quelli centrati sul documento sono quelli con una
struttura sommariamente risolvibile ma tale distinzione non è sempre così netta —>; situazioni semi-strutturate.
Data centric gli oggetti che possono essere rappresentati in un database mentre document centric quelli che sono meglio rappresentati usando
tecnologie di markup. XML è in grado di risolvere documenti di entrambi i tipi : da un punto di vista data centric consente di assegnare al dato una
struttura tramite l’impiego degli elementi; oggetti dell’altro tipo sono invece pensati per essere letti da un utente umano e quindi XML si colloca a
livello di descrizione degli elementi costitutivi.
XML crea comunque oggetti semi-strutturati perché rispetto ai DB non ha meccanismi utili a definire le operazioni che possono essere compiute
sull’oggetto digitale realizzato. —>; XML è un formato di dato, un sistema per la codifica con obiettivi di conservazione e scambio di dati; codifica
che rappresenta il dato assegnandogli una struttura ma non fornisce meccanismi per computarlo.

Struttura del dato (rappresentazione) - modello del dato (contenuto):


1) modalità di organizzazione delle sue parti ( grafo,tabella ecc), dalla struttura dipendono le operazioni;
2) le operazioni che si possono fare sui valori delle diverse componenti.

XML si dovrà dotare di un sistema di modellazione concettuale simile a quello dei DB per consentire alle applicazioni di fare interrogazioni sulla
semantica dei dati. Tale modello è l’ontologia: definizione, rispetto a un dominio, di concetti e relazioni tra i concetti.
Infatti la DTD o lo schema non assegnano una semantica all’XML ma assegnano un vocabolario (denominazione degli elementi tramite un lessico
convenzionale) e una sintassi ( relazioni di dipendenza gerarchica fra gli elementi).
XML prevede l’interazione con una serie di strumenti per la creazione, interrogazione e trasformazione dei dati,possiede strumenti di DDL e DML
tipici dei DB (definizione dello schema e interrogazione/manipolazione).
Come formato di DB XML ha una serie di vantaggi: è self-describing, è portabile e può descrivere i dati sottoforma di struttura ad albero. MA creare
file XML non è sufficiente a creare un sistema informativo nemmeno se si dispone di uno schema di riferimento, dunque è un formato di
rappresentazione dei dati.

IL MARKUP COME PROCESSO: RIPRODUZIONE O INTERPRETAZIONE?


Il testo è un oggetto complesso alla cui realizzazione concorrono elementi diversi che cooperano alla formulazione del concetto di testo come
architettura a livelli. All’atto della rappresentazione digitale alcune proprietà vengono riprodotte , mentre altre, ritenute irrilevanti vengono omesse.
La rappresentazione è un processo di astrazione e quindi è una selezione: modello del testo come scelta di determinati aspetti che, dell’oggetto
digitale, si intendono rappresentare a discapito di altri. Molteplici livelli analitici, molteplici potenziali interventi—>; non è possibile intervenire su
tutti i livelli dell’analisi in quanto ogni operazione di digitalizzazione e successiva marcatura richiede l’esplicitazione di un punto di vista ma è
indispensabile realizzare un prodotto che potrà essere suscettibile di multiformi elaborazioni computazionali. In questo senso si comprende la
flessibilità di un sistema di notazione, XML, che permette di rappresentare qualsiasi aspetto del testo e di esprimere livelli diversi di interpretazione
della fonte.
Non esiste un modello universale del testo: ogni modello è il risultato della specificità della risorsa (tipologia documentaria) e del punto di vista
assunto, quindi dell’analisi testuale che si vuole fare.

Due presupposti è necessario chiarire in fase di realizzazione di un oggetto digitale:

• tipologia degli strumenti da utilizzare in fase di produzione


• varietà degli interventi interpretativi che si possono definire nell’analisi testuale.

Sulla base di questi presupposti l’impiego dei linguaggi di markup dichiarativo risponde a una duplice esigenza:

• realizzare prodotti portabili e quindi svincolati da un linguaggio proprietario; in più ricorrendo al solo set ASCII/Unicode non si pone il pericolo
della deperibilità nel tempo;
• effettuare un’interpretazione delle diverse istanze dell’oggetto direttamente proporzionale agli aspetti che si vogliono indagare. Nello specifico si
porranno problemi a un duplice livello di markup:

- aspetti testuali: il testo nel suo valore astratto, come sequenza di stringhe di caratteri
cui assegnare una funzione logica
- dimensione documentaria: la concretizzazione materiale del testo

Il markup è dunque un processo autodescrittivo, una descrizione della struttura del testo tramite il sistema stesso di scrittura, che permette di
esplicitarne caratteri altrimenti impliciti.
Ma l’operazione di codifica non è mai un atto neutrale, è il riflesso di un’attività interpretativa volta alla rappresentazione dei molteplici livelli del
testo—>; la codifica dei caratteri e il markup sono espressione della personale teoria del testo che il codificare intende porre in atto—>; qualunque
livello di codifica è attività semiotica.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

PROBLEMI TEORICI DEI LINGUAGGI DI MARKUP: LA NOZIONE DI TESTO


Il testo, così come è inteso dai linguaggi di markup, è un’organizzazione rigidamente gerarchica degli elementi costitutivi.
Questa teoria, chiamata OHCO ( Ordered Hierarchical Content Objects ), presenta dei limiti derivati dalla modalità di rappresentazione
dell’informazione imposta dai linguaggi di markup (SGML/XML).
Infatti non tutti gli oggetti testuali sono rigidamente gerarchici e dunque l’imposizione gerarchica pone restrizioni alla rappresentazione di strutture
“fluide” come le varianti d’autore e anche le gerarchie concorrenti non sono facilmente rappresentabili in una struttura gerarchica in quanto
possono inficiare l’organizzazione logica degli elementi. Il problema delle gerarchie sovrapposte è che esse rompono la “ben formatezza” dell’ XML.
E’ possibile affrontare il problema soprattutto focalizzando sul concetto dei modelli formali, elaborabili a seconda della prospettiva analitica assunta
sul testo.
La teoria OCHO sostiene che quando due strutture si sovrappongono, appartengono a due livelli diversi di interesse interpretativo e deve quindi
essere fatta una scelta su quale livello si vuole descrivere.
Accanto alla necessità teorica di definire un punto di vista, è stato proposto a livello tecnico lo stand-off markup (out of line markup) , cioè
un’annotazione del testo non embedded, ma salvata in un documento a parte e richiamata dal file XML contenente il testo.

Ambiguità della nozione di testo—>; Sperberg-McQueen distingue tra markup presentazionale e markup analitico.
Da un lato possiamo rappresentare un fenomeno tipografico, dall’altro assegniamo alla stringa un valore di contenuto.
MA se consideriamo il corsivo come facente parte del testo allora il testo non può più essere considerato una sequenza invariabile di stringhe di
caratteri e si sconfina nella nozione di documento ( esemplare materiale che attesta la sequenza dei caratteri e assegna al testo determinate
caratteristiche fisiche).
Se quindi certi fenomeni tipografici possono essere considerati irrilevanti ai fini della codifica, altri hanno valore per l’analisi del contenuto
informativo e quindi dal momento che indicano fenomeni semantici devono essere oggetto di markup analitico.
Il testo come successione di invarianti grafiche non esiste perché ogni scelta fa riferimento a un documento che quel testo trasmette.
All’atto della memorizzazione elettronica esiste dunque un testo come riprodotto da uno specifico esemplare materiale, una sequenza, codificata e
variabile, di “significati grafici” . Ecco allora che il concetto di testo si espande e si amplifica, si relativizza e si complica.

LE GRAMMATICHE STANDARD PER LA RAPPRESENTAZIONE DEI DATI UMANISTICI


Perché uso un linguaggio di markup?

- Voglio fare un sito web


- Voglio descrivere caratteristiche strutturali di un testo: per fare un ebook, per fare una biblioteca digitale, per scambiare documenti fra ambienti
diversi, per interrogare semanticamente un testo, per conservare un dato a lungo termine.

Linguaggi di markup a base SGML-XML:


HTML XHTML —>; pensati per la creazione di siti web; manipolazione interfaccia web

Vocabolari che possono essere ‘serializzati’ in XML:

TEI – Text Encoding Initiative


DC – Dublin Core
Ma anche PREMIS, EAD, MARC, METS, MAG, RDF, MODS, DocBook, etc.
Dublin Core (DC)

Abbiamo visti che la DTD HTML propone, tramite il tag META>; , una prima forma di auto-indicizzazione delle pagine Web, utile a descrivere le
proprietà di una risorsa. Fra le iniziative proposte per la definizione di un vocabolario più ricco,ma anche controllato e portabile, per i metadati
rappresenta uno degli schemi più appropriati il Dublin Core (nome completo: Dublin Core Metadata Initiative, in acronimo DCMI) ,sviluppato in
ambito OCLC (On line Computer Library Center), la grande rete di servizi americana per le biblioteche.
Nel marzo 1995 si è tenuta una conferenza nella città americana di Dublin (Ohio), alla quale i partecipanti – bibliotecari, archivisti, editori,
ricercatori e sviluppatori di software – hanno convenuto sulla necessità di creare un insieme di strumenti condivisi per l'accesso alle risorse digitali.
Lo scopo era quello di stabilire un insieme base di elementi descrittivi che potessero essere forniti dall'autore o dall'editore dell'oggetto digitale, ed
inclusi in esso, o da esso referenziati. Il consorzio di utenti che si è costituito ha incominciato così a sviluppare un'architettura per i metadati che
venisse incontro alle necessità dei venditori e dei produttori di informazioni.

Le caratteristiche principali sono:


• fornire un elenco prestabilito di nomi di marcatori , facilmente memorizzatile e applicabile alle risorse Web;
• garantire il suo utilizzo tramite diversi linguaggi formali perché il DC è indipendente da qualsiasi sintassi e può quindi essere utilizzato in una
pagina HTML o XML, ma anche impiegato in schemi.

Il nome deriva dal fatto che tale progetto è considerato il nucleo delle meta-info interessanti per qualunque risorsa .
La descrizione elettronica si avvicina tramite il vocabolario DC alla catalogazione libraria.
DC versione 1 ha stabilito 15 categorie di meta-info , opzionali e ripetibili (VEDI LABORATORIO): title, creator, subject, description, publisher,
contributor,date,type, format, identifier,source, language,relation,coverage,rights.
La versione 2 ha aggiunto un meccanismo di specificazione delle categorie, i qualificatori, introducendo un elenco iniziale di denominazioni per tali
oggetti. L’obiettivo è rendere meno ambiguo il significato di certi elementi DC e consentire l’associazione di certi elementi a vocabolari controllati
(schemi predefiniti e condivisi), cioè permette di usare i valori di particolari codifiche all’interno del DC.

La notazione formale prevede di separare i livelli analitici tramite il punto fermo.


I qualificatori si presentano sottoforma di attributi aggiunti all’interni del marcatore META>; (fra cui SCHEME).

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

L’attributo CONTENT ospita il valore associato a ogni elemento DC e , nel caso di qualificazione per uso di uno schema, riporta il valore nella forma
prevista dallo schema stesso.

La sfida dell'interoperabilità
Il Dublin Core permette la descrizione di una grande varietà di risorse in formati diversi; ed è anche abbastanza generale da includere ogni
indicazione di contenuto semantico. Data la sua semplicità il Dublin Core è correntemente molto utilizzato e praticamente tutti gli standard e i
progetti fanno riferimento ad esso e ne specificano una mappatura.
Il Dublin Core è tuttavia troppo generale per la descrizione di risorse specifiche in modo adeguato; spesso i service provider sono costretti a
personalizzare lo schema per soddisfare le esigenze particolari, con il risultato, certo non desiderabile, che, pur utilizzando lo stesso schema, non
sono direttamente interoperabili, se non mappando i rispettivi profili applicativi.
Quello che però può apparire come un limite, rappresenta in un certo senso anche un punto di forza per il Dublin Core, che non costringe
l'indicizzatore ad un'eccessiva rigidità nella registrazione delle caratteristiche di una risorsa, consentendogli di creare specifiche dettagliate qualora il
dato che deve essere descritto ne richieda la necessità.
Il formato Dublin Core, oltre che per la sua semplicità di utilizzo, che gli consente di rivolgersi sia a non catalogatori che a specialisti, si caratterizza
per l'interoperabilità semantica, che stabilisce una comune rete di dati concordati nel loro significato e valore; e per la flessibilità, che permette di
integrare e sviluppare la struttura dei dati con significati semantici diversi ed appropriati al contesto di applicazione.

Text Encoding Initiative (TEI)


Per agevolare la portabilità dei prodotti digitali in ambito umanistico e per consentire la condivisione dei formati di scambio è stato realizzato un
progetto denominato TEI (Text Encoding Initiative).
La TEI è una DTD o modello di codifica che vuole contemplare tutta la serie dei fenomeni di interesse umanistico e trovare, per ciascuno di essi, un
vocabolario unico al fine di arrivare ad una formalizzazione utile a normalizzare i criteri, le modalità e il lessico del markup, di fronte alla polisemia
del linguaggio naturale.

Potremmo definire la TEI come una grammatica avente il compito di assegnare un vocabolario normalizzato all’XML, metalinguaggio che fornisce
esclusivamente norme sintattiche.
A partire dal 1987 le tre maggiori associazioni mondiali di studiosi di scienze umane attraverso metodologie informatiche, la Association for
Computers and the Humanities (ACH) la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing
(ALLC) hanno avviato un progetto internazionale per sviluppare un modello di codifica normalizzato che mettesse ordine fra modelli e linguaggi di
rappresentazione dell’informazione testuale in formato elettronico.
Questo progetto è stato denominato Text Encoding Initiative (TEI) e ad esso hanno attivamente collaborato un gruppo di studiosi provenienti da
differenti paesi.
Il lavoro delle commissioni, iniziato nel 1989, ha condotto alla realizzazione di una vasta e complessa DTD (Document Type Definition) per SGML, le
cui caratteristiche sono state per la prima volta presentate nella pubblicazione del 1994, con titolo Guidelines for Electronic Text Encoding and
Interchange (TEI P3). Nel 2002 è stata rilasciata la TEI P4, per venire incontro all’esigenza di prevedere, anche nelle Guidelines, l’adeguamento
della rinnovata DTD alla sintassi XML.
Nel 2008 è stata rilasciata la TEI P5, che ha comportato una sostanziale revisione delle TEI Guidelines (compresa la realizzazione di una versione
della TEI basata su XML Schema che si affianca alla DTD).
Predilezione per un markup di tipo dichiarativo, tuttavia sono previsti anche marcatori di tipo procedurale, utilizzabili quando sia necessaria una
forte aderenza del testo elettronico all’originale cartaceo (descrizione caratteristiche fisiche).
La TEI definisce uno schema generale, essenzialmente orientato all’ambito umanistico,non rigido—>; gli elementi previsti sono oltre 500 ,molte
caratteristiche strutturali possono essere sottoposte a diversi tipi di markup e lo schema prevede modifiche ed estensioni.
Al fine consentire un’universale applicabilità, si è optato per una divisione della DTD in molteplici frammenti, ognuno impiegabile a seconda della
tipologia testuale da indagare (testo in prosa, testopoetico, testo drammatico, fonte manoscritta) o a seconda degli scopi di ricerca (codifica a fini
editoriali, a fini di analisi linguistica, tematica, ecc.).
Per agevolare l’apprendimento e l’impiego della schema i progettisti hanno previsto, nello specifico, una divisione in tre grandi blocchi, ognuno
strutturato in frammenti: core tag set ( elementi presenti in tutti i doc TEI, compresi i metadati); base tag set, suddiviso in prosa, versi, testo
drammatico,testi parlati ecc..; additional tag set in cui sono compresi link, analisi stilistica,nomi e dati, immagini ecc..

TEI Lite
È stato elaborato anche un sottoinsieme della TEI, denominato TEI Lite, che dovrebbe consentire la diffusione del progetto di codifica, senza
impegnare l’utenza ad apprendere lo schema nella sua interezza.
Si tratta infatti di una versione semplificata dell’intero schema di codifica definito dalla TEI, che permette di facilitare la realizzazione di testi in
formato elettronico, senza richiedere lo studio dell’intero schema e consentendo quindi la creazione di documenti tei-compliant, cioè compatibili.

Struttura TEI: testo e metadati


Scendendo nel dettaglio, diremo che ogni testo codificato conformemente alle specifiche della TEI è costituito da due parti:

• un TEI header (“testata”), contenente le informazioni editoriali concernenti, a diverso livello, il documento elettronico;
• un TEI text contenente la trascrizione codificata del testo in versione integrale.

TEI header
Diremo che nella “testata” della TEI sono raccolte tutte le informazioni utili per:

• descrizione bibliografica del testo elettronico e del suo esemplare originale di riferimento
• modalità e caratteristiche della codifica,
• note non bibliografiche e revisioni.

Queste notizie possono definirsi come i metadati della risorsa, cioè le meta-informazioni utili a descrivere

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

il testo elettronico prodotto e il documento materiale utilizzato come esemplare per la trascrizione digitale

TEI text
L’elemento text si divide, a sua volta, in quattro elementi: front>; (opzionale),
body>; (obbligatorio),
group>; (obbligatorio)
back>; (opzionale)

Front>; e back>; sono necessari qualora il documento riporti delle informazioni, a livello paratestuale, all’inizio o alla fine del testo vero e proprio
(per esempio all’inizio si possono trovare un indice, un’intestazione, una prefazione, una dedica, ecc.; alla fine un glossario, un indice, un’appendice,
una postfazione, ecc.), delle quali si necessita operare una codifica.

body>; è l’elemento che introduce il corpo del testo.

group>; è da impiegarsi nel caso di una serie di testi facenti parte della medesima pubblicazione, ognuno dotato della propria individualità (ognuno
con un proprio front, body e back)

All’interno dell’elemento body>; ci saranno ovviamente una serie di suddivisioni ulteriori, necessarie a definire la struttura interna del testo
indagato, in modo direttamente proporzionale alla tipologia di testo (prosa, versi, testo teatrale, dizionario, parlato, ecc.).
Tali suddivisioni evidenzieranno la scansione logica del testo e la sua articolazione in sezioni di vario livello (div>;), in paragrafi (p>;) se necessario
in linee (l>;), titoli (head>;), ecc.

Saranno necessari marcatori differenti a seconda del tipo di testo codificato e a seconda dei fenomeni che si intendono marcare.
Allora alla codifica della struttura si aggiungerà quella di alcuni elementi ritenuti necessari alla descrizione della fonte o agli scopi della ricerca: nomi
di persona, discorsi diretti, parole in lingua straniera, note, date, citazioni bibliografiche, liste, etc.
(elemento indexing per indicizzare un fenomeno; attributi id o n per qualificare univocamente una porzione di testo o elementi milestones per
segnalare un punto specifico da marcare)
Una codifica adeguata deve considerare in prima battuta la natura del testo—>; due posizioni nel dibattito sul principio del WHAT IS TEXT: il testo
come invariate di segni grafici, oggetto astratto, gerarchicamente organizzato e il testo come fenomeno in primis materiale, in cui gli elementi
relativi alla forma grafica e materica svolgono un importante ruolo semiotico.

5. IPERTESTI E IPERMEDIA: progettazione e sviluppo

L’ipertesto può essere considerato un modello, in quanto rappresentazione di una certa porzione della realtà osservata dal progettista e fruita dal
lettore. Definizione: ogni forma di testualità (parole,immagini, suoni) che si presenta in blocchi o frammenti testuali o anche in unità di lettura
collegati tra loro da link.
Un tipo di strutturazione delle info che consente al lettore di percorrere, in modo interattivo, una grande quantità di info in modi scelti dal lettore
stesso e insieme previsti dall’autore.

• Multisequenzialità e multinearità: organizzazione dei contenuti in modo che siano liberamente fruiti dal lettore secondo il suo progetto di ricerca.
Autonomia della lettura trasversale dei materiali , non unico percorso di lettura e non necessariamente pagina dopo pagina. Anche se la presunta
libertà è veicolata comunque dalle scelte di collegamento fra le unità di contenuto definite dall’autore.
• Interattività: possibilità offerta al lettore di manipolare i documenti, di agire nel testo e con il testo, di compiere delle scelte e prendere decisioni.
MA l’iperteso può anche essere pensato come luogo condiviso di lavoro e l’interattività un momento del dialogo collettivo.
• Multimedialità: associazione dei media. I diversi formati che possono essere utilizzati per la creazione di un iperteso permettono di parlare di
ipermedia.

L’iperteso non è un oggetto stabile e definito ma un organismo potenzialmente in evoluzione e quindi al lettore è richiesto un adeguamento
progressivo.

E’ un concetto che nasce da una riflessione teorica degli anni ’40 attorno alla necessità di collegare informazioni tra loro.
Il suo adeguamento in ambiente digitale è posteriore.
Con l’avvento di Internet e del Web il concetto ha iniziato a circolare in maniera diffusa.
E’ solo negli anni novanta che trova nell’HTML il linguaggio per comunicare, nell’HTTP il protocollo per circolare sulla rete Internet, nell’URL il
sistema di indirizzamento univoco dell’informazione e nel browser il software di interfaccia.

PROGETTAZIONE E SVILUPPO DI RISORSE INFORMATIVE DIGITALI SUL WEB

Web project management: Tempi (durata del progetto); costi (risorse umane e finanziarie) e qualità (rispondere alle esigenze dell’utente).
Project management: gli step
Brief: finalità e obiettivi del sito; pubblico di riferimento; tipo di utilizzo del sito; connessione; contenuti già disponibili.
Benchmark: contenuti (testi, immagini, audio e video); design (template di pagina e architettura, colori, font, etc.); tecnologie (HTML e CSS).
Contenuti: mirati al topic e al target; realistici e utili; concisi e incisivi fin dalle nelle prime righe; ricchi di personalità e accattivanti.

La mappa concettuale: schema dell’ipertesto


Il primo passo per la progettazione è costituito dall’elaborazione della rete delle correlazioni che sussistono fra i concetti coinvolti in un progetto
digitale.
Si parla di mappa concettuale per definire il rapporto che intercorre fra le varie unità logiche di informazione.
La mappa ragiona per parole chiave, e ha l’obiettivo di permettere di definire quale tipo di connessione logica esista fra tali parole.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Popolare il sito con i contenuti è momento successivo a quello della mappa, che scaturisce dalla riflessione su quali siano i temi che si intendono
affrontare, e rappresentare, e quali siano quindi le associazioni che, tra tali contenuti, è possibile stabilire.
La mappa, che potremmo tradurre nello schema dell’ipertesto (struttura gerarchica delle dipendenze), è affine alla modellazione concettuale, come
definita nel campo della progettazione di una base di dati.
Anche il modello E/R può essere una notazione funzionale alla rappresentazione dei collegamenti fra i concetti coinvolti nel progetto ipertestuale

Dalla mappa all’ipertesto


All’atto della realizzazione pratica di un sito Web dovremo risolvere alcune questioni basilari e porci alcune domande che veicoleranno poi le
modalità di implementazione: obiettivi informativi,utenza privilegiata,uso funzionale dei media ,i luoghi ,le date.

• Obiettivi informativi: qual è il contenuto? E quindi quale obiettivo informativo si pone l’ipertesto? È necessario in questa fase definire, sulla base di
questi interrogativi, quali sono i materiali che andranno a popolare le pagine dell’ipertesto. Contenuto e obiettivo informativo rimandano alla
nozione di genere o categoria e quindi di tipo: Categorie: letteratura, arte, spettacolo, cinema, etc. Tipo: sito personale, rivista, quotidiano, sito
divulgativo, sito per specialistici, etc.
• Utenza: a chi è rivolto il messaggio? È necessario stabilire l’audience dell’ipertesto, cioè definire a quale comunità di utenti si rivolge, quali sono i
bisogni informativi del pubblico cui l’ipertesto è destinato. Bisognerà allora riflettere sulla scelta dei materiali e sulle modalità della loro
organizzazione, anche alla luce delle possibili tipologie di lettori.
• Uso dei media : qual è il mezzo di comunicazione prescelto? L’integrazione dei media, come abbiamo detto, costituisce uno dei punti di forza
dell’ipertesto: testo, immagini, suoni, video, animazioni. Si tratta di oggetti che possono essere integrati in una pagina HTML, ma ricordando che è
necessario valutare anche le disponibilità tecnologiche di chi visita l’ipertesto.
Non si deve dunque abusare di questi mezzi, ma utilizzare le informazioni multimediali in modo equilibrato e funzionale.
• I luoghi: dove siamo? L’utente deve sempre capire, in termini di luogo della navigazione, dove si trova.
Bisognerà quindi pensare ad un sistema di navigazione chiaro e funzionale, che aiuti l’utente a comprendere il contenuto dell’ipertesto e lo metta in
grado di sapersi orientare fra i materiali. Sarà necessario quindi predisporre strumenti che facilitino la navigazione.
• Le date: quando lo facciamo? Si allude alla rilevanza delle date: di aggiornamento dei contenuti e di creazione degli oggetti.
È molto importante che l’ipertesto contestualizzi cronologicamente la produzione degli oggetti digitali ed il loro eventuale aggiornamento: quando la
risorsa è stata creata e quando ogni singola pagina è stata modificata.

Strutture per ipertesti


Modalità di creazione dei collegamenti fra le pagine—>; ipertesti a sequenza lineare; a struttura gerarchica o ad albero (da una pagina radice si
diramano altre pagine di primo livello gerarchicamente ordinate); a griglia (combinazione delle due precedenti: a ciascun nodo a cui si accede in
modo lineare, si aggiunge la possibilità di approfondimento con nodi disposti su una struttura ad albero); a struttura di rete o a grafo ( tutte le
pagine possono essere collegate fra loro, contemplato ogni percorso di lettura:
più utilizzata)

Oltre la struttura: architettura e comunicazione


Uno dei principali rischi dell’ipertesto è il disorientamento. Diremo che la possibilità di lettura multilineare e multisequenziale comporta il rischio della
perdita dell’orientamento, generando peraltro nel lettore un senso di ‘mancanza di centro’.
A questo si aggiunga che l’attenzione è tutta rivolta ai link, sui quali abitualmente si concentra il lettore.
Ecco allora che: il salto da un link all’altro può essere compiuto senza una ragione specifica, che si diventa consapevoli del contenuto della pagina di
destinazione solo dopo aver visualizzato la pagina stessa, che il salto, specialmente se comporta cambio di videata, rispetto alla pagina corrente,
può far dimenticare l’idea che aveva motivato l’attivazione del link.
Ma soprattutto accade spesso che se l’associazione ha senso per l’autore non ne ha per il lettore. A questo si aggiunga che la sperimentazione di
effetti audio e video, l’uso dei colori e degli stili, dei tipi di carattere e degli elementi di formattazione possono distrarre l’autore, facendogli
dimenticare i reali bisogni informativi dell’utente.
Ecco allora che l’architettura dell’ipertesto da un lato e le metodologie della comunicazione dall’altro devono essere oggetto di accurato studio e
riflessione.

Architettura
Con architettura si intende l’organizzazione dell’ipertesto nelle sue pagine: come si articola e da quali elementi è costituito.
La struttura dell’ipertesto è strettamente connessa con la navigazione, in quanto le modalità della navigazione dell’ipertesto dipendono dalla
struttura assegnata all’informazione. Diremo che la struttura di base di un ipertesto è, nella maggior parte dei casi, gerarchica.
La rete interna dei collegamenti è successiva ad una prima organizzazione delle unità di lettura in base gerarchica. Dal WIREFRAME (il disegno
dell’architettura) al MOCKUP (la creazione del template).

Elementi dell’architettura:

• strumenti di navigazione, il cui scopo è da un lato fornire al lettore un’idea dei contenuti proposti nell’ipertesto e dall’altro far capire le modalità
con cui è stato costruito e strutturato; elementi necessari quindi per poter orientare il lettore fra i materiali.
• elementi della pagina, le parti in cui si articola ogni singola unità di lettura. La struttura della pagina generalmente è composta da quattro zone
distinte: la testata; il corpo; la barra di navigazione; il piè di pagina.

Elementi della pagina in dettaglio:

• Intestazione. Deve essere uguale in tutto il sito. Meglio associare un’immagine (es. logo) che evochi il contenuto principale del sito;
• Corpo. Il testo deve essere chiaro, leggibile, usabile;
• Barre di navigazione. Sempre nella stessa posizione nel sito, evocative, semanticamente pertinenti;
• Piede di pagina. Destinato ad accogliere le indicazioni sul copyright e riportare le informazioni relative alla data di aggiornamento dei contenuti e
link ai sistemi di validazione (cfr. infra).

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Elementi chiave della navigazione:

• Metanavigazione (o navigazione di servizio): sezione della pagina in cui vengono messi a disposizione dell’utente strumenti di aiuto e funzionalità
generali: dai contatti all’eventuale motore di ricerca, dalla guida alla navigazione alla mappa dell’ipertesto.
La sua collocazione è sopra o sotto la testata del sito e/o collocata nel piè di pagina. Tipicamente i link di metanavigazione a livello di testata sono
DIVERSI da quelli nel piede di pagina.

• Navigazione principale o globale (i canali): La barra di navigazione è una delle componenti più importanti della pagina perché consente all’utente
di avere una percezione chiara dei contenuti e di navigare la struttura senza perdersi.
Elemento fondamentale della navigazione principale è che le voci del navigatore devono avere un nome significativo che evochi immediatamente i
contenuti della destinazione. Questa considerazione è valida in generale per ogni tipo di link ipertestuale: il lettore deve sempre comprendere quale
sarà la destinazione del collegamento.

• Navigazione secondaria (i sottocanali): È un sistema di navigazione secondario separato da quello di navigazione principale, che comprende le
sotto sezioni in cui è suddivisa ogni singola area, cioè i livelli gerarchicamente dipendenti dalla navigazione primaria.
Può essere un menù aggiuntivo che compare entrando sul canale di navigazione primaria oppure può essere collocato in una diversa area dello
specchio della pagina. Deve comparire solo quando viene aperta la voce di navigazione primaria.

• Navigazione contestuale (link aggiuntivi) : fa parte della navigazione secondaria la navigazione contestuale: un sistema di navigazione che collega
concettualmente un documento ad un insieme più vasto di documenti, a formare un gruppo tematicamente coerente.
Può essere classificato come navigazione contestuale la serie dei link che collegano fra loro le pagine (innesto delle rete oltre la gerarchia) e i box di
approfondimento laterali. Tali box si chiamano contestuali perché sono specifici per la pagina corrente. Devono quindi cambiare al cambiare della
pagina.

• Briciole di pane (struttura gerarchica del sito): le briciole di pane indicano all’utente in quale punto della struttura si trova, rispetto ai diversi livelli
in cui è organizzato il sito. Costituiscono un sistema di navigazione attraverso cui il lettore percepisce la struttura dell’informazione costruendosi una
mappa mediante l’associazione della tipologia di un tipo di documento al percorso effettuato per rintracciarlo.
La briciole di pane mostrano il percorso dalla home page (pagina principale di apertura del sito o nodo radice) alla pagina corrente nella forma:
Home >;
NavPrinc>; NavSec >; Pagina_ corrente. Tutte le voci delle briciole di pane devono essere collegamenti attivi fatta eccezione la Pagina_corrente.

Regole generali di progettazione del menù di navigazione:

• Coerenza. Il titolo della voce di menù è anche il titolo della pagina e la voce delle briciole di pane;
• Feedback. I menù attivi (o anche i pulsanti) cambiano di stato (es. quello attivo non è linkabile ed è di colore diverso);
• Memorizzabilità. Il box del menù principale non ha più di 5 collegamenti;
• Learneability. Il menù di navigazione principale rispecchia il più possibile la struttura informativa del sito. Devo capire come è fatto il sito solo
leggendo i menù;
• Orientamento. Gli strumenti di navigazione non devono mai cambiare di posizione all’interno delle pagine;
• Convenzioni. Usare icone standard e convenzionali.

Un esempio sito università: testata con logo evocativo; metanavigazione sopra la testata e, diversa, nel footer; navigazione primaria sotto la testata
con canale attivo in evidenza; briciole di pane navigabili; navigazione secondaria laterale a sn con pagina attiva in evidenza; box laterali in colonna
dx pertinenti rispetto alla pagina corrente; footer con copyright.

Gli strumenti della comunicazione

Modalità di scrittura dei contenuti e design delle pagine rappresentano gli strumenti necessari per garantire una chiarezza comunicativa, che
permetta all’utente una navigazione funzionale.
All’adeguatezza e correttezza tecnica va ad affiancarsi l’esigenza di rendere i contenuti comprensibili a tutti, comprendendo anche la fascia di utenti
‘deboli’, che riguarda sia utenti con disabilità che utenti con limitate disponibilità tecnologiche.
Bisognerà in primo luogo conoscere alcuni aspetti tecnici: prevedere pagine che abbiamo tempi di caricamento rapidi, sapere che esistono differenti
risoluzioni dei monitor, essere consapevoli che i diversi browser possono interpretare in modo differente il codice del linguaggio usato per
l’implementazione.
L’importanza della validazione e della doctype.

Al prescindere dagli aspetti tecnici ci interessa capire come comunicare in modo efficace anche attraverso accorgimenti grafici.

• Elementi grafici: rispetto dei principi di web design, che significa uso corretto, equilibrato e funzionale di: colori,tipi e dimensione dei caratteri,
immagini,elementi multimediali. La ricerca iconografica a corredo dei testi riveste un ruolo strategico.
• Stile di scrittura: impiego di uno stile di scrittura adeguato al medium.
La scrittura per ipertesti ha caratteristiche differenti rispetto alla scrittura su carta ed è dunque necessario adottare una serie di regole che
permettano la trasmissione funzionale del messaggio, in modo che giunga al lettore chiaro, comprensibile e lineare.

Fra le regole per scrivere sul Web:

- è bene evitare il contenuto ridondante: ripetere gli stessi elementi o gli stessi link sulla home page non enfatizza la loro importanza;

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

- evitare i titoli molto creativi; meglio essere semplici e informativi;


- negli standard editoriali bisogna essere coerenti: se una parola la scriviamo maiuscola una volta, allora è per sempre;
- l'imperativo va usato con parsimonia e preferibilmente per far eseguire delle istruzioni;
- i punti esclamativi vanno evitati, sempre: su una home page tutto è importante;
- la stessa cosa vale per il TUTTO MAIUSCOLE;
- per i link, è meglio non usare generiche istruzioni quali "clicca qui", ma parole che si riferiscono direttamente al contenuto;
- se un link non va a un'altra pagina html, ma a un pdf, a un video o a un altro formato, specificarlo avvertendo prima l'utente (es. con icone
evocative);
- *mai* dimenticare il title>; tag;
- tutte le immagini devono avere l‘@alt text;
- i link devono avere l’attributo @title.
- adottare uno stile chiaro e conciso che renda la pagina leggibile velocemente, costruire percorsi chiari, attraverso una struttura a paragrafi ben
precisa: titoli, sottotitoli, testi brevi, box, indici.
- adottare una presentazione (layout) coerente in tutto il sito, come ad esempio l’uso dei titoli (h1, h2, h3) per indicare i paragrafi rispettando la
loro sequenza gerarchica in ciascuna pagina.
- fare attenzione all’uso del grassetto, delle maiuscole, della punteggiatura o degli spazi per enfatizzare il testo.
- adottare l'ordine della "piramide invertita" nella proposizione dei contenuti, ovvero presentare prima la “sintesi” per scendere via via verso
maggiori dettagli.
- scrivere periodi semplici e brevi e comporre testi lunghi la metà di quelli concepiti per la carta.
- In caso di pagine lunghe i titoli dei contenuti devono trovarsi tutti al principio della pagina (usare ancore interne ovvero in-line navigation).

ACCESSIBILITA’ e USABILITA’
Web design, uso di uno stile di scrittura adeguato al medium e quindi attenzione alle strutture testuali, consapevolezza di tecniche e tecnologie
della comunicazione sono alla base di accessibilità e usabilità, nuove parole chiave del Web, che identificano i principi da rispettare per garantire
efficienza ed efficacia della comunicazione ipertestuale; concetti che si riferiscono alla serie delle caratteristiche a cui dovrebbero far riferimento
tutti i siti Web.
Diremo che “un sito Web è accessibile quando il suo contenuto informativo, le sue modalità di navigazione e tutti gli elementi interattivi
eventualmente presenti sono fruibili dagli utenti indipendentemente dalle loro disabilità, indipendentemente dalla tecnologia che essi utilizzano per
accedere al sito e indipendentemente dal contesto in cui operano mentre accedono al sito” .
L’importanza di tali concetti ha condotto il World Wide Web Consortium ha costituire, nel 1999, una Web Accessibility Initiative (WAI), che ha
rilasciato delle linee guida.
La Web usability, il cui padre è riconosciuto in Jakob Nielsen http://www.useit.com/>;, riguarda la necessità di realizzare siti che vadano il più
possibile incontro alle necessità dell’utente finale: funzionali nel layout e nello stile;e cioè facili da navigare;comprensibili nell’architettura;che
adottino uno stile di scrittura chiaro e conciso;che rispondano alle esigenze di determinate classi di utenti, sulla base della tipologia di sito
realizzato. Diremo che l’usabilità è legata ai bisogni del lettore in termini di capacità di ricezione del msg che un sito intende comunicare. Tutto
quello che abbiamo visto rende un sito USABILE

Alcune strategie per un sito usabile:

• Usare sempre lo stesso stile (colori, font, dimensioni, posizionamenti) per il sito. Eventualmente usare il colore come strumento per distinguere
macro sezioni.
• Non cambiare il posizionamento degli strumenti di navigazione quando ci si sposta di pagina.
• Non duplicare i link allo stesso contenuto dalla medesima pagina (no doppio sistema di navigazione primaria).
• Usare box di approfondimento laterali come associazioni contestuali.
• Usare testi brevi, o adottare l’in-line navigation per testi lunghi.
• Usare molti box per strutturare il più possibile i contenuti su isole tematiche.
• Non costringere mai l’utente finale ad usare il pulsante indietro del browser. Usare le briciole di pane come strumento di orientamento rispetto
alla gerarchia dei contenuti.
• Dare sempre modo di tornare alla home.
• Non rendere attivo il link del sistema di navigazione della pagina in cui ci si trova e renderlo graficamente distinto.
• Usare il grassetto per enfatizzare le parole chiave.
• Usare sempre, e in modo sapiente, l’attributo @title, specialmente per i link a risorse esterne.

6. PRINCIPI DI DIGITALIZZAZIONE E GESTIONE DELLE IMMAGINI

Digitalizzare significa tradurre dall’analogico al digitale. Per le immagini tale processo richiede di valutare una serie di parametri: il tipo di fonte
originale, lo scopo del processo e la destinazione d’uso.

I formati dei file: conservazione e distribuzione

Un’immagine digitale può essere salvata in formati diversi a seconda della destinazione finale dell’oggetto digitale: formati per il web o formati di
archiviazione per la conservazione offline. I formati utilizzati sono: compressi, con o senza perdita di dati (GIF,JPEG,PNG) e privi di compressione
(TIFF).

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

I formati non compressi sono la soluzione per l’archiviazione nel lungo periodo ma richiedono una memoria di massa consistente; i formati
compressi sono pensati per la distribuzione perché permettono la creazione di file più leggeri e veloci da caricare ma lo svantaggio è la perdita di
info che ne consegue.

• GIF: compressione senza perdita di dati ma memorizza solo 256 colori e quindi non adatto alle foto a colori.
• JPEG: fino a 16,7 milioni di colori ma la compressione comporta la perdita di dati a causa del suo livello elevato. Il più utilizzato per la
pubblicazione di immagini sul web
• PNG: creato di recente appositamente per il web e riunisce i vantaggi dei precedenti—>; visualizzazione dai 256 ai 16,7 milioni di colori e può
essere compresso senza perdita anche se non raggiunge in compressione l’efficienza di JPEG.
• TIFF:produce immagini di elevata qualità per cui è utilizzato per l’archiviazione a lunga durata. 16,7 milioni di colori, non è compatibile con il Web.

7. I SISTEMI DI ANALISI DEL TESTO

La disponibilità crescente di corpora di dati non strutturati (come i file html) o semi-strutturati (come i file xml) in ambienti documentali distribuiti
(www) ha di recente accresciuto le possibilità di lavorare con sistemi automatici di analisi del testo, consentendo quindi progressi consistenti nel
campo dello studio del linguaggio naturale.
Con analisi del testo si indica comunemente il procedimento, e quindi l’insieme degli strumenti applicativi, che consente di estrarre tutte le parole
presenti in un testo, stabilendo il numero di volte in cui ciascuna forma occorre.
Tali risultati consentono di ragionare sull’uso di un certo vocabolario e di stabilire quindi ipotesi interpretative sul lessico.
Ma la complessità dei sistemi linguistici impone da un lato l’uso di strumenti più sofisticati di analisi, dall’altro segnala l’esigenza di intervenire con
procedimenti descrittivi degli elementi del linguaggio, nei casi specifici d’uso, per consentire inferenze automatiche, cioè il ragionamento da parte
della macchina, circa l’uso della lingua.

Gli ipertesti e gli archivi digitali di testi sono due esempi di collezioni che possono essere sottoposte a questa tipologia di indagine testuale.
Disporre di corpora, e quindi di grandi quantità di dati linguistici, è infatti necessario per poter operare con sistemi automatici di analisi, che
permettano di ottenere risultati validi e attendibili, soprattutto quando l’obiettivo sia di ragionare sull’uso del linguaggio.
In realtà un corpus si deve basare su una serie di regole di aggregazione, selezione e organizzazione precise, necessarie affinché la collezione possa
essere sottoposta ad un’analisi linguistica funzionale ad ottenere risultati significativi.
Ma i procedimenti che vedremo sono applicabili anche a singoli testi caricati in mrf quando l’interesse sia rivolto, nel caso dei testi letterari, allo
studio degli opera omnia di un autore o anche solo all’analisi di una singola opera.

Recupero, annotazione, interrogazione

Tre sono gli aspetti su cui concentreremo quindi il nostro discorso:


• la ricerca per stringhe di caratteri cioè il text retrieval (recupero automatico di stringhe di caratteri);
• i diversi livelli della manipolazione del testo vale a dire la serie dei possibili interventi analitici sul piano morfo-lessicale, sintattico e semantico;
• le tipologie di interrogazione del testo così manipolato, finalizzate all’information retrieval e all’information extraction (recupero ed estrazione non
solo di dati, intesi come stringhe di caratteri, ma di informazione, intesa come dato interpretato).

NLP o TAL
La linguistica computazionale è la disciplina che per prima ha affrontato il problema del “Trattamento Automatico del Linguaggio naturale”
(denominato tal) o, con espressione consolidata in ambiente scientifico, del Natural Language Processing (nlp), vale a dire quella serie di pratiche
orientate alla creazione di strumenti per accedere al contenuto digitale dei dati linguistici, con l’obiettivo di acquisire conoscenza da documenti
testuali.
Come dicevamo un primo livello di analisi del testo è rappresentato dalla possibilità di reperire l’elenco delle parole presenti all’interno di un testo. A
Roberto Busa, iniziatore degli studi di linguistica computazionale si deve la compilazione, risalente al 1946, dell’Index Thomisticus, raccolta
dell’indice e delle concordanze degli opera omnia di San Tommaso (cf. Busa, 1974).
I primi esperimenti di impiego del calcolatore nel trattamento di dati testuali di natura umanistica si sono concretizzati esattamente nella
realizzazione delle concordanze. Superato questo livello di semplice riconoscimento di stringhe di simboli è possibile approdare ad un secondo
momento di trattamento della lingua: sistemi di manipolazione di stringhe, analisi automatica del testo ed estrazione di informazione dai dati sono i
nuovi strumenti per l’accesso ai contenuti digitali. Obiettivo finale è acquisire nuova conoscenza dai testi.
Nel campo degli studi letterari, in particolare, i sistemi di analisi del testo consentono di ragionare sulle diverse forme dell’analisi stilistica, orientata
allo studio del vocabolario d’autore e alla verifica dell’uso di certi costrutti sintattici e finalizzata anche all’attribuzione di paternità.

Forme di text retrieval: tokenizzazione


La prima fase di analisi di un testo memorizzato in forma digitale, quindi caricato in memoria di massa, è la verifica della presenza delle parole o
meglio delle diverse forme testuali presenti all’interno del testo.
Si tratta di un procedimento che in linguistica computazionale è detto di tokenizzazione cioè di individuazione, da parte della macchina, di tutte le
unità minime del testo, compresi tutti i segni di interpunzione e senza distinguere le parole separate, ma semanticamente composte, da quelle che
andrebbero invece scomposte in più unità.

Il processo automatico consiste nell’estrapolare tutte le forme presenti all’interno del testo (affiancandole da un codice identificativo numerico) per
verificare il numero di volte in cui compaiono, cioè definire le occorrenze (serie dei token). Il fine è la produzione dell’indice, cioè dell’elenco di tali
parole, che costituisce il vocabolario delle forme grafiche (types), così come e dove compaiono nel testo.
Diremo che il type è la parola in astratto (voce dell’indice) mentre il token è la parola che occorre in un punto definito e in un certo numero di volte
nel testo. Passo successivo è la collocazione delle parole rispetto al contesto testuale d’uso (concordanze) e la verifica di quante volte ciascuna
forma grafica occorre (frequenze).

I sistemi di text retrieval

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Per realizzare indici, produrre concordanze e creare liste di frequenze è necessario l’impiego di un software che consenta il reperimento dei
vocaboli. Esistono molteplici programmi in grado di effettuare operazioni di text retrieval, cioè di reperimento di dati - nella forma di stringhe o
sequenze di caratteri.
Questi programmi sono in grado di estrarre tutte le sequenze di caratteri (quindi i token) che stanno tra due blank (carattere nullo corrispondente
allo spazio bianco), e potranno essere istruiti dall’utente a trascurare i segni speciali (interpunzione, parentesi, ecc.), considerandoli come divisori di
stringhe allo stesso livello dei blank. Operazione preliminare a qualsiasi trattamento di analisi testuale è la scelta oculata del testo base, selezionato
come fonte di riferimento.

Concordanze
Un programma di concordanze è un applicativo che consente di enucleare tutte le parole presenti in un testo, presentandole in ordine alfabetico,
accompagnate da un contesto, che consente di coglierne il senso, e da una serie di indicazioni che permettano il reperimento e la localizzazione del
passo all’intero della struttura del testo (es. Concordance, Tlab,Tapor). Generalmente si tende ad escludere articoli,congiunzioni, preposizioni, le
cosiddette “parole vuote” in favore delle “parole piene” che sono aggettivi,sostantivi, verbi e avverbi in quanto veicolano un significato individuale. I
moderni programmi hanno la possibilità di scegliere tra due forme di output del risultato: concordanze di tipo KWIC (Key Word In Context) e KWOC
(Key Word Out of Context). Nel primo caso le forme vengono presentate in colonna, con un contesto a destra e a sinistra e evidenziate. Nel
secondo viene collocata esternamente , come esponente e poi riportata nel contesto.

Indici
Può essere considerato un caso particolare di concordanza priva di contesto: è una lista di vocaboli contenuti in un testo , dove ogni parola è
accompagnata dal riferimento al luogo in cui è possibile rintracciarne l’occorrenza. Talvolta può riportare statistiche relative alla frequenza.

Frequenze
Lista di parole accompagnate dal numero di volte in cui occorrono. La posizione nella lista è detta “rango” ed è rilevante stabilire una soglia di
frequenza.

Dal text retrieval alla text analysis


Dalla fase di recupero di stringhe è possibile poi passare alla vera e propria analisi del testo, tesa all’interrogazione significativa, mirata al recupero
di informazione (information retrieval).
Normalizzazione, lemmatizzazione, Part Of Speech (pos) tagging, parsing, riduzione della sinonimia e dell’omografia, estrazione automatica delle
parole chiave e categorizzazione semantica sono alcuni dei processi che comunemente caratterizzano l’attività di Natural Language Processing (nlp)
o di Trattamento Automatico del Linguaggio Naturale (tal).

Normalizzazione e annotazione
Tali procedimenti possono essere solo parzialmente consegnati a sistemi automatici: l’intervento dell’uomo è indispensabile per ottenere risultati
validi.
Questo significa che è necessario operare sul testo, o sul corpus, da analizzare un pre-processing teso alla normalizzazione: individuazione di parole
composte, riduzione di articoli con apostrofo, identificazione e scioglimento di sigle, ma anche riconoscimento di nomi propri sono operazioni che
possono essere solo parzialmente delegate alla macchina.
Soprattutto, al fine di ottenere risultati attendibili nella fase di text analysis, è necessario intervenire con la cosiddetta annotazione del testo.
Annotare un testo significa arricchirlo di informazioni sui differenti aspetti, in questo caso linguistici, di interesse ai fini dell’analisi.
Esistono strumenti software che coadiuvano in queste operazioni, risolvendo normalizzazione e annotazione in modo automatico, ma, come
dicevamo, l’intervento dell’operatore umano è fondamentale per la qualità del risultato.
La più comune forma di annotazione di un testo è l’assegnazione di marcatori o etichette (che abbiamo anche chiamato tags) alle porzioni di testo
delle quali si vuole fornire una qualche indicazione a livello morfo-lessicale, sintattico o semantico.
Tali indicazioni sono generalmente espresse in un linguaggio formale ed utilizzando un vocabolario standardizzato, come XML con schema TEI. Tali
informazioni possono essere aggiunte direttamente nel corpo del testo - chiameremo questo procedimento inline markup o annotazione embedded
- oppure essere definite in un file separato ed essere quindi richiamate tramite collegamento.
Si parla di stand-off annotation per riferirsi a questo sistema di annotazione. Molti corpora annotati già esistenti sono marcati usando l’eagles xml
Corpus Encoding Standard (acronimo xces) che è uno schema (esiste sia la dtd che l’xml Schema) a base xml/tei creato specificatamente per la
linguistica dei corpora e la gestione dei sistemi di annotazione linguistica.

Livelli di analisi del testo


Possiamo definire tre livelli di analisi del testo, che significa tre tipologie di annotazione e tre differenti sistemi di manipolazione del testo
elettronico, mirata a ottenere informazioni sul testo:

1. morfo-lessicale: verifica delle occorrenze delle forme presenti nel testo (indice), associazione dei vocaboli ad una categoria grammaticale e
lemmatizzazione;
2. sintattico: costrutto delle frasi, sulla base della identificazione delle parole e delle loro relazioni strutturali.Analisi linguistica per la ricostruzione
della struttura sintattica della frase;
3. semantico: combinazione di lessico, morfologia e sintassi. Contestualizzazione d’uso di una parola all’interno del costrutto sintattico,
disambiguazione semantica e categorizzazione.

Importanza delle risorse linguistiche


Per poter lavorare a questi tre livelli il primo passo è poter disporre di risorse linguistiche, cioè di repertori linguistici e lessicali, che possano
coadiuvare nell’operazione come:

• Dizionario macchina. Versione elettronica di un dizionario tradizionale (per esempio il dizionario De Mauro online http://dizionario.internazionale.it)
che elenca tutti i lessemi (elenco delle voci nella forma base) e associa a ciascuno le informazioni tipiche di un dizionario tradizionale (tipo e
definizione).

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Può essere quindi utilizzato nella fase di analisi morfo-lessicale, oggetto principale di studio della lessicografia.
• Lessico di frequenza. Elenco di forme e di lemmi con indicazione della frequenza d’uso rispetto ad un corpus definito (p.e. quello dell’italiano
scritto http://www.istc.cnr.it/grouppage/colfis). Generalmente è usato per l’estrazione di parole chiave dal testo.
• Rete semantico-concettuale.Associa ogni lessema ad un concetto (casa, abitazione, dimora rappresentano lo stesso concetto) e quindi ad una
classe semantica di riferimento (p.e. casa appartiene alla classe edifici), all’interno di una struttura gerarchica (edifici è gerarchicamente dipendente
dalla classe luoghi) ma anche individuare le relazioni che i concetti e le classi intrattengono.

Lo strumento per operare questo tipo di analisi è WordNet per la lingua inglese e ItalWordNet per l’italiano.
La rete può essere utilizzata nella fase di analisi semantica. A questi si deve aggiungere la necessità di disporre di strumenti per l’analisi linguistica
da impiegare per la fase di analisi morfologica e sintattica come analizzatori morfologici, strumenti di pos tagging e parser sintattici.

1. Analisi morfo-lessicale

Abbiamo parlato della funzione del tokenizzatore come dello strumento che per primo consente di selezionare le unità minime espresse sotto forma
di sequenze di caratteri separate da spazio.
dicevamo è necessario che la fase di tokenizzazione - anche detta text segmentation a livello di token - sia accompagnata da un procedimento di
identificazione dei token significativi ai fini della successiva analisi.

Questo significa operare a diversi livelli, fra cui i principali sono:

• normalizzazione delle varianti ortografiche delle parole che possono presentarsi sotto diverse forme;

• separazione di parole che sono costituite da più token, ma sono rappresentative di unità linguistiche differenti (per esempio parole unite tramite
apostrofo, ma anche i segni di interpunzione che sono uniti al carattere);

• unione di elementi differenti in un unico token, in quanto rappresentativi di un’unica parola (come le parole composte o multi-words).

Effettuata la normalizzazione ogni token potrebbe essere associato alla parte del discorso cui ogni forma può essere ricondotta, sarebbe cioè
possibile determinare la cosiddetta part-of-speech (o POS) di ciascun token. Tramite l’ausilio di un analizzatore morfologico, cioè un programma che
effettua l’analisi grammaticale di ogni forma, ogni componente lessicale può essere descritto in termini di categoria grammaticale di appartenenza.

Il limite della tokenizzazione è che consente di estrarre il solo elenco delle forme.
Potrebbe invece essere utile poter disporre, per le diverse forme, del lemma di riferimento.
Bisognerà allora adottare procedure che permettano di trasformare i token in lemmi.
Parleremo di stemming in riferimento al processo automatico utile ad estrarre la radice di una parola, rimuovendo le desinenze.
Ma il troncamento spesso non è sufficiente, oltre al fatto che talora non produce un output corretto.
La lemmatizzazione è invece il procedimento utile ad estrarre il lemma da una forma.

Lemmatizzare un testo significa individuare un unico lemma, cioè un’unica forma grammaticale, per i vocaboli che, nelle lingue naturali, sono
caratterizzati dall’essere forme flesse, cioè tutte le parti del discorso dotati di genere e numero.
E’ convenzione italiana che il lemma verbale sia rappresentato dalla forma coniugata all’infinito presente attivo.
La lemmatizzazione si pone come obiettivo di ricondurre ad unità queste forme raccogliendole sotto un’unica forma base, quella che appare cioè
come riferimento nei vocabolari. Esistono programmi specifici per la lemmatizzazione, o più in generale per l’analisi morfologica dei testi.
(Un esempio particolarmente interessante è rappresentato da un lemmatizzatore e analizzatore morfologico per il latino (LemLat)).

Strumenti informatici, come i dizionari macchina, possono agevolare l’operazione di lemmatizzazione, che andrà preferibilmente condotta in forma
semi-automatica (l’intervento dell’uomo è comunque
necessario). Avendo a disposizione un dizionario macchina è cioè possibile associare la part-of-speech a ciascun lemma.
Compito della lemmatizzazione è anche risolvere problemi di ambiguità fra diverse forme base cui può corrispondere una stessa forma flessa.
Ma è destinato al lavoro manuale il compito di disambiguare, sulla base di struttura sintattica e contesto, il valore restituito dal lemmatizzatore.

2. Analisi sintattica

L’analisi sintattica è rappresentata dal processo di parsing: il procedimento di analisi linguistica necessario a ricostruire la struttura sintattica di una
frase.
Gli strumenti di parsing consentono cioè di associare agli elementi della frase un determinato valore sintattico.
Il primo passo è costituito dalla POS (Part-Of-Speech) tagging o marcatura delle parti del discorso.
Si tratta della più comune annotazione cioè quella morfo- sintattica.
Il tagger POS è un programma che, una volta sottoposto ad una prima fase di apprendimento, è in grado di associare un’etichetta descrittiva ad
ogni costituente grammaticale.
Una marcatura manuale preventiva su un corpus di training è necessaria per ‘istruire’ il programma a riconoscere le parti del discorso e poter quindi
procedere con un’annotazione automatica.

Sulla base del contesto d’uso della parola gli strumenti di pos tagging consentono di disambiguare la part-of-speech di ciascun componente.
Esistono infatti parole che, a seconda del contesto sintattico, possono avere un ruolo diverso come parte del discorso.
Nomi, verbi, avverbi, preposizioni, aggettivi che costituiscono il risultato dell’analizzatore morfologico possono venir trasformati dall’analizzatore
sintattico.
Non solo la fase di analisi sintattica si occupa di disambiguare la componente morfo-sintattica delle parole e risolvere quindi casi di omografia, ma
anche di associare una categoria sintattica con cui ogni forma occorre in un dato contesto linguistico.

Scaricato da Alessia Marrella (bellale94@live.it)


lOMoARcPSD|799872

Nello specifico diremmo che mentre un analizzatore morfologico associa il token al lemma, e ne definisce le caratteristiche a livello di componente
grammaticale, il chunking è il procedimento di segmentazione del testo, analizzato morfologicamente, in gruppi sintattici.
Le parole che compongono una frase possono essere infatti ricondotte ad un gruppo funzionale di riferimento, cioè ad un sintagma e i sintagmi
essere inseriti in uno schema di relazioni di dipendenza grammaticale.
L’uso di sistemi formali per l’analisi del linguaggio si colloca a seguito della fondazione della grammatica generativa ad opera di Noam Chomsky che,
con la pubblicazione di Syntactic Structures, segna l’inizio dell’uso di grammatiche per l’analisi delle proprietà del linguaggio naturale.

Secondo la teoria chomskiana possiamo avere diverse tipologie di componenti costitutive della frase, fra cui:

Scaricato da Alessia Marrella (bellale94@live.it)

Potrebbero piacerti anche