Capitolo 2

CAPITOLO 2
IL TESTO E LA SUA CODIFICA DIGITALE
La codifica digitale del testo

 I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1 (cifre
binarie), aggregati in sequenze di otto cifre;
 Tutte le parole, suoni, immagini o dati numerici devono avere una rappresentazione binaria per
essere elaborati da un programma.
 Ma un testo non è una semplice sequenza di caratteri  infatti accanto a questa dimensione
lineare, ne esiste un’altra lungo la quale si sviluppano i livelli di organizzazione del testo e la sua
struttura linguistica.
 Per esplicitare questo tipo di informazioni è necessaria una codifica che non operi solo al livello dei
singoli caratteri, ma si basi sull’identificazione di intere porzioni di testo e sull’indicazione esplicita
della loro funzione.
Livelli di codifica
La rappresentazione binaria di un testo si divide in due livelli
Una codifica di basso livello Una codifica di alto livello che

(codifica di livello zero) che riguarda arricchisce il testo codificato al
la rappresentazione binaria della livello zero con informazioni relative
sequenza ordinata di caratteri nel alla struttura linguistico-testuale e
testo. con informazione interpretativa di
qualche tipo
Questa codifica inoltre richiede
Essa rende disponibile l’intera sequenza 1.La selezione degli aspetti

di caratteri di un testo, ma non consente strutturali e funzionali del testo che
di rappresentare l’articolazione del testo si considerano rilevanti;
in sotto-sequenze. Ma la codifica di alto 2.La scelta di un linguaggio di
livello permette di comare questa lacuna rappresentazione che permette di
rendendo esplicita l’organizzazione del codificare le informazioni aggiuntive.
testo o qualsiasi interpretazione
La codifica di livello zero

 Consiste nell’associare a ciascun carattere del testo un codice numerico, cioè un numero binario
che lo identifica univocamente;
 Due simboli graficamente indistinguibili possono corrispondere a caratteri diversi  lettere
maiuscole degli alfabeti latino, greco e cirillico.
 Un set di caratteri (o codice) è una tabella di associazioni biunivoche (1 a 1) tra glie elementi di un
repertorio di caratteri e codici numerici(detti punti di codice)
CODICE, SET DI CARATTERI

Elementi di un Codici numerici o
repertorio di punti di codice
caratteri
Associazione biunivoca
 Ciascun punto di codice è rappresentato in forma binaria come una sequenza di bit. La loro
modalità di rappresentazione binaria viene chiamata codifica di carattere. Il numero dei caratteri
codificabile dipende dai punti di codice disponibili, i quali dipendono dal numero di cifre binarie
usate per la loro codifica.
 I set di caratteri sono associazioni convenzionali tra caratteri e codici numerici. Sfortunatamente,
infatti, non esiste un’unica convenzione condivisa da tutti i programmi per la codifica di caratteri (a
parte ASCII)
 La tendenza odierna è quella di procedere a una standardizzazione e internazionalizzazione della
codifica binaria dei testi.
Il set di caratteri ASCII

 ASCII è il più noto e diffuso set di caratteri, che rappresenta il primo codice standard per la
rappresentazione binaria dei caratteri e costituisce il nucleo comune di tutti i set di caratteri più
estesi;
 Nel codice ASCII ciascun carattere è codificato con un byte, ma di esso sono utilizzate solo le prime
7 cifre.
 Il set di caratteri ASCII è formato quindi da 128 caratteri (2 alla settima)
 L’insieme dei caratteri alfabetici rappresentato in ASCII è strettamente limitato alle lettere
dell’alfabeto anglosassone; ma per ovviare a tale limitazione è stato esteso per potr codificare
anche i caratteri dell’italiano, tedesco e francese.
 Sono nate diverse estensioni di ASCII caratterizzate dall’uso di 8 bit per la codifica, passando a 256
caratteri.
 L’unica estensione standard è ISO-Latin-I : è la forma più diffusa per la codifica dei sistemi grafici
delle lingue dell’Europa Occidentale.
 Questa estensione è compatibile con ASCII perché assegna i primi 128 punti di codice agli stessi
caratteri del codice ASCII.
 ISO-Latin-I è uno dei membri della famiglia ISO 8859, cioè il primo tentativo di estendere il processo
di standardizzazione delle codifiche di caratteri al di là delle lingue dell’Europa Occidentale.
 La codifica ISO 8859 non permette l’uso nello stesso testo di caratteri di sistemi grafici differenti, ad
esempio cirillici e arabi.
Il set di caratteri Unicode
 la soluzione ai limiti di ISO-8859 è offerta da Unicode  il più recente standard per la codifica di
caratteri;
 Unicode è il set di caratteri universali, che permette di codificare testi contenenti caratteri
praticamente di ogni sistema di scrittura conosciuta, antica e moderna.
 La versione 4.0 fornisce la codifica di più di 96.000 caratteri (alfabeto latino, cirillico, greco antico e
moderno, arabo ma anche ideogrammi cinesi e giapponesi e anche i caratteri dell’alfabeto fonetico
internazionale);
 La differenza sostanziale di Unicode rispetto alle estensioni di ASCII è che non esiste nessuna
mutua esclusività tra caratteri di alfabeti diversi  lo standard assegna a ogni carattere un punto
di codice distinto il quale rende possibile l’uso simultaneo nello stesso testo di caratteri
appartenenti a sistemi grafici differenti.
 I primi 256 punti di codice Uni code rappresentano gli stessi caratteri di ISO-Latin-I;
 Lo standard Unicode specifica varie modalità di codifica che utilizzano più di un byte per la
rappresentazione di caratteri.
 La codifica più comune è UTF-8, una codifica a lunghezza variabile da 1 a 4 byte dei punti di codice
Unicode. Esso è assolutamente compatibile con ASCII  ogni file scritto in ASCII è accettabile in
UTF-8.
o I caratteri da 0 a 127 vengono codificati in UTF-8 utilizzando 1 byte ciascuno;
o I caratteri da 128 a 2047 (caratteri non ideografici) utilizzano 2 byte;
o I caratteri ideografici sono codificati utilizzando 3 byte;
o Per repertori ulteriori sono usati 4 byte.
 MA la compatibilità di UTF-8 con ASCII non si estende anche i caratteri ISO-Latin-1 da 128 a 255
La codifica di alto livello

 Il suo compito è quello di dare forma alla sequenza di caratteri del testo rendendo esplicita quella
parte di informazione che è veicolata attraverso le convenzioni tipografiche, testuali, linguistiche;
 Essa esplicita l’informazione relativa as aspetti specifici di un testo, la sua struttura linguistico-
testuale così come l’informazione interpretativa da affiancare a porzioni di etsto, rappresentandola
in una forma che il computer possa elaborare in modo automatico;
 Questa codifica gioca un ruolo cruciale nella trasformazione del dato testuale grezzo in fonte di
informazione linguistica;
 Un interrogativo è: cosa codificare e come codificare.
 La codifica il alto livello trasforma il dato testuale in fonte esplicita di informazione linguistica;
 Quindi nella costruzione di una base di dati, un ruolo cruciale è giocato dalla strutturazione dei dati
che la compongono  infatti integrare i dati all’interno di una base dati significa identificare e
rendere esplicite le connessioni e i rapporti che stabiliscono il loro valore informativo.
 Un testo con un flusso di caratteri, parole e frasi è una fonte di dati linguistici. Ma esso è anche
un’entità altamente strutturata, all’interno della quale i dati linguistici sono correlati secondo piani
di organizzazione multipli:
a) Struttura del testo (articolazione in sezioni, capitoli e titoli)
b) Struttura del contesto (autore, data di produzione)
c) Struttura linguistica (informazioni morfologiche, sintattiche)
 Quando i testi sono inseriti in un corpus, abbiamo un livello ulteriore di organizzazione dato dalla
struttura e composizione del corpus;
 Il testo diventa fonte di informazione linguistica quando alcuni di questi livelli di organizzazione e
strutturazione vengono resi espliciti attraverso una codifica di alto livello.
 Maggiori saranno i livelli di organizzazione testuale e linguistica codificati esplicitamente, maggiore
sarà il potenziale informativo di una codifica di alto livello.
Cosa codificare
1. Individuare il livello di informazione che si intende codificare (macrostruttura del testo, struttura
morfologica o sintattica);
2. Definire il repertorio di tratti giudicati rilevanti
L’insieme di queste decisioni definisce lo schema di codifica. Ogni schema di codifica può essere descritto
come comprendente:
 Un repertorio di categorie per la codifica, cioè i tratti da rappresentare nel testo;
 Definizione delle regole di compatibilità tra categorie;
 La specifica accurata dei criteri di applicazione al testo delle categorie selezionate.
Come codificare
Esistono diversi formati digitali in cui può presentarsi un testo:
Formato solo testo (o plain text):

 codifica il contenuto testuale come pura sequenza di caratteri.
 Costituisce il livello minimo di rappresentazione digitale di un testo;
 Può essere gestito da programmi diversi indipendentemente dal sistema operativo  portabilità
 ma al massimo della portabilità affianca una minima capacità espressiva (perche non va al di là
della pura codifica dei caratteri che compongono il testo);
 a questo formato corrisponde la codifica di livello zero.
Formati doc o pdf:

 possono strutturare un testo digitale in maniera molto fruibile per il lettore umano;
 il contenuto testuale è inframezzato da istruzioni di formattazione;
 vantaggio: presentano il testo in una forma più ricca e articolata del formato solo testo.
 MA questo formati sono formati proprietari quindi possono essere creati, letti e interpretati solo
da uno specifico programma.
 A una massima espressività del formato si oppone una minima portabilità.
Conclusioni
 Attraverso l’organizzazione del tasto testuale in strutture linguistiche e testuali, il dato grezzo si
arricchisce di valore informativo
 Per rendere la struttura testuale accessibile al computer è necessario ricorrere a un’adeguata
codifica che associ a porzioni del testo struttura e funzioni corrispondenti;
 Questa operazione aggiunge al testo informazione e predispone il testo ad ulteriori livelli di analisi
automatica, innestando un ciclo virtuoso.

Capitolo 2

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Capitolo 2

Caricato da

Copyright:

Formati disponibili

CAPITOLO 2

IL TESTO E LA SUA CODIFICA DIGITALE

La codifica digitale del testo

Una codifica di basso livello Una codifica di alto livello che

Questa codifica inoltre richiede

Essa rende disponibile l’intera sequenza 1.La selezione degli aspetti

La codifica di livello zero

CODICE, SET DI CARATTERI

Il set di caratteri ASCII

La codifica di alto livello

Formato solo testo (o plain text):

Formati doc o pdf:

Potrebbero piacerti anche