Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Livelli di codifica
La rappresentazione binaria di un testo si divide in due livelli
Ciascun punto di codice è rappresentato in forma binaria come una sequenza di bit. La loro
modalità di rappresentazione binaria viene chiamata codifica di carattere. Il numero dei caratteri
codificabile dipende dai punti di codice disponibili, i quali dipendono dal numero di cifre binarie
usate per la loro codifica.
I set di caratteri sono associazioni convenzionali tra caratteri e codici numerici. Sfortunatamente,
infatti, non esiste un’unica convenzione condivisa da tutti i programmi per la codifica di caratteri (a
parte ASCII)
La tendenza odierna è quella di procedere a una standardizzazione e internazionalizzazione della
codifica binaria dei testi.
L’unica estensione standard è ISO-Latin-I : è la forma più diffusa per la codifica dei sistemi grafici
delle lingue dell’Europa Occidentale.
Questa estensione è compatibile con ASCII perché assegna i primi 128 punti di codice agli stessi
caratteri del codice ASCII.
ISO-Latin-I è uno dei membri della famiglia ISO 8859, cioè il primo tentativo di estendere il processo
di standardizzazione delle codifiche di caratteri al di là delle lingue dell’Europa Occidentale.
La codifica ISO 8859 non permette l’uso nello stesso testo di caratteri di sistemi grafici differenti, ad
esempio cirillici e arabi.
Il set di caratteri Unicode
la soluzione ai limiti di ISO-8859 è offerta da Unicode il più recente standard per la codifica di
caratteri;
Unicode è il set di caratteri universali, che permette di codificare testi contenenti caratteri
praticamente di ogni sistema di scrittura conosciuta, antica e moderna.
La versione 4.0 fornisce la codifica di più di 96.000 caratteri (alfabeto latino, cirillico, greco antico e
moderno, arabo ma anche ideogrammi cinesi e giapponesi e anche i caratteri dell’alfabeto fonetico
internazionale);
La differenza sostanziale di Unicode rispetto alle estensioni di ASCII è che non esiste nessuna
mutua esclusività tra caratteri di alfabeti diversi lo standard assegna a ogni carattere un punto
di codice distinto il quale rende possibile l’uso simultaneo nello stesso testo di caratteri
appartenenti a sistemi grafici differenti.
I primi 256 punti di codice Uni code rappresentano gli stessi caratteri di ISO-Latin-I;
Lo standard Unicode specifica varie modalità di codifica che utilizzano più di un byte per la
rappresentazione di caratteri.
La codifica più comune è UTF-8, una codifica a lunghezza variabile da 1 a 4 byte dei punti di codice
Unicode. Esso è assolutamente compatibile con ASCII ogni file scritto in ASCII è accettabile in
UTF-8.
o I caratteri da 0 a 127 vengono codificati in UTF-8 utilizzando 1 byte ciascuno;
o I caratteri da 128 a 2047 (caratteri non ideografici) utilizzano 2 byte;
o I caratteri ideografici sono codificati utilizzando 3 byte;
o Per repertori ulteriori sono usati 4 byte.
MA la compatibilità di UTF-8 con ASCII non si estende anche i caratteri ISO-Latin-1 da 128 a 255
La codifica il alto livello trasforma il dato testuale in fonte esplicita di informazione linguistica;
Quindi nella costruzione di una base di dati, un ruolo cruciale è giocato dalla strutturazione dei dati
che la compongono infatti integrare i dati all’interno di una base dati significa identificare e
rendere esplicite le connessioni e i rapporti che stabiliscono il loro valore informativo.
Un testo con un flusso di caratteri, parole e frasi è una fonte di dati linguistici. Ma esso è anche
un’entità altamente strutturata, all’interno della quale i dati linguistici sono correlati secondo piani
di organizzazione multipli:
a) Struttura del testo (articolazione in sezioni, capitoli e titoli)
b) Struttura del contesto (autore, data di produzione)
c) Struttura linguistica (informazioni morfologiche, sintattiche)
Quando i testi sono inseriti in un corpus, abbiamo un livello ulteriore di organizzazione dato dalla
struttura e composizione del corpus;
Il testo diventa fonte di informazione linguistica quando alcuni di questi livelli di organizzazione e
strutturazione vengono resi espliciti attraverso una codifica di alto livello.
Maggiori saranno i livelli di organizzazione testuale e linguistica codificati esplicitamente, maggiore
sarà il potenziale informativo di una codifica di alto livello.
Cosa codificare
1. Individuare il livello di informazione che si intende codificare (macrostruttura del testo, struttura
morfologica o sintattica);
2. Definire il repertorio di tratti giudicati rilevanti
L’insieme di queste decisioni definisce lo schema di codifica. Ogni schema di codifica può essere descritto
come comprendente:
Un repertorio di categorie per la codifica, cioè i tratti da rappresentare nel testo;
Definizione delle regole di compatibilità tra categorie;
La specifica accurata dei criteri di applicazione al testo delle categorie selezionate.
Come codificare
Esistono diversi formati digitali in cui può presentarsi un testo:
Conclusioni
Attraverso l’organizzazione del tasto testuale in strutture linguistiche e testuali, il dato grezzo si
arricchisce di valore informativo
Per rendere la struttura testuale accessibile al computer è necessario ricorrere a un’adeguata
codifica che associ a porzioni del testo struttura e funzioni corrispondenti;
Questa operazione aggiunge al testo informazione e predispone il testo ad ulteriori livelli di analisi
automatica, innestando un ciclo virtuoso.