Sei sulla pagina 1di 8

RAPPRESENTAZIONE DEL

DELL’INFORMAZIONE MULTIMEDIALE

er molti anni l’informatica si è basata sull’elaborazione di numeri e, progres-


P sivamente, di informazioni di archivio e di tesi. Negli ultimi tre decenni si
è assistito ad una progressiva evoluzione dell’elaborazione dell’informazione che,
adesso, riguarda ogni forma presente negli umani (voce, tatto, odorato, visione).

1 I segnali vocali
La generazione audio e
L’informazione vocale rappresenta il meccanismo usato dagli umani per scam- la sua interpretazione
biare informazione. Si basa sulla diffusione di onde sonore prodotte dall’apparato
fonatorio. Il meccanismo della produzione è generato a livello del sistema nervoso
centrale, dove viene concepito il messaggio. Ai fini della sua composizione, l’area
dedicata alla produzione linguistica del cervello invia segnali, opportunamente
coordinati, generare l’onda di pressione. Prima di tutto pompa aria dai polmoni,
poi comanda il sistema di articolazione, composto primariamente dalla lingua e

A
dalle labbra. Questo produce un’onda di pressione che, ricevuta dalla chiocciola
localizzata nell’orecchio, genera un segnale elettrico poi elaborato dal cervello
per l’interpretazione. Tale onda acustica può generare anche un segnale in un
ZZ
microfono, come indicato in Fig. 1. Il segnale che si vede presenta un comporta-
mento analogo all’onda di pressione percepita in un certo punto. L’andamento
presenta alcune caratteristiche che potrebbero essere contro-intuitive. Per esem-
pio, uno potrebbe essere indotto a credere che le parole producano un segnale che
approssima il livello nullo in corrispondenza delle loro transizioni. In mezzo a due
parole però, come si vede in Fig. 1, il segnale non si annulla: la “o” alla fine della
parola “otto” si co-articola con “e”, ovvero l’iniziale della parola elefanti” ed
BO

il segnale non presenza alcun interruzione. Invece, i segnale si nominalmente si


annulla in corrispondenza della presenza dell’occlusiva sorta “t”. Rappresentazione
Come si rappresenta un segnale tipo quello della Fig. 1? Il problema chiara- Pulse Code
mente somiglia a quello della rappresentazione dei numeri e del testo e trova Modulation
interessanti connessioni con quello che accade negli umani e negli animali. Cer-
tamente gli animali rappresentano i segnali vocali in modo molto diverso! I cani,
ad esempio, sono capaci di percepire segnali ad altra frequenza e rumori che, si
congettura, precedano anche eventi tellurici. Quindi occorre sempre distinguere
l’informazione audio presente nell’ambiente con la sua rappresentazione interna.
Questa distinzione è molto importante. Abbiamo visto questa differenza anche
a proposito dei numeri. Per gli interi non ci sono problemi: i numeri trovano
una perfetta rappresentazione interna nei computer. Questo però non vale già
non solo per i numeri reali ma, abbiamo visto, anche per i razionali. Come già
notato, tuttavia, si possono usare approssimazioni che sono efficaci per gli molti
scopi pratici. Lo stesso vale per i segnali vocali. La struttura continua si può
trasformare nel discreto. Tale processo interviene con due opportuni livelli di
quantizzazione:
2

co-articolazione “o-e”
occlusiva sorda “t”

A
ZZ otto elefanti
BO

Fig. 1. Segnale elettrico in uscita dal microfono del MacBook Pro per la frase “otto
elefanti”. Si noti come tale segnale manifesti la curiosa proprietà che il suo valore
approssima il valore nullo non in corrispondenza della separazione delle parole “otto”
ed “elefanti”, ma in concomitanza con la presenza dell’occlusiva sorta “t”. Al tempo
stesso, la “o” alla fine della parola “otto” si co-articola con “e”, ovvero l’iniziale della
parola elefanti”.
Title Suppressed Due to Excessive Length 3

– quantizzazione nel tempo;


– quantizzazione nello spazio.
Nel primo caso, invece di considerare i segnali vocali come funzioni reali, uno
assume che il tempo sia discretizzato in modo che i valori del segnale elettrico
sono solo estratti in corrispondenza dei quanti temporali. Ad esempio, nel caso
precedente, uno potrebbe decidere di campionare con 4 KHz/sec. Se la durata
della frase precedente è di 2sec, questo significa che la frase corrisponde ad 8, 000
campioni. Adesso scatta il secondo tipo di quantizzazione. In realtà è qualcosa
che abbiamo già visto, dato che già sappiano che i numeri reali si rappresentano
in modo approssimato. Ad esempio, uno potrebbe usare 256 livelli e codificare
con 8 bit il segnale. In questo caso, complessivamente, la frase registrata richiede
la memorizzazione di

4.000 · 2 8 = 64.000 bit ' 8 KByte.

Questo tipo di rappresentazione prende il nome di Pulse Code Modulation Formato wav
(PCM). I file audio memorizzati secondo questo standard si dice che hanno il
formato wave, che è comunemente usato per archiviare file audio di alta qualità,
ogni volta che lo spazio su disco non è un vincolo, o in applicazioni come l’editing

A
audio
Abbiamo visto cosa si perde in termine di precisione con la rappresentazione
dei numeri reali e, quindi, dei campioni del segnale. Ma cosa si perde con la
ZZ
quantizzazione temporale? E’ chiaro che in ogni intervallo ci sono ancora infiniti
numeri reali. Un’infinità che ha addirittura la potenza del continuo! Dunque
questo dovrebbe legittimamente creare preoccupazione. Cosa succede ignorando
i valori intermedi? Uno può decidere ad esempio di tenere costante il valore
corrispondente all’ultimo campione finché non arriva il prossimo, ma certamente
questo valore costante è solo una stima di quello che effettivamente succede.
Adesso il fatto è che la natura ci viene in aiuto. Infatti, come tutti i segnali che si
BO

collezionano da fenomeni naturali, il segnale vocale ha una velocità di variazione


nel tempo limitata! Il fatto è che se si campiona a velocità abbastanza alta
allora è possibile ricostruire il segnale con approssimazione arbitraria, talvolta
ben esuberante rispetto al contesto applicativo. Anche gli umani posseggono in
realtà diverse capacità di rappresentare i segnali vocali e, alcuni deficit limitati,
non compromettono talvolta la comprensione della voce nella maggior parte dei
contesti reali. Questo problema è stato studiato in dettaglio alla fine della prima
metà del secolo scorso soprattutto da Claude Shannon che contribuı̀ a trovare
fondamentali soluzioni pratiche al problema della quantizzazione. compressione della
Certo è che la codifica PCM è la soluzione più semplice ed ovvia. Tuttavia, voce, formato mp3
questo tipo di rappresentazione, con lo spazio di registrazione richiesto, non è
tuttavia strettamente necessaria. Si può in genere fare di meglio per risparmiare
lo spazio di memorizzazione. Guardando il segnale di Fig. 1 si vede bene che
ci sono porzioni in cui evidentemente è presente meno informazione. Pertanto,
uno potrebbe pensare a quantizzazioni a velocità non uniforme, risparmiando la
quantizzazione alle zone più ricche. In generale la capacità di prevedere il segnale
permette di risparmiare spazio per la memorizzazione. Idealmente, se si potesse
tation e ∈ E . Fu
ber 2 and, finally
4

prevedere in modo perfetto il segnale, basterebbe registrare l’informazione “seme”


di partenza per poi lasciare che il predittore restituisca il valore del segnale senza
bisogno della sua memorizzazione. Chiaramente questo è in generale impossibile,

that is more suit


ma ogni predizione del segnale permette chiaramente di risparmiare la regis-
trazione del segnale. Gli algoritmi di compressione dei segnali vocali sfrutta in
modo decisivo questo principio - es. il formato mp3.

2 Immagini e video
Per l’informazione visuale valgono considerazioni simili a quelle dei segnali vocali
per quanto riguarda la differenza tra l’informazione ambientale e la sua rapp-
resentazione (negli animali e ... nei computer). L’informazione video è infatti il
risultato del processo fisico della riflessione della luce sugli oggetti che popolano
l’ambiente. E’ la struttura fisica specifica degli oggetti che riflette la luce in
funzione della loro struttura. In questo modo, il sistema visuale degli animali
e dei computer acquisisce l’ambiente attraverso il segnale generato dalla retina.
In ambienti naturali, l’informazione è molto ricca. Partiamo dal caso semplice

A −→
π
ZZ
BO

Fig. 2. Carattere manoscritto “due” digitalizzato con risoluzione 8x8 con pixel in bian-
co/nero.

illustrato in Fig. 2. In questo caso si riconosce subito l’analogia con i segnali


vocali. Ancora una volte si procede per quantizzazione. Si distingue:

f
−→
– quantizzazione spaziale: In questo caso si assume che la retina acquisce
l’informazione continua attraverso la discretizzazione che è illustrata in Fig. 2.
In questo caso, si hanno 8x8 = 64 picture elements (pixel).
– quantizzazione di livello: Come nel caso del segnale vocale il segnale continuo
deve essere quantizzato. Nel caso di Fig. 2 si usa la soluzione della più estrema
approssimazione, definendo ciascun pixel con i soli colori bianco/nero.
Title Suppressed Due to Excessive Length 5

Nel caso di Fig. 2 uno può subito determinare la quantità di informazione asso-
ciata per la registrazione dell’immagine. Si hanno infatti 64 pixels e servono 64
bit per la memorizzazione.

A
Fig. 3. Caratteri manoscritti estratti dal database MNIST usato come benchmark per
esperimenti di classificazione automatica attraverso algoritmi di machine learning.
ZZ
Si possono trovare rappresentazioni più ricche di quella di Fig. 2 per rap-
presentare l’informazione relativa a caratteri manoscritti. Si può ad esempio
aumentare la risoluzione spaziale e anche andare oltre la semplice descrizione
Boolean dei pixel (acceso/spento). In particolare, in Fig. 3, sono rappresentati
alcuni caratteri manoscritti della popolare banca dati MNIST1 . La risoluzione è
BO

28 · 28 pixels e si usano 256 livelli di grigio per ogni pixel. Quindi, ogni carattere
richiede la memorizzazione di

28 · 28 · 1 = 784byte.

E’ interessante notare che alcuni di questi caratteri in Fig. 3 sono stati corrotti
con rumore in modo da rendere più difficile il loro riconoscimento. Si noti tuttavia
la loro classificazione appare ancora agevole2 . Come nel caso della voce si noti
come la codifica delle 10 categorie richieda solo 4 bit, che sono pure in esubero,
mentre le immagini richiedono 784 byte. Il rapporto di spazio è dunque di oltre
1.500! Ci sono dunque circa tre ordini di grandezza di differenza. Codifica RGB
Adesso andiamo oltre e consideriamo la tipica informazione visuale percepita
quotidianamente. Se dovessimo considerare la retina di un computer odierno, ad
1
Dettagli si trovano a http://yann.lecun.com/exdb/mnist/.
2
Con le reti neurali artificiali si riesce a riconoscere questi caratteri con notevole livello
di accuratezza, ormai prossimo al 100%.
6

esempio con risoluzione 3072 x 1920, in tal caso, le immagini bianco/nero, con
solo due livelli di segnale, richiederebbe la memorizzazione di 589824 bit. In realtà
le immagini nei computer sono molto ricche e vanno ben oltre il bianco/nero con
i due livelli. Si possono rappresentare diverse livelli di grigio. Ad esempio, se si
prendono 20 bit per pixel si possono rappresentare oltre un milione di livelli di
grigio. Per rappresentare i colori si procede poi alla loro composizione attraverso
Rappresentazione dei un’opportuna mistura RGB (Red, Green, Blù).
video La rappresentazione dell’informazione video si basa sull’idea del cinema con-
cepita dai fratelli Lumière alla fine dell’ottocento. Si tratta di quantizzare il
tempo con frequenza dell’ordine dei 20 frame/sec. Chiaramente la rappresen-
tazione del video può semplicemente consistere nella collezione ordinata di frames.
TIFF e mp4 Ad esempio, un video di 10 sec richiede, in questo caso, la memorizzazione di
200 frames. Un classico formato video per considerare questo tipo di rappresen-
tazione senza compressione è il formato Tagged Image File Format, nella sua
versione Baseline TIFF. Quando si comprime si perde informazione, ma questo
potrebbe non essere notato dall’osservatore, soprattutto in funzione delle sue
capacità visive. Un classico formato compresso è mp4, usato per video e audio.

A
3 Grafica e rappresentazioni vettoriali

La discussione precedente mostra che la rappresentazione dell’informazione vi-


ZZ
suale richiede molto spazio di memorizzazione. Come per la voce, uno può contare
sulla compressione con perdita, ma serve comunque tipicamente molto spazio.
Quello che si risparmia dipende dalla nostra capacità di fare predizione; gli algo-
ritmi di compressione efficienti si distinguono proprio per la capacità di prevedere
il contenuto visuale.
BO

Fig. 4. Il logo delle Olimpiadi. Invece di rappresentarlo attraverso i singoli pixel di una
retina, uno può in realtà descrivere il disegno.

C’è tuttavia un’altra interessante tipologia di informazione visuale, che si


manifesta in modo totalmente diversa e riguarda quella generata dagli umani
attraverso descrizioni simboliche. Ad esempio, ogni applicazioni per la gener-
azione di grafica si caratterizza per il fatto che è possibile descrivere un disegno
Title Suppressed Due to Excessive Length 7

attraverso una descrizione formale. Uno potrebbe descrivere un disegno cosı̀:

1. spessore = medio
2. quadrato((xs , ys ) − (xd , yd ))
3. cerchio(b, r, (x1 , y1 ))
4. cerchio(n, r, (x2 , y2 )) (1)
5. cerchio(r, r, (x3 , y3 ))
6. cerchio(n, g, (x4 , y4 ))
7. cerchio(v, r, (x5 , y5 ))

Prima di tutto si definisce lo spessore della penna, che potrebbe essere scelto
tra 4 diversi spessori. La prima istruzione descrive la il rettangolo esterno che è
caratterizzato dai punti posizionati rispettivamente in basso a sinistra (s) e in
alto a destra (d). Le altre cinque istruzioni descrivono i corrispondenti cerchi. Ad
esempio, il primo cerchio blù è identificato tramite b, mentre r è il suo raggio e
(x1 , y1 ) le coordinate del suo centro. Analoga descrizione vale per gli altri cerchi. rappresentazione vet-
Adesso si può calcolare lo spazio di memorizzazione. Supponiamo di descri- toriale e spazio di
memorizzazione

A
vere le grandezze geometriche mediante parole a 16 bit. Per l’istruzione 1 servono
2 bit. Per il quadrato servono 4 parole. Poichè ci sono 5 colori, servono 3 bit per
la codifica e 3 parole per raggio e centro. Dunque:
ZZ 2 + |16{z· 4} +5 · (3 + 16 · 3) = 321 bit.
S = |{z} (2)
| {z }
spessore rettangolo cerchio
BO
8

ESERCIZI E COMPLEMENTI

1. [16] Considera la trasmissione di messaggi testoTM WhatsApp e corrispon-


denti messaggi vocali. Stima la differenza di spazio richiesto per la memoriz-
zazione.
Soluzione: Si consideri per semplicità la parola ciao memorizzata come seg-
nale vocale con campioni a 8 KHz. Se la pronuncia dura 0.5 sec allora ser-
vono 4.000 campioni. Se si associa un byte a campione, lo spazio richiesto è
di circa 4 Kbyte. Il testo invece richiede 4 byte e, pertanto, ci sono tre ordini
di grandezza di differenza nella memorizzazione. Chiaramente si supporta lo
stesso messaggio di saluto in entrambi i casi, ma nel messaggio vocale è con-
tenuta molta informazione addizionale da cui, ad esempio, si può percepire
l’umore di chi pronuncia.
2. [17] Supponiamo che una retina abbia risoluzione 1024 x 1024 e che supporti
colori con codifica RGB con 65536 livelli. Determinare lo spazio di memoriz-
zazione richiesto.
Soluzione: Si ha

1024 · 1024 · 16 = 16 · 210 · 210 = 16 · 220 = 16Mbit.

A
3. [17] Consideriamo la stessa retina dell’esercizio precedente e assumiamo che
si campioni nel tempo con 16 frame/sec. Quanto spazio prende un video di
8 sec?
ZZ
4. [18] Analizza alcune delle foto del tuo smartphone e confronta la spazio di
memorizzazione. Perchè prendono uno spazio diverso pur essendo riprese con
la stessa camera?
5. [18] Illustra il motivo per cui, a parità di risoluzione spaziale dei frames di
un video, lo spazio di memorizzazione necessario aumenta nel caso in cui il
video contiene spostamenti veloci.
6. [18] Discuti il motivo per cui la grafica vettoriale prende meno spazio della
BO

grafica pixel-based.
7. [16] Si consideri la Fig. (4). Si calcoli lo spazio di memorizzazione determinato
mediante (2). Ripetere il calcolo nel caso in cui i cerchi sono riempiti del
colore del bordo.
8. [24] Con riferimento alla Fig. (4 si discuta come discriminare nella rap-
presentazione in grafica vettoriale definita attraverso lo schema 1 il fore-
ground/background all’intersezione dei cerchi. Come descrivere tali differenze?
9. 18 Una casa editrice sta pianificando la memorizzazione dei libri (romanzi)
che produce e vuole stimare lo spazio vocale richiesto dagli audio libri rispetto
allo spazio del testo. Quali dei seguenti rapporti è più verosimile?
(a) La memorizzazione dell’audiolibro prende 1000 volte più dello spazio del
testo
(b) La memorizzazione del libro in formato testo e voce prende grosso modo
lo stesso spazio;
(c) La memorizzazione dell’audiolibro prende dieci volte meno lo spazio
richiesto dal testo

Potrebbero piacerti anche