Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
DELL’INFORMAZIONE MULTIMEDIALE
1 I segnali vocali
La generazione audio e
L’informazione vocale rappresenta il meccanismo usato dagli umani per scam- la sua interpretazione
biare informazione. Si basa sulla diffusione di onde sonore prodotte dall’apparato
fonatorio. Il meccanismo della produzione è generato a livello del sistema nervoso
centrale, dove viene concepito il messaggio. Ai fini della sua composizione, l’area
dedicata alla produzione linguistica del cervello invia segnali, opportunamente
coordinati, generare l’onda di pressione. Prima di tutto pompa aria dai polmoni,
poi comanda il sistema di articolazione, composto primariamente dalla lingua e
A
dalle labbra. Questo produce un’onda di pressione che, ricevuta dalla chiocciola
localizzata nell’orecchio, genera un segnale elettrico poi elaborato dal cervello
per l’interpretazione. Tale onda acustica può generare anche un segnale in un
ZZ
microfono, come indicato in Fig. 1. Il segnale che si vede presenta un comporta-
mento analogo all’onda di pressione percepita in un certo punto. L’andamento
presenta alcune caratteristiche che potrebbero essere contro-intuitive. Per esem-
pio, uno potrebbe essere indotto a credere che le parole producano un segnale che
approssima il livello nullo in corrispondenza delle loro transizioni. In mezzo a due
parole però, come si vede in Fig. 1, il segnale non si annulla: la “o” alla fine della
parola “otto” si co-articola con “e”, ovvero l’iniziale della parola elefanti” ed
BO
co-articolazione “o-e”
occlusiva sorda “t”
A
ZZ otto elefanti
BO
Fig. 1. Segnale elettrico in uscita dal microfono del MacBook Pro per la frase “otto
elefanti”. Si noti come tale segnale manifesti la curiosa proprietà che il suo valore
approssima il valore nullo non in corrispondenza della separazione delle parole “otto”
ed “elefanti”, ma in concomitanza con la presenza dell’occlusiva sorta “t”. Al tempo
stesso, la “o” alla fine della parola “otto” si co-articola con “e”, ovvero l’iniziale della
parola elefanti”.
Title Suppressed Due to Excessive Length 3
Questo tipo di rappresentazione prende il nome di Pulse Code Modulation Formato wav
(PCM). I file audio memorizzati secondo questo standard si dice che hanno il
formato wave, che è comunemente usato per archiviare file audio di alta qualità,
ogni volta che lo spazio su disco non è un vincolo, o in applicazioni come l’editing
A
audio
Abbiamo visto cosa si perde in termine di precisione con la rappresentazione
dei numeri reali e, quindi, dei campioni del segnale. Ma cosa si perde con la
ZZ
quantizzazione temporale? E’ chiaro che in ogni intervallo ci sono ancora infiniti
numeri reali. Un’infinità che ha addirittura la potenza del continuo! Dunque
questo dovrebbe legittimamente creare preoccupazione. Cosa succede ignorando
i valori intermedi? Uno può decidere ad esempio di tenere costante il valore
corrispondente all’ultimo campione finché non arriva il prossimo, ma certamente
questo valore costante è solo una stima di quello che effettivamente succede.
Adesso il fatto è che la natura ci viene in aiuto. Infatti, come tutti i segnali che si
BO
2 Immagini e video
Per l’informazione visuale valgono considerazioni simili a quelle dei segnali vocali
per quanto riguarda la differenza tra l’informazione ambientale e la sua rapp-
resentazione (negli animali e ... nei computer). L’informazione video è infatti il
risultato del processo fisico della riflessione della luce sugli oggetti che popolano
l’ambiente. E’ la struttura fisica specifica degli oggetti che riflette la luce in
funzione della loro struttura. In questo modo, il sistema visuale degli animali
e dei computer acquisisce l’ambiente attraverso il segnale generato dalla retina.
In ambienti naturali, l’informazione è molto ricca. Partiamo dal caso semplice
A −→
π
ZZ
BO
Fig. 2. Carattere manoscritto “due” digitalizzato con risoluzione 8x8 con pixel in bian-
co/nero.
f
−→
– quantizzazione spaziale: In questo caso si assume che la retina acquisce
l’informazione continua attraverso la discretizzazione che è illustrata in Fig. 2.
In questo caso, si hanno 8x8 = 64 picture elements (pixel).
– quantizzazione di livello: Come nel caso del segnale vocale il segnale continuo
deve essere quantizzato. Nel caso di Fig. 2 si usa la soluzione della più estrema
approssimazione, definendo ciascun pixel con i soli colori bianco/nero.
Title Suppressed Due to Excessive Length 5
Nel caso di Fig. 2 uno può subito determinare la quantità di informazione asso-
ciata per la registrazione dell’immagine. Si hanno infatti 64 pixels e servono 64
bit per la memorizzazione.
A
Fig. 3. Caratteri manoscritti estratti dal database MNIST usato come benchmark per
esperimenti di classificazione automatica attraverso algoritmi di machine learning.
ZZ
Si possono trovare rappresentazioni più ricche di quella di Fig. 2 per rap-
presentare l’informazione relativa a caratteri manoscritti. Si può ad esempio
aumentare la risoluzione spaziale e anche andare oltre la semplice descrizione
Boolean dei pixel (acceso/spento). In particolare, in Fig. 3, sono rappresentati
alcuni caratteri manoscritti della popolare banca dati MNIST1 . La risoluzione è
BO
28 · 28 pixels e si usano 256 livelli di grigio per ogni pixel. Quindi, ogni carattere
richiede la memorizzazione di
28 · 28 · 1 = 784byte.
E’ interessante notare che alcuni di questi caratteri in Fig. 3 sono stati corrotti
con rumore in modo da rendere più difficile il loro riconoscimento. Si noti tuttavia
la loro classificazione appare ancora agevole2 . Come nel caso della voce si noti
come la codifica delle 10 categorie richieda solo 4 bit, che sono pure in esubero,
mentre le immagini richiedono 784 byte. Il rapporto di spazio è dunque di oltre
1.500! Ci sono dunque circa tre ordini di grandezza di differenza. Codifica RGB
Adesso andiamo oltre e consideriamo la tipica informazione visuale percepita
quotidianamente. Se dovessimo considerare la retina di un computer odierno, ad
1
Dettagli si trovano a http://yann.lecun.com/exdb/mnist/.
2
Con le reti neurali artificiali si riesce a riconoscere questi caratteri con notevole livello
di accuratezza, ormai prossimo al 100%.
6
esempio con risoluzione 3072 x 1920, in tal caso, le immagini bianco/nero, con
solo due livelli di segnale, richiederebbe la memorizzazione di 589824 bit. In realtà
le immagini nei computer sono molto ricche e vanno ben oltre il bianco/nero con
i due livelli. Si possono rappresentare diverse livelli di grigio. Ad esempio, se si
prendono 20 bit per pixel si possono rappresentare oltre un milione di livelli di
grigio. Per rappresentare i colori si procede poi alla loro composizione attraverso
Rappresentazione dei un’opportuna mistura RGB (Red, Green, Blù).
video La rappresentazione dell’informazione video si basa sull’idea del cinema con-
cepita dai fratelli Lumière alla fine dell’ottocento. Si tratta di quantizzare il
tempo con frequenza dell’ordine dei 20 frame/sec. Chiaramente la rappresen-
tazione del video può semplicemente consistere nella collezione ordinata di frames.
TIFF e mp4 Ad esempio, un video di 10 sec richiede, in questo caso, la memorizzazione di
200 frames. Un classico formato video per considerare questo tipo di rappresen-
tazione senza compressione è il formato Tagged Image File Format, nella sua
versione Baseline TIFF. Quando si comprime si perde informazione, ma questo
potrebbe non essere notato dall’osservatore, soprattutto in funzione delle sue
capacità visive. Un classico formato compresso è mp4, usato per video e audio.
A
3 Grafica e rappresentazioni vettoriali
Fig. 4. Il logo delle Olimpiadi. Invece di rappresentarlo attraverso i singoli pixel di una
retina, uno può in realtà descrivere il disegno.
1. spessore = medio
2. quadrato((xs , ys ) − (xd , yd ))
3. cerchio(b, r, (x1 , y1 ))
4. cerchio(n, r, (x2 , y2 )) (1)
5. cerchio(r, r, (x3 , y3 ))
6. cerchio(n, g, (x4 , y4 ))
7. cerchio(v, r, (x5 , y5 ))
Prima di tutto si definisce lo spessore della penna, che potrebbe essere scelto
tra 4 diversi spessori. La prima istruzione descrive la il rettangolo esterno che è
caratterizzato dai punti posizionati rispettivamente in basso a sinistra (s) e in
alto a destra (d). Le altre cinque istruzioni descrivono i corrispondenti cerchi. Ad
esempio, il primo cerchio blù è identificato tramite b, mentre r è il suo raggio e
(x1 , y1 ) le coordinate del suo centro. Analoga descrizione vale per gli altri cerchi. rappresentazione vet-
Adesso si può calcolare lo spazio di memorizzazione. Supponiamo di descri- toriale e spazio di
memorizzazione
A
vere le grandezze geometriche mediante parole a 16 bit. Per l’istruzione 1 servono
2 bit. Per il quadrato servono 4 parole. Poichè ci sono 5 colori, servono 3 bit per
la codifica e 3 parole per raggio e centro. Dunque:
ZZ 2 + |16{z· 4} +5 · (3 + 16 · 3) = 321 bit.
S = |{z} (2)
| {z }
spessore rettangolo cerchio
BO
8
ESERCIZI E COMPLEMENTI
A
3. [17] Consideriamo la stessa retina dell’esercizio precedente e assumiamo che
si campioni nel tempo con 16 frame/sec. Quanto spazio prende un video di
8 sec?
ZZ
4. [18] Analizza alcune delle foto del tuo smartphone e confronta la spazio di
memorizzazione. Perchè prendono uno spazio diverso pur essendo riprese con
la stessa camera?
5. [18] Illustra il motivo per cui, a parità di risoluzione spaziale dei frames di
un video, lo spazio di memorizzazione necessario aumenta nel caso in cui il
video contiene spostamenti veloci.
6. [18] Discuti il motivo per cui la grafica vettoriale prende meno spazio della
BO
grafica pixel-based.
7. [16] Si consideri la Fig. (4). Si calcoli lo spazio di memorizzazione determinato
mediante (2). Ripetere il calcolo nel caso in cui i cerchi sono riempiti del
colore del bordo.
8. [24] Con riferimento alla Fig. (4 si discuta come discriminare nella rap-
presentazione in grafica vettoriale definita attraverso lo schema 1 il fore-
ground/background all’intersezione dei cerchi. Come descrivere tali differenze?
9. 18 Una casa editrice sta pianificando la memorizzazione dei libri (romanzi)
che produce e vuole stimare lo spazio vocale richiesto dagli audio libri rispetto
allo spazio del testo. Quali dei seguenti rapporti è più verosimile?
(a) La memorizzazione dell’audiolibro prende 1000 volte più dello spazio del
testo
(b) La memorizzazione del libro in formato testo e voce prende grosso modo
lo stesso spazio;
(c) La memorizzazione dell’audiolibro prende dieci volte meno lo spazio
richiesto dal testo