Sei sulla pagina 1di 31

INFORMAZIONE

MULTIMEDIALE
“Multimedia è la combinazione di diverse componenti multimodali quali testo, audio,
immagini, video, grafica, animazioni fruite interattivamente da un utente attraverso
dispositivi elettronici e il cui contenuto informativo viene manipolato sotto forma di
segnale digitale.”
L’informatico ha la capacità di modellare le cose, di elaborarle e poi da dare un
output.

Fourier
Il segnale è il centro della questione, secondo la serie di Fourier una funzione
arbitraria, anche se discontinua, può essere rappresentata come sovrapposizione di
elementi di una base ortogonale espressa in termine di seni e coseni. L’introduzione
dell’algoritmo per il calcolo veloce della trasformata di Fourier discreta chiamato
Fast Fourier Transform (FFT) imprime una grande svolta all’elaborazione dei segnali
e all’analisi dei dati.

Shannon
Studio teorico del problema generale della comunicazione efficiente ed affidabile su
di un canale reale inaffidabile(rumoroso). Altri studi: algebra booleana, concetto
teorico dell’informazione basata sull’entropia e trattamento digitale
dell’informazione.

Si vuole capire come l’informazione viene acquisita, codificata ed elaborata nelle


applicazioni su computer.

Colab
È uno strumento di google drive che viene usato per condividere i notebook, è basato
su celle in cui si possono eseguire snippet di codice. Questo permette di fare
interazione, esecuzioni asincrone, di non lanciare un processo complesso e aspettarne
il risultato. I notebook sono file XML che si possono far girare anche localmente
utilizzando Jupiter.

AUDIO
________________________________________
Acustica
L’acustica è la scienza che si occupa della misura quantificabile della produzione,
controllo, trasmissione e ricezione del suono.

Psicoacustica
La percezione del suono, la relazione statistica/matematica tra stimolo acustico e
sensazioni, che trasforma il segnale in ingresso in segnale in uscita.

Suono
Il suono è un fenomeno fisico che viene causato dalle vibrazioni del materiale. Viene
trasmesso da ogni materiale, che sia aria, materiali solidi, gassosi o liquidi. Ciò che
viene veicolato è un’energia, sotto forma di onda pressoria. Gli elementi che
costituiscono il canale, come le molecole nell’aria, entrano in vibrazione, cioè,
rispetto a una posizione stazionaria, cominciano a oscillare intorno al punto
stazionario e comprimono/decomprimono.

Interpretazione del suono


Per percepire il suono abbiamo l’orecchio e il cervello. L’orecchio converte le onde
sonore in impulsi elettrici che sono interpretati dal cervello. La pressione acustica
viene trasformata in vibrazioni meccaniche, le quali sono rappresentate da una serie
di impulsi, una forma d’onda.

Orecchio
Nella parte media l’informazione viene trasformata in maniera meccanica, la coclea
invece si occupa di produrre e mandare sul nervo uditivo dei segnali elettrici al
cervello.
Il fronte d’onda colpisce il padiglione, quindi il padiglione cattura più informazione
che può. Quello che riesce a catturare lo porta nel canale uditivo, il quale in passato
aveva le funzioni di comprendere le informazioni che oscillano su determinate
frequenze, probabilmente quelle per difendersi o per comunicare.
Poi si arriva al timpano, membrana molto delicata che riceve l’informazione e vibra,
quando vibra, in accordo al segnale che è stato enfatizzato dal canale uditivo, opera
un impulso alla parte centrale dell’orecchio, in cui abbiamo tre ossicini che si
occupano di fare la trasformazione di un segnale debole alla la parte interna, che ha
una grossa densità. Amplificano il segnale che arriva sulla membrana timpanica e
enfatizzano da un gas a un liquido senza creare danni alla parte interna.
La parte interna ha una zona dedicata all’equilibrio e una dedicata all’apparato
uditivo. La coclea è il processore centrale dell’orecchio, contiene l’organo dei corti,
che si occupa di tradurre le fluttuazioni che arrivano in base a come la staffa induce
delle vibrazioni nei liquidi muovendosi, passando così da energia meccanica a
energia elettrica (impulsi neurali).
Quindi, le onde sonore viaggiano attraverso il canale uditivo e fanno vibrare il
timpano; la vibrazione viene trasmessa attraverso gli ossicini alla finestra ovale
all’ingresso della coclea. Il movimento della finestra ovale costringe il fluido nella
coclea a scorrere, il che si traduce nella vibrazione della membrana basilare che si
trova lungo la coclea e contiene l’organo dei corti. Questo movimento provoca la
stimolazione delle cellule ciliate sulla membrana basilare e la generazione di risposte
neurali che trasportano le informazioni acustiche. Gli impulsi neurali vengono
mandati al sistema uditivo centrale attraverso i nervi uditivi per essere interpretati dal
cervello.

Il
suono quindi è un’onda meccanica, un disturbo che viaggia attraverso un mezzo,
trasporta energia da una locazione all’altra. Quando vogliamo fare analisi o sintesi del
suono vorremmo modellare la forma d’onda e il sistema vibrante stesso.

Mezzi per onde sonore


Le onde sonore viaggiano in solidi, liquidi o gas. Sono onde longitudinali o anche
trasversali. Va più veloce nei solidi rispetto ai liquidi perché i solidi sono più difficili
da comprimere e va più veloce nei liquidi rispetto ai gas perché i liquidi sono più
difficili da comprimere. Nell’aria la velocità è 340 m/s, nell’acqua 1484 m/s. La
velocità del suono dipende dal mezzo: densità/compressibilità, durezza (solidi),
temperatura (fluidi).
Tipi di propagazione
Longitudinale: la propagazione è parallela alla direzione in cui ci stiamo muovendo.
Trasversale: la propagazione è perpendicolare alla direzione di propagazione, non è
tipico dei segnali sonori.

Forme d’onda
Funzione che rappresenta come è fatta l’onda basandosi sulla variazione di una
grandezza indipendente come il tempo e la misura di un’ampiezza, che è il livello di
compressione o rarefazione.

Ampiezza: massimo valore che l’onda può raggiungere (Pa o N/m2)


Lunghezza d’onda: lunghezza di un ciclo completo (m), numero di volte in cui si
ripete il segnale nell’unità di tempo
Periodo: tempo per completare un ciclo (s)
Frequenza: numero di cicli per secondo (Hz)

Scale lineari vs logaritmiche


Spesso si usa la scala logaritmica a differenza di quella lineare, dove la differenza tra
due unità è una quantità costante. Nella scala logaritmica è invece costante il rapporto
tra due unità contigue.
In una scala logaritmica si riesce a comprimere un range estremamente più elevato
rispetto ad una scala lineare. In una scala lineare una variazione da 1 a 2 è percepita
come la stessa quantità di aumento da 4 a 5, in una scala logaritmica una variazione
da 1 a 2 è percepita come la stessa quantità di aumento da 4 a 8

Decibel
1 Bel = 10 Decibel
Il decibel è una scala logaritmica utilizzata per comparare due quantità. Quando ci
riferiamo misurazioni di potenza o intensità, le misurazioni sono in Decibel.
Xdb = 10log10(X/X0)
X è il valore attuale della misurazione
X0 è un livello di riferimento
Xdb è la quantità espressa in unità di Decibel relativamente a X0
X e X0 devono misurare lo stesso tipo di quantità nella stessa unità
Il livello di riferimento è 0 Decibel, quando X=X0
Si mettono in rapporto le due grandezze X e X0, poi si fa la scala logaritmica e si
moltiplica per 10.

Potenza e intensità
Le onde possono rappresentare diverse variabili fisiche tempovarianti (forza, velocità,
accelerazione). Per le onde sonore la variabile fisica che dà l’ampiezza della forma
d’onda è la pressione.
La potenza emessa da una sorgente è una quantità fissa analoga a una lampadina che
fa luce. Una lampadina ha un parametro fondamentale espresso in Watt, la potenza,
per dire quale è più o meno luminosa.
Stessa cosa per l’intensità sonora, in un punto B una persona riceve più intensità
sonora rispetto al punto A.

Intensità e intensità sonora


L’intensità è la potenza per unità di area trasportata dall’onda, misurata in W/m2,
quindi intensità = potenza/area.
L’intensità sonora è proporzionale al quadrato della pressione, che è una forza su un
unità di area. L’intensità sonora è la potenza sonora che colpisce un’area. I = p2/(ρv)
dove p è la pressione, ρ è la densità dell’aria o del mezzo in generale (kg/m3) e v è
la velocità del mezzo.
Il suono è udibile agli umani quando la sua intensità è:
I0 = 10-12 W/m2
1 W/m2 è la soglia del dolore.
Se vogliamo calcolare la differenza tra due punti ad intensità distinte L1 ed L2 si può
fare così:
L = L2 – L1 = 10log10(I2/I1)db
Se al posto di I1 mettiamo I0 (che è la soglia dell’udibile) otteniamo il livello di
intensità del suono di una sorgente.

Distanza dalla sorgente


L’intensità del suono emanato da una sorgente decresce con lo spazio che percorre.
Possono anche esserci interferenze date dalla riflessione di altri oggetti.
Considerando una sorgente puntiforme che emette onde in tutte le direzioni, i fronti
d’onda si espandono secondo superfici concentriche. Considerando la sfera a distanza
r rispetto alla sorgente puntiforme avremo che l’intensità sonora sarà pari a:
I = P/4πr2.
Raddoppiando la distanza l’intensità diventa 1/22, si perdono 6 db.
LI = 10log(1/22 * I/I0) = 10log(I/I0) – 20log(2) = 10log(I/I0) – 6db
Soglie varie
Soglia di udibilità: 0.00002 N/m2.
Soglia del dolore: 200 N/m2.
Onda più corta udibile: 340/20000 = 1.7 cm
Onda più lunga udibile: 340/20 = 17m

Segnali analogici
Sono continui nel tempo, sono sequenze infinite e non contabili di numeri, così come
i possibili valori che ogni numero può avere:
tempo → ci sono infiniti possibili valori per il tempo t (tra inizio e fine)
ampiezza → s(t), funzione dipendente da t
Un segnale continuo non può essere salvato o processato perché richiederebbe dati
infiniti.
I segnali analogici devono essere discretizzati (digitalizzati) per produrre un insieme
finito di numeri per poter essere utilizzati in un computer.

Sinusoide
Funzione di tempo dove tutte le variabili sono numeri reali.
s(t) = Asin(2πft + φ) = Asin(ωt + φ)
A → ampiezza di picco (scalare)
ω = 2πf → frequenza in radianti (rad/sec)
t = tempo (secondi)
f = frequenza (Hz), cicli per secondo
φ = fase (radianti)

L’ampiezza di un segnale s è il valore istantaneo s(t) al tempo t.


Ampiezza di picco è spesso abbreviata in ampiezza.

Quale valore di frequenza f deve essere attribuita alla sinusoide:


s(t) = sin(πft + π/3) perché il segnale si ripeta 2.5 volte nell’unità di tempo?
5

Sovrapposizioni di segnali
Si possono costruire sommando tra loro dei segnali. Si prendono sinusoidi distinte
con frequenza e durata distinte e si sommano.
La somma di due sinusoidi si annulla variando la fase, se la differenza è pi greco i
due segnali si annullano.

Diapason
Vibra approssimativamente in maniera sinusoidale. Spesso fa 440 cicli per secondo.
L’ampiezza dipende da quanto sbattiamo forte sul diapason, la fase viene settata nel
momento in cui sbattiamo sul diapason. x(t) = Asin( 2π440t + φ)

Le sinusoidi sono importanti perché sono autofunzioni di sistemi lineari, questo


significa che sono importanti per l’analisi di filtri come riverberi, equalizzatori e altri
effetti. L’orecchio umano è come un analizzatore di spettro, la coclea divide il suono
in componenti sinusoidali.

Beat
Fenomeno dei battimenti, si ha quando si sommano due sinusoidi a frequenze distinte
ma molto vicine tra di loro. Quando si sommano si ottiene una interferenza
costruttiva e una interferenza distruttiva, tendono a cancellare le loro ampiezze o ad
amplificarle, rendendo la forma d’onda come un inviluppo che ha la forma di una
caramella.

Microfono
Un segnale sonoro del mondo reale è catturato utilizzando un microfono, che ha un
diaframma che viene spinto avanti e indietro in base alla compressione e alla
rarefazione della forma d’onda del segnale. Il microfono trasforma un segnale
analogico in un segnale analogico ma facile da gestire, come una tensione elettrica.
Il processo in cui un segnale viene digitalizzato è chiamato analog to digital
conversion. Quando trasformiamo tutto in numeri abbiamo il vantaggio di poter usare
i DSP.

Digital audio system

1. A/D conversion: sampling and quantization con numeri finiti di bit, catturiamo il
mondo analogico. Campionamento vuol dire che vado a discretizzare il tempo, non
posso catturare il tempo continuo che ha una varietà di numeri reali. Con la
quantizzazione rendo finiti e discreti i valori del segnale stesso. Dobbiamo codificare,
fissare un certo numero di bit.

2. Signal processing: elaborare il segnale attraverso DSP

3. D/A conversion: ricostruzione del segnale analogico

Segnali digitali
Discretizzare il segnale analogico vuol dire discretizzare il tempo, andare a prelevare
il valore del segnale nel tempo. Dopo si fa la quantizzazione, si va a mappare la
funzione su dei quanti che siamo in grado di catturare e memorizzare.
Un segnale discreto è una sequenza finita di numeri con finiti possibili valori per ogni
numero. Bit depth indica quanti bit sono usati per rappresentare i valori.
L’ADC è il dispositivo che discretizza un segnale analogico attraverso
campionamento e quantizzazione.
Campionamento: prendere valori (sample) a intervalli di tempo regolari
Quantizzazione: assegnare un numero ai valori (usando i bit)

Sampling system
Lo fa l’ADC. È il processo di prendere valori della forma d’onda analogica xa(t) a
intervalli di tempo regolarmente spaziati.
Il sampling period è l’intervallo di tempo in secondi tra sample.
Ts = 1/Fs
Il sample rate è il numero di sample presi per secondo.

Ts è il passo di campionamento. La sequenza numerica prodotta quanto è rispettosa


del segnale in ingresso?
Il periodo e la frequenza di campionamento sono diversi dal periodo e dalla frequenza
del segnale.

Campionamento e ricostruzione
Se voglio ricostruire il segnale a partire dai suoi campioni non bisogna perdere il
passo di campionamento. Se metto in un array una sequenza di numeri non ha alcun
significato, assume il significato quando gli attribuiamo la frequenza di
campionamento, che è quella che ci permette di ricostruire il segnale o di restituire
all’ambiente un segnale sensato rispetto a quello in ingresso.
Se prendo una sinusoide a 2 hz e ne faccio il campionamento a 32 hz (32 campioni al
secondo), se passo a 16 hz raddoppia il passo di campionamento e dimezzano le
frequenze.
Cambio di sample rate
Se il segnale è digitalizzato e ricostruito utilizzando lo stesso sample rate, frequenza e
durata saranno preservati. Spesso succede di dover utilizzare un sottocampionamento
o un sopracampionamento.
Se prendo una sinusoide pura di 220 Hz e la campiono a 44100 Hz, cosa succede se
viene riprodotta su un sistema di audio che ha un sample rate di 22050 Hz? A quale
frequenza viene riprodotto il tono di 220 Hz? Se abbiamo il nostro segnale x(t) =
sin(2πft)
f = 220 Hz
t = 1/220 s
Fs = 44100 Hz
Ts = 1/44100 s
F’s = 22050 Hz
T’s = 1/F’s = 1/22050 = 2/44100 = 2/Fs
T’ = 2T = 2/f = 1/110 s
Funzione step
La funzione step è una funzione che è 0 prima di 0 e diventa 1 dopo lo 0.

Impulso unitario (gradino)

Forme d’onda digitali sinusoidali


Sinusoidale: Asin(2πfnTs + φ) = Asin(ωn + φ)
Sinusoidale: Acos(2πfnTs + φ) = Acos(ωn + φ)

Stiamo prelevando a tempi multipli di Ts, n è una variabile discreta intera. Ts è il


passo di campionamento.

Teorema di Nyquist-Shannon
Se prendo il segnale x(t), con la sua trasformata di Fourier F(ω) che mi dà il suo
spettro, vedo che lo spettro è simmetrico. Al di fuori di questa banda base c’è 0,
prima di -b e dopo di b. Il segnale x(t) è reale, quindi lo spettro è sempre fatto in
questo modo simmetrico, spesso ci si dimentica della parte prima dello 0 perché tutta
l’informazione l’abbiamo da 0 a b. Il teorema dice che se prendiamo un segnale che
ha queste caratteristiche e la linea spettrale si mostra in questo modo, allora è
possibile prelevare un numero di campioni che sia una frequenza almeno doppia della
massima frequenza possibile.
Un segnale continuo nel tempo a banda limitata può essere campionato e ricostruito
dai suoi campioni se la forma d’onda viene campionata a una velocità doppia rispetto
alla sua frequenza più alta.

Campionamento sinusoidi
Sostituzione: t → nTs
dove n è un intero che corrisponde all’indice nella sequenza.
Quindi xa(t) = Asin(ωt + φ) diventa xa(nTs) = Asin(ωnts + φ) attraverso la
discretizzazione. Questa è una sequenza di numeri che può essere indicizzata
attraverso n, mentre t → nTs era indicizzata da t, che è continua.

Replica spettrale

Questo serve per scrivere le sinusoidi con l’esponenziale complesso. Nel


momento in cui lavoriamo nel tempo omega è un parametro, un valore di
frequenza arbitrario, non è una variabile. Il seno e il coseno sono una
combinazione lineare di esponenziali complesse tra loro complessi coniugati (e
alla jomegat ed e alla meno jomegat).
Il più piccolo elemento dello spettro di un segnale sinusoidale diventa lo spettro
associato all’esponenziale complesso. Si dimostra che lo spettro di una sinusoide
è dato da:
Delta di Dirac

Empirical derivation
Quando campiono ho la replica spettrale con cui devo fare i conti. Il teorema del
campionamento, che mostra questo lato spettrale di replica della banda base ha
una derivazione.
xa(t) = cos(2πft), t appartenente ad R
Fs / f = (samp/sec) / (cycle / sec) = samp / cycle
Si può notare che occorre utilizzare una frequenza di campionamento che è pari
almeno al doppio della frequenza presente. Quel rapporto ci dà il numero di
campioni per ciclo.

Mai andare al di sotto di 2f.

Segnale audio generale


Un segnale audio arbitrario xa(t) può essere espresso come una combinazione
lineare di sinusoidi (Fourier). Un buon sampling di xa(t) può essere ottenuto solo
se ogni componente sinusoidale di xa(t) è campionata bene. Questo richiede che il
segnale xa(t) sia a banda limitata.

Lunghezza intervallo di tempo


Variazioni rapide di segnale devono essere campionate ad alta frequenza, variazioni
lente a bassa
frequenza.
Condizioni teorema campionamento
Il segnale deve essere a banda limitata e il sample rate deve essere il doppio della
massima frequenza.

Tasso di Nyquist
Fissa il limite inferiore alla frequenza di campionamento per poter rispettare i criteri
del teorema, quindi per la ricostruzione.

Ricostruzione analogica

I campioni di tutte quelle sinusoidi coincidono con i campioni dell’originale. Tutte le


frequenze, che hanno la caratteristica di essere una frequenza di base più dei multipli
della frequenza di campionamento producono aliasing naturale.

Ricostruzione ideale
Filtro passabasso, il ricostruttore ideale estrae da un segnale campionato tutte le
componenti di frequenza che stanno nell’intervallo di Nyquist [-Fs/2, Fs/2] e rimuove
le frequenze fuori.

Undersampling
Se un segnale viene sottocampionato sarà interpretato come l’alias che sta nel range
permesso f < Fs/2. Sottocampionare una sinusoide di 3 Hz a Fs=4 fa interpretare la
frequenza come 1 Hz.

Aliasing
Le sinusoidi discrete hanno infiniti alias, ma è il più basso in frequenza ( < Fs/2) che
suonerà.
Frequenze spurie
IMMAGINI
________________________________________

Image processing
Studio di algoritmi che, data in input un’immagine, ritornano un’immagine (migliore)
in output.

Image analysis
Studio di algoritmi che, data in input un’immagine, ritornano un insieme di attributi
non necessariamente visuali.

Computer vision
Studio di algoritmi che, data in input un’immagine, ritornano un insieme di attributi
con un significato semantico, ad esempio capire cosa c’è in una foto.

Tutto questo è manipolazione di segnali digitali.

Informazione multimediale
Da un’immagine si possono estrarre molte informazioni, ad esempio si possono
estrarre il segnale fisico catturato o la sua codifica, e queste sono informazioni di
basso livello; si possono estrarre anche informazioni di alto livello, come le
informazioni semantiche.

Un esempio di
elaborazione di basso livello è la modifica del contrasto, che si fa attraverso
elaborazioni puntuali. Si possono anche usare filtri spaziali per togliere rumore da
un’immagine.

Edge detection
Evidenziare i punti di massimo contrasto.

Segmentazione
Individuare porzioni di immagine omogenee tra loro, questo è il clustering che si può
fare con metodi tradizionali o machine learning.

Visione ed elaborazione
Sopra analogico, sotto digitale.

Colore
C’è differenza tra la fisica del colore e il modo in cui l’umano percepisce il colore.
Un oggetto deve essere illuminato per essere visto, ma non basta perché l’oggetto
deve anche avere proprietà di riflessione. Ogni superficie ha delle proprietà di
assorbimento, che fanno vedere la differenza di colore tra gli oggetti. Un oggetto
rosso assorbe e neutralizza le componenti verde e blu della sorgente luminosa e
riflette il rosso. E infine c’è il sistema visivo umano che coglie la parte che viene
riflessa
La definizione di colore ha la proprietà psicofisica, perché legata sia alla fisica che
alla percezione umana.

Fisica della luce


La luce, come il suono, si propaga come onda elettromagnetica, che è un’onda
sinusoidale in propagazione caratterizzata da una lunghezza d’onda λ.

Le onde elettromagnetiche si propagano tutte alla velocità della luce c, quando le


onde elettromagnetiche si propagano si portano dietro dell’energia, che si propaga.
Questa energia radiante è direttamente proporzionale alla frequenza.

Potenza radiante
La potenza radiante P è l’energia emessa, trasferita e ricevuta nell’unità di tempo.
Radianza (L)
La radianza è la potenza radiante per unità infinitesimale di superficie irradiante.

Irradianza (E)
È la potenza radiante per unità infinitesimale di superficie irradiata, potenza ricevuta
per unità di superficie irradiata. Ci interessa, ad esempio, quanto un’unità
infinitesimale della superficie della mela viene irradiata (colpita dalla luce). Se
cambio luce il risultato finale cambia, perché c’è un’irradianza diversa.

Spettro elettromagnetico
Le onde elettromagnetiche che si diffondono nello spazio possono avere lunghezze
d’onda molto diverse.

L’occhio umano si è adattato alla luce del giorno, analizzando la luce del sole si può
vedere che le sue componenti sono concentrate nel range visibile.

Luce
La luce è la porzione di spettro elettromagnetico percepibile dal sistema visivo
umano.
La luce del sole è un fascio di luce bianca, è una miscela di più componenti. Se si usa
un prisma a sezione triangolare si può vedere che il passaggio della luce dall’aria ad
altro mezzo trasparente provoca la rifrazione, cioè la deviazione dei raggi luminosi,
con diversi indici di rifrazione a seconda della lunghezza d’onda (deviati in modo
diverso). I raggi con lunghezza d’onda minore vengono deviati maggiormente.

Spettro-radiometro
Divide la luce in input nelle diverse lunghezze d’onda e misura l’energia di ciascuna.
Se mettiamo un filtro sensibile a una specifica lunghezza d’onda e a valle del filtro
mettiamo un rivelatore che rileva una potenza pari a 81 abbiamo il blu, andando
avanti così, cioè mettendo rivelatori di tutti i possibili colori otteniamo la potenza di
tutte le lunghezze d’onda. Questo ci permette di costruire lo spettro di potenza,
perché scomponiamo un segnale che nasce come mistura di più lunghezze d’onda. Ad
ogni lunghezza d’onda che troviamo sull’asse delle x associamo la potenza del
rivelatore.

In base al tipo di luce, solare, incandescente, fluorescente o led, vengono visti diversi
colori, nel caso di luce incandescente ci sono molti rossi ad esempio.

Spettro di potenza
Quantità di energia emessa, trasferita e ricevuta nell’unità di tempo per ogni
lunghezza d’onda nel visibile.
I contributi delle lunghezze d’onda si miscelano in modo additivo. Se ad esempio
abbiamo 510nm con una certa intensità e il resto a 0 abbiamo la luce monocromatica,
tutti gli altri hanno contributo nullo. Se tutte le lunghezze d’onda hanno la stessa
potenza, la luce che origina questo spettro di potenza è la luce bianca.

Risposta spettrale di riflessione


Proprietà legata all’oggetto, ogni oggetto ha proprietà di riflettanza. Nello spettro di
riflettanza si vede ciò che viene riflesso e non si vede ciò che viene assorbito,
sull’asse delle x abbiamo la lunghezza d’onda, sull’asse delle y la potenza riflessa.
Potenza irradiante e spettro di riflettanza si moltiplicano. Se ho una luce bianca
percepisco il colore dell’oggetto per come è, cioè prevalgono le sue proprietà di
riflettanza, ma se usiamo luci cromatiche alteriamo ciò che viene riflesso.

Percezione umana
Dipende da illuminazione e riflettanza.

La luce colpisce la retina che contiene fotorecettori. I fotorecettori convertono le


radiazioni in impulsi elettrici, che attraverso il nervo ottico vengono trasferiti al
cervello per essere interpretati.
Se immaginiamo di aprire l’occhio e mettere la fovea al centro, vediamo due
fotorecettori, i coni e i bastoncelli. I coni sono la linea tratteggiata, i bastoncelli sono
le curve continue. I coni sono concentrati intorno alla fovea, mentre i bastoncelli sono
responsabili della visione periferica e coprono tutto l’occhio.

Bastoncelli
I bastoncelli sono responsabili della visione scotopica, sono distribuiti su tutta la
retina ma sono collegati tutti a un solo terminale nervoso. Non hanno una sensibilità
ai colori, percepiscono una intensità di luminosità rappresentabile in termini di grigi.
Operano con bassa illuminazione, l’occhio umano ha un grande intervallo di livelli di
intensità.

Coni
Da un certo livello di intensità subentrano i coni che percepiscono anche le differenze
di colori. I coni sono responsabili della visione fotopica, sono di tre tipologie: long,
medium e short (onde lunghe, medie e corte) con frequenza 10:5:1 nella retina,
impropriamente detti RGB.

Vediamo dalla figura che c’è un’ampia sovrapposizione, non sono bande distinte. I
coni sensibili alle lunghezze d’onda short hanno una curva di risposta bassissima,
quindi un segnale con 410 e 600 verrà molto ampliato dai coni long e molto attenuato
dai coni short.
Ogni cono è collegato al suo terminale nervoso, sono molto sensibili ai colori.
I coni e i bastoncelli agiscono da filtri spettrali, fanno un lavoro di integrazione di
informazione. Immaginiamo di avere un segnale risultante da una fonte luminosa
moltiplicata per una riflessione dell’oggetto che produce un certo spettro E(λ). La
curva nera dice per ogni lunghezza d’onda la potenza emessa, trasferita e
ricevuta.

La curva nera va a colpire diversi coni L, M ed S, che hanno una loro particolare
sensibilità alle diverse lunghezze d’onda. Che cosa fa il cono x di tipo short quando
viene illuminato con E(λ)?
Per ottenere l’uscita di un filtro Vc, lo spettro E(λ) va pesato con la sensibilità di
ogni cono Rc(λ).
Vc = ∫c E(λ)Rc(λ)dλ, c ∈ {L,M,S}
Ogni Vc è un valore scalare, si ottiene un tristimolo, tre valori. Questa è una grossa
compressione, passiamo da 300 a 3 numeri.

Metamerismo
Non si può caratterizzare univocamente ogni possibile spettro con solo 3 numeri,
quindi la maggior parte dell’informazione viene perduta. La conseguenza di questo è
il metamerismo, spettri differenti che generano lo stesso tristimolo. Quando
digitalizziamo le immagini, non dobbiamo assegnare a ogni pixel il suo spettro di
potenza, ci bastano 3 colori primari perché tanto l’immagine è destinata all’occhio
umano, che codifica con 3 numeri.
Definiamo paio metamerico due colori aventi differente composizione spettrale che
però generano lo stesso stimolo cromatico sotto certe condizioni quali l’
illuminazione, la dimensione ed angolo di osservazione oppure secondo la sensibilità
cromatica degli osservatori. Di fatti, parliamo di paio metamerico, perché questo
effetto si evidenzia nel paragone di almeno due campioni.

Colorimetria
Disciplina che studia il colore, si fonda su esperimenti di psicofisica, ha l’obiettivo di
capire quali spettri (anche diversi) producono la stessa sensazione cromatica nelle
persone, nelle stesse condizioni di osservazione. Vogliamo che stimoli con la stessa
terna RGB abbiano dal punto di vista percettivo la stessa apparenza, sotto le stesse
condizioni di osservazione, vogliamo anche che stimoli che appaiano uguali vengano
codificati nello stesso modo. Per fare questi studi sono stati fatti degli esperimenti di
color matching.

Esperimenti di color matching

C’è un osservatore che ha un angolo visivo fissato e un adattamento alle condizioni di


illuminazione ambientale. Guarda attraverso un buco due screen, sopra ci sono le tre
luci RGB che devono essere regolate, sotto c’è una luce di test monocromatica.
L’osservatore deve regolare le tre luci fino a quando ha la percezione che i due
stimoli corrispondono (uguali in termini di tinta, saturazione e intensità). Segniamo i
tre pesi che sono stati dati. Questo esperimento viene ripetuto per ogni luce
monocromatica con λ che va da 400 a 700 nm. Per ciascun valore mi segno la
terna. Se vado a plottare la matrice ottenuta (cioè fare un grafico) potrei vedere
dei valori negativi, perché a volte c’è bisogno di utilizzare luce negativa per
effettuare un matching, ma non essendo questo fisicamente possibile in realtà si
va ad aggiungere luce al fascio monocromatico per ottenere l’uguaglianza.
Se io so come mettere in corrispondenza una luce monocromatica con i primari,
so anche farlo per una mistura e si fa con queste equazioni, grazie alle leggi di
Grassman. Q è lo stimolo, P è la distribuzione spettrale di potenza radiante che
entra nell’occhio.

Riassumendo, il sole illumina una mela, la mela


assorbe e riflette, quello che riflette ha una
potenza Pq che colpisce l’occhio, l’occhio ne fa una sintesi producendo 3 valori,
RGB (ogni fotorecettore agisce come integratore, fa una media pesata dello
spettro che gli arriva con le curve relative ai 3 stimoli RGB). La colorimetria
vuole fare la stessa cosa.
Questa è la proprietà fisica dello stimolo, prodotto da illuminazione e riflettanza.
Per fare una sintesi così come fa l’occhio, la colometria produce le curve di color
matching function, la rossa, la blu e la verde, servendosi degli esperimenti di
color matching.
Mettere insieme colori per ottenerne altri si chiama color matching, se prendo
l’onda del giallo o prendo la somma tra rosso e verde non vedo differenza.

Spazi colore
Uno spazio colore (o modello colore, o sistema di colore) è un insieme di colori, se
ho 12 colori e do un nome a questi 12 colori, l’insieme dei 12 colori con quel
nome è il color space. È necessario per definire un colore senza ambiguità. È un
sistema di coordinate tridimensionale o anche più piccolo ed in un suo
sottospazio ogni punto rappresenta un colore. In sostanza associa i colori a
valori tristimolo.
CIE RGB
RGB è uno spazio cartesiano tridimensionale dipendente dai dispositivi. I tre
assi sono rosso, verde o blu. Nel caso di RGB si somma, nel caso di CMY si
sottrae. Sommare vuol dire combinare luce di diverse lunghezze d’onda,
sottrarre vuol dire togliere lunghezze d’onda.

I colori sono codificati in quel sottospazio,


che è un cubo. All’origine c’è il nero, sulla
diagonale opposta il bianco (255,255,255),
lungo la diagonale abbiamo tutte le scale di
grigi. Muovendosi dentro il cubo si
ottengono tutte le sfumature.

Le immagini sono rappresentate come sovrapposizione delle tre componenti


primarie, sono quindi 3 immagini in una.

Il fatto che nell’immagine del red la rosa sembra bianca non vuol dire che lo è
davvero, ma vuol dire che la quantità di rosso è alta in quel punto. Tutto questo è
ideale per i dispositivi, non per la percezione, infatti gli umani non posso
percepire la differenza tra 16 milioni di colori.
CMY
Ciano (GB) , magenta (RB) e giallo (RG). Sono orientati alla stampa, sono il
duale dell’RGB. A volte CMY diventa CMYK, per ottenere il nero puro, dato
che è difficile ottenere un nero di qualità con la sovrapposizione dei 3 pigmenti.

CIE XYZ
Abbiamo visto che RGB ha una color matching function sottrattiva, per
risolvere questo è stato introdotto uno spazio ideale, che è l’XYZ, in cui abbiamo
le color matching function tutte positive. La y è la luminanza, quello che sarebbe
l’immagine a livello di grigio (bastoncelli), la x ha la parte che era negativa
ribaltata, la z è ampliata. Questo però è immaginario. Il diagramma di
cromaticità ha uno spazio 2D, si ottiene andando a intersecare il cubo con il
piano passante per i punti 001, 010 e 100. Perdiamo una dimensione, che è
l’intensità, ma rimane la cromaticità.

Questa è una parabola, al suo interno il


bianco sta al centro. È utile quando
abbiamo un sistema indipendente dalla
luce.

Il problema di tutti questi spazi colori è che sono non uniformi, cioè non
rispettano le distanze percettive. La distanza euclidea tra i due verdi e tra
l’anguria e il bus è uguale, ma un umano sarebbe portato a dire che la distanza
tra i due verdi è inferiore.

Il problema
sono quelle
ellissi,
vorremmo che siano circolari. Se mi muovo lungo
l’asse minore esco prima dalla percezione di
similarità, se mi muovo lungo l’asse principale ho
una similarità molto più lunga che però non
corrisponde allo spazio. Questo si può ottenere con
CIE Lu’v’ e CIE Lab, altri spazi.
Gamma colori
Insieme di colori che possono essere riprodotti usando i tre primari. Lo spazio di
colori è un insieme che indica come i colori dovrebbero essere rappresentati, non
è l’insieme dei colori stessi. La gamma indica i colori che vengono in realtà
mostrati dal dispositivo. La gamma Lab copre tutti i colori nello spettro visibile,
la gamma RGB è minore, quindi alcuni colori come il giallo puro non possono
essere visti a monitor. La gamma CMY è la più piccola, anche se non
strettamente compresa nella gamma RGB.

Quando vado a stampare un pixel


che ha un colore RGB nella parte
che non si sovrappone tra RGB e
CMY, il sistema utilizza il colore
più vicino a CMY.

YcbCr
Usato in JPEG, è messo in evidenza il canale Y che è quello della luminanza. È
semplice da determinare dall’RGB, Y è una combinazione lineare. Le televisioni
in bianco e nero proiettavano solo Y, quelle a colori aggiungevano Cb = B – Y e
Cr = R – Y, dove
Y = 0.299 + 0.587G + 0.144B.

HSI e HLS
Sono molto adatti per una descrizione. Abbiamo visto che RGB era dipendente
dai dispositivi, l’abbiamo reso indipendente con XYZ, poi abbiamo detto che
non è uniforme e abbiamo visto come renderlo uniforme con CIE Lab e CIE
Lu’v’. Resta il problema della descrizione, cioè il problema di descrivere il
colore con una terna di numeri. I modelli HSI si rifanno a come noi descriviamo
un colore, si guarda la tinta, la saturazione e l’intensità. Ci sono conversioni
non lineari che trasformano da RGB a HSI e viceversa.