Sei sulla pagina 1di 152

Politecnico di Bari

Corso di Laurea in Ingegneria delle Telecomunicazioni

Appunti del corso di


TEORIA DEI SEGNALI

Pietro Guccione

Anno Accademico 2007-2008

Indice
Capitolo 1. Richiami principali ai segnali
1.1. Introduzione
1.2. Tipi di segnale
1.3. Segnali elementari
1.4. La Correlazione

5
5
6
9
15

Capitolo 2. La teoria delle probabilit


2.1. Esperimenti Aleatori
2.2. Le Basi della Teoria delle Probabilit
2.3. Variabili Aleatorie
2.4. Densita di Probabilita
2.5. Operazioni sulla Variabile Aleatoria
2.6. Parametri Statistici di una Variabile Aleatoria
2.7. Esempi di Variabili Aleatorie
2.8. Variabili Aleatorie Condizionate
2.9. Applicazioni notevoli
2.10. Sistemi di Variabili Aleatorie
2.11. Convergenza ed approssimazione

21
21
22
28
30
32
33
36
45
46
50
62

Capitolo 3. I Processi Stocastici


3.1. Definizione di Processi Stocastici
3.2. Parametri Statistici del 1o e 2o Ordine
3.3. Processi Stazionari
3.4. Filtraggio di un Processo Aleatorio
3.5. Analisi Spettrale di un Processo Aleatorio
3.6. Processi Aleatori Gaussiani
3.7. Processi Ergodici
3.8. Cenni sulle Catene di Markov

67
67
70
79
88
92
100
104
110

Capitolo 4. La trasmissione dei segnali


4.1. Introduzione
4.2. Generalita sui Sistemi di Trasmissione
4.3. Trasmissione Analogica e Numerica
4.4. Il Campionamento
4.5. La Quantizzazione
4.6. Il Canale Binario

117
117
117
122
123
129
134

INDICE

4.7.

Teoria dellInformazione

140

Capitolo 5. Il rumore
5.1. Introduzione
5.2. Caratteristiche Generali del Rumore
5.3. Fattore e Temperatura Equivalente di Rumore

153
153
154
160

Capitolo 6. La modulazione analogica


6.1. Introduzione
6.2. Rappresentazione complessa dei segnali
6.3. Sistemi di trasmissione con modulazione

167
167
169
176

CAPITOLO 1

Richiami principali ai segnali


1.1. Introduzione
La definizione di segnale parte dallesperienza comune. Esempi di segnale nella
vita quotidiana sono il segnale acustico che viene prodotto da uno strumento musicale,
il segnale radio captato dallantenna di un ricevitore, la rappresentazione del battito
cardiaco attraverso un elettrocardiografo e cos via.
Tutti gli esempi che si possono fare hanno una matrice comune: il segnale una
grandezza fisica variabile a cui associata una qualche forma di informazione. Lo studio dei segnali quindi passa necessariamente attraverso lo studio delle funzioni matematiche di una o pi variabili. Le grandezze fisiche rappresentate da un segnale sono le
pi svariate: lintensit luminosa e il colore su uno schermo nel caso di un segnale televisivo, la variazione della pressione dellaria nel caso di un segnale musicale, la tensione elettrica o la corrente nel caso di un segnale misurato su di un circuito elettrico,
unonda elettromagnetica nel caso di un segnale radio captato dallo spazio.
Levoluzione di molti segnali monodimensionali (cio dipendenti da una sola grandezza) avviene nel tempo: esempi sono il segnale musicale, la misura della tensione su
un condensatore, la variazione dellintensit luminosa del sole durante il giorno, eccetera. Tuttavia possibile considerare dipendenze diverse di un segnale: ad esempio
la sua variazione nello spazio. La misura dellintensit delloscillazione di un terremoto ad uno stesso istante nelle varie localit rappresenta un segnale di cui interessa
la cui estensione spaziale e non la sua evoluzione temporale. Naturalmente sempre
possibile immaginare lo stesso tipo di informazione (lintensit di un terremoto) in una
data localit e seguirne la sua evoluzione nel tempo.
Questultimo esempio porta alla rappresentazione di segnali bidimensionali o anche multidimensionali, segnali cio che variano in dipendenza della variazione di due
o pi grandezze. Il segnale televisivo bianco e nero un esempio di segnale tridimensionale, dato che esso dipendente da due coordinate spaziali (larghezza ed altezza dello schermo) e da una coordinata temporale (il susseguirsi delle scene sullo
schermo).
Se consideriamo invece un segnale televisivo a colori esso in realt la sovrapposizione di tre segnali tridimensionali, dato che separatamente in ogni punto dello
schermo rappresentata la sovrapposizione dei tre colori fondamentali: rosso, verde,
blu. Quindi un segnale televisivo a colori si pu pensare come un segnale vettoriale
(costituito cio da tre componenti) a tre dimensioni, dipendente cio da tre grandezze
fisiche: c(x, y, t) = [red(x, y, t), green(x, y, t), blue(x, y, t)].
5

1.2. TIPI DI SEGNALE

1.2. Tipi di segnale


Una prima classificazione di segnale stata gi fatta differenziando i segnali monodimensionali da quelli multidimensionali, come anche quelli scalari da quelli vettoriali,
costituiti cio da pi componenti.
Si possono inoltre differenziare i segnali in base ai valori assunti dalla variabile
indipendente:
segnali a tempo continuo: sono quelli per i quali il dominio della funzione
ha la cardinalit dei numeri reali. La variabile indipendente (ad esempio il
tempo) assume valori in modo continuo (ad esempio un segnale musicale
emesso da uno strumento).
segnali a tempo discreto: sono quelli per i quali il dominio della funzione
ha la cardinalit dei numeri naturali. Per questi segnali la variabile indipendente assume valori in un insieme discreto. In tal caso la dipendenza del
segnale dalla variabile indipendente rappresentata mediante la successione
dei valori assunti: x(n) per indicare il valore del segnale x dalln simo valore della variabile indipendente. Esempio di un segnale tempo discreto il
segnale televisivo, dato che esso rappresentato sullo schermo mediante la
successione di 25 fotogrammi al secondo.
I segnali stessi possono assumere valori in un insieme non numerabile di valori (segnali ad ampiezza continua) o in un insieme numerabile di valori (segnali ad ampiezza
discreta). Esempio di un segnale ad ampiezza continua la misura della tensione su un
condensatore cos come essa rappresentata su un oscilloscopio analogico; esempio di
un segnale ad ampiezza discreta invece lo stato di un semaforo: ad ogni istante esso
pu assumere solo due possibili valori: acceso o spento. I segnali ad ampiezza continua sono detti anche segnali analogici, quelli ad ampiezza discreta sono detti numerici.
In figura (1.2.1) sono rappresentati i due tipi di segnale sinora visti.

s(t)

s(t)

F IGURA 1.2.1. Differenza tra segnale ad ampiezza continua e segnale


ad ampiezza discreta

1.2. TIPI DI SEGNALE

Unaltra distinzione pu essere fatta tra i segnali periodici e segnali non periodici
(o aperiodici). Detto T un numero reale > 0, un segnale s(t) si dice periodico se
8n 2 Z : s(t) = s(t + nT ). Un segnale periodico quindi definito su tutto lasse
reale e per una sua descrizione completa sufficiente la conoscenza allinterno di un
periodo. Un segnale di durata finita , quindi, aperiodico. Una combinazione lineare
di segnali periodici di stesso periodo T o di periodo che un sottomultiplo di T , cio
T /n , a sua volta, periodica di periodo T .
I segnali inoltre possono essere suddivisi in base al loro comportamento energetico. Si dicono ad energia finita i segnali che verificano la seguente propriet:

(1.2.1)

+1
1

| s(t) |2 dt < +1

dove la quantit a primo membro dellespressione detta energia del segnale. I segnali
R +T /2
periodici non sono segnali ad energia finita, dato che, se T /2 | s(t) |2 dt una quantit finita, lintegrale su tutto < risulter sicuramente infinito. Tali segnali sono allora
segnali a potenza finita, per i quali cio risulta:

(1.2.2)

1
lim
T !+1 T

+T /2
T /2

| s(t) |2 dt < +1

La quantit a primo membro detta potenza del segnale. Per i segnali ad energia finita
la potenza nulla.
Per i segnali tempo discreti la definizione di energia e potenza rispettivamente:

(1.2.3)

+1
X

n= 1

(1.2.4)

|s(n)|2

+N
X
1
lim
|s(n)|2
N !+1 2N + 1
n= N

Infine altre distinzioni tra segnali possono essere fatte sulla base delle loro propriet
puramente matematiche: ad esempio si distinguono i segnali reali da quelli complessi,
composti cio di una parte reale e di una parte immaginaria: sc (t) = sR (t) + jsI (t).
Particolari simmetrie dei segnali possono permettere di distinguere i segnali pari, per i

1.2. TIPI DI SEGNALE

quali risulta: s(t) = s( t), da quelli dispari, per i quali vale invece: s(t) = s( t).
Per un segnale che non gode di simmetria pari, n dispari, si pu sempre pensare di
estrarne la sua parte pari:

(1.2.5)

1
se (t) = [s(t) + s( t)]
2

e la sua parte dispari

(1.2.6)

1
so (t) = [s(t)
2

s( t)]

1.2.1. Operazioni sui segnali. Vengono qui richiamate le principali operazioni


che possibile compiere sui segnali. Particolare interesse assumono le operazioni
sulla variabile indipendente
1.2.1.1. Traslazione. La traslazione di un segnale il suo spostamento sullasse
della variabile indipendente (o nel piano delle sue variabili indipendenti se dipende da
due variabili): s(t to ) il segnale s(t) spostato temporalmente nella posizione to .
Se la variabile indipendente il tempo, si dice anche che il segnale ritardato di to
secondi se to > 0 altrimenti anticipato di to secondi, se risulta to < 0.
1.2.1.2. Ribaltamento. Il ribaltamento di un segnale corrisponde alloperazione:
s(t) ! s( t), esso cio viene descritto con lasse della variabile indipendente riflesso
rispetto allasse delle ordinate. Questa operazione utile per esaminare le propriet di
simmetria di un segnale (segnale pari o dispari).
1.2.1.3. Scalatura dellasse. Considerato un numero reale a > 0, un segnale si
dice che ha subito un cambiamento di scala se risulta la seguente trasformazione:
s(t) ! s(at). In particolare se a > 1 il segnale ha subito un restringimento, altrimenti, con 0 < a < 1 il segnale subisce unespansione. E sempre possibile estendere
il cambiamento di scala dellasse della variabile indipendente ai casi in cui risulta
a < 0, basta applicare separatamente le due operazioni di ribaltamento e di scalatura
del segnale: s(t) ! s( t) ! s( |a| t). Si ricordi che loperazione di cambiamento
di scala, come quella di ribaltamento che si pu considerare come un caso particolare
con a = 1 non commuta con quella di traslazione.
1.2.1.4. Convoluzione tra segnali. Dati due segnali x(t) ed h(t), si definisce il
prodotto di convoluzione tra i due segnali come:

1.3. SEGNALI ELEMENTARI

(1.2.7)

y(t) = x(t) ? h(t) =

+1

x( )h(t

)d

La convoluzione gode delle seguenti propriet:


(1) La convoluzione unoperazione commutativa: x(t) ? h(t) = h(t) ? x(t)
(2) La convoluzione gode della propriet associativa: x(t) ? y(t) ? h(t) = (x(t) ?
y(t)) ? h(t) = x(t) ? (y(t) ? h(t))
(3) La convoluzione distributiva rispetto alla somma: (x(t) + y(t)) ? h(t) =
x(t) ? h(t) + y(t) ? h(t)
1.3. Segnali elementari
Esiste una classe di segnali che, per la loro particolare semplicit, viene spesso utilizzata per schematizzare il comportamento dei segnali che si incontrano nei casi reali.
A questi segnali si d il nome di segnali elementari. Le propriet viste precedentemente
si applicano ovviamente anche ai segnali elementari.
1.3.1. Gradino unitario. Il gradino unitario la funzione cos definita:

(1.3.1)

u(t) =

1,
0,

t>0
t<0

Per t = 0 si assume che s(0) = 0.5.


1.3.2. Rampa. E un segnale nullo per t < 0 e che, per t > 0, cresce proporzionalmente a t:
(1.3.2)

r(t) =

t,
0,

t>0
t<0

r(t)
a
t
a

F IGURA 1.3.1. Rampa unitaria

1.3. SEGNALI ELEMENTARI

10

Tale segnale pu considerarsi come il risultato del passaggio dello scalino unitario
attraverso un integratore:

(1.3.3)

r(t) =

u( ) d
1

1.3.3. Parabola. La parabola (o rampa parabolica) il segnale che si ottiene riapplicando loperatore di integrazione alla rampa:

(1.3.4)

p(t) =

r( ) d =
1

1 2
t
2

p(t)

F IGURA 1.3.2. Rampa parabolica


1.3.4. Segnale rettangolare, onda quadra. Si chiama rettangolare un segnale
che mantenga valore costante per tutta la sua durata limitata:

(1.3.5)


t
1, |t| <
rect
=
0, |t| >

E, chiaramente, un segnale di energia finita e la sua energia vale . La somma di


segnali rettangolari ripetuti a distanza T d luogo ad un segnale periodico, di periodo
T:

1.3. SEGNALI ELEMENTARI

(1.3.6)

sq(t) =

che viene detto onda quadra.

+1
X

rect

n= 1


2 2
2

nT

11

+
2
2

F IGURA 1.3.3. Rettagolo ed onda quadra


Se = T /2 londa quadra si dice a duty cycle 50%. Londa quadra (1.3.6) oscilla
tra 0 e 1 ed ha valor medio /T . Unonda quadra con duty cycle 50% che oscilla tra
+1 e 1 ha valor medio nullo.
Si osservi infine che, a rigore, il segnale rettangolare (1.3.5) discontinuo in
/2 ed il suo valore in tali punti sarebbe indefinito. In un punto di discontinuit
assumeremo che il segnale assuma il valore s(to ) = 12 [s(to ) + s(t+
o )]
1.3.5. Delta di Dirac. Il Delta di Dirac non in realt una vera e propria funzione, ma una distribuzione. Essa, a rigore, dovrebbe essere definita solo allinterno di
un integrale. La sua definizione parte dalla osservazione che la funzione:

(1.3.7)

1
t
rect( )
T
T

ha sempre area pari ad 1, qualunque sia il valore di T . Al tendere per di T a zero, il


rettangolo diventa infinitamente stretto ed alto. Una definizione della funzione delta
allora la seguente:

(1.3.8)

1
t
rect( )
T !0 T
T

(t) = lim

1.3. SEGNALI ELEMENTARI

12

La funzione cos definita ha valori sempre nulli tranne in t = 0 dove assume valore
nominalmente infinito. La sua rappresentazione su di un grafico quindi a rigore
impossibile. La schematizzazione che si usa quella riportata in fig. 1.3.4
(t)

F IGURA 1.3.4. Rappresentazione grafica dellimpulso o delta di Dirac.


In base a quanto detto:
Z

(1.3.9)

+1

(t)dt = 1
1

inoltre la funzione delta pari: ( t) = (t). La principale propriet della funzione


delta la seguente:

(1.3.10)

+1

s(t) (t

to )dt = s(to )

essa cio applicata ad una funzione allinterno di un integrale permette di estrarre il


valore di quella funzione nel punto in cui il delta applicato (sempre che la funzione
s(t) sia continua in t = to ). Questa notazione utilizzata per indicare lestrazione
di un campione da un segnale nella posizione in cui posto limpulso. La propriet
in (1.3.10) pu essere vista anche nel modo seguente: limpulso piazzato ad un dato
istante e moltiplicato per una funzione s(t) risulta pari allimpulso stesso ma con
area uguale al valore che il segnale assume in quella posizione : s(t) (t ) =
s( ) (t ).
Un segnale pu essere rappresentato mediante una successione infinita di impulsi
delta infinitamente vicini tra loro e di valore pari al valore che il segnale assume in
quel punto:

(1.3.11)

+1

s( ) (t
1

)d = s(t)

1.3. SEGNALI ELEMENTARI

13

Il significato di quesultimo integrale anche quello di una convoluzione tra il segnale


s(t) e la funzione delta.
Un cambiamento di scala della variabile indipendente influisce sul risultato:
Z

(1.3.12)

+1

x(t) (at + b) dt =
1

+1

x
1

&

b
a

(&)

d&
1
b
=
x( )
|a|
|a|
a

Per limpulso quindi un cambiamento di scala ed una traslazione comporta la variazione dellarea dellimpulso stesso:

(1.3.13)

(at + b) =

1
b
(t + )
|a|
a

Ultima considerazione quella relativa alle derivate dellimpulso. La derivata dellimpulso, indicata con 0 (t) detta doppietto:
Z

(1.3.14)

+1

x(t) 0 (t

) dt =

x0 ( )

sempre che x(t) sia dotata di derivata in t = . La (1.3.14) si pu ricavare dalla definizione dellimpulso (1.3.8) mediante integrazione per parti (ricordando che
D(AB) = AD(B) + BD(A), dove D() rappresenta loperatore di derivazione):

(1.3.15)

+1

)|+1
1

x(t) (t ) dt = x(t) (t
1

+1

x0 (t) (t ) dt =

x0 ( )

Si osservi infine che lintergale dellimpulso lo scalino di ampiezza unitaria:

(1.3.16)

u(t) =

( ) d
1

1.3. SEGNALI ELEMENTARI

14

infatti tale integrale vale zero finch t < 0, ed 1 non appena t > 0. Dualmente, la
derivata dello scalino unitario limpulso unitario: dtd u(t) = (t)
1.3.6. Funzioni sinusoidali. Una classe di funzioni molto utilizzate, soprattutto nellambito dellanalisi di funzioni periodiche sono le funzioni sinusoidali. Per la
definizione di una funzione sinusoidale sono sufficienti tre elementi: ampiezza A, pulsazione !o e fase iniziale ' (cio largomento della sinusoide per t = 0). Lampiezza
rappresenta lescursione massima che la funzione assume, la frequenza il numero di
cicli per unit di tempo che esegue:

(1.3.17)

A sin(2f t + ')

La sinusoide si ripete uguale a se stessa ad una distanza temporale T tale che


!o T = 2. Il periodo di una sinusoide di pulsazione !o , perci:

(1.3.18)

T =

2
!o

f = 1/T la frequenza. Va da s che una sinusoide di frequenza f periodica di periodo T = 1/f ma, anche, di periodo 2T , 3T, . . . , N T . Una sinusoide con fase iniziale
/2 chiamata cosinusoide e vale la relazione sin(!t + /2) = cos(!t). La potenza
media di una sinusoide di ampiezza unitaria vale:

(1.3.19)

!
Pm =
2

2/!

sin2 (!t) dt =

1
2

La sua potenza di picco

(1.3.20)

Pp = max sin2 (!t) = 1


t

Il rapporto tra potenza di picco e potenza media detto fattore di picco e, per una
sinusoide vale 2.

1.4. LA CORRELAZIONE

15

1.3.7. Seno cardinale. Unultima funzione molto utilizzata la funzione seno


cardinale, cos definita:

(1.3.21)

sinc(t) =

sin( Tt )
Tt

e che assume valore pari ad 1 al limite per t ! 0. E una funzione pari, in quanto
rapporto di due funzioni dispari.
1.4. La Correlazione
Dato un segnale deterministico e non periodico, s(t), di esso si pu definire, come
gi visto lenergia:

(1.4.1)

Es =

+1
2

| s(t) | dt =

+1
1

| S(f ) |2 df

dove lultima uguaglianza discende dal teorema di Parseval, il quale afferma che
lenergia del segnale, calcolabile nei due domini tempo e frequenza, non cambia.
Se il segnale passa attraverso un sistema lineare tempo invariante con funzione di
trasferimento: H(f ):

Y (f ) = S(f ) H(f )
(1.4.2)

Ey =

+1
1

| S(f ) |2 | H(f ) |2 df

Lenergia si pu quindi ottenere conoscendo lo spettro del segnale (e | S(f ) |2 detto


spettro di energia del segnale) e la funzione di trasferimento del sistema.
1.4.1. Autocorrelazione per segnali ad energia finita. Sia ora x(t) un segnale
reale ad energia finita. Si definisce autocorrelazione di x(t) la funzione che si ottiene
dal seguente integrale:

(1.4.3)

Rx ( ) =

+1

x(t)x(t

)dt

Dalla definizione si osserva subito che: Rx ( ) = x( ) ? x( ) (per dimostrarlo si

1.4. LA CORRELAZIONE

16

provi
R +1 a porre x( ) = y( ) e ad eseguire lintegrale di convoluzione: Rx ( ) =
x(t)y( t)dt) e quindi che:
1
(1.4.4)

Rx ( ) =

+1
1

| X(f ) |2 ej2f df

cio lautocorrelazione di un segnale anche lantitrasformata del suo spettro di energia. Si ricordi che per un segnale reale, se ad x(t) ! X(f ), allora ad x( t) !
X( f ) = X (f ), mentre per un segnale complesso si ha che se ad x(t) ! X(f ),
allora ad x( t) ! X( f ), e ad x (t) ! X ( f ), infine ad x ( t) ! X (f ).
Poich questultima definizione vale sempre, allora se il segnale complesso la
definizione di autocorrelazione deve essere adeguatamente modificata:

(1.4.5)

Rx ( ) =

+1

x(t)x (t

)dt = x( ) ? x ( )

Propriet della funzione di autocorrelazione:


(1) Rx (0) = Ex , cio la funzione di autocorrelazione calcolata per = 0 rappresenta lenergia del segnale
(2) Rx ( ) = Rx ( ), cio la funzione di autocorrelazione una funzione pari
(Rx ( ) = Rx ( ) per i segnali complessi)
(3) | Rx ( ) | Rx (0), cio il massimo della funzione di autocorrelazione localizzato in = 0:
[x(t

x(t

)2 + x(t)2

x(t)]2

2x(t

0,
)x(t)

ed integrando da 1 a +1 si ha: 2Ex 2Rx ( ).


Lautocorrelazione di un segnale ha uninteressante interpretazione fisica. Essa rappresenta una misura del grado di somiglianza del segnale con s stesso. Infatti quanto
pi un segnale somiglia a s stesso tanto pi alto il valore dellintegrale in 1.4.3.
Ecco quindi il motivo per cui la funzione di autocorrelazione assume valore massimo
per = 0: quando infatti il segnale perfettamente sovrapposto a s stesso il grado
di somiglianza massimo. Per valori di crescenti i segnali generalmente tendono
1

Su alcuni testi riportata la relazione: Rx ( ) =

R +1
1

x (t)(t

)dt = x ( ) ? x( ).

1.4. LA CORRELAZIONE

17

a non somigliare pi a s stessi e quindi il valore dellautocorrelazione diminuisce.


Eccezione notevole a questa regola sono, come si vedr pi avanti, i segnali periodici.
1.4.2. Cross correlazione di due segnali. Dati due segnali x(t) ed y(t), si definisce
la crosscorrelazione tra i due segnali come:
(1.4.6)

Rxy ( ) =

+1

x(t)y(t

)dt = x( ) ? y( )

y(t)x(t

)dt = y( ) ? x( )

ed anche:
(1.4.7)

Ryx ( ) =

+1
1

Per i segnali complessi la definizione invece:


(1.4.8)

Rxy ( ) =

(1.4.9)

Ryx ( ) =

Z
Z

+1

x (t)y(t

)dt = x ( ) ? y( )

y (t)x(t

)dt = y ( ) ? x( )

+1
1

Si pu facilmente dimostrare che: Rxy ( ) = Ryx


( ):

Rxy ( ) =

+1

+1

x (t)y(t
1

y(z)x (z + )dz
1

)dt =

+1

+1

x (z + )y(z)dz =

y (z)x(z

( ))dz

= Ryx
( )

Due segnali si dicono ortogonali se risulta che Rxy ( ) = 0, 8 . La cross correlazione d una misura del grado di somiglianza tra due segnali, analogamente allautocorrelazione di un segnale.

1.4. LA CORRELAZIONE

18

1.4.3. Segnali a potenza finita. Per i segnali a potenza finita

1
P = lim
T !+1 T

(1.4.10)

+T /2

| s(t) |2 dt

T /2

si pu ancora definire una quantit che nel dominio delle frequenze ci dice come sono
distribuite le potenze del segnale: la densit spettrale di potenza del segnale. Sia
infatti: sT (t) la limitazione di s(t) nellintervallo: [ T, T ] :
(1.4.11)

sT (t) =

s(t) |t| T
0 altrove

Poich questultimo segnale sicuramente ad energia finita, per esso si pu dare la


definizione di trasformata di Fourier e quindi la densit spettrale di energia: sT (t) !
ST (f ):
(1.4.12)

ET =

+1
2

| sT (t) | dt =

+1
1

| ST (f ) |2 df

Poich la potenza di s(t) definita come limite dellenergia della sua limitazione,
sT (t), al tendere dellintervallo di limitazione allinfinito (e rapportando per lintervallo di tempo stesso), la densit spettrale di potenza si pu scrivere come:
P =

+1

1
| ST (f ) |2 df )
T !+1 2T
lim

1
| ST (f ) |2
T !+1 2T

(1.4.13)

Sp (f ) = lim

La densit spettrale di potenza gode di propriet simili a quelle della densit spettrale
di energia: cio una funzione pari (per i segnali reali), sempre non negativa e il suo
intergale su tutto lasse delle frequenze d luogo alla potenza del segnale.
Analogamente a ci che accade per i segnali ad energia finita, il passaggio di un
segnale a potenza finita attraverso un sistema lineare tempo invariante d luogo ad un
segnale a potenza finita in uscita, la cui densit spettrale di potenza pari a: Sy (f ) =
Sx (f ) |H(f )|2 .
Troviamo ora la funzione del tempo che corrisponde alla funzione densit spettrale
di potenza:
Sp (f ) = lim

T !+1

1
1
| ST (f ) |2 = lim
ST (f ) ST (f ) )
T
!+1
2T
2T

1.4. LA CORRELAZIONE

19

antitrasformando:
1
sT ( ) ? sT ( ) =
T !+1 2T
Z +T
1
= lim
sT (t)sT (t + )dt
T !+1 2T
T
) lim

A tale quantit diamo il nome di funzione di autocorrelazione:

(1.4.14)

1
Rg ( ) = lim
T !+1 2T

+T

sT (t)sT (t + )dt
T

La funzione di autocorrelazione per i segnali a potenza finita lantitrasformata di


Fourier della densit spettrale di potenza, nello stesso modo con cui nel caso di segnali
ad energia finit essa lantitrasformata di Fourier della densit spettrale di energia.
La funzione di autocorrelazione dei segnali a potenza finita gode delle stesse propriet della corrispondente funzione definita per i segnali ad energia finita. Inoltre
possibile dare una definizione analoga anche per la cross correlazione di segnali a
potenza finita.
1.4.4. Segnali periodici. Sia dato un segnale periodico e la sua rappresentazione
in serie di Fourier:

s(t) = s(t + n T )
(1.4.15)

s(t) =

+1
X

n= 1

n
cn exp(j2 t)
T

Lo spettro dampiezza di un segnale periodico uno spettro a righe:

(1.4.16)

S(f ) =

+1
X

n= 1

cn (f

n
)
T

dove i cn si possono calcolare in base alla trasformata di Fourier di una singola ripetizione del segnale:

1.4. LA CORRELAZIONE

(1.4.17)

1
cn =
T

+T /2

s(t) e

T /2

n
j2 T
t

dt =

20

1
ST (f )|f = n
T
T

I segnali periodici sono ovviamente segnali a potenza finita. La loro densit spettrale
di potenza anchessa a righe e si pu ricavare facilmente :
1
P =
T
1
=
T

+T /2
T /2

X
n

+T /2

s(t)s (t)dt =

T /2
n
j2 T
t

cn e

Z
1 XX
=
cn cm
T n m
(1.4.18)

+T /2

"
n

X
m

ej2 T t e

j2 m
t
T

cm e

j2 m
t
T

dt =

T /2

Sp (f ) ==

+1
X

n= 1

X
n

|cn |2 (f

dt =
|cn |2 )

n
)
T

La corrispondente funzione di autocorrelazione, essendo un intergale di funzione periodica, anchessa periodica di periodo T e la sua definizione si pu restringere ad un
singolo periodo:
Z +1
1
Rg ( ) = lim
sT (t)sT (t + )d =
T !+1 2T
1
Z
1 +T /2
(1.4.19)
=
s(t)s(t + )d
T
T /2

CAPITOLO 2

La teoria delle probabilit


2.1. Esperimenti Aleatori
Nelle scienze sperimentali la verifica di una ipotesi di lavoro affidata allesperimento. Lesperimento quindi consiste nel controllare che, sotto alcune ipotesi, la teoria e la realt sono equivalenti, cio la teoria descrittiva di un certo fenomeno della
natura.
Esempio classico pu essere la descrizione della caduta di un grave. Poich esso
segue la legge: s = 12 gt2 , si pu facilmente determinare quanto tempo il grave impiega
a cadere per terra a partire da una certa altezza s con velocit iniziale nulla. I dati
raccolti in molte prove ripetute permetteranno di ridurre lincertezza legata alla misura
sperimentale, affetta sempre da una certa dose di errore. Un esperimento di questo
tipo, oltre a verificare le ipotesi, ci dice anche unaltra cosa e cio che se ci poniamo in
certe condizioni (un grave cade da una altezza fissa, si riduce al minimo leffetto della
resistenza dellaria in modo da ridurre lincertezza della misura, e cos via), la realt
non pu fare a meno di comportarsi seguendo determinate leggi. Lesperimento condotto cio di tipo deterministico, segue una legge ben precisa e verificabile ogni volta
che si desidera, a meno delle inevitabili incertezze dovute alle non perfette condizioni
pratiche.
Si supponga ora di voler condurre un altro tipo di esperimento. Si vogliono misurare il numero di autovetture che attraversano un casello autostradale durante una
giornata. In questo tipo di esperimento, come si capisce bene, una determinata ipotesi di lavoro come ad esempio che i giorni feriali sono pi trafficati di quelli festivi,
non permette di prevedere lesito dellesperimento stesso. La prova che si effettua
inoltre dar un risultato diverso giorno per giorno. La prova si dice di tipo aleatorio. Per questa classe di esperimenti non possibile quindi trovare una legge che
permetta di predire lesito dellesperimento stesso. Tuttavia possibile trovare una descrizione globale dellesperimento che permetta cio di predire, dopo numerose prove,
che queste seguono comunque una certa regolarit statistica. Il risultato dellesperimento singolo non quindi mai prevedibile a priori, ma esso pu essere inglobato in
una teoria che, entro certi limiti, ne d una previsione grossolana.
Si supponga, per maggiore chiarezza, di volere osservare i risultati del lancio di un
dado. Questo tipo di esperimento appartiene alla classe ora vista, cio d luogo ad un
risultato che non pu essere previsto. Tuttavia dopo il lancio dello stesso dado mille
volte, pu essere abbastanza ragionevole supporre che la faccia con il numero 6 si sar
presentata allincirca 167 volte (1000/6). Quindi se il risultato dellesperimento d
21

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

22

un valore che ragionevolmente vicino a questo numero possiamo dire che questo
risultato prevedibile, e possiamo dire anche che il dado si comportato seguendo le
ipotesi iniziali, cio che non fosse truccato e che tutte e sei le facce avessero la stessa
probabilit di presentarsi.
La teoria alla base dei fenomeni della natura che seguono leggi aleatorie la teoria
delle probabilit. Questa teoria stata sviluppata da fisici e matematici come Bernoulli, Pascal e Laplace, durante il XVII e il XVIII secolo e inizialmente fu utilizzata per
quantificare le vincite ai tavoli da gioco da gestori di casin e giocatori dazzardo.
2.2. Le Basi della Teoria delle Probabilit
Vediamo ora come la teoria delle probabilit permette di modellare un esperimento aleatorio, in modo che si possano ricavare delle leggi applicabili allesperimento
stesso.
Un elemento fondamentale della teoria quello di ricavare tutti i possibili risultati che lesperimento stesso in grado di produrre. Per il lancio di un dado questo
piusttosto facile, dato che lo spazio campione dellesperimento costituito dai
numeri {1, 2, 3, 4, 5, 6}. In altre situazioni lo spazio campione pi difficile da ottenere. Nellesperimento descritto precedentemente, delle automobili che transitano
da un casello autostradale durante una giornata, si pu dire che il risultato sicuramente un numero intero, zero compreso. Tuttavia piuttosto difficile indicare il limite
superiore di questo intervallo se non intervengono altre ipotesi di lavoro (come ad esempio potrebbero essere il tempo medio di transito, la velocit media delle autovetture
sullautostrada, e cos via).
P ROPOSITION 2.2.1. Lo spazio campione rappresenta linsieme dei possibili
risultati di un esperimento aleatorio.
Dato inoltre un certo esperimento, come quello delle auto al casello, possono interessare anche determinati gruppi di risultati. Ad esempio potrebbe essere interessante
valutare il numero di automobili che transitano al casello in unora, oppure il numero
di automobili che transita dalle 8.30 alle 11.30 e cos via. Questi possibili risultati
sono nientaltro che possibili sottoinsiemi dello spazio campione e sono detti eventi.
Gli eventi devono per soddisfare determinate condizioni per potere essere definiti tali:

se A un evento, anche il suo complemento rispetto allo spazio campione, A,


un evento;
S
se A e B sono eventi, anche A B un evento.
Utilizzando queste due condizioni si pu dimostrare anche che:
T
lintersezione A B di due eventi arbitrari, A e B un evento (infatti si ha
S
T
che A B = (A B));
S
T
dato un evento A, anche A A e A A sono eventi. Il primo rappresenta
tutto lo spazio campione , il secondo rappresenta levento nullo detto anche
evento impossibile.

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

23

Gli eventi di uno spazio campione costituiscono quindi una classe S cio un insieme
chiuso rispetto alle operazioni di unione e di intersezione.
Un esperimento aleatorio completamente caratterizzato se sono dati i seguenti tre
elementi: i) la descrizione del suo spazio campione , ii) lindividuazione della classe
degli eventi S, ed infine iii) la descrizione della legge di probabilit P (), la legge
che associa ad ogni evento di S la sua probabilit di presentarsi. La terna , S, P ()
detta lo spazio delle probabilit. A volte lesperimento aleatorio viene identificato
con il suo spazio delle probabilit, cio con la sua descrizione matematica astratta.
2.2.1. La probabilit. Varie definizioni ed interpretazioni sono state date alla
probabilit. Secondo la teoria assiomatica moderna, dovuta al matematico Kolmogorov,
dato un esperimento aleatorio con il suo spazio campione, la legge di probabilit una
corrispondenza che permette di associare ad ogni evento di S un numero reale che
soddisfa i seguenti tre assiomi:
la probabilit di un evento arbitrario sempre non negativa: P (A) 0;
La probabilit dellevento certo pari ad 1: P () = 1;
Dati due eventi mutuamente esclusivi, la probabilit
T dellevento unione
S pari
alla somma delle probabilit dei singoli eventi:A B = ; ) P (A B) =
P (A) + P (B)
Da questi assiomi si ricavano alcune propriet (quindi teoremi che si possono dimostrare a partire dagli assiomi):
T HEOREM 2.2.2. Dato un evento A la probabilit dellevento complementare A
pari al complemento ad uno della probabilit di A: P (A) = 1 P (A).
T HEOREM 2.2.3. Levento nullo ha probabilit zero di verificarsi: P (;) = 0.
T HEOREM 2.2.4. La probabilit di un evento A sempre un numero reale compreso tra zero ed 1: 0 P (A) 1.
T HEOREM 2.2.5.
S Dati due eventi, A e B, la
T probabilit dellevento unione
espressa da: P (A B) = P (A) + P (B) P (A B).
S
S
T
S
T S
T S
D IMOSTRAZIONE
A B
= (A B) (A A) = (A A)
T S T .S
T= (A B)
S T
(A S
A) (B A)S (BT A) = A (B A)
T
T S
P (A TB) =
SP (AT (B A). Tuttavia, essendoTB = B =
T B (A A) =
= (B A) (B A). Quindi: P (B) = P (B A) + P (B A), da cui la tesi.

La probabilit intersezione di due eventi anche detta probabilit congiunta, mentre le


probabilit dei due eventi, prese separatamente, sono dette probabilit marginali. Data

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

24

una coppia di eventi, A e B con P (B) 6= 0, la probabilit di A condizionata allevento


B, indicata con P (A/B) definita dalla relazione:

(2.2.1)

T
P (A B)
P (A/B) =
P (B)

La probabilit di A, presa separatamente, detta probabilit a priori, mentre la probabilit di A noto anche levento B, cio P (A/B) detta probabilit a posteriori.
Levento B condiziona levento A e quindi ne modifica la sua probabilit, una volta
che esso si sia verificato. Da questa osservazione nasce la definizione stessa nella quale
levento congiunto rinormalizzato per la probabilit di B che funge quindi da nuovo
spazio campione (da definizione infatti: P (B/B) = 1).
E XAMPLE 2.2.6. Supponiamo di voler studiare lesperimento aleatorio che modelli il lancio di un dado non truccato. Lo spazio campione, costituito dallinsieme dei
possibili risultati, dato da: = {!1 , !2 , !3 , !4 , !5 , !6 } dove !i rapresenta il risultato della faccia i sima al termine dellesperimento. La classe S di tutti i possibili
eventi costituita da 26 possibili valori, compresi e ;. La legge di probabilit resta
assegnata non appena si assegna una probabilit a ciascuno dei risultati dello spazio
dei campioni !i . Poich abbiamo ritenuto il dado non truccato e quindi ragionevole
supporre che in un lancio tutte le facce di un dado abbiano uguale possibilit di presentarsi, si pu ritenere che:

(2.2.2)

P (!i ) =

1
6

A questo punto possibile definire un qualsiasi evento e trovare la sua probabilit di


occorrenza. Si voglia ad esempio determinare la probabilit che lanciando il dado,
appaiano
S numeri inferiori a 3. Questa probabilit la probabilit che accada: P (A) =
P (!1 !2 ). Poich questi eventi sono disgiunti, la probabilit della loro unione
anche pari alla somma delle loro probabilit: P (A) = P (!1 ) + P (!2 ) = 16 + 16 = 13 .
In casi semplici come questo, dove lo spazio dei campioni finito ed simmetrico (cio vi equiprobabilit di tutti i possibili risultati dello spazio campione ),
possibile utilizzare la definizione classica di probabilit dovuta a Laplace. Questa
definizione parte dallosservazione dei casi favorevoli nellinsieme di tutti i casi possibili che si possono verificare. Detta allora N il numero di tutti i casi possibili ed NA
quelli favorevoli allevento A, la probabilit cercata data dal rapporto:

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

(2.2.3)

P (A) =

25

NA
N

Lipotesi cruciale alla base di questa definizione sta nel fatto che tutti i risultati dello
spazio campione hanno pari probabilit di verificarsi. Nellipotesi in cui non vi sia
equiprobabilit dei risultati dello spazio campione la definizione precedente non pi
adeguata e si ricorre allora ad un approccio di tipo sperimentale. Si supponga di effettuare un numero molto alto di lanci N e di collezionare il numero di volte che levento
A si verifica, NA . Allaumentare di N si comincia a notare una certa regolarit nella
relazione che esiste tra il numero di lanci e il numero di volte che A si verifica. La
frequenza relativa con cui si verifica A, cio: NA /N tende allora, per un numero di
lanci molto elevato, alla probabilit, secondo la definizione di Von Mises:

NA
N !1 N

(2.2.4)

P (A) = lim

Questa definizione, seppure non corrispondente alla visione moderna ( assiomatica)


della teoria delle probabilit, ha il vantaggio di prescindere dalla simmetria (e quindi
equiprobabilit) del problema in esame.
Si osservi che la definizione di Von Mises non in contrasto con quella assiomatica
di Kolmogorov, dato che il rapporto tra due numeri positivi sempre positivo. Se inoltre A un sottinsieme di , accade sempre che NA N , e quindi che 0 P (A)
1. Inoltre si pu osservare che, detti A e B due eventi disgiunti, e dette NA ed NB le
loro occorrenze su un numero totale di esperimenti pari ad N , la probabilit dellevento unione:

(2.2.5)

P (A

NA S B
NA + NB
= lim
= P (A) + P (B)
N !1
N !1
N
N

B) = lim

e quindi gli assiomi di Kolmogorov sono verificati.


P ROPOSITION 2.2.7. Due eventi A e B sono detti indipendenti se la probabilit
marginale di A e la probabilit di A condizionata a B sono uguali, cio se:

(2.2.6)

P (A) = P (A/B)

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

26

Partendo dalla definizione della probabilit condizionata, questo significa che:

(2.2.7)

T
\
P (A B)
P (A) = P (A/B) =
) P (A) P (B) = P (A B)
P (B)

I due eventi sono detti indipendenti quando la probabilit congiunta pari al prodotto delle singole probabilit. Lindipendenza tra i due eventi esplicata nel fatto che la
probabilit dellevento A uguale a priori ed a posteriori dellevento B. Levento B
quindi non ha alcuna influenza su A, cio i due eventi sono tra loro indipendenti.
Dalla definizione di probabilit condizionata nasce anche la seguente osservazione:

(2.2.8)

P (A/B) P (B) = P (B/A) P (A) ) P (A/B) =

P (B/A) P (A)
P (B)

nota anche con il nome di teorema (o formula) di Bayes. IL teorema di Bayes noto
anche con il nome di teorema delle probabilit totali.
Si consideri infatti una certa partizione dello
T spazio deiScampioni , fatto da N
eventi disgiunti tra loro: B1 , B2 , ..., BN , con Bi Bj = ; e i Bi = . La probabilit
di un dato evento A si pu allora calcolare in base alla conoscenza delle probabilit
condizionate di A con le Bi :
(2.2.9)
P (A) = P (A

) = P (A

N
\[

Bi ) = P (

i=1

N
[

i=1

(A

Bi )) =

N
X
i=1

P (A

Bi )

da cui si ricava, ricordando la relazione che esiste tra la probabilit congiunta e quella
condizionata:

(2.2.10)

P (A) =

N
X
i=1

P (A/Bi ) P (Bi )

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

27

2.2.2. Esperimento composto. Si considerino ora due esperimenti aleatori differenti tra loro e caratterizzati dagli spazi campione 1 ed 2 . Si pu pensare un
esperimento composto come la contemporanea osservazione dei due esperimenti. Lo
spazio campione sar allora il prodotto cartesiano dei due spazi campione: 1 2 e gli
elementi di questo spazio sono le coppie ordinate che si ottengono dalla combinazione
di tutti i possibili risultati di 1 con quelli di 2 . I due esperimenti naturalmente possono fare riferimento a due esperienze uguali (ad esempio due lanci di dadi) o a due
completamente differenti, come ad esempio il lancio di un dado e lestrazione di una
carta da un mazzo di 52 carte francesi.
Sia ora A1 un evento del primo spazio campione ed A2 un evento del secondo. Si
voglia studiare la probabilit dellevento composizione dei due eventi A1 ed A2 , cio:
A = A1 A2 . Se i due eventi fossero indipendenti evidente che la probabilita dellevento A pari al prodotto delle due probabilit: P (A) = P (A1 ) P (A2 ). Se invece
i due esperimenti sono tra loro in qualche modo legati necessario valutare il grado
di correlazione dei due eventi e quindi la probabilit non pi pari al prodotto delle
due probabilit. E ad esempio evidente che se si vuole stabilire la probabilit di un
evento come lestrazione di un numero
T dispari da un lancio di un dado e di1 un4 asso da
1
un mazzo di carte, avremo:P (Adisp Aasso ) = P (Adisp ) P (Aasso ) = 2 52 = 26
.
Le considerazioni fatte per la composizione di due esperimenti si possono fare per
la composizione di N qualunque esperimenti, ricordando per che in generale, dalla
conoscenza delle leggi di probabilit dei singoli esperimenti non possibile determinare la legge di probabilit dellesperimento composto. In tale ambito ricade il
problema delle prove ripetute ed indipendenti. Caso notevole quello delle prove
binarie ripetute ed indipendenti o prove di Bernoulli.
E XAMPLE 2.2.8. Formula di Bernoulli. Si supponga di voler indagare sullesperimento composto da n esperimenti uguali tra loro ed indipendenti. Ciascuno degli
esperimenti d luogo ad uno spazio dei campioni con due soli possibili risultati: !o ed
!1 , con P (!o ) = p e P (!1 ) = 1 p. Un classico esempio il lancio di n monete, o
anche il lancio di una stessa moneta, purch il risultato sia la composizione dei singoli
lanci. Si costruisca ora levento A = !o si presenta k volte negli n esperimenti (o
prove ripetute). La formula di Bernoulli (o binomiale) dice che:

(2.2.11)

P (A) = (

ove il coefficiente binomiale vale: (

n
) pk (1
k

n
)=
k

p)n

n!
.
k!(n k)!

1
1

Si ricordi che il modo con cui possono essere disposti k oggetti in n differenti posizioni, distinguendo i gruppi anche per lordine, dato dal numero Dn,k = n (n 1) ... (n k + 1), chiamato

2.3. VARIABILI ALEATORIE

28

2.3. Variabili Aleatorie


Si consideri lesperimento aleatorio costituito dal lancio di un dado. Sappiamo gi
che il suo spazio campione costituito da tutti i possibili valori che possono essere
ottenuti, e cio i numeri da 1 a 6. Questi stessi numeri li potremmo ottenere anche con
altri esperimenti aleatori (ad esempio un qualche esperimento che consideri i giorni
della settimana lavorativi).
Quello che si pu osservare da un insieme di esperimenti di questo tipo la comune cardinalit dello spazio campione, sebbene gli elementi dello spazio campione
siano differenti. Se allora astraiamo i casi particolari che abbiamo ottenuto, possibile
numerare gli elementi (od i risultati) dello spazio campione, sino ad ottenere il valore
associato a ciascuno dei possibili risultati. Quindi in questo modo lesito del lancio di
un dado diventa linsieme dei numeri da 1 a 6, mentre lesito di un qualche esperimento che coinvolga i giorni della settimana lavorativi diventa, ancora una volta, linsieme
dei numeri da 1 a 6.
Abbiamo costruito quindi una quantit variabile a seconda del risultato dellesperimento. A questa quantit dato il nome di variabile aleatoria.
Formalmente si pu definire la variabile aleatoria come segue.
P ROPOSITION 2.3.1. Dato un esperimento aleatorio avente come spazio campione , come classe degli eventi S e come legge di probabilit P (), si definisce una
corrispondenza che associ a ciascun risultato dello spazio un unico numero reale.
Tale corrispondenza tra lasse reale e lo spazio detta variabile aleatoria se linsieme dei risultati per i quali verificata la disuguaglianza X(!i ) a un evento,
comunque si scelga il numero reale a.
La variabile aleatoria si introduce ogni volta che il risultato di un esperimento
aleatorio un valore numerico, come ad esempio una misura. Per quanto preciso ed
accurato possa essere lo strumento, ripetendo pi volte un esperimento (anche deterministico!) si otterranno di volta in volta valori differenti, dovuti agli errori di
misura. Linsieme delle misure ottenute rappresenta proprio una variabile aleatoria,
per leffetto di incertezza dovuto allerrore di misura.
Rimane ora il problema di come trasferire la legge di probabilit alle variabili
aleatorie. Vogliamo cio essere in grado di stabilire qual la probabilit di un evento,
quando questo sia definito sullasse dei numeri reali e non nella classe degli eventi S.
In particolare, dati due numeri reali a e b, con a < b, ha interesse determinare qual
disposizioni di n oggetti in classe k.
Le disposizioni di n oggetti in classe n, cio il modo con cui possono essere disposti n oggetti
distinguendoli solo per lordine che assumono nelle n posizioni detto permutazioni in classe n e
vale: Pn = n!.
Infine si dicono combinazioni di n oggetti in classe k il modo con cui disporre k oggetti in n
differenti posizioni, non distinguendoli per lordine. E quindi il numero di
Dn,kdiviso
disposizioni

il
n
n
n!
numero delle permutazioni di k oggetti: Cn,k = Dn,k /Pk = k!(n k)! =
. Il numero

k
k
detto anche coefficiente binomiale.

2.3. VARIABILI ALEATORIE

29

la probabilit che la variabile aleatoria sia compresa tra a e b, cio P (a < X b).
Estendendo il linguaggio usato solo nellambito degli esperimenti aleatori, si definir
evento anche lintervallo di valori sullasse reale compreso tra a e b, dato che, per la
definizione di variabile aleatoria, lintervallo ]a, b] associabile ad un dato evento di
S.
Questa operazione di determinazione della legge di probabilit di un dato evento
definito direttamente sullasse reale diventa immediato se si introduce una funzione, la
funzione distribuzione di probabilit: FX (x), definita come segue:

(2.3.1)

FX (x) = P (X x)

dove x un numero reale ben definito. La funzione di distribuzione di probabilit


una funzione che associa ad ogni numero reale il valore della probabilit dellevento
identificato dallintervallo X x. Per FX (x) valgono le seguenti propriet:

(1) 0 FX (x) 1
(2) Il suo valore limite, per x ! +1 vale 1: limx!+1 FX (x) = FX (+1) =
P (X +1) = 1
(3) Il suo valore limite per x ! 1 vale 0: limx! 1 FX (x) = FX ( 1) =
P (X 1) = 0
(4) La funzione monotona non decrescente, cio se x1 < x2 ) FX (x1 )
FX (x2 )
(5) La funzione continua da destra, cio FX (x) = limh!0+ FX (x + h)
(6) Se la funzione di distribuzione presenta una discontinuit di prima specie nel
punto x, allora la differenza tra il limite a destra e quello a sinistra proprio il
valore della probablit dellevento in X = x: P (X = x) = limh!0+ FX (
x+
h) limh!0 FX (
x + h)
(7) La probabilit dellevento a < X b pu essere calcolata tramite la relazione: FX (b) FX (a).

Le variabili aleatorie possono essere suddivise in tre classi: variabili aleatorie continue,
variabili aleatorie discrete e variabili aleatorie miste. Una variabile aleatoria
P detta
discreta se la sua funzione di distribuzione continua a tratti: FX (x) = k P (X =
xk )u(x xk ). Tenendo conto delle ultime due propriet viste precedentemente questo
significa che la variabile aleatoria assume valore solo in un numero discreto (cio con
cardinalit pari a quella dei numeri naturali) di valori, e non continuo. Le posizioni
in cui questo accade sono proprio le xk . In queste posizioni la probabilit dellevento
concentrata nel valore xk : pk = P (X = xk ). Le pk sono dette anche masse di
probabilit.
Se invece abbiamo a che fare con una distribuzione di probabilit continua, allora
linsieme dei valori che pu assumere la funzione FX (x) si distribuisce con continuit

2.4. DENSITA DI PROBABILITA

30

sullasse dei numeri reali. Linsieme degli eventi a cui associata tale v.a. un infinito di cardinalit pari a quello dei numeri reali, quindi la probabilit che la variabile
aleatoria assuma un certo valore x un infinitesimo, tende cio a zero.
Una variabile aleatoria mista una variabile aleatoria continua quasi ovunque,
tranne che per un numero finito (o uninfinit numerabile) di punti per i quali presenta
discontinuit.
2.4. Densita di Probabilita
Una descrizione alternativa di una variabile aleatoria data anche della funzione
densit di probabilit, fX (x), definita dalla relazione:

(2.4.1)

fX (x) =

dFX (x)
dx

La relazione inversa invece:

(2.4.2)

FX (x) =

fX (x)dx
1

La funzione densit di probabilit ovviamente non negativa, discendendo dalla derivazione


di una funzione monotona non descrescente, inoltre la sua area vale sempre 1:
Z

(2.4.3)
.

+1

fX (x)dx = 1
1

Il nome di densit di probabilit discende dalla sua stessa definizione. Infatti si


supponga di considerare un intervallino molto piccolo: [x, x + x] e di voler calcolare
la probabilit che X capiti in quellintervallo: P (x < X x + x). Per definizione
si ha:

P (x < X x +
(2.4.4)

x) =

fX (x) =

x+ x

fX (x)dx fX (x)

P (x < X x +
x

x)

x)

2.4. DENSITA DI PROBABILITA

31

cio la funzione densit di probabilit in un punto rappresenta il valore della probabilit


che si pu calcolare in un intervallino nellintorno di quel punto diviso lampiezza di
quellintervallino. La sua misura quindi una misura di densit, cio di come la
probabilit si addensa attorno ai vari valori che la variabile aleatoria pu assumere
sullasse reale.
Poich la funzione distribuzione di probabilit pu essere continua, discreta o
mista, anche per la densit di probabilit dovremmo distinguere i vari casi. Quando la
funzione di distribuzione discreta o mista, essa costituita da un insieme (anche infinito) di discontinuit di prima specie. Conseguentemente in questi punti la funzione
non , a rigore, derivabile e quindi non si potrebbe definire la densit di probabilit.
Tuttavia di una variabile aleatoria discreta stata data una descrizione in termini
di distribuzione di probabilit che introduceva luso dei gradini. Difatti il gradino d
informazione del salto di probabilt che avvenuto in un certo punto a causa della
presenza di una certa massa di probabilit. Una funzione di distribuzione di probabilit
discreta rappresentata in figura (2.4.1)
F(x)

xi

F IGURA 2.4.1. Distribuzione di probabilit di una variabile aleatoria discreta


Se allora si considera la descrizione per gradini possibile introdurre, come densit
di probabilit, una densit che sia costituita da impulsi nelle posizioni delle discontinuit e sia uguale a zero altrove. Gli impulsi infatti rappresentano, nella descrizione della
densit di probabilit, un valore concentrato e non distribuito della probabilit, un
valore cio che assume una densit infinita, dovendo essere definita in un solo punto
matematico (vedi figura (2.4.2)).
Da un punto di vista della rappresentazione matematica si ha:
(2.4.5) FX (x) =

X
k

P (X = xk ) u(x

xk ) ) fX (x) =

X
k

P (X = xk ) (x

xk )

2.5. OPERAZIONI SULLA VARIABILE ALEATORIA

32

F(x)

xi

F IGURA 2.4.2. Densit di probabilit di una variabile aleatoria discreta

2.5. Operazioni sulla Variabile Aleatoria


Nei problemi che coinvolgono una variabile aleatoria pu essere comune lesigenza di dover effettuare alcune operazioni su di essa. In particolare, data una variabile
aleatoria X, si pone il problema di come determinare le caratteristiche della variabile
aleatoria ottenuta come Y = g(X), dove g() una funzione deterministica definita
sullasse reale (e dotata di determinate propriet). Un esempio pu essere dato dalla
tensione di rumore ai capi di una resistenza. Questa quantit pu essere descritta mediante una variabile aleatoria, X, dato che il fenomeno che sta alla base della tensione di
rumore un fenomeno di tipo statistico. Se ora si vuole misurare la potenza di rumore
dissipata sul resistore, poich la potenza su un resistore sempre pari a PR = x2 /R,
sar anchessa una variabile aleatoria, ottenuta come prodotto di una costante (il valore
della resistenza) per il quadrato di una quantit aleatoria. Se dunque X varia in modo
imprevedibile, ma con una certa legge di probabilit, ci si pu chiedere come varia la
potenza PR . Questa nuova variabile aleatoria si pu ottenere trasformando la variabile
aleatoria originaria.
Sia y = g(x). Si vuole determinare: FY (y) = P (Y y) = P (g(X) y). Si
devono allora prendere tutti i valori di x, per i quali risultaRg(x) y. Detto DY questo
insieme: DY = {x 3 g(x) y}, si ha che: FY (y) = DY fX (x)dx. Da questa si
Y (y)
ricava poi la densit di probabilit: fY (y) = dFdy
.
Si supponga in particolare che la funzione g() sia monotona strettamente crescente. In tal caso possibile definire la sua inversa: g 1 () ed immediata la relazione
per determinare la densit di probabilit di Y :

FY (y) = P (Y y) = P (g(X) y) = P (X g 1 (y)) = FX (g 1 (y)) )

2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA

(2.5.1)

33

dg 1 (y)
fX (g 1 (y))
fY (y) = fX (g (y))
= 0 1
dy
g (g (y))
1

se la funzione monotona strettamente decrescente invece si ha:


(2.5.2)

fY (y) =

dg 1 (y)
=
dy

fX (g 1 (y))

fX (g 1 (y))
g 0 (g 1 (y))

La relazione generale si pu quindi riassumere nella seguente formula:


(2.5.3)

fY (y) =

dY

fX (x)
dx
|g 0 (x)|

dove dY linsieme di tutti i valori x che sono soluzioni dellequazione g(x) = y.


Naturalmente linsieme delle soluzioni di g(x) = y pu anche essere linsieme vuoto,
nel qual caso si ha ovviamente: fY (y) = 0. Il caso in cui invece risulta: g 0 (x) = 0
trattato differentemente a seconda che anche fX (x) sia nullo oppure no. Nel primo
caso sono costanti sia FX (x) che g(x) quindi risulter: P (Y = y) = P (X 2 I) con I
intervallo delle x in cui g(x) assume valore costante. Nel secondo caso fY (y) tender
ad un valore infinito (cio ad un impulso).
2.6. Parametri Statistici di una Variabile Aleatoria
Nelle situazioni reali non sempre possibile avere a disposizione tutte le conoscenze necessarie per caratterizzare una variabile aleatoria. Il massimo di informazione
che si pu trarre da un esperimento aleatorio la determinazione della sua funzione
densit di probabilit. Quando questa funzione non si conosce comunque possibile
determinare alcuni parametri statistici che, seppure non permettono una conoscenza
completa della variabile aleatoria, permettono di estrarne qualche propriet.
Il pi importante di questi parametri statistici il valore atteso o media, x , definito
dalla seguente relazione:

(2.6.1)

X =

+1

x fX (x)dx
1

e rappresenta una sorta di baricentro della funzione densit di probabilit (si confronti a tale proposito la media con le definizioni, meno note di moda e mediana). Se
la variabile aleatoria discreta la relazione precedente, a causa della presenza degli

2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA

34

impulsi, diventa una sommatoria:

(2.6.2)

X =

+1

x fX (x)dx =
1

X
k

pk

+1

x (x

xk )dx =

xk pk

Loperazione precedente di media pu essere scritta molto pi facilmente introducendo loperatore di aspettazione (o di valor medio):

(2.6.3)

E[g(X)] =

+1

g(x) fX (x)dx
1

che nel caso della media assume la semplice relazione: X = E[X]. Loperatore di
valor medio gode della propriet di linearit, dato che definito attraverso unoperazione di integrazione: E[a g(X) + b h(X)] = a E[g(X)] + b E[h(X)]. Inoltre,
si supponga di avere una variabile aleatoria Y ottenuta tramite trasformazione della
v.a. X attraverso la funzione y = g(x). Senza passare attraverso il calcolo (a volte
difficoltoso) della densit di probabilit di Y nota quella di X possibile determinare
il valor medio di Y :

(2.6.4)

Y = E[Y ] = E[g(X)] =

+1

g(x) fX (x)dx
1

Questo risultato noto con il nome di teorema del valor medio.


Due v.a. possono possedere lo stesso valor medio ed essere molto differenti tra
loro. In particolare possibile che le v.a. abbiano una densit di probabilit che sia in
un caso molto stretta, nellaltro molto larga. Si confrontino le due densit in figura
(2.6.1).
Questo fatto suggerisce che, seppure con una media uguale, le due v.a. hanno comportamenti molto differenti tra loro. Nel caso della v.a. con densit di probabilit molto
larga pi probabile che capitino valori della v.a. lontani dal valor medio, cosa invece
meno probabile nel secondo caso. E possibile allora quantificare questo fatto statistico introducendo un nuovo parametro, la varianza, che definita come segue:

(2.6.5)

2
X

= E[(X

X ) ] =

+1

(x
1

X )2 fX (x)dx

2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA

35

2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
6

F IGURA 2.6.1. Confronto tra due densit di probabilit con la stessa media

La radice quadrata della varianza detta deviazione standard e rappresenta una misura
di quanto dispersa sia la densit di probabilit attorno alla media (pi grande la
deviazione standard, maggiore la dispersione). Una v.a. che non presenti affatto dispersione attorno alla media (cio con X = 0) sarebbe tutta concentrata sulla media,
cio avrebbe una densit di probabilit pari ad un impulso di area unitaria posto sulla posizione della media (ovviamente in questo caso non si pu parlare di densit di
probabilit vera e propria, dato che i possibili valori collassano su unico valore certo).
Il valore quadratico medio (chiamato a volte anche potenza) definito come segue:

(2.6.6)

m2X

= E[X ] =

+1

x2 fX (x)dx
1

Loperatore E[] un operatore lineare, quindi possibile trovare la relazione che lega
tra loro varianza e potenza:

2
X

= E[(X

(2.6.7)

X )2 ] = E[X 2

= m2X

2XX + 2X ] = E[X 2 ]

22X + 2X = m2X

2X

2E[X] X + 2X =

2.7. ESEMPI DI VARIABILI ALEATORIE

36

2.7. Esempi di Variabili Aleatorie


2.7.1. Variabile aleatoria uniforme. Una variabile aleatoria uniforme presenta
una densit di probabilit costante in tutto lintervallo in cui definita, [a, b] e valore
nullo al di fuori di questo. Conseguentemente, dato che larea sottesa dalla densit
di probabilit deve essere unitaria, laltezza di tale valore costante : 1/(b a). La
densit di probabilit si pu quindi scrivere come:

(2.7.1)

fX (x) =

1
b

rect(

x
b

b+a
2

La v.a. non pu assumere mai valori al di fuori dellintervallo [a, b], ma dentro di
questo intervallo la probabilit di occorrenza di tutti i possibili valori uguale ( come
se fosse un dado continuo, dotato cio di infinite facce).
La funzione di distribuzione, essendo la funzione integrale della densit di probabilit avr comportamento a rampa nellintervallo in cui la funzione di densit non
nulla:

(2.7.2)

FX (x) =

8
< 0
:

x a
b a

x<a
axb
x>b

Gli andamenti della funzione di densit e di quella di distribuzione sono mostrati in


figura (2.7.1).

1/(ba)

F IGURA 2.7.1. Densit e distribuzione della v.a. uniforme


Si possono calcolare facilmente i suoi parametri statistici:

2.7. ESEMPI DI VARIABILI ALEATORIE

(2.7.3)

X =

2
X

(2.7.4)
(2.7.5)

1
b

b3

a3

x2

1
b

dx =

b+a
2

b+a 2
1
)
dx =
2
b a

(x

(b + a) (b2
2

3
m2X

37

a2 )

dx =

(b2 + a2 + 2ab)(b
4

a)

)=

(b

a)2
12

b 3 a3
a2 + ab + b2
=
3(b a)
3

2.7.2. Variabile aleatoria esponenziale. Una variabile aleatoria molto utilizzata la cosiddetta variabile aleatoria continua esponenziale unilatera o semplicemente
esponenziale, cos definita:

(2.7.6)

fX (x) =

1
x
exp(
) u(x)

dove u(x) il gradino unitario con discontinuit in x = 0. Il significato del parametro


reale e positivo sar chiaro in seguito, quando si vedr uno dei pi comuni utilizzi
della v.a. esponenziale, cio nei problemi di affidabilit e calcolo del rischio.
La distribuzione di probabilit esponenziale vale:

(2.7.7)

FX (x) =

1
x
exp(
)dx = [1

exp(

x
)] u(x)

ed entrambe sono illustrate in figura (2.7.2).


I suoi parametri statistici valgono:

(2.7.8)

X =

+1

(2.7.9)

m2X

+1

x2

1
x
exp(
)dx =

1
x
exp(
)dx = 2 2

2.7. ESEMPI DI VARIABILI ALEATORIE

38

3
2.5
2
1.5
1
0.5
0

0.5

1.5

F IGURA 2.7.2. Densit e distribuzione della v.a. esponenziale


Z

+1

1
x
exp(
)dx = 2

0
La v.a. esponenziale spesso utilizzata (in ambito telecomunicazionistico) nella
seguente forma:
(2.7.10)

(2.7.11)
dove

2
X

(x

fX (x) =

)2

exp(

x) u(x)

= 1/ assume il significato di rate della v.a. esponenziale.

2.7.3. Variabile aleatoria di Poisson. La variabile aleatoria di Poisson una v.a.


discreta con densit di probabilit:

(2.7.12)

fZ (z) =

+1
X
n=0

n!

(z

n)

dove il parametro caratterizza la v.a. discreta. La v.a. di Poisson assume valori


di probabilit (di massa) differenti da zero solo per valori interi e non negativi. La
variabile aleatoria di Poisson e quella esponenziale sono in realt legate tra loro, come
si vedr in seguito. Esse modellano bene fenomeni come il conteggio del numero di
clienti che paga ad una cassa di un supermercato nellunit di tempo o il numero di
automobili che transita ad un casello autostradale o il numero di elettroni che transita
attraverso una giunzione np.
La funzione di distribuzione essendo lintegrale della fZ (z) precedente, molto
semplice:

2.7. ESEMPI DI VARIABILI ALEATORIE

(2.7.13)

+1
X

FZ (z) =

n!

n=0

u(z

39

n)

dovendo integrare solo la variabile z. Un andamento della massa di probabilit per


= 3 mostrato in figura (2.7.3).
0.25

0.2

0.15

0.1

0.05

10

12

F IGURA 2.7.3. Densit e distribuzione della v.a. di Poisson


I suoi parametri statistici sono:

(2.7.14) Z =

+1

m2Z
(2.7.15)
+1
X

e
n=1

(2.7.16)

+1
X

n=0

+1
2

n!

+1
X

n=0

n
(n 1+1) = e
(n 1)!

2
Z

(z

n)dz =

+1
X

n=0

n!

(z

n)dz = e

n!

+1
X
n 1

(n 1)+e
(n
1)!
n=2

= m2Z

n=e

+1
X
n
n=0

n!

+1
X
n
n=1

n!

n=

n2 =

+1
X
n 1

= 2 +
(n
1)!
n=2

2Z =

Quindi per la v.a. di Poisson il parametro caratteristico rappresenta sia il valor medio
sia la varianza.

2.7. ESEMPI DI VARIABILI ALEATORIE

40

2.7.4. Variabile aleatoria di binomiale. Considerato un esperimento che conduce a due soli possibili risultati (successo, con probabilit p e insuccesso, con probabilit 1 p), la variabile aleatoria binomiale (o di Bernoulli) conta il numero di successi
accaduti in n esperimenti aleatori di questo tipo indipendenti tra loro:

n
P (X = k) =
pk (1 p)n k
k = 0, ..., n
k
Questa v.a. discreta, quindi hanno ovvia formulazione sia la distribuzione sia la
densit di probabilit. La media vale:

n
X
n
X =
k
pk (1
k

n k

p)

k=0

n
X

(k

n(n 1)!
ppk 1 (1
k(k 1)!(n k)!

pk (1

k=1

la varianza vale invece:


2
X

n
X

np)

k=0

n
k

p)n

= np(1

p)n

= np

p)

2.7.5. Variabile aleatoria geometrica. Considerati n esperimenti aleatori indipendenti di Bernoulli la v.a. geometrica conta qual il numero di successi da osservare
prima di registrare il primo insuccesso:
P (X = k) = pk (1 p)
k = 0, ..., 1
La media vale:
1
X
p
X =
kpk (1 p) =
1 p
k=0
la varianza vale invece:
2
X

1
X
k=0

p
1

pk (1

p) =

p
(1

p)2

sebbene la determinazione attraverso la formula riportata risulti alquanto difficoltosa.


2.7.6. Variabile aleatoria binomiale negativa e ipergeometrica. La variabile
aleatoria binomiale negativa o di Pascal conta il numero di successi che si devono
collezionare in una serie di prove ripetute ed indipendeti di Bernoulli prima di osservare un numero di insuccessi complessivamente pari ad m, con m intero positivo, zero
compreso:

n+m 1
P (X = n) =
pn (1 p)m 1 (1 p)
m 1
Il valore medio pari a: X = m 1 p p .
Infine la variabile aleatoria ipergeometrica si introduce in una particolare classe di
esperimenti detti senza rimessa (o senza rimescolamento). Si supponga, per rendere

2.7. ESEMPI DI VARIABILI ALEATORIE

41

chiara lidea con un esempio, di avere un lotto di N oggetti di cui D difettosi. Si


supponga ora di pescare da questo lotto un numero di oggetti n senza rimessa (cio
senza rimetterli dentro dopo aver osservato di quale oggetto si tratti). Detti k gli oggetti
difettosi tra gli n pescati, la v.a. ipergeometrica permette di valutare la probabilit di k
(numero compreso tra 0, ..., n):

P (X = k) =

D
k

N D
n k

N
n

2.7.7. Derivazione e significato delle v.a. esponenziale e di Poisson. La v.a.


esponenziale e quella di Poisson sono legate allo stesso significato fisico che quello
dellattesa di un evento. In un processo di Poisson la casualit affidata al tempo di
arrivo di un certo evento. In generale nei processi di Poisson siamo interessati da vari
fenomeni:
(1) osservare il numero di eventi in un certo intervallo di tempo fissato;
(2) il tempo di interarrivo, cio il tempo che intercorre tra larrivo di due eventi
successivi;
(3) il tempo di attesa, cio il tempo che occorre affinch arrivi il primo evento a
partire da un istante iniziale di osservazione.
I tre tipi di fenomeni sono riassunti nella figura (2.7.4), dove le crocette rappresentano
gli arrivi di un certo evento sullasse temporale.

1)
x
0

2)
x

3)
x

x
0

F IGURA 2.7.4. Rappresentazione grafica dei tre fenomeni descritti


Per poter ricavare la distribuzione di un processo poissoniano si fanno alcune ipotesi
semplificative:
(1) fissato un intervallo T e suddividendo questo intervallo in n (con n grande)
intervallini piccoli di durata T , T = n T , la probabilit che un evento

2.7. ESEMPI DI VARIABILI ALEATORIE

42

capiti in un intervallino pari ad una v.a. di Bernoulli:

P (N ( T ) = 1) = p
P (N ( T ) = 0) = 1 p
si esclude la probabilit che in un singolo intervallino capiti pi di un evento
(2) Gli arrivi in intervallini diversi sono indipendenti tra loro.
Calcoliamo ora qual la probabilit che in un dato intervallo finito T capitino k
eventi: Pn (N (T ) = k). In base alle formule viste per la v.a. di Bernoulli si ha:
n
P (N (T ) = k) = ( )pk (1 p)n k con n numero totale di intervallini in cui si pu
k
pensare suddiviso lintervallo T . Sia ora un parametro costante, tale che si possa
scrivere: T = np = , cos che, quando il numero di intervallini tende ad infinito, la
probabilit che un evento capiti in un dato intervallino vada a zero: n ! 1 ) p ! 0.
La probabilit diventa allora:

P (N (T ) = k) = lim Pn (N (T ) = k) = lim (
n!1

= lim (
n!1

(2.7.17)

n
n k
)( ) (1
)
k n
n
=

n!1

n k
)p (1
k

k
n (n 1) ... (n
lim
k! n!1
nk (n k)!

k
lim (1
k! n!1

k)!

p)n

(1

) (1
)
n
n

n k
) =
exp( )
n
k!

Si osservi che se si pone T = 1 allora la P (N (1) = k) coincide con la distribuzione


di Poisson trovata nel par. 2.7.3, che a questo punto rappresenta la probabilit che nellunit di tempo capitino k eventi. La probabilit che nellunit di tempo non capitino
affatto eventi vale: P (N (1) = 0) = exp( ).
Calcoliamo ora il tempo di attesa, cio il tempo che bisogna attendere affinch
capiti il primo evento a partire da un instante iniziale di osservazione. Se x listante
in cui si vuole valutare la v.a., distribuzione di probabilit della v.a. tempo di attesa pu
essere espressa anche come: F (x) = P ( x) = 1 P ( > x). Ma P ( > x) anche la probabilit che sino ad x non sia capitato alcun evento: P ( > x) = exp( x).
Quindi:

(2.7.18)

F (x) = 1 e x
f (x) = e x

2.7. ESEMPI DI VARIABILI ALEATORIE

43

che, confrontata con le (2.7.6) e (2.7.7) d significato alla v.a. esponenziale, purch si
ponga: = 1 .
Si supponga ora che, a partire da un certo istante in cui capitato un evento, si
voglia determinare quale sar la probabilit che sia il tempo di arrivo dellevento
successivo. Questa probabilit di arrivo, detta tempo di interarrivo si pu calcolare
facilmente a partire dalle considerazioni fatte precedentemente. Infatti, poich gli
eventi sono indipendenti tra loro, loccorrere di un evento ad un certo istante (quello nel quale noi poniamo t = 0) non genera alcuna dipendenza futura sullevento
successivo. Ne consegue che la distribuzione e la densit di probabilit del tempo di
interarrivo sono uguali a quelle calcolate per il tempo di attesa. La variabile aleatoria
esponenziale esprime cio la mancanza di memoria di un sistema.
2.7.8. Variabie aleatoria gaussiana. La variabile aleatoria di Gauss detta anche
v.a. normale, o a campana, emerge nellesperienza dellumanit come una delle pi
ampie generalizzazioni della filosofia naturale. Essa serve come strumento guida in
ricerche della scienza, della medicina e dellingegneria. E uno strumento indispensabile per lanalisi e linterpretazione dei dati fondamentali ottenuti dallosservazione
e dallesperimento.2
Moltissimi fenomeni naturali si modellano statisticamente, in mancanza di altre
informazioni, come se seguissero una variabile aleatoria gaussiana. Inoltre, come verr
dimostrato pi avanti con il teorema del limite centrale, la v.a. gaussiana si pu sempre
considerare una generalizzazione di altre v.a. quando il numero di elementi presenti
diventa molto grande.
La densit di probabilit della v.a. gaussiana :

(2.7.19)

1
(x )2
fX (x) = p exp(
)
2 2
2

dove, come si pu dimostrare, i parametri e 2 sono rispettivamente il valor medio e


la varianza della v.a. La densit di probabilit gaussiana si estende su tutto lasse dei
numeri reali, ed simmetrica rispetto al suo valor medio . La v.a. gaussiana indicata
anche con @(, 2 ), dato che la media e la varianza sono sufficienti per caratterizzarla
completamente. La gaussiana standard quella con densit di probabilit @(0, 1), cio:

(2.7.20)

1
x2
p
fXN (x) =
exp(
)
2
2

J. Gleick: Caos: la nascita di una nuova scienza, ed. Bur.

2.7. ESEMPI DI VARIABILI ALEATORIE

44

Essa particolarmente importante poich si pu facilmente vedere che una gaussiana


qualunque @(, 2 ) pu essere ottenuta come trasformazione lineare della gaussiana
standard: X = XN + . Infatti:
fX (x) =

fXN (

1
(x )2
) = p exp(
)
2 2
2

La funzione di distribuzione della gaussiana non pu essere espressa in forma chiusa.


A tale proposito si introduce la funzione di distribuzione della gaussiana standard:

(2.7.21)

XN (x)

x
1

1
z2
p exp(
)dz
2
2

Questa funzione calcolata con metodi numerici e spesso si danno anche valori tabulati. Talvolta si usa anche la funzione Q(x) = 1
(x). Nota la funzione di distribuzione standard possibile calcolare la funzione di distribuzione per una normale
qualunque @(, 2 ): X (x) = P (X x) = P ( XN + x) = XN ( x ). Quindi, ad esempio, se si vuole conoscere la probabilit che la variabile gaussiana assuma
valori in un intervallo [a, b], si ottiene:
(2.7.22)
.

P (a < x b) = FX (b)

FX (a) =

N(

N(

Molte volte nei calcolatori si ha a disposizione, direttamente implementata, la funzione di distribuzione standard. Quando questa non presente, si hanno le funzioni
errore ed errore complementare (error function e complementary error function):

(2.7.23)
(2.7.24)

2
erf (x) = p

erf c(x) = 1

z2

dz

2
erf (x) = p

+1

z2

dz

Quando si hanno a disposizione solo la funzione errore o la sua complementare si pu


ricavare la funzione di distribuzione standard da questultima: (x) = 12 (1+erf ( px2 )),
e la funzione Q(x) = 12 erf c( px2 ). Da questa relazione si pu ricavare facilmente la

2.8. VARIABILI ALEATORIE CONDIZIONATE

45

probabilit che una gaussiana assuma valori nellintervallo [a, b]: P (a < x b) =
b
a
a
b
1
[erf ( p
) erf ( p
)] = 12 [erf c( p
) erf c( p
)]. Nelle figura (2.7.5) sono
2
2
2
2
2
riportate la densit di probabilit gaussiana con la funzione di distribuzione e la Q(x),
in figura (2.7.6) riportata invece la funzione errore e la sua complementare.
1

Q(x)

0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
4

F IGURA 2.7.5. Densit, distribuzione e funzione Q(x) per la v.a. gaussiana

erfc(x)
1.5

erf(x)

1
0.5
0
0.5
1
4

F IGURA 2.7.6. Funzione errore e funzione errore complementare


2.8. Variabili Aleatorie Condizionate
La funzione di distribuzione della probabilit, FX (x) passa attraverso la definizione
di un evento, di cui la funzione ne rappresenta la probabilit: FX (x) = P (X x) =
P (A), dove levento A levento che la v.a. assuma valori minori od uguali ad X. Il
verificarsi di un evento per pu essere anche influenzato dal verificarsi o meno di un
altro evento B avente probabilit non nulla di accadere, P (B). Ha quindi senso porsi
il problema del calcolo di una funzione di distribuzione condizionata dalloccorrere
dellevento B. Tale funzione di distribuzione della v.a. X, indicata con FX/B (x/B),

2.9. APPLICAZIONI NOTEVOLI

46

vale ovviamente:

(2.8.1)

FX/B (x/B) =

P (A, B)
P (X x, B)
=
P (B)
P (B)

da cui si pu definire anche la densit di probabilit:

(2.8.2)

fX/B (x/B) =

dFX/B (x/B)
dx

Le funzioni di distribuzione e di densit di probabilit godono di tutte le propriet viste


finora e valide per le funzioni e distribuzioni non condizionate.
2.9. Applicazioni notevoli
2.9.1. Trasformazione di una variabile aleatoria. Schematizzazione del guasto di un circuito elettrico. Si supponga di avere il semplice circuito elettrico riportato
in figura (2.9.1). Il generatore di tensione sia collegato alla serie RC allistante t = 0.
Il resistore R abbia un tempo di guasto aleatorio X, in corrispondenza del quale esso
interrompe il circuito. Questo tipo di fenomeno, cio listante in cui interrompe il circuito, si pu modellare (per quanto detto in par. 2.7.7) come una v.a. esponenziale con
parametro (scelto arbitrariamente) pari a 2 = 2RC:

(2.9.1)

fX (x) =

t=0

1
x
exp(
) u(x)
2
2

t=X

C
Vo

F IGURA 2.9.1. Schema del circuito RC con un guasto in t = X.

2.9. APPLICAZIONI NOTEVOLI

47

Si vuole determinare la densit di probabilit fV (v) della v.a. V che rappresenta la


tensione ai capi del condensatore dopo che avvenuto il guasto al resistore R. Il guasto al resistore si pu schematizzare come linterruzione del circuito e il conseguente
mantenimento della tensione sul condensatore (qui supposto ideale). Poich non si
conosce listante in cui il guasto avverr, anche la tensione che verr mantenuta ai capi
del condensatore una quantit statistica, cio ignota a priori, di cui per possibile
determinare la probabilit che assuma un certo valore. E sufficiente a tale proposito
determinare la legge che lega il tempo alla tensione ai capi del condensatore: v(t) =
Vo [1 exp( t/)] u(t). Ponendo t = X, segue: v(X) = Vo [1 exp( X/)] u(X).
Conosciamo quindi la legge di trasformazione e la densit di probabilit di X. Si deve
quindi applicare quanto riportato nel par. 2.5:

(2.9.2)

fV (v) =

fX (x)
v 0 (x)

dove x la quantit che soddisfa lequazione v = v(x). Poich la legge v(t) perfettamente invertibile nellintervallo [0, Vo ], solo in questo intervallo avr senso definire
la densit di probabilit di fV (v). Linversione della legge porta a:

(2.9.3)

v = v(x) ) x =

v
)
Vo

ln(1

poich inoltre:

(2.9.4)

v 0 (x) =

Vo
exp( t/)

si ha infine:

(2.9.5)

fV (v) =

1
1
p
2Vo
1

v
Vo

2.9. APPLICAZIONI NOTEVOLI

48

2.9.2. Tempo di guasto dopo il rodaggio. Un altro problema interessante quello del tempo di guasto dopo il rodaggio. Si abbia una serie di resistenze, tutte nominalmente uguali tra loro. Se queste resistenze si pongono sotto tensione, presto o tardi
esse tenderanno a rompersi. La rottura di una singola resistenza ovviamente un evento casuale, che ben modellato da una variabile aleatoria esponenziale, con densit di
probabilit data dalla (2.7.6). Il parametro , che nella densit di probabilit esponenziale rappresenta il valor medio, detto tempo medio di guasto o MTTF (Mean Time
To Failure).
Effettuiamo ora unoperazione di rodaggio. Dato cio un tempo prefissato a piacere, to , scartiamo le resistenze che si sono guastate sino a quellistante. Quindi
cominciamo, per istanti t to , ad osservare le resistenze che non si sono ancora guastate. In base alla propriet di mancanza di memoria della variabile aleatoria esponenziale, ci si aspetta che la densit di probabilit condizionata da questo evento non sia
mutata. Verifichiamolo. Quello che vogliamo determinare la densit di probabilit
condizionata dallevento B, con B = {t to }.
Si calcola prima la distribuzione di probabilit FX/B (x/B). La probabilit dellevento B : P (B) = P (X
to ) = 1 P (X < to ) = 1 FX (to ), dove FX (x)
la funzione di distribuzione della v.a. X. La probabilit congiunta dellevento
P (X x, B) si pu determinare invece a partire dai due casi in cui x > to oppure x to :

P (X x, B) = P (X x, X
(2.9.6)

= [FX (x)

to ) =

FX (x)

FX (to )] u(x

FX (to )
0

x > to
=
altrimenti

to )

Sostituendo nella definizione di distribuzione di probabilit condizionata da un


evento:

FX/B (x/B) =

(2.9.7)

P (X x, B)
[FX (x) FX (to )] u(x
=
P (B)
1 FX (to )
=

[FX (x) FX (to )]


u(x
1 FX (to )

to )

da cui si ricava facilmente la densit di probabilit condizionata:

to )

2.9. APPLICAZIONI NOTEVOLI

(2.9.8)

fX/B (x/B) =

49

dFX/B (x/B)
fX (x)
=
u(x
dx
1 FX (to )

to )

Questa densit di probabilit spiega il comportamento delle resistenze quando si introduce il tempo di rodaggio: la probabilit che se ne guasti qualcuna per x < to
ovviamente nulla, dato che si stanno considerando solo le resistenze sopravvisute allistante t = to ; inoltre la densit di probabilit la stessa del caso in cui si cominci ad
osservare il fenomeno per t = 0 (e quindi verificato che il sistema privo di memoria), tranne per il fattore di scala 1 FX1 (to ) che ha lo scopo di rinormalizzare la densit
di probabilit in modo che la sua area sia sempre pari ad 1.
2.9.3. Generatori aleatori. Nei problemi di simulazione capita talvolta di richiedere,
ai computer, di produrre dei numeri casuali, generati con una legge assegnata. La routine di sistema di un computer, basata sulle complesse relazioni esistenti tra i registri
della macchina e il clock, in grado spesso di fornire un numero casuale, ad aritmetica
finita, compreso tra 0 ed 1 e distribuito in modo uniforme.
Il primo problema da risolvere per produrre numeri a caso con distribuzione assegnata, consiste nel costruire una funzione tale che se X uniforme nellintervallo
[0, 1], allora (X) abbia la distribuzione assegnata nellintervallo assegnato. Il problema si formalizza cos: data una v.a. X uniforme in [0, 1], ed assegnata una densit di
probabilit (continua) f , si deve trovare unapplicazione , tale che Y = (X) abbia
densit di probabilit f .
Supponiamo che si voglia f non nulla allinterno di un intervallo assegnato [a, b]
e nulla al di fuori di esso. In tal caso la F , funzione cumulativa, sar strettamente
crescente e quindi invertibile in questo intervallo. Mostriamo che la scelta = F 1
risolve il nostro problema.
Anzitutto osserviamo che la F di una v.a. uniforme vale:
0x1

F (x) = x

vale 0 per x < 0 e 1 per x > 1. Si ha allora che 8t, 0 F (t) 1 e quindi che:
P (F

(X) t) = P (X F (t)) = F (t)

La v.a. Y = (X) = F 1 (X) risolve il problema, dato che avr una funzione
cumulativa pari ad F .
Supponiamo, ad esempio, di voler ottenere una legge esponenziale con parametro
. Siccome la funzione cumulativa vale:
F (t) = 1

exp(

essa invertibile su <+ e la sua inversa vale:

t), t

2.10. SISTEMI DI VARIABILI ALEATORIE

(x) =

log(1

50

x)

Quindi se X uniforme su [0, 1], allora la funzione trasformata Y = 1 log(1 X)


esponenziale con parametro .
In altri casi esistono tecniche pi raffinate (o pi semplici, quando la funzione da
invertire non semplice) che, pur sfruttando il principio sopra esposto, permettono di
aggirare le difficolt del problema in esame.
2.10. Sistemi di Variabili Aleatorie
2.10.1. Sistemi di due variabili aleatorie. Nello studio di un esperimento aleatorio pu avere senso associare due grandezze fisiche differenti a due risultati differenti dellesperimento. Tuttavia le corrispondenti v.a. associate a queste grandezze, X
ed Y , difficilmente forniranno risultati significativi allesperimento stesso, se prese
singolarmente.
Ad esempio si supponga di considerare un esperimento statistico in cui si misura
laltezza e il peso di una certa popolazione di persone. Sar molto difficile trovare
una persona molto alta e molto magra, sebbene la variabilit di peso e di altezza,
prese singolarmente permettono escursioni ampie. Questo significa che, nellesperimento aleatorio, le due grandezze forniscono informazione utile solo se prese insieme
(informazione congiunta).
Data allora una coppia di variabili aleatorie (X, Y ) si definisce la funzione di distribuzione di probabilit congiunta:

(2.10.1)

FXY (x, y) = P (X x, Y y)

che descrive in modo completo il comportamento statistico delle due v.a. In particolare, conoscendo FXY (x, y) possibile avere informazioni sul comportamento statistico delle due v.a. prese separatamente (probabilit marginali). Le propriet della
funzione di distribuzione di probabilit congiunta sono molto simili a quelle viste per
la funzione di distribuzione di una sola variabile:
(1) la funzione FXY (x, y) assume valori compresi tra 0 ed 1;
(2) Dato un valore fisso di y, y = yo , la funzione FXY (x, yo ) monotona non
decrescente in x e continua da destra; analoga propriet vale per laltra variabile;
(3) la funzione soddisfa le seguenti uguaglianze:
FXY ( 1, y) = P (X 1, Y y) = 0
FXY (x, 1) = P (X x, Y 1) = 0
FXY ( 1, 1) = P (X 1, Y 1) = 0

2.10. SISTEMI DI VARIABILI ALEATORIE

51

(4) Le funzioni di distribuzione marginale si ricavano come:


FX (x) = FXY (x, +1)
FY (y) = FXY (+1, y)
(5) limx,y!1 FXY (x, y) = 1
(6) La probabilit dellevento rettangolare R = {x1 X x2 , y1 Y y2 } si
calcola con la relazione:
(2.10.2)
P (x1 X x2 , y1 Y y2 ) = FXY (x2 , y2 ) FXY (x1 , y2 ) FXY (x2 , y1 )+FXY (x1 , y1 )
In particolare lultima propriet permette di determinare la funzione densit di probabilit congiunta quando lampiezza degli intervalli in x ed in y tende a diventare molto
piccola:
P (x X x +
[FXY (x +
=

x, y +

y)

@FXY (x, y +
@x

FXY (x, y +
y)

x, y Y y +
y)]

P (x X x +

[FXY (x +

x, y)

FXY (x, y)] =

@FXY (x, y)
@ 2 FXY (x, y)
x=
x y
@x
@x@y

Se allora si definisce la funzione: fXY (x, y) =

(2.10.3)

y) =

@ 2 FXY (x,y)
,
@x@y

x, y Y y +

si ha:

y)
= fXY (x, y)

x y

La funzione definita detta densit di probabilit congiunta. Essa sempre non


negativa ed integra ad 1 su tutto il piano:

(2.10.4)

Z Z

fXY (x, y)dxdy = 1

<2

Le densit di probabilit marginali si ricavano in base a quanto gi visto per la distribuzione di probabilit congiunta:

2.10. SISTEMI DI VARIABILI ALEATORIE

(2.10.5)

(2.10.6)

fX (x) =

fY (y) =

52

+1

fXY (x, y)dy


1
+1

fXY (x, y)dx


1

Dato un evento A, identificabile con un dominio sul piano <2 : (x, y) 2 A, la probabilit di quellevento :
(2.10.7)

Z Z

fXY (x, y)dxdy

Infine la funzione di distribuzione pu essere ricavata dalla densit di probabilit mediante la relazione:
(2.10.8)

FXY (x, y) =

x
1

fXY (s, t)dsdt


1

Anche in questo caso si pu definire la funzione di distribuzione e la densit di


probabilit condizionata. Si supponga infatti che la v.a. X abbia assunto un certo
valore X = x. In tal caso la probabilit marginale di Y sar condizionata da questo
cambiamento. Si definisce allora la funzione di distribuzione condizionata:

(2.10.9)

FY /X (y/x) =

Ry

fXY (x, t)dt


fX (x)

Da questa si ricava poi la densit di probabilit condizionata derivando rispetto ad y:


(2.10.10)

fY /X (y/x) =

@FY /X (y/x)
fXY (x, y)
=
@y
fX (x)

Se il comportamento della variabile aleatoria Y uguale sia sotto condizionamento


per X = x, 8x sia senza condizionamento, cio se fY (y) = fY /X (y/x) allora questo
significa che le v.a. sono indipendenti tra loro. In questo caso la densit di probabilit
congiunta pari al prodotto delle due densit di probabilit: fXY (x, y) = fX (x)
fY (y).

2.10. SISTEMI DI VARIABILI ALEATORIE

53

Come gi visto nel caso di una sola v.a., anche nel caso di due v.a. si pu effettuare una trasformazione: Z = g(X, Y ), dove g(, ) una funzione reale di due
variabili reali. La funzione definisce una nuova v.a. con funzione di distribuzione:
FZ (z) = P (g(X, Y ) z). Il calcolo della FZ (z) pu essere facilmente effettuato
tramite:

(2.10.11)

FZ (z) =

Z Z

fXY (x, y)dxdy

R(Z)

dove il dominio R(Z) indica la regione di piano in cui vale la relazione g(X, Y ) z.
Nota la funzione di distribuzione, la densit di probabilit si ricava mediante semplice
derivazione rispetto allunica variabile z.
E XAMPLE 2.10.1. Somma di due variabili aleatorie. Questo esempio d luogo
ad un risultato notevole. Detta infatti D la regione di piano individuata dalla relazione
x + y z, si ha che D = {x, y z x} , 8x. Quindi si ha:

FZ (z) =

+1
1

dFZ (z)
=
fZ (z) =
dz

Z
Z

z x

fXY (x, y)dxdy =


1
+1
1

d
dz

+1
1

z x

fXY (x, y)dy dx


1

z x

fXY (x, y)dy dx =


1

+1

fXY (x, z

x)dx

Se poi le v.a. sono indipendenti si ottiene:


(2.10.12) Z
fZ (z) =

+1

fXY (x, z
1

x)dx =

+1
1

fX (x) fY (z

x)dx = fX (z) ? fY (z)

cio date due v.a. sommate tra loro ed indipendenti, la densit di probabilit della v.a.
somma pari alla convoluzione delle densit di probabilit delle due v.a. di partenza.
Il risultato facilmente generalizzabile alla somma di n variabili aleatorie indipendenti tra loro.
2.10.2. Correlazione e covarianza. Il comportamento statistico di una coppia di
v.a. pu essere descritto da alcuni parametri che le descrivono in modo congiunto. Tra
questi parametri vi sono la correlazione:

2.10. SISTEMI DI VARIABILI ALEATORIE

(2.10.13)

rXY = E[XY ] =

+1
1

54

+1

xy fXY (x, y)dxdy


1

e la covarianza:
(2.10.14)
cXY = E[(X

X )(Y

Y )] =

+1
1

+1

(x

X )(y

Y ) fXY (x, y)dxdy

Si fa vedere facilmente che cXY = rXY X Y .


La covarianza un parametro statistico molto importante. Essa stabilisce se esiste
un qualche tipo di dipendenza lineare tra le v.a. Cerca in ogni caso di misurare una
dispersione congiunta intorno ai rispettivi valori medi. Se ad esempio la covarianza positiva questo significa che, prevalentemente, le v.a. tendono a muoversi nella
stessa direzione, cio pi probabile che se una di esse sopra la media lo sia anche laltra (come ad esempio peso ed altezza di una persona). Una covarianza negativa indica invece il fenomeno contrario, cio che prevalentemente le due v.a. si
muovono statisticamente in direzioni opposte, come ad esempio et ed acuit visiva di
una popolazione.
Supponiamo che tra le due v.a. X e Y esista una certa dipendenza lineare:

(2.10.15)

Y = aX + b
Y = aX + b
Y = a(X X )

La covarianza vale allora:


2
cXY = E [(X X )(Y Y )] = E [(X X )a(X X )] = a X
cXY = E [(X X )(Y Y )] = E [(Y Y )(Y Y )/a] = Y2 /a

da cui si ricava che:


(2.10.16)

c2XY =

2 2
X Y

In questo caso il rapporto cXXYY = 1.


E possibile generalizzare il discorso precedente e porre, per una data coppia di
v.a. X e Y , la seguente definizione:

2.10. SISTEMI DI VARIABILI ALEATORIE

(2.10.17)

=E

X
X

55

cXY
X Y

che d una misura del grado di correlazione o di dipendenza lineare tra le due v.a.
Si ponga ora il caso generale: Y = aX + b + Z, in cui la quantit Z una v.a.
Con questo modello abbiamo supposto che la dipendenza lineare tra X e Y sia dubbia
o comunque non nota. Il problema che ci poniamo quello di determinare la retta
migliore possibile (cio i coefficienti a e b) che permettano di formulare la migliore
predizione lineare di Y in funzione di X.
La soluzione considerata ottima quella che si ottiene imponendo che la media di
Z sia nulla e che la sua varianza sia minima:

(2.10.18)

2
Z

2
Y

Z = Y
2
+ a2 X

aX b = 0
2acXY = min

la seconda equazione va derivata e posta = 0:


@ Z2
= 2a
@a
da cui si ricava abbastanza facilmente:
(2.10.19)

(2.10.20)

2
X

a=

2cXY = 0

cXY
2
X

Sostituendo il valore determinato di a nella seconda equazione della (2.10.18) si


ricava la varianza minima che deve assumere la v.a. Z:
(2.10.21)

2
Zmin

2
Y

c2XY
4
X

2
X

cXY
2
X

cXY =

2
Y (1

2 )

Dalla precedente equazione si ricavano le seguenti osservazioni:


(1) il valore del coefficiente di correlazione un numero in valore assoluto
sempre minore di 1: 0 || 1;
(2) Tanto pi || ! 1 tanto pi sono linearmente dipendenti le v.a. X e Y . Se
|| = 1, X e Y dipendono linearmente tra loro.
(3) Se || = 0 allora cXY = 0, cio le due v.a. sono incorrelate.
Il coefficiente di correlazione serve a normalizzare la covarianza che altrimenti
potrebbe assumere valori anche molto differenti per diverse coppie di v.a. Esso permette quindi di confrontare diversi risultati tra loro, dato che lintervallo in cui definito
sempre [ 1, 1]. Il coefficiente di correlazione si pu anche vedere come una correlazione definita per la nuova coppia di v.a. normalizzate ( X XX , Y YY ). Quanto pi
vicino questo coefficiente ad 1 in modulo, tanto pi le v.a. tendono a seguire una
legge di variazione lineare.

2.10. SISTEMI DI VARIABILI ALEATORIE

56

Se poi le v.a. sono indipendenti tra loro la loro correlazione vale:

rXY = E[XY ] =

(2.10.22)

+1
1

+1
1

xfX (x)dx

Z
Z

+1

xy fXY (x, y)dxdy =


1
+1

y fY (y)dy = X Y
1

cio due v.a. indipendenti sono anche incorrelate. Linverso di questa relazione non
sempre vera tuttavia: cio due v.a. incorrelate possono anche essere dipendenti tra
loro. Lindipendenza una condizione pi restrittiva della incorrelazione.
2.10.3. Metodo dei minimi quadrati. Questo metodo, strettamente correlato con
il concetto di dipendenza lineare tra due v.a. in realt oggetto di studio della statistica
e non della teoria delle probabilit. Infatti il metodo si introduce in un contesto in
cui leventuale dipendenza lineare tra due v.a. ignota ma si suppone esistente per
ipotesi di lavoro; si suppone inoltre che le statistiche delle due v.a. non siano note.
Si suppongono invece note una serie di misure delle due v.a., che in un esperimento
aleatorio, si possono considerare due grandezze fisiche in qualche modo dipendenti tra
loro (per esempio si potrebbe pensare ad un esperimento aleatorio che coinvolga spazio
percorso da un oggetto che si muove di moto rettilineo uniforme e tempo trascorso. E
ragionevole supporre dipendenza lineare tra le due grandezze fisiche).
Siano xi e yi , con i = 1, 2, ..., N la serie di misure ottenute. La retta ottima consiste
nel considerare la soluzione che minimizza la somma dei quadrati della relazione di
dipendenza lineare:

S=
@S
=
@a
(2.10.23)

X
i

@S
=
@b

X
i

zi = yi axi b
X
zi2 =
(yi axi b)2
i

xi yi + a
X
i

x2i + b

yi + a

xi = 0

xi + N b = 0

Le relazioni precedenti possono essere riarrangiate in un sistema di due equazioni


in due incognite: a e b, dato che le restanti quantit sono note, essendo ricavabili dalle
coppie di misure (xi , yi ).
Se si pongono le seguenti stime:

2.10. SISTEMI DI VARIABILI ALEATORIE

57

1 X
xi
N i
1 X
c
=
yi
Y
N i
1 X
2
2
c
=
(xi c
X)
X
N i
X
2
c2 = 1
(yi c
Y)
Y
N i
1 X
cd
(xi c
c
XY =
X ) (yi
Y)
N i
c
X =

I valori ottimali di a e b nel senso dei minimi quadrati si possono riscrivere nel
seguente modo:
a=

cd
XY
2
c
X

(2.10.24)

b = c
Y

ac
X
cd
XY
=
c
Xc
Y

2.10.4. Sistemi di n variabili aleatorie. Quanto visto per due v.a. pu essere
facilmente generalizzato per n variabili aleatorie. La funzione di distribuzione di probabilit congiunta definita come:

(2.10.25)

FX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) = P (X1 x1 , X2 x2 , ..., Xn xn )

e la relativa densit di probabilit :

(2.10.26)

fX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) =

@ n FX1 ,X2 ,...,Xn (x1 , x2 , ..., xn )


@x1 @x2 ...@xn

Dalla densit di probabilit congiunta possibile ricavare la densit di probabilit


marginale rispetto a ciascuna delle variabili: sufficiente integrare su tutto il dominio
< per tutte le altre. Inoltre possibile ricavare la densit di probabilit marginale
di un qualunque sottoinsieme di v.a., sempre integrando in < rispetto a quelle che

2.10. SISTEMI DI VARIABILI ALEATORIE

58

devono mancare (se ad esempio si vuole la densit di probabilit marginale rispetto ad


x3 , x4 , ..., xn si deve integrare fX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) rispetto ad x1 , x2 .
In modo analogo si ricavano le densit di probabilit condizionate. Se si vuole determinare la densit di probabilit condizionata ad un qualunque sottoinsieme di v.a.
sufficiente dividere la densit di probabilit congiunta per la marginale ristretta a quel
sottoinsieme. Se ad esempio si vuole determinare

(2.10.27)

fX1 ,X4 ,...,Xn /X2 ,X3 (x1 , x4 , ..., xn /x2 , x3 ) =

fX1 ,X2 ,...,Xn (x1 , x2 , ..., xn )


fX2 ,X3 (x2 , x3 )

Le v.a. si dicono indipendenti tra loro se, preso un qualunque sottoinsieme di


esse, condizionato da un qualunque altro sottoinsieme (distinto dal primo), la densit
di probabilit condizionata pari alla densit del primo sottoinsieme considerato non
condizionato.
Per lo studio dei sistemi di v.a. si utilizza normalmente la notazione matriciale:
X = {X1 , X2 , ..., Xn } dove X un vettore aleatorio:

(2.10.28)

3
X1
6 X2 7
T
7
X= 6
4 ... 5 = [X1 , X2 , ..., Xn ]
Xn

La funzione di distribuzione di probabilit congiunta e la funzione di densit di probabilit congiunta possono essere quindi indicate con notazione vettoriale: FX (X) ed
fX (X). Anche i parametri statistici possono essere indicati con notazione vettoriale:

(2.10.29)

X = E[X] = [X1 , X2 , ..., Xn ]T

Poich la correlazione e la covarianza sono state definite per coppie di v.a. quando
si hanno pi di due v.a., ha senso definire la correlazione e la covarianza per tutte le
possibili coppie di v.a. In tal caso tutte le correlazioni, come pure tutte le covarianze
possono essere riunite in una matrice di dimensione n n dette matrici di correlazione
e di covarianza:

2.10. SISTEMI DI VARIABILI ALEATORIE

(2.10.30)

(2.10.31)

59

3
rX1 X1 rX1 X2 ... rX1 Xn
6 rX2 X1 rX2 X2 ... rX2 Xn 7
7
RX = E[XX T ] = 6
..
..
..
...
4
5
.
.
.
rXn X1 rXn X2 ... rXn Xn

CX = E[(X

X )(X

3
cX1 X1 cX1 X2 ... cX1 Xn
6 cX2 X1 cX2 X2 ... cX2 Xn 7
7
X )T ] = 6
..
..
..
4 ...
5
.
.
.
cXn X1 cXn X2 ... cXn Xn

Le matrici di correlazione e di covarianza sono simmetriche, essendo


(2.10.32)

rXi Xj = rXj Xi

cXi Xj = cXj Xi

dalle loro stesse definizioni. I valori sulla diagonale di RX sono i valori quadratici
medi delle singole v.a. Xi : rXi Xi = E[Xi Xi ] = m2Xi . I valori sulla diagonale della
matrice di covarianza sono le varianze delle singole v.a. Xi :
(2.10.33)

cXi Xi = E[(Xi

Xi )(Xi

Xi )] =

2
Xi

La relazione tra la matrice di correlazione e quella di covarianza pari alla relazione


che esiste tra la correlazione e la covarianza per una coppia di v.a.: CX = RX X TX .
Anche per la trasformazione si possono fare considerazioni analoghe. Si consideri
una funzione vettoriale di n variabili in n valori g(, , ..., ) = g1 (), g2 (), ..., gn (),
e si applichi tale funzione al vettore aleatorio X ottenendo un nuovo vettore aleatorio
di n v.a.: Y = g(X). Per determinare la densit di probabilit congiunta del nuovo
vettore fY (y) a partire da quella di X si pu utilizzare la generalizzazione di quanto
visto in par. 2.5:

(2.10.34)

fY (y) =

X
i

fX (xi )
|det(J(xi ))|

dove xi il sottoinsieme di Rn soluzione della relazione: g(xi ) = y e dove J(xi ) la


matrice jacobiana calcolata per tali valori.

2.10. SISTEMI DI VARIABILI ALEATORIE

60

Nellipotesi in cui il vettore aleatorio sia trasformato in un altro vettore di dimensioni differenti, m, necessario passare prima attraverso il calcolo della funzione di
distribuzione di probabilit congiunta, estesa al dominio che soddisfa la disuguaglianza data dalla trasformazione:

(2.10.35)

FZ (z) =

fX (x)dx

RD

dove RD linsieme che soddisfa la relazione:


n
\
RD = (X1 , X2 , ..., Xn ) 3 g1 (X1 , X2 , ..., Xn ) Z1
(2.10.36)

g2 (X1 , X2 , ..., Xn ) Z2 ...

gm (X1 , X2 , ..., Xn ) Zm

Nota poi la funzione di distribuzione, si pu determinare la funzione di densit di


probabilit congiunta mediante derivazione.
Particolare interesse ha il caso in cui m = 1, cio si voglia trasformare il vettore
aleatorio in una sola variabile aleatoria. Facciamo
P il caso in cui la v.a. che si vuole
ottenere somma delle n v.a. di partenza: Z = i Xi .
Poich si pu scrivere: Z = 1T X con 1T = [1 1 ... 1], si ha che il valore atteso
vale:
(2.10.37)

Z = E[Z] = E[1T X] = 1T E[X] = 1T X =

Xi

Per la varianza si ha:

2
Z

= E[(1T X
(2.10.38)

= E[(Z

Z )2 ] = E[(Z

1T X )T (1T X

Z )T (Z

1T X )] = E[(X
=

XX
i

c xi xj

Z )] =

X )T 11T (X

X )] =

2.10. SISTEMI DI VARIABILI ALEATORIE

61

Se allora le v.a. componenti il vettore aleatorio X sono a due a due incorrelate (o


addirittura indipendenti), cioe se cxi xj = 0 8i, j = 1, ..., n ed i 6= j allora la varianza
della v.a. somma pari alla somma delle varianze delle singole v.a. Xi .
2.10.5. Variabili aleatorie congiuntamente gaussiane. Particolare interesse assume la composizione di v.a. gaussiane. Si supponga di avere n v.a. gaussiane che
costituiscono un vettore aleatorio X = [X1 , X2 , ..., Xn ]T . Se le v.a. sono tutte indipendenti tra loro la densit di probabilit congiunta pari al prodotto delle densit
di probabilit di tutte le componenti del vettore:

(2.10.39)

fX (x) =

n
Y

fxi (xi )

i=1

Inoltre, poich si supposta la gaussianit delle singole Xi , @(i ,


ta:
(2.10.40)
fX (x) =

n
Y
i=1

1
p

exp(

i )2

(x
2

2
i

1
)= p
Q
n
(2) i

2
i ),

la fX (x) diven-

2
i

1 X (x
exp(
2 i=1

i )2
2
i

2
dove si posto, con notazione abbreviata, i2 = X
e i = Xi . La densit di probai
bilit pu essere riscritta sfruttando il vettore dei valori medi = [1 , 2 , ..., n ]T e la
matrice di covarianza, che peraltro diagonale data lindipendenza delle n variabili:

(2.10.41)

(2.10.42)

6
CX = 6
4

2
1

0
..
.
0

0
2
2

..
.
0

det CX =

2
n

n
Y
i=1

La densit di probabilit congiunta diventa:

3
0
0 7
.. 7
. 5

...
...
..
.

2
i

2.11. CONVERGENZA ED APPROSSIMAZIONE

(2.10.43)

1
1
fX (x) = p
exp( (x
2
(2)n |det CX |

X )T CX 1 (x

62

X ))

La densit di probabilit congiunta, nel caso di n v.a. congiuntamente gaussiane e


non indipendenti pu essere ancora scritta come risportato nella equazione precedente,
purch si tenga in conto in fatto che, in tal caso, la matrice di covarianza non pi
diagonale ma ha i valori tutti genericamente differenti da zero.
Un vettore gaussiano gode delle seguenti propriet:
(1) il suo comportamento statistico univocamente determinato dal vettore dei
valori medi e dalla matrice di covarianza CX ;
(2) se le v.a. gaussiane sono incorrelate a due a due allora la densit di probabilit congiunta si pu esprimere come prodotto delle densit di probabilit
marginali (poich gli elementi fuori diagonale di CX sono nulli). Cio per le
v.a. gaussiane la incorrelazione implica la indipendenza.
(3) Un qualunque sottoinsieme di v.a. gaussiane ancora un insieme di v.a.
congiuntamente gaussiane.
(4) Data una qualunque trasformazione di tipo lineare: Y = aX + b il vettore
aleatorio Y ancora congiuntamente gaussiano, con vettore dei valori medi
pari a Y = aX + b e matrice di covarianza CY = ACX AT
(5) Un qualunque sottogruppo di v.a. preso tra le n del vettore X, condizionato
ad un qualunque altro sottogruppo (purch formato da v.a. distinte da quelle
considerate nel primo sottogruppo) ancora congiuntamente gaussiano.
2.11. Convergenza ed approssimazione
Si gi accennato al fatto che la deviazione standard (radice quadrata della varianza) in grado di dare una misura della dispersione di una v.a. attorno al suo valor
medio. Valori di varianza grandi sono indice del fatto che c una significativa probabilit che valori casuali estratti dalla v.a. siano abbastanza lontani dal valor medio;
viceversa per valori piccoli della varianza.
E evidente, tuttavia, che la varianza non in grado di dire quanto questa dispersione sia significativa, dato che differenti v.a. possono avere anche varianze uguali,
pur essendo disperse attorno al valor medio in modi differenti.
Esiste tuttavia un teorema che in grado di dare una misura quantitativa della
dispersione in termini di probabilit e che utilizza proprio la varianza.
T HEOREM 2.11.1. Disuguaglianza di Chebyshev.
Data una v.a. X, 8 > 0 risulta che:
(2.11.1)

P (|X

E [X]| > )

V ar (X)
2

2.11. CONVERGENZA ED APPROSSIMAZIONE

63

D IMOSTRAZIONE . Si consideri la v.a. Y che vale:


Y =
E allora chiaro che

2 , |X
0 , |X

(|X

E [X]| >
E [X]|

E [X]|)2

sempre, dato che se accade levento |X E [X]| > , si ha Y = 2 < (|X E [X]|)2 .
Se invece accade levento |X E [X]| , la v.a. Y vale 0, ma |X E [X]|
comunque un numero 0.
Se ora si fa laspettazione di ambo i membri della relazione precedente si ha:

V ar (X) = E (|X

che d il risultato cercato.

E [X]|)2

E [Y ] = 2 P (|X

E [X]| > )

La disuguaglianza di Chebyshev rende rigorosa linterpretazione intuitiva di varianza come misura della dispersione: pi V ar(X) piccola pi piccola la probabilit
che X prenda valori lontani dalla media.
Tuttavia la disuguaglianza di Chebyshev spesso una maggiorazione grossolana
della probabilit di P (|X E [X]| > ). Ad esempio si consideri la v.a. che assume i
valori 1, 1 con probabilit rispettivamente di 1/2, 1/2. Per questa v.a. la media 0 e
la varianza vale V ar(X) = 1. Se si sceglie = 2 si ha che P (|X E [X]| > ) = 0
mentre V ar(X)/ 2 = 1/4, ma se addirittura si prende un < 1 si ha una maggiorazione con il valore V ar(X)/ 2 > 1, cosa ovvia dato che una probabilit
sicuramente maggiorata da un numero maggiore di 1.
In molte circostanza tuttavia la disuguaglianza di Chebyshev si dimostra preziosa.
E infatti fondamentale per dimostrare e giustificare la cosiddetta Legge dei grandi
numeri.
Partiamo prima con un esempio. Si supponga di lanciare n volte una moneta e sia
k il numero di lanci in cui si ottiene testa. La quantit k/n quindi la proporzione
di teste ottenute in n lanci. Se la moneta equilibrata lintuizione suggerisce che tale
proporzione non debba discostarsi troppo dal valore 1/2. Tuttavia sar difficile che la
quantit k/n dia esattamente 1/2, come anche poco probabile (ma non impossibile)
che il numero di teste sia molto piccolo (o addirittura nullo) o molto grande. Tuttavia
empiricamente si pu verificare che al crescere del numero di lanci, il fenomeno di
discostamento dal valore 1/2 dovrebbe sparire: cio il numero di teste e croci tende
a compensarsi sempre pi man mano che cresce il valore di n. Formalizziamo allora
quanto lintuizione ci suggerisce. Il lancio di una moneta rappresentabile da una v.a.
di Bernoulli con n = 1 e p = 1/2; a tale v.a. facciamo assumere valore 1 quando si
presenta una testa: Xi = 1, altrimenti 0. Il numero totale di teste ottenute negli n lanci

2.11. CONVERGENZA ED APPROSSIMAZIONE

64

pu essere dunque rappresentato dalla quantit


Sn = X1 + X2 + ... + Xn
e la proporzione di teste negli n lanci dalla quantit
1
X n = (X1 + X2 + ... + Xn )
n
Quanto osservato prima pu essere quindi schematizzato dallosservazione che,
allaumentare di n la quantit X n tende a discostarsi sempre meno da 1/2. Quanto trovato corrisponde al vero, anzi tale risultato formalizzato e generalizzato dalla
cosiddetta Legge dei Grandi Numeri:
T HEOREM 2.11.2. Sia (Xn )n una successione di v.a. indipendenti ed aventi tutte
la stessa legge, la stessa media e varianza 2 . Posto allora
1
X n = (X1 + X2 + ... + Xn )
n
si ha che, 8 > 0
lim P X n
=0
n!1

D IMOSTRAZIONE . La v.a. X n ha anchessa media :


1
1
E X n = E [X1 + X2 + ... + Xn ] = ( + + ... + ) =
n
n
e varianza pari a:
1
V ar X n = 2 V ar (X1 + X2 + ... + Xn ) =
n
2
1
1
= 2 (V ar(X1 ) + V ar(X2 ) + ... + V ar(Xn )) = 2 n V ar(X1 ) =
n
n
n
Ora, applicando la disuguaglianza di Chebyshev si ha la dimostrazione:
0P

Xn

>

2
V ar X n
=
2
n 2

!n!1 0

Riprendiamo lesempio introduttivo sul lancio della moneta. Supponiamo di non


sapere a priori se la moneta sia equilibrata o no (p = 1/2). la legge dei grandi numeri
fornisce uno strumento per stimare tale probabilit. Lanciamo la moneta n volte e
stimiamo p tramite la quantit:
# teste in n lanci
n

Se infatti poniamo
Xi =

1 lancio i-simo d testa


0 altrimenti

2.11. CONVERGENZA ED APPROSSIMAZIONE

65

allora X n = n1 (X1 + X2 + ... + Xn ) e, per la Legge dei Grandi Numeri X n ! p =


E[Xi ] per n ! 1. Tuttavia, nella pratica, noi possiamo fare soltanto un numero finito
di lanci e quindi occorre valutare lerrore che si commette stimando p con il valore di
X n che verr fuori da tale esperimento composto. Si pu procedere allora in questo
modo. Si fissi un numero > 0 e si stimi la probabilit di commettere un errore nel
valutare p maggiore di . Si tratta di valutare quindi la quantit:
P

Xn

p >

Naturalmente, siccome tale valutazione richiederebbe il calcolo della funzione di distribuzione (cumulativa) di una binomiale con n molto grande (quantit per la quale il
calcolo spesso lungo e non vi sono formule chiuse), meglio limitarci a maggiorare
quella probabilt con la disuguaglianza di Chebyshev:
V ar(X n )
p(1 p) 1
=
2
2

Questa disuguaglianza dipende ancora dalla incognita p (che la quantit che


vogliamo stimare), ma un semplice studio di funzione permette di stabilire che p(1
p) 1/4, con 0 p 1. Allora si ha:
P

Xn

p >

Xn

p >

1
4n 2

Per n = 100 la probabilit che p disti da X n pi di 0.1 una quantit minore


di 0.25. Tale valutazione, come si pu vedere, spesso grossolana, soprattutto per
esperimenti semplici e per un numero n di prove piccolo. Esiste tuttavia un Teorema che permette di migliorare tale stima, ed il Teorema del Limite Centrale,
dovuto al matematico russo Lyapunov. Questo teorema vale sotto condizioni non particolarmente restrittive, sebbene la sua dimostrazione risulti difficoltosa nel caso pi
generale.
Si considerino n v.a. Xi indipendenti tra loro e tutte dotate della stessa densit di
2
probabilit fXi (x) = fX (x) e quindi con stesso valor medio
P e stessa varianza .
Sappiamo che, se si considera la somma delle v.a. Sn = i Xi questa avr media pari
alla somma dei valori medi e varianza pari alla somma delle varianze: n = n e
2
2
. Ovviamente, al crescere di n, sia il valor medio, sia la varianza tendono a
n = n
divergere. Si pu considerare in tal caso una v.a. normalizzata (nello stesso modo con
cui si fa per la gaussiana):

(2.11.2)

Zn =

Sn

n
n

Sn n
p
n

che, per qualunque valore di n, ha sempre valor medio nullo e varianza pari ad 1.

2.11. CONVERGENZA ED APPROSSIMAZIONE

66

T HEOREM 2.11.3. Date n v.a. indipendenti e con la stessa densit di probabilit,


al limite per n che tende ad infinito la variabile aleatoria somma normalizzata, Zn ,
tende ad una gaussiana standard, cio a media 0 e varianza 1:

1
x2
p
lim fZn (x) = fN (x) =
exp(
)
n!1
2
2

(2.11.3)

A prescindere dalla particolare distribuzione che possiedono le v.a. Xi la loro


somma tende comunque a diventare gaussiana. Questo risultato particolarmente utile
per modellare numerosi fenomeni fisici quali il rumore termico.
Riprendiamo ora lesempio del lancio ripetuto di una moneta. Si vuole stimare
meglio la quantit
P Xn p >
avendo posto = 0.1 ed n = 100. Siccome la somma di n = 100 v.a. di Bernoulli
si pu ritenere con ottima approssimazione una gaussiana, allora si ha:
p

p
n
n
P
Xn p
=

p
Sn np
n
p
=P

=
n

p
p
p
p
n
n
n
n
= (
)
(
) = 2 (
) 1
' P |ZN |

avendo indicato con ZN una v.a. gaussiana a media 0 e varianza 1. Per = 0.1,
n = 100 e 2 1/4 si ha:

p
n
P |ZN |
' 2 (2) 1
la quantit che volevamo stimare si determina facilmente dal risultato precedente:
P

Xn

p > '1

(2 (2)

1) = 0.0455

stima migliore della quantit 0.25 trovata precedentemente.

CAPITOLO 3

I Processi Stocastici
3.1. Definizione di Processi Stocastici
Una distinzione importante tra i segnali quella che si fa tra segnali predicibili,
di cui si pu conoscere a priori levoluzione nel tempo (come ad esempio unonda
quadra) e segnali non predicibili, di cui si possono al pi supporre alcune caratteristiche principali (ad esempio le escursioni massime, la velocit di variazione e cos
via).
Si supponga di registrare levoluzione della pressione atmosferica in un certo luogo della Terra durante lanno. Questa grandezza fisica non predicibile a priori, e
lunico modo per conoscerla quello di osservarla a posteriori. Dopo lacquisizione
si potranno fare alcune osservazioni, come ad esempio il fatto che essa difficilmente
supera i 1030 mB e altrettanto difficilmente va al di sotto di 950 mB. Una cosa importante a proposito di questo segnale che non solo non si pu prevedere, ma che esso
cambia a seconda del periodo in cui stato registrato (cio la sua osservazione nel
mese di marzo sicuramente diversa da quella nel mese di agosto) ed inoltre cambia
a seconda del luogo della Terra in cui viene registrato, anche se la registrazione fatta
nello stesso periodo (vedi in figura 3.1.1 tre differenti misurazioni).
250
200
150
100
50
0
50

10

20

30

40

50

60

70

80

90

100

F IGURA 3.1.1. Rappresentazione delle pressioni atmosferiche in vari


luoghi della Terra.
La variabilit del processo quindi di due tipi: una variabilit tra i vari segnali ed
una variabilit dellevoluzione temporale del singolo segnale. Il modellamento di un
segnale aleatorio viene fatto attraverso la teoria dei processi stocastici.
67

3.1. DEFINIZIONE DI PROCESSI STOCASTICI

68

Come nella teoria delle probabilit, dovremmo, per un segnale aleatorio, individuare lo spazio delle probabilit, cio linsieme di tutti i possibili segnali che costituiscono il processo (ammesso che questo si possa fare): = {!i }. Quindi riferendosi
al processo si pu pensare una corrispondenza che associ ad ogni campione !i di
un dato segnale. Questa corrispondenza costituisce il processo aleatorio. Una data
misurazione della pressione atmosferica in un punto della Terra costituisce un risultato
dello spazio campione e viene chiamato realizzazione del processo xi (t) = X(t, !i ).
Il processo stocastico comunemente indicato con X(t), omettendo la relazione
di dipendenza dallo spazio campione con cui associato .
Una volta fissato quale tra i vari segnali del processo va estratto, si ha una funzione
del tempo che rappresenta la realizzazione. Una realizzazione del processo stocastico
non pi aleatoria, a posteriori, nel senso che dopo losservazione essa una funzione
deterministica del tempo. Viceversa, si pu fissare un arbitrario istante di tempo ed
osservare il valore che tutte le realizzazioni del processo assumono a quellistante:
X(to ) (vedi in figura 3.1.2)
400
350
300
250
200
150
100
50
0
50

10

20

30

40

50

60

70

80

90

100

to

F IGURA 3.1.2. Estrazione di una variabile aleatoria dal processo stocastico.


I valori che sono assunti sulle varie realizzazioni del processo non sono predicibili
a priori e quindi rappresentano i risultati di una variabile aleatoria.
3.1.1. Processi parametrici. Un primo esempio di processi stocastici dato dai
processi parametrici, cio processi in cui per le funzioni del tempo esiste una forma
chiusa che permetta di rappresentarle, sebbene uno o pi parametri di queste funzioni
siano variabili aleatorie.
Si supponga di considerare il seguente processo:

(3.1.1)

X(t; !) = e

A(!)t

u(t)

3.1. DEFINIZIONE DI PROCESSI STOCASTICI

69

dove A(!) rappresenta una variabile aleatoria con distribuzione uniforme nellintervallo [0, 1/T ]. Se omettiamo la dipendenza dal risultato !, si pu scrivere: X(t) =
e At u(t). In questo processo parametrico quindi definita una classe di funzioni il cui
andamento dipende dal valore estratto di una v.a.
Un altro esempio notevole (che avremo modo di riprendere pi avanti) quello
delloscillazione sinusoidale prodotta da un oscillatore reale. In un oscillatore reale,
mentre si possono controllare abbastanza bene lampiezza e la frequenza delloscillazione, molte volte difficile determinare la fase iniziale. Ne consegue che accendendo in tempi differenti loscillatore la funzione sinusoidale che viene generata pu
essere modellata come un processo stocastico parametrico:

(3.1.2)

X(t) = A sin(2fo t + )

dove una variabile aleatoria uniforme nellintervallo [0, 2[.


3.1.2. Caratterizzazione di un processo stocastico. Al contrario di quanto si pu
fare per un segnale deterministico, per un processo stocastico non possibile una sua
caratterizzazione in termini di andamento temporale. Si devono quindi introdurre gli
strumenti della teoria delle probabilit per poter caratterizzare il processo in modo
statistico.
Si cominci ad osservare che, se si considera un istante di tempo ben determinato
to , il valore che tutte le realizzazioni assumono in quellistante rappresenta una v.a.
Quindi possibile, per quella v.a. definire una funzione di distribuzione di probabilit
(dipendente da to ):

(3.1.3)

F (x; to ) = P (X(to ) x)

La funzione di distribuzione cambier al variare di to , dato che al variare dellistante


di osservazione la v.a. differente. Questo modellamento non tuttavia sufficiente a
caratterizzare il processo. Se cos fosse dovremmo essere in grado di prevedere landamento della singola realizzazione a partire da tutte le funzioni di distribuzione di
probabilit estratte ad ogni istante, e cos non . Si pensi ad esempio alla possibilit che abbiamo di prevedere landamento di un titolo in borsa nel tempo. Si vuole
cio cercare di determinare quando il valore del titolo supera il valore attuale. Per
fare questo la caratterizzazione del primo ordine che abbiamo dato non sufficiente.
E necessaria una caratterizzazione che permetta di correlare, congiuntamente, le due
variabili aleatorie nei due istanti differenti to e t1 nei quali conduciamo losservazione.

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

70

E necessaria quindi una caratterizzazione del secondo ordine. Questa relazione descritta dalla funzione di distribuzione di probabilit congiunta per una coppia di v.a.:

(3.1.4)

F (x1 , x2 ; t1 , t2 ) = P (X(t1 ) x1 ; X(t2 ) t2 )

La conoscenza completa della statistica del secondo ordine richiede che queste funzioni di distribuzione siano note per ogni coppia possibile di istanti di tempo.
Iterando questo ragionamento, si capisce che la caratterizzazione di un processo
stocastico si pu considerare completa solo quando, fissati n istanti di tempo (con n
arbitrariamente grande), si in grado di determinare la funzione di distribuzione congiunta di ordine n per le n variabili aleatorie che si hanno estraendo i valori dalle
realizzazioni agli istanti t1 , t2 , ..., tn :
(3.1.5)
F (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) = P (X(t1 ) x1 , X(t2 ) x2 , ..., X(tn ) xn )
Da questa si pu ricavare la funzione densit di probabilit di ordine n:

(3.1.6)

f (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) =

@ n F (x1 , x2 , ..., xn ; t1 , t2 , ..., tn )


@x1 @x2 ...@xn

La conoscenza della classe di funzioni f (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) per qualunque valore n e qualunque n pla di istanti di tempo caratterizza completamente il processo
aleatorio.
Si capisce bene che la conoscenza completa di un processo aleatorio impresa
quali sempre impossibile. Nella maggior parte dei casi si cerca di determinare la distribuzione (e densit) del primo o al pi secondo ordine. Altre volte ci si accontenta di
determinare alcuni parametri statistici.
3.2. Parametri Statistici del 1o e 2o Ordine
3.2.1. Valor medio, potenza e varianza. Alcuni parametri statistici permettono
di determinare le caratteristiche principali di un processo statistico, pur senza la conoscenza completa di esso.
Tra questi parametri particolarmente significativa la funzione valor medio: X (t).
Per definizione questa funzione il valor medio della v.a. che si ottiene estraendo i

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

71

valori delle realizzazioni allistante assegnato:

(3.2.1)

(t) = E[X(t)] =

+1

xfX (x, t)dx


1

al variare di t si generano una serie di valori medi che costituiscono la funzione. La


funzione valor medio rappresenta una statistica del primo ordine, dato che per il suo
calcolo sufficiente la conoscenza della statistica di primo ordine del processo. La
funzione valor medio rappresenta una specie di compendio di tutte le realizzazioni del
processo stocastico, ma non rappresenta necessariamente essa stessa una realizzazione
del processo.
E XAMPLE 3.2.1. Si supponga di considerare il processo aleatorio parametrico
X(t) = a cos(2fo t + ), dove una v.a. con densit di probabilit uniforme
nellintervallo [0, [. La funzione valor medio si pu determinare osservando che, per
ogni istante t fissato, il processo X(t) si pu pensare come la trasformazione della v.a.
in unaltra v.a. X = X(). Il suo valor medio quindi si pu determinare con il
teorema del valor medio: (t) = E[X(t)] = E[a cos(2fo t + )]:
(3.2.2) Z
(t) =

+1
1

a
a cos(2fo t + )f ()d =

cos(2fo t + )d =

2a
sin(2fo t)

Analogamente si potrebbe ricavare la funzione valor medio nel caso visto nella eq.
3.1.2, in cui cio: X(t) = a sin(2fo t + ), con = U (0, 2).
Unaltra grandezza statistica del primo ordine utile per caratterizzare il processo,
la potenza media statistica istantanea (brevemente detta potenza media):

(3.2.3)

Px (t) = E[X (t)] =

+1
1

x2 fX (x, t)dx

analoga alla potenza istantanea per i segnali deterministici.


Si pu inoltre definire la funzione varianza del processo:

(3.2.4)

2
x (t)

= E[(X(t)

(t)) ] =

+1

(x
1

(t))2 fX (x, t)dx

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

72

Si ricava, abbastanza facilmente:

(3.2.5)

2
x (t)

2 (t)

= Px (t)

la relazione che esprime la dipendenza tra varianza, funzione valor medio e potenza
istantanea.
3.2.2. Autocorrelazione e autocovarianza. Due parametri statistici del secondo
ordine, fondamentali per lo studio dei processi stocastici, sono la funzione di autocorrelazione e la funzione di autocovarianza. Il loro significato rimandato pi avanti,
quando si introdurranno i processi stazionari.
Si supponga di considerare due istanti di tempo arbitrari, t1 e t2 . Dato il processo
stocastico, possibile estrarre le due v.a. Y = X(t1 ) e Z = X(t2 ). Ha senso allora effettuare il calcolo della correlazione tra Y e Z. Generalmente questa correlazione sar
funzione dei due istanti di tempo, e quindi si pu ritenere una funzione di due variabili:
(3.2.6)
Rx (t1 , t2 ) = E[X(t1 )X(t2 )] =

+1

x1 = 1

+1

x1 x2 fx (x1 , x2 ; t1 , t2 )dx1 dx2

x2 = 1

La funzione che cos si ottiene detta funzione di autocorrelazione, poich le due


variabili aleatorie sono state ottenute estraendole dallo stesso processo.
In modo del tutto analogo possibile determinare la funzione di autocovarianza:

Cx (t1 , t2 ) = E[(X(t1 )
(3.2.7)

+1

x1 = 1

(t1 )) (X(t2 )

(t2 ))] =

+1

x2 = 1

(x1

(t1 )) (x2

(t2 )) fx (x1 , x2 ; t1 , t2 )dx1 dx2

Dalla definizione facile ricavare che: Cx (t1 , t2 ) = Rx (t1 , t2 )

(t1 )(t2 ).

E XAMPLE 3.2.2. Si calcoli la funzione di autocorrelazione del processo X(t) =


a cos(2fo t + ), con = U [0, [. Estraendo il processo negli istanti t1 e t2 si
ottengono le v.a.: X(t1 ) = a cos(2fo t1 + ) e X(t2 ) = a cos(2fo t2 + ), che si

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

73

possono ritenere entrambe trasformazioni della stessa v.a.. Quindi, mediante il teorema del valor medio si ottiene:

Rx (t1 , t2 ) = E[X(t1 )X(t2 )] = E[a cos(2fo t1 + ) a cos(2fo t2 + )] =


(3.2.8)

=a

1
a2
cos(2fo t1 + ) cos(2fo t2 + )d =
cos(2fo (t1

t2 ))

In questo esempio la funzione di autocorrelazione sinusoidale, come i segnali che


costituiscono le singole realizzazioni del processo, inoltre dipende dalle due variabili attraverso la loro differenza. La funzione di autocorrelazione quindi, in realt,
funzione di una sola variabile.
Si supponga ora di avere lo stesso processo precedente: X(t) = a cos(2fo t + ),
ma con = U [0, 2[. Si voglia calcolare la funzione valor medio, la funzione di
autocorrelazione e la funzione di autocovarianza.
Si osservi che, se per la funzione valor medio si ha:

(3.2.9)

(t) = E[X(t)] =

1
a cos(2fo t + )d = 0
2

allora: Cx (t1 , t2 ) = Rx (t1 , t2 ). Entrambe valgono:


Rx (t1 , t2 ) = E[X(t1 )X(t2 )] =
(3.2.10) =

1
a2
acos(2fo t1 +)acos(2fo t2 +)d =
cos(2fo (t1 t2 ))
2
2

pari al risultato ottenuto precedentemente (vedi 3.2.8).


Vediamo infine il caso in cui nel processo X(t) = A cos(2fo t) a variare sia
lampiezza delloscillazione sinusoidale. Tale ampiezza vari come una v.a. uniforme
nellintervallo [0, 1]. La funzione valor medio si ottiene fissando un dato istante di
tempo t:

(3.2.11) (t) = E[X(t)] = E[A cos(2fo t)] = E[A] cos(2fo t) =

1
cos(2fo t)
2

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

74

La funzione di autocorrelazione vale:

Rx (t1 , t2 ) = E[A cos(2fo t1 ) A cos(2fo t2 )] = cos(2fo t1 ) cos(2fo t2 ) E[A2 ] =


(3.2.12)

1
cos(2fo t1 ) cos(2fo t2 )
3

e in questo caso non si pu esprimere come funzione di una sola variabile. La funzione
di autocovarianza vale infine:

Cx (t1 , t2 ) =

(3.2.13)

1
cos(2fo t1 ) cos(2fo t2 )
3
=

1
1
cos(2fo t1 ) cos(2fo t2 ) =
2
2

1
cos(2fo t1 ) cos(2fo t2 )
12

Un altro esempio notevole il seguente:


E XAMPLE 3.2.3. Processo di Bernoulli e processi derivati.
Si consideri il seguente processo tempo discreto: In = {0, 1} che pu assumere
valori solo in istanti discreti indicati con indici interi n 2 N. I valori assunti dalle
singole realizzazioni possono essere soltanto 0 o 1. In particolare il valore 0 assunto
con probabilit p, il valore 1 con probabilit 1 p:

(3.2.14)

In =

0
1

p
1

Le singole realizzazioni, come pure le estrazioni in una singola realizzazione sono


indipendenti tra loro (vedi figura 3.2.1).
La funzione valor medio vale:
(3.2.15)

mI (n) = p 0 + (1

p) 1 = 1

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

75

1 1 0 1 0 1 1 .....
i

i+1

i+2 i+3 ............

0 1 1 1 0 0 1 .....
i

i+1 i+2

i+3 ...............

F IGURA 3.2.1. Rappresentazione grafica del processo di Bernoulli.


ed indipendente dal tempo (cio lindice n). La varianza vale:
(3.2.16)

2
I

= E[In2 ]

E 2 [In ] = p 02 + (1

p) 12

(1

p)2 = p(1

p)

Infine la funzione di autocorrelazione vale:


(3.2.17)

RI (n, m) = E[In Im ] = E[In ]E[Im ]

essendo le estrazioni indipendenti. Quindi si ha: RI (n, m) = (1


Un processo derivato da quello di Bernoulli il seguente:

(3.2.18)

Dn = 2In

1=

p)2 .

1
p
1 1 p

Il suo valor medio vale:


(3.2.19)

mD (n) = E[2In

1] = 2(1

p)

1=1

2p

la sua varianza vale


(3.2.20)

2
D

= E[Dn2 ]

E 2 [Dn ] = E 4In2

Infine la funzione di autocorrelazione vale:

4In + 1

(1

2p)2 = 4p(1

p)

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

RD (n, m) = E[Dn Dm ] = E[4In Im


(3.2.21)

= 4(1

p)2

4(1

2In

p) + 1 = (1

76

2Im + 1] =
2p)2

che lo stesso risultato che avremmo ottenuto semplicemente osservando che: E[Dn Dm ] =
E[Dn ]E[Dm ].
Lultima applicazione del processo di Bernoulli la passeggiata a caso unidimensionale, cio il processo:
(3.2.22)

Sn = D1 + D2 + ... + Dn

Il suo valor medio vale:


(3.2.23) E[Sn ] = E[D1 +D2 +...+Dn ] = E[D1 ]+E[D2 ]+...+E[Dn ] = n(1 2p)
e questa volta una quantit dipendente da n. Inoltre, essendo i processi indipendenti
tra loro la varianza somma delle varianze
(3.2.24)

2
Sn

n
X

2
D

= 4np(1

p)

k=1

La sua funzione di autocorrelazione vale:


(3.2.25)
RS (n.m) = E[Sn Sm ] = E

"

n
X
k=1

Dk

m
X
l=1

Dl =

n X
m
X
k=1 l=1

E [Dk Dl ] = nm(1 2p)2

Il range di valori che pu assumere questo processo variabile con n. Per un certo
n fissato, Sn pu assumere tutti i valori compresi tra [ n, n]. La probabilit che tra i
D1 , D2 , ..., Dn vi siano k valori pari ad 1 ed n k valori pari a 1 (quindi la probabilit
che Sn valga: k (n k) = 2k n) :

(3.2.26)

P (Sn = 2k

n) = (

n
)(1
k

p)k pn

Una variazione sul tema dei processi stocastici di Bernoulli il segnale telegrafico
casuale. Il processo consiste di realizzazioni che possono assumere solo valori discreti

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

pari a

77

1 od a 1. Le funzioni sono continue nel tempo:

(3.2.27)

X(t) =

1
1

Per ipotesi si suppone inoltre che


(3.2.28)

P (X(0) = 1) = P (X(0) =

1) = 1/2

Le realizzazioni del processo assumono valori differenti cambiando di stato nello


stesso modo con cui arrivano gli eventi negli esperimenti aleatori alla Poisson. Una
possibile realizzazione riportata in figura (3.2.2).

F IGURA 3.2.2. Realizzazione di un processo telegrafico casuale


Sia lintensit della legge di Poisson che governa il processo. Ogni singola realizzazione, x(t), permane ad un dato valore sino a che non c un arrivo che gli fa
cambiare stato. Il numero di arrivi nellunit di tempo regolato da una v.a. discreta
di Poisson con intensit . Calcoliamo la probabilit che ad un dato istante t la singola
realizzazione abbia uno dei due valori:

P (X(t) = 1) = P (X(t) = 1/X(0) = 1) P (X(0) = 1)


(3.2.29)

+P (X(t) = 1/X(0) =

1) P (X(0) =

1)

la prima delle due somme a secondo membro ha il termine P (X(t) = 1/X(0) = 1)


che si pu verficare solo se il numero di cambiamenti (eventi di Poisson) verificatosi
pari, per il secondo termine il numero di cambiamenti da verificarsi dispari:

3.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE

(3.2.30) P(Ncamb = pari) =

1
X
(t)2j
j=0

(3.2.31)
P (Ncamb

(2j)!

1
X
(t)2j+1
= dispari) =
e
(2j + 1)!
j=0

=e

=e

1
(et + e
2

1
(et
2

78

1
) = (1 + e
2

1
) = (1
2

2t

2t

Da cui si ha in conclusione:

(3.2.32)

1 1
P (X(t) = 1) = [ (1 + e
2 2

2t

1
) + (1
2

2t

)] =

1
2

ed analogamente: P (X(t) = 1) = 12 .
Calcoliamo la funzione valor medio e la funzione varianza del processo:

(3.2.33)

mX (t) = E[X(t)] =

(3.2.34)

2
X (t)

1
1
( 1) + (+1) = 0
2
2

= Px (t) = E[X(t)2 ] =

1
1
( 1)2 + (+1)2 = 1
2
2

Calcoliamo infine la funzione di autocorrelazione e la funzione di autocovarianza:


Rx (t1 , t2 ) = Cx (t1 , t2 ).

(3.2.35)

Rx (t1 , t2 ) = E[X(t1 )X(t2 )]

tuttavia il prodotto di X(t1 )X(t2 ) pu essere solo o 1 oppure +1. In particolare


pari a 1 quando il numero di cambiamenti (eventi di Poisson) avvenuti tra t1 e t2
dispari, altrimenti il prodotto X(t1 )X(t2 ) pari a +1. Quindi:

P (X(t1 )X(t2 ) = 1) = P (Ncamb = pari) = P (N (t2

t1 ) = pari) =

3.3. PROCESSI STAZIONARI

1
= (1 + e
2

(3.2.36)

2(t2 t1 )

79

Analogamente per un numero dispari di arrivi:

P (X(t1 )X(t2 ) =

1) = P (Ncamb = dispari) = P (N (t2


1
= (1
2

(3.2.37)

2(t2 t1 )

t1 ) = dispari) =

Si ha in conclusione:

1
E[X(t1 )X(t2 )] = (+1) (1 + e
2
(3.2.38)

2(t2 t1 )

=e

1
) + ( 1) (1
2

2(t2 t1 )

)=

2|t2 t1 |

ed, ancora una volta, abbiamo trovato un processo la cui funzione di autocorrelazione
(e di autocovarianza) dipende solo dalla differenza dei due istanti generici, e non
separatamente dai due.
3.3. Processi Stazionari
Una notevole propriet dei processi stocastici la stazionariet. Si visto che
i parametri statistici del primo e secondo ordine dipendono dalla scelta degli istanti
di tempo. Anche la funzione densit di probabilit congiunta di ordine n dipende
generalmente dalla scelta degli istanti di tempo in corrispondenza dei quali si valuta il
processo.
Si supponga ora di considerare n istanti di tempo t1 , t2 , ..., tn , in corrispondenza
dei quali si ottiene la funzione di densit di probabilit congiunta:
fx (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ).
Se si spostano rigidamente tutti gli istanti di tempo di una stessa quantit t, generalmente otterremo una differente funzione di densit di probabilit congiunta:

(3.3.1)

fx (x1 , x2 , ..., xn ; t1 +

t, t2 +

t, ..., tn +

t)

3.3. PROCESSI STAZIONARI

80

.
P ROPOSITION 3.3.1. Un processo si dice stazionario in senso stretto, se risulta
che, per ogni scelta di n, t1 , t2 , ..., tn e di t:

(3.3.2) fx (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) = fx (x1 , x2 , ..., xn ; t1 + t, t2 + t, ..., tn + t)

La stazionariet forte (in senso stretto) richiede luguaglianza della funzione di


densit di probabilit congiunta per qualunque ordine, scelta degli istanti di tempo e
di traslazione. Cio richiede che rispetto a tutte queste variabili la funzione fx sia
invariante. I processi X(t) e X(t + t) devono quindi avere le stesse statistiche.
Questo non significa che le due variabili aleatorie che estrarremo nei due istanti di
tempo sono identiche (poich questo non pu mai accadere per il significato stesso di
grandezza statistica) ma significa che le due quantit non possono essere distinte tra
loro con misure statistiche.
Conseguenza di questa definizione che: fx (x; t) = fx (x; t + t) cio la funzione
densit di probabilit del primo ordine non funzione del tempo e anche i parametri
statistici del primo ordine (funzione valor medio, funzione potenza e funzione varianza) non dipendono dalla variabile tempo (stazionariet del primo ordine).
Inoltre per quel che riguarda la stazionariet del secondo ordine, si ha:

(3.3.3)

fx (x1 , x2 ; t1 , t2 ) = fx (x1 , x2 ; t1 +

t, t2 +

t)

e questo pu accadere solo se la funzione di densit di probabilit dipende dalla


differenza tra gli istanti di tempo, e non separatamente dai due: fx (x1 , x2 ; t1 , t2 ) =
fx (x1 , x2 ; t1 t2 ). Allora tutte le statistiche del secondo ordine (funzione di autocorrelazione e funzione di autocovarianza) dipenderanno dalla differenza degli istanti di
tempo e non separatamente dai due. Questo il caso del processo visto in (3.1.2) o del
segnale telegrafico casuale.
Salendo di ordine (sebbene statistiche di ordine superiore non siano state introdotte)
si ottiene che la funzione densit di probabilit congiunta di ordine n e tutte le statistiche di ordine correlato non dipenderanno dagli istanti di tempo separatamente, ma
dalle n 1 differenze t1 t2 , t2 t3 , ..., tn 1 tn , dato che solo queste differenze
restano invariate rispetto ad una traslazione rigida dei tempi.
C OROLLARY 3.3.2. Una stazionariet di ordine n implica la stazionariet di tutti
gli ordini pi bassi (il contrario generalmente non vero).

3.3. PROCESSI STAZIONARI

81

3.3.1. Stazionariet in senso lato. La verifica della stazionariet in senso stretto, anche per ordini bassi, in genere un compito arduo (salvo casi particolari). Di
solito allora ci si accontenta di una definizione di stazionariet meno restrittiva: la
stazionariet in senso lato (o debole).
P ROPOSITION 3.3.3. Un processo aleatorio stazionario in senso lato se la sua
funzione valor medio costante x (t) = x e la sua funzione di autocorrelazione
dipende solo dalla differenza degli istanti di tempo Rx (t1 , t2 ) = Rx (t1 t2 ).
La definizione di stazionariet in senso lato coinvolge solo due statistiche e quindi
non richiede alcuna paricolare propriet alla funzione densit di probabilit congiunta.
C OROLLARY 3.3.4. Un processo stazionario in senso stretto stazionario anche
in senso lato. Non vero il viceversa
Se il processo stazionario in senso lato la funzione di autocovarianza vale:

(3.3.4)

Cx (t1 , t2 ) = Rx (t1

t2 )

2x = Cx (t1

t2 )

cio anche la funzione di autocovarianza dipende dalla differenza degli istanti di


tempo. Anche nel caso di stazionariet in senso lato rimane comunque difficile verificare la propriet. Infatti la verifica di una propriet statistica come la stazionariet
richiede che si riescano a manipolare (per effettuare misure statistiche) tutte le possibili realizzazioni del primo e secondo ordine del processo, o che si conosca in qualche
modo una forma chiusa della funzione di densit di probabilit del processo stesso al
variare di t (cosa normalmente non vera).
La funzione di autocorrelazione, nellipotesi di stazionariet in senso lato pu essere riscritta mettendo in evidenza proprio la dipendenza dalla differenza degli istanti
di tempo:

(3.3.5)

Rx (t1 , t2 ) = Rx (t, t

) = E[X(t)X(t

)]

E XAMPLE 3.3.5. Riprediamo lesempio visto pi volte: X(t) = acos(2fo t+),


con = U [0, [. Si ottenuto che (t) = 2a
sin(2fo t), quindi il processo non si

pu considerare stazionario in senso lato, dato che la funzione valor medio dipende dal
tempo.
Il processo X(t) = a cos(2fo t + ), con = U [0, 2[, ha invece: (t) = 0
2
e Rx (t1 , t2 ) = a2 cos(2fo (t1 t2 )), e quindi si pu ritenere un processo stazionario

3.3. PROCESSI STAZIONARI

82

in senso lato, dato che la funzione valor medio costante e la funzione di autocorrelazione dipende solo dalla differenza dei tempi.
Un caso particolare del processo telegrafico casuale il seguente
E XAMPLE 3.3.6. Segnale dati.
Si supponga di avere un processo stocastico le cui realizzazioni sono funzioni del
tempo V (t) che possono assumere solo due valori discreti: +1 e 1 con probabilit
1/2. Si supponga inoltre che la funzione cambi di stato solo ad istanti prefissati, che
verranno indicati con degli indici interi: V (nT ) = Vn . I valori inoltre sono assunti in
modo indipendente luno dallaltro. Quindi la funzione assume valore costante per tutti
gli istanti di tempo t compresi tra due transizioni: V (t) = Vn per nT t < (n + 1)T .
La forma generica della funzione quindi la seguente:
(3.3.6)

V (t) =

+1
X

Vn rect(

n= 1

nT T /2
)
T

Il precedente processo modella molto bene un segnale dati binario con velocit di clock
pari a 1/T . Esso utile a schematizzare tutte le situazioni in cui si ha il trasferimento di
bit tra due sistemi (ad esempio un computer ed una sua periferica). Poich infatti non
nota a priori linformazione che si sta trasmettendo, il processo si pu considerare a
tutti gli effetti aleatorio.
Determiniamo ora i parametri statistici rilevanti e verifichiamo leventuale stazionariet. Ad un certo istante fissato t, losservazione di tutte le realizzazioni porta a dire
che i valori che queste possono assumere sono soltanto +1 o 1. Inoltre, poich si
supposto che tali valori sono assunti con probabilit pari ad 1/2, la funzione di densit
di probabilit del primo ordine non pu che valere:

(3.3.7)

fv (v; t) =

1
1
(v + 1) + (v
2
2

1)

Questa funzione non dipende dalla variabile tempo. Quindi il processo stazionario
in senso stretto per il primo ordine. Ci aspettiamo allora che la funzione valor medio
sia costante:

(3.3.8)

v (t) =

+1

vfv (v; t)dv =


1

+1
1

v[

1
1
(v + 1) + (v
2
2

1)]dv = 0

3.3. PROCESSI STAZIONARI

83

Il calcolo della funzione di autocorrelazione un po pi complesso. Tuttavia


si pu facilmente dimostrare che il processo non stazionario n in senso stretto,
n in senso lato per quel che riguarda il secondo ordine, dato che la funzione di
autocorrelazione non pu dipendere dalla sola differenza dei tempi.
Si consideri infatti, nella figura 3.3.1, i due istanti di tempo t1 e t2 . Nel grafico
in alto i due istanti di tempo capitano allinterno dellintervallo [nT, (n + 1)T ], quindi la realizzazione assume valore uguale: V (t1 ) = V (t2 ) = Vn . Si ha allora che
Rv (t1 , t2 ) = E[V (t1 )V (t2 )] = E[Vn2 ] = 1. Se ora spostiamo rigidamente i due istanti
di tempo sino a farli capitare a cavallo di due intervalli, come indicato nella figura in
basso, si avr che V (t1 ) 6= V (t2 ) e quindi
(3.3.9)

Rv (t1 , t2 ) = E[V (t1 )V (t2 )] = E[V (t1 )]E[V (t2 )] = E[Vn ]E[Vn+1 ] = 0

Se il processo fosse stazionario in senso lato la funzione di autocorrelazione dovrebbe


dipendere solo dalla differenza dei due istanti di tempo e quindi la Rv (t1 , t2 ) nei due
casi avrebbe dovuto mantenere lo stesso valore.

t1

t2

t1

t2

F IGURA 3.3.1. Realizzazione di un processo dati binario


Si pu concludere quindi che il processo in esame non stazionario in senso lato,
pur essendo stazionario in senso stretto per il primo ordine.
Un caso molto frequente quello in cui si conosce la forma di un segnale (cio il
suo andamento) ma non si riesce a piazzare il segnale rispetto ad un preciso riferimento

3.3. PROCESSI STAZIONARI

84

temporale. In tal caso il segnale pu essere modellato come un processo stocastico di


questo tipo:
E XAMPLE 3.3.7. X(t) = p(t ), con variabile aleatoria che modella lincertezza sulla posizione temporale del segnale. Un esempio classico leco del segnale
radar.
Se supponiamo per semplicit che il segnale sia periodico di periodo T : p(t) =
p(t + T ), si pu ipotizzare distribuita in modo uniforme tra 0 e T : 2 U (0, T ).
Troviamo le propriet del processo descritto.
La funzione valor medio:

(3.3.10)

(t) = E[p(t

)] =

p(t

1
1
) d =
T
T

p()d

t T

Poich la funzione p() periodica di periodo T , il suo integrale in un periodo non pu


dipendere dagli estremi di integrazione, quindi dal valore t. Quindi la funzione valor
medio indipendente dalla variabile tempo. In particolare il valore che la funzione
valor medio assume pari al valor medio della funzione p().
Per la funzione di autocorrelazione si ha invece:

Rx (t1 , t2 ) = E[X(t1 )X(t2 )] = E[p(t1


(3.3.11)

p(t1

1
1
) d =
T
T

) p(t2

)p(t2

)] =

t1

t1 T

p() p(t2

t1 + )d

Anche in questo caso la funzione integranda, essendo il prodotto di due segnali periodici di periodo T, ancora periodica di periodo T , quindi il suo integrale non dipende
dal particolare posizionamento degli estremi di integrazione. La funzione di autocorrelazione quindi non dipende separatamente da t1 o da t2 , ma solo dalla loro differenza:
Rx (t1 , t2 ) = Rx (t1 t2 ). Se si pone allora: t1 t2 = nella equazione precedente si ha:

(3.3.12)

1
Rx ( ) =
T

T /2
T /2

p() p(

)d

avendo posto t1 = T /2. La funzione di autocorrelazione statistica del processo X(t)


pari alla funzione di autocorrelazione del segnale deterministico e periodico p(t).

3.3. PROCESSI STAZIONARI

85

3.3.2. Propriet della funzione di autocorrelazione di un processo stazionario


in senso lato. Vediamo ora alcune propriet della funzione di autocorrelazione di un
processo stazionario in senso lato.
(1) La funzione di autocorrelazione Rx ( ) pari: Rx ( ) = Rx ( ).
Per dimostrare questa propriet si osservi che, per la stazionariet del processo, la funzione di autocorrelazione rimane invariata se la si calcola relativamente a due istanti di tempo t e t oppure ai due istanti t e t + , dato che
questi ultimi sono ottenuti semplicemente mediante traslazione rigida. Si ha
allora
(3.3.13)

Rx ( ) = E[X(t)X(t

)] = E[X(t + )X(t)] = Rx ( )

(2) Il valore assunto da Rx ( ) nellorigine pari alla potenza statisica del processo:
(3.3.14)

Rx ( )| =0 = Rx (0) = E[X(t)X(t)] = E[X 2 (t)]


.

(3) La funzione di autocorrelazione massima in modulo nellorigine: Rx (0)


|Rx ( )|.
Se si considera infatti la disuguaglianza: E[(X(t) X(t ))2 ]
0, si
osserva che essa sempre vera, dato che rappresenta la aspettazione di una
quantit sempre positiva. Sviluppando la relazione precedente si ha per:
E[(X(t) X(t
(3.3.15)

= E[X 2 (t) + X 2 (t

))2 ] =

) 2X(t)X(t

)] = 2Rx (0) 2Rx ( )

che prova la disuguaglianza.


(4) Se Rx ( ) non periodica il suo valore limite per ! 1 il quadrato del
valor medio:
(3.3.16)

lim Rx ( ) = 2x

!1

Per giustificare qualitativamente questa propriet si ricordi innanzitutto che:


Rx ( ) = Cx ( ) + 2x . Al crescere della distanza tra gli istanti di tempo, t
e t , i valori delle variabili aleatorie tendono sempre pi ad allontanarsi
tra loro, ad assumere cio comportamenti statistici sempre pi indipendenti,
finch, al limite per ! 1, il loro comportamento completamente indipendente e quindi la loro autocovarianza nulla. La funzione di autocorrelazione
quindi diventa pari al quadrato del valor medio.

3.3. PROCESSI STAZIONARI

86

E XAMPLE 3.3.8. Si riconsideri il processo dati binario gi visto precedentemente.


Se il riferimento temporale non noto, il modello pi appropriato per questo processo
:

(3.3.17)

V (t) =

+1
X

Vn rect(

T /2
T

n= 1

nT

F IGURA 3.3.2. Realizzazioni di un processo dati binario con


riferimento temporale non noto
dove la variabile aleatoria contiene lincertezza relativa al riferimento temporale,
ed distribuita nellintervallo [0, T ] in modo uniforme. Tale v.a. indipendente dalla
generazione dei dati binari, ed modellata da una v.a. uniforme nellintervallo [0, T [.
Indipendentemente dallistante di inizio del processo, il ragionamento fatto per determinare la funzione di densit di probabilit del primo ordine vale ancora. Quindi il
processo si pu ancora definire stazionario in senso stretto per il primo ordine, e il
calcolo della funzione valor medio uguale a quanto gi fatto in (3.3.8). Si ha allora
che: v (t) = v = 0. Per il calcolo della funzione di autocorrelazione si ha invece:

Rv (t1 , t2 ) = E[

+1
X

Vn rect(

t1

n= 1

+1
X

m= 1

Vm rect(

t2

T /2
T

T /2
T
mT

nT

)] =

3.3. PROCESSI STAZIONARI

(3.3.18)
+1
X
=

+1
X

E[Vn Vm rect(

t1

n= 1 m= 1

T /2
T

nT

87

) rect(

t2

T /2
T

mT

)]

ottenibile sfruttando la linearit delloperatore aspettazione. Ora si osservi che rispetto


alla statistica dei dati binari, E[Vn Vm ] diversa da zero solo quando gli indici n ed
m sono uguali (vedi il ragionamento e leq. (3.3.9)). Quindi della doppia sommatoria
sopravvive solo un indice:

Rx (t1 , t2 ) =

+1
X

E [rect(

t1

T /2
T

n= 1

+1
X

E [rect(

T /2
T

n= 1
+1 Z T
1 X
t
=
rect(
T n= 1 0

se ora si pone: = t

(3.3.19)

nT

T /2
T

nT

) rect(

) rect(

nT

) rect(

t2

T /2
T

T /2

nT

T /2

nT

T
t

nT

)] =

)] =

)d =

nT , si ha:

+1 Z t nT
1 X
T /2

=
rect(
)rect(
T n= 1 t nT T
T

T /2
T

)d

Si osservi ora che la funzione integranda non contiene la dipendenza da n, quindi i


valori dellintegrale saranno tutti uguali al variare di n e saranno funzioni dipendenti
solo da . Inoltre, poich tali integrali sono calcolati in intervalli disgiunti del tipo:
[nT T, nT ], la funzione di autocorrelazione si pu anche scrivere come:

(3.3.20)

1
Rx ( ) =
T

+1

rect(
1

T /2

)rect(
T

T /2
T

)d

3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO

88

che rappresenta la nota correlazione deterministica tra due funzioni rettangolo. Il risultato pari alla funzione triangolo di base 2T :

(3.3.21)

Rx ( ) = (1

| |

)rect( )
T
2T

Quindi, in questo secondo caso, il segnali dati binario stazionario in senso lato, dato
che la funzione valor medio costante e la funzione di autocorrelazione dipende solo
dalla variabile .
3.3.2.1. Significato della funzione di autocorrelazione. Si supponga di avere due
processi stocastici e stazionari in senso lato X(t) e Y (t), dotati degli stessi parametri
statistici del primo ordine (funzione valor medio, funzione potenza e funzione varianza). In tal caso, rinunciando allidea di riuscire a determinare la funzione di densit
di probabilit congiunta di qualunque ordine per i due processi, ci si deve affidare, per
poterli distinguere, ai parametri statistici. I parametri statistici del primo ordine per
sono tra loro uguali e quindi non permettono una distinzione statistica dei due processi
in esame.
In tal caso vengono in aiuto i parametri statistici del secondo ordine ed in particolare la funzione di autocorrelazione, il cui significato ed utilit sono molto bene
evidenziati proprio per i processi stazionari. Infatti se si suppone che i due processi X(t) ed Y (t) hanno funzioni di autocorrelazione differenti tra loro, qusto significa
che, in uno stesso istante di tempo , Rx ( ) ed Ry ( ) saranno differenti. Cio se si
osservano i processi in due istanti di tempo distaccati di un intervallo , la loro velocit di variazione differente, dato che uno dei due processi assomiglia molto di
pi a se stesso rispetto allaltro processo (quello con autocorrelazione maggiore ha
unautosomiglianza maggiore).
In conclusione la funzione di autocorrelazione decresce tanto pi velocemente a
zero quanto pi rapida la variazione delle realizzazioni del processo. Essa misura
cio la rapidit di variazione del segnale aleatorio.
3.4. Filtraggio di un Processo Aleatorio
Si gi detto che il motivo principale nellintroduzione della teoria dei processi
stocastici sta nel modellamento di fenomeni reali che sono descrivibili da grandezze
fisiche che variano nel tempo e il cui comportamento non predicibile a priori. Poich
le grandezze fisiche con cui ha a che fare lingegnere sono anche grandezze fisiche
manipolabili, ha senso porsi il problema di cosa succede al processo (e quindi anche
alle sue statistiche) se lo si fa passare per un sistema. Uno dei sistemi pi semplici da
studiare il filtro, cio un sistema lineare e tempo-invariante, che pu essere descritto
completamente dalla sua risposta allimpulso, o dalla sua funzione di trasferimento.

3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO

89

Un tipico esempio quello in cui il processo in ingresso costituito da un segnale


deterministico noto a cui sovrapposto un processo aleatorio a valor medio nullo (detto disturbo o rumore): X(t) = s(t) + n(t), come riportato nellesempio in figura 3.4.1.

1.5
1
0.5
0
0.5
1
1.5

10

15

20

25

30

F IGURA 3.4.1. Esempio di un segnale deterministico rumoroso


Quello che si fa normalmente di cercare, almeno in parte, di elaborare s(t) eliminando la componente rumorosa. Questa operazione pu essere effettuata da un filtro.
Loperazione imposta da un filtro unoperazione di convoluzione con un segnale noto
(la risposta allimpulso del filtro), quindi il comportamento sui segnali deterministici
noto. Resta da vedere come si comporta sui processi stocastici.

X(t)

h(t)

Y(t)

F IGURA 3.4.2. Filtraggio del processo X(t)


Ogni realizzazione del processo di partenza X(t) ottenuta mediante estrazione di
un risultato dallo spazio campione : x(t; !). Questa realizzazione un segnale che
ammette unuscita dal sistema filtro: y(t) = x(t; !) ? h(t), dove loperazione ? denota
la convoluzione. Per ogni risultato dello spazio campione si ha una realizzazione
differente e quindi un segnale di uscita differente. Linsieme dei segnali di uscita costituiscono un nuovo processo, Y (t), che pu complessivamente denotarsi con:

(3.4.1)

Y (t) = X(t) ? h(t)

3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO

90

Generalmente il problema di determinare la funzione densit di probabilit congiunta


di qualunque ordine del processo di uscita, ammesso che sia nota quella del processo
di partenza, insolubile.
Quello che si fa allora di determinare la relazione che esiste tra i parametri stastitici del primo e secondo ordine (si suppone di essere riusciti a determinare per lo meno
la funzione valor medio e la funzione di autocorrelazione di X(t)). La funzione valor
medio vale:

y (t) = E[Y (t)] = E[X(t) ? h(t)] =


Z

(3.4.2)

+1

h( )E[X(t

)]d =

+1

h( )x (t

)d = x (t) ? h(t)

La funzione valor medio in uscita si ottiene effettuando la convoluzione tra la funzione


valor medio in ingresso con la risposta allimpulso del sistema. Il processo in ingresso
si pu sempre pensare, ai fini del filtraggio, come la somma di una funzione deterministica, x (t) e di un processo a valor medio nullo: X(t) = Xo (t) + x (t). Il filtraggio
del processo X(t), per la linearit del sistema, d in uscita un processo somma di due
componenti: quella deterministica ottenuta filtrando il segnale deterministico x (t),
la componente statistica ha valor medio nullo.
Vediamo adesso la funzione di autocorrelazione del segnale di uscita:

Ry (t1 , t2 ) = E[Y (t1 )Y (t2 )] = E[(X(t1 ) ? h(t1 ))(X(t2 ) ? h(t2 ))] =


= E[
=
=
(3.4.3) =

+1
1

Z
Z

+1

X()h(t1

)d

+1
1
+1
1

Z
Z

+1

X( )h(t2

)d ] =

+1

E[X()h(t1

)X( )h(t2

)]dd =

1
+1

h(t1

)h(t2

)E[X()X( )]dd =

+1

h(t1
1

)h(t2

)Rx (, )dd = Rx (t1 , t2 ) ? h(t1 ) ? h(t2 )

3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO

91

La doppia convoluzione va intesa nel senso che, nella prima la variabile t2 considerata costante, nella seconda convoluzione t1 ad essere considerata costante.
3.4.1. Filtraggio di un processo stazionario in senso lato. Particolare interesse
assume il caso in cui il processo in ingresso al filtro sia stazionario in senso lato. Per
la funzione valor medio sia ha infatti la seguente relazione ingresso-uscita:

(3.4.4)

y (t) = y =

+1

h( )x (t

)d = x

+1

h( )d = H(0) x

dove H(0) il valore che la trasformata di Fourier della risposta allimpulso del
sistema (la sua funzione di trasferimento H(f )) assume in f = 0.
La funzione di autocorrelazione vale:

Ry (t, t

) = E[Y (t)Y (t
= E[

+1

Z
= E[
=

h()X(t
1
+1
1

+1
1

=
(3.4.5)

)] = E[(X(t) ? h(t))(X(t

)d

+1

) ? h(t

))] =

+1

h( )X(t

)d ] =

h()h( )X(t

)X(t

)dd ] =

h()h( )E[X(t

)X(t

)]dd =

+1
1
+1
1

+1

h()h( )Rx ( +
1

+1
1

h( ) [

)dd =

+1

h()Rx ( +

)d]d

Si osservi subito che la funzione di autocorrelazione non dipende da t, ma solo da .


Inoltre:

(3.4.6)

+1

h()Rx ( +
1

)d = Rx ( + ) ? h( + )

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO

92

Quindi la funzione di autocorrelazione in uscita diventa:

(3.4.7)

Ry ( ) =

+1
1

h( ) [Rx ( + ) ? h( + )]d = Rx ( ) ? h( ) ? h( )

Se poi si osserva che la convoluzione di un segnale con se stesso ribaltato rispetto


allasse dei tempi la autocorrelazione deterministica, si ha che: h( )?h( ) = rh ( ).
Quindi: Ry ( ) = Rx ( ) ? rh ( ).
In conclusione:
T HEOREM 3.4.1. Se un processo in ingresso ad un sistema lineare tempo invariante stazionario in senso lato, lo anche in uscita dal sistema. Il valore medio e la
funzione di autocorrelazione del processo in uscita sono legate a quelle del processo
in ingresso tramite, rispettivamente, le (3.4.4) e (3.4.7).
3.5. Analisi Spettrale di un Processo Aleatorio
Poich si introdotto il problema del filtraggio di un processo aleatorio, pu avere
senso la descrizione dello stesso problema in termini spettrali, dato che per il sistema la
funzione di trasferimento facilmente calcolabile. Si deve tuttavia introdurre lanalisi
frequenziale per i processi aleatori. Si supporr di studiare le propriet in frequenza per
i soli processi aleatori stazionari in senso lato, anche se, concettualmente, possibile
analizzare nel dominio delle frequenze un qualunque processo aleatorio.
La caratterizzazione di un processo aleatorio in frequenza, in termini di spettro di
ampiezza e fase normalmente inusuale. E infatti sempre concepibile lestrazione
di una realizzazione x(t) dal processo X(t) e la sua trasformazione secondo Fourier.
Tuttavia lanalisi dellintero processo richiederebbe lo studio in frequenza di ogni realizzazione del processo. Conseguentemente le ampiezze e le fasi dello spettro sarebbero
caratterizzate in maniera aleatoria, con relazione tra aleatoriet nel tempo e aleatoriet
in frequenza non banale.
E allora pi comune limitarsi alla descrizione degli spettri di potenza del segnale
aleatorio. Le realizzazioni di un processo stazionario in senso lato non possono essere
segnali ad energia finita. Infatti tutti i segnali ad energia finita prima o poi, al tendere
di t ! 1 tendono a zero. Se cos fosse anche la funzione valor medio, calcolata per
valori di t ! 1 tenderebbe a zero, e quindi, a meno che non sempre pari a zero,
essa non sarebbe pi un valore costante. Quindi generalmente le realizzazioni di un
processo stazionario in senso lato sono segnali a potenza finita e perci il processo
aleatorio ammette spettro di potenza.
La funzione densit spettrale di potenza di un processo aleatorio la media delle
funzioni densit spettrale di potenza ottenute per le singole realizzazioni:

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO

(3.5.1)

93

|= {xT (t; !)}|2


Sx (f ) = E[Sx (f ; !)] = E[ lim
]
T !1
T

dove loperazione di media va fatta tra tutti i segnali aleatori Sx (f ; !) che si ottengono prendendo i pezzi delle realizzazioni del processo X(t) che sono compresi tra
[ T /2, T /2], e cio:
t
xT (t; !) = x(t; !) rect( )
T
e facendone il modulo quadro della loro trasformata di Fourier. La definizione di spettro di potenza ricalca quindi quella che si potrebbe fare per un segnale deterministico
di potenza. Lunica differenza dovuta alla presenza di una collezione (anche infinita)
di realizzazioni sulla quali non possiamo fare altro che effettuare una media. Questa
definizione del tutto generale, cio valida anche per processi non stazionari.
Normalmente essa molto difficile da utilizzare, anche per processi stazionari in
senso lato. Si utilizza allora nella pratica la definizione dovuta a Wiener-Kintchine. In
base a questa definizione
P ROPOSITION 3.5.1. la densit spettrale di potenza dei processi stazionari calcolabile come trasformata di Fourier della funzione di autocorrelazione:

(3.5.2)

Sx (f ) =

+1

Rx ( )e

j2f

Vediamo alcune propriet.


(1) La densit spettrale di potenza di un processo aleatorio e stazionario in senso
lato una funzione reale e pari, dato che la trasformata di Fourier di un
segnale reale e pari
(2) La potenza statistica media del processo (che si ricordi una costante, data
la stazionariet del processo) pari allintegrale della densit spettrale di frequenza su tutto lasse delle frequenze:
(3.5.3)

Px = E[X (t)] =

+1

Sx (f )df
1

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO

94

(3) la densit spettrale di potenza una funzione non negativa: Sx (f )


0.
Questultima propriet discende direttamente dalla definizione diretta, e non
dalla definizione di Wiener-Kintchine.
3.5.1. Filtraggio di un processo stazionario. Riprendiamo allora il problema del
filtraggio visto in fig. 3.4.2 di un processo stazionario e vediamo come ora si pu
caratterizzare la densit spettrale del processo in uscita, nota la densit spettrale del
processo in ingresso. Sappiamo infatti che, se il processo in ingresso stazionario in
senso lato, lo anche quello in uscita.
La densit spettrale del processo in uscita vale:

(3.5.4)

Sy (f ) = F {Rx ( ) ? h( ) ? h( )} = Sx (f )H(f )H( f )

Inoltre, poich il sistema si suppone reale, H( f ) = H (f ), si ha:

Sy (f ) = Sx (f ) |H(f )|2

(3.5.5)

che la stessa relazione che vale per gli spettri di potenza dei segnali deterministici.
La risposta in fase del sistema non influenza la densit spettrale del processo in uscita.
Nella densit spettrale di potenza sono quindi contenute tutte le informazioni spettrali del processo e cio come si distribuisce la potenza sulle varie componenti armoniche, dato che Sx (f ) si comporta come la densit spettrale di potenza di un segnale
deterministico.
Conseguentemente il significato di densit spettrale di potenza lo stesso per i segnali deterministici e per i processi aleatori: una fettina spettrale alla frequenza f rappresenta il contenuto in potenza del processo sulla sinusoide a frequenza f moltiplicato
per la banda passante infinitesima intorno a f , df : dPx (f ) = Sx (f )df .
E XAMPLE 3.5.2. Calcoliamo la densit spettrale di potenza del processo visto
in (3.1.2): X(t) = A sin(2fo t + ), con = U [0, 2[. Poich il processo
stazionario in senso lato, la sua densit spettrale di potenza pu essere calcolata
secondo la definizione di Wiener-Kintchine. Poich si gi trovato che: Rx ( ) =
a2
cos(2fo ), la densit spettrale di potenza vale:
2

(3.5.6)

Sx (f ) = F

a2
cos(2fo )
2

a2
[ (f
4

fo ) + (f + fo )]

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO

95

La potenza dellintero processo quindi concentrata sulla frequenza fo .


La funzione di autocorrelazione misura, come gi detto, la velocit di variazione e
lautosomiglianza di un processo con s stesso. Poich la densit spettrale di potenza
la trasformata di Fourier della funzione di autocorrelazione (per i processi stazionari),
allora anche la densit spettrale di potenza pu caratterizzare un processo. In particolare, quanto pi rapidamente variano le singole realizzazioni di un processo, tanto
pi larga la banda passante della densit spettrale di potenza, dato che ad una banda
larga corrisponde una funzione di autocorrelazione piccola. Quindi a variazioni rapide
corrispondono termini spettrali a potenza non nulla sempre pi in alta frequenza. Nella
figura 3.5.1 riportata una singola realizzazione di tre processi, ciascuno dei quali presenta una densit spettrale di potenza a banda crescente. Si osservi come, al crescere
della banda aumenta non solo la rapidit di variazione della realizzazione, ma anche
lampiezza delle escursioni, e cio la potenza complessiva del segnale
1.5
1
0.5
0
0.5
1
1.5

1000

2000

3000

4000

5000

6000

7000

8000

1.5
1
0.5
0
0.5
1
1.5

1000

2000

3000

4000

5000

6000

7000

8000

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO

96

1.5
1
0.5
0
0.5
1
1.5

1000

2000

3000

4000

5000

6000

7000

8000

F IGURA 3.5.1. Esempio di tre processi a banda crescente nello spettro


di potenza
3.5.2. Processo aleatorio bianco. Si supponga ora di considerare un processo la
cui densit spettrale di potenza ha una banda che cresce illimitatamente, pur mantenendo lo stesso valore per f = 0. La funzione di autocorrelazione di tale processo tender
ad un valore piccolissimo (la funzione non assomiglia quasi per niente a s stessa e
varia sempre pi rapidamente). Al limite per f ! 1 la funzione di autocorrelazione
diventa impulsiva e quindi la densit spettrale di potenza diventa costante su tutto lo
spettro di frequenze:

(3.5.7)

Rx ( ) = n ( ) , Sx (f ) = n

A tale tipo di processo, astrazione matematica di molti fenomeni reali, si d il nome


di processo di rumore bianco. Il nome rumore bianco deriva dal fatto che tutte le componenti spettrali sono ugualmente rappresentate, cos come tutti i colori sono ugualmente rappresentati nel processo di composizione della luce bianca. Il valor medio di
questo processo nullo, dato che il valor medio pari al lim !1 Rx ( ) = 0. Inoltre
si capisce bene che tale processo solo una idealizzazione, dato che esso dovrebbe
possedere potenza infinita, condizione impossibile per un qualunque processo che
modelli un segnale fisico.
Una delle applicazioni pi comuni di questa idealizzazione consiste nel modellamento del rumore termico. Un comune resistore, oltre a presentare una certa resistenza
R, presenta anche una debole tensione di rumore, dovuta alla casuale agitazione termica degli elettroni nel materiale che compone il resistore. Questa agitazione termica
tanto pi elevata quanto pi alta la temperatura assoluta alla quale si trova il resistore. Il modello che normalmente si utilizza allora quello di considerare il resististore

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO

97

ideale e di porre in serie ad esso un generatore di tensione con tensione pari a n(t) V ,
dove n(t) un processo casuale, responsabile della produzione di rumore termico.
Lespressione che assume la densit spettrale di potenza del rumore termico deriva da
considerazioni di carattere quantistico (e quindi non verr effettuata in questa sede) ed
assume la forma:

(3.5.8)

Sn (f ) = kTR

|f | /fo

e|f |/fo

dove il valore di fo : fo = kTR /h, con k = 1.38 10 23 J/K costante di Boltzmann,


h = 6.62 10 34 J s costante di Plank e TR temperatura assoluta del resistore. Alla
temperatura ambiente il valore di fo estremamente alto ( 6T Hz). Poich i valori
di frequenza che normalmente si utilizzano nelle applicazioni pratiche sono molto pi
bassi, lespressione precedente si pu approssimare come segue:

(3.5.9)

Sn (f ) = kTR

|f | /fo

e|f |/fo

kTR

cio come una costante. Il processo di rumore bianco quindi, in questo caso, un utile
idealizzazione di una situazione reale. Un circuito elettrico infatti che sia composto
da un filtro con banda passante B fo , vedr la densit spettrale del processo
praticamente come piatta.
E XAMPLE 3.5.3. Si voglia determinare la densit spettrale di potenza del processo
in uscita dal sistema riportato in figura 3.5.2, con N (t) un processo stazionario in senso
lato e densit spettrale di potenza costante e pari ad n.
Il primo blocco effettua una media pesata del segnale in ingresso su un intervallo
[t T, T ]:

(3.5.10)

1
T

()d

t T

La sua risposta allimpulso vale allora: g(t) = T1 rect( t TT /2 ). Il secondo blocco un


filtro passa banda ideale, con banda pari a 2/T intorno ad f0 , con f0 T
1. Infine il
moltiplicatore moltiplica per un oscillatore locale la cui espressione del tipo: p(t) =
2 cos(2f0 t + ), quindi in realt un processo, con variabile aleatoria con densit
di probabilit uniforme in [0, 2[.

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO

N(t)

X(t)

Z(t)

Y(t)

g(t)

98

H(f)

p(t)
| H(f) |
2/T
f
f0

f0

F IGURA 3.5.2. Sistema dellesempio e filtro passa banda H(f )


Poich il processo in ingresso stazionario in senso lato e il blocco g(t) lineare
e tempo invariante, anche il processo in uscita X(t) stazionario in senso lato. Il suo
valor medio : x = n G(0) = 0 G(0) = 0, essendo il processo in ingresso a media
nulla. La funzione di autocorrelazione di X(t) :
(3.5.11)
Rx ( ) = Rn ( ) ? g( ) ? g( ) = n ( ) ? rg ( ) = nrg ( ) =

n
(1
T

| |

)rect( )
T
2T

e dipende solo da . La corrispondente densit spettrale di potenza vale: Sx (f ) =


F {Rx ( )} = n sinc2 (T f ).
Il processo p(t) sappiamo che stazionario, avendo valor medio nullo e funzione di
autocorrelazione pari a: Rp ( ) = 2 cos(2fo ). La funzione valor medio del prodotto
tra le due :

(3.5.12)

y (t) = E[X(t)p(t)] = 2E[X(t) cos(2f0 t + )]

Poich la v.a. indipendente dalla sinusoide in cui contenuta (allinterno del processo p(t)) lo a maggior ragione anche dal processo X(t). Quindi laspettazione
del prodotto pari allaspettazione presa separatamente dei singoli processi: y (t) =
E[X(t)p(t)] = E[X(t)]E[p(t)] = 0. La funzione di autocorrelazione vale:

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO

Ry (t, t

= 4E[X(t)X(t

= 4E[X(t)X(t

(3.5.13)

) = E[Y (t)Y (t

99

)] =

) cos(2f0 t + ) cos(2f0 (t

) + )] =

)] E[cos(2f0 t + ) cos(2f0 (t

) + )] =

= 2Rx ( ) cos(2f0 )

Anche il processo Y (t) quindi stazionario in senso lato, essendo il suo valor medio
nullo e la sua funzione di autocorrelazione dipendente solo da . La densit spettrale
di potenza la trasformata di Fourier di Ry ( ):
Sy (f ) = F {Ry ( )} =
(3.5.14)
= n sinc2 (f T ) ? [ (f

fo ) + (f + fo )] = n [sinc2 (T (f

fo )) + sinc2 (T (f + fo ))]

La maggior parte della potenza si spostata attorno ad fo , anche se le code delle funzioni sinc2 si sovrappongono sino ad infinito. Leffetto del filtraggio passa banda finale
quello di tagliare appunto queste code, in modo da lasciar passare solo la parte dello
spettro che contiene pi potenza (vedi in figure 3.5.3 ed 3.5.4 ). Approssimatamente
quindi lo spettro di potenza in uscita si pu scrivere come:
(3.5.15)
Sz (f ) n [sinc2 (T (f

fo )) rect(

fo
f + fo
) + sinc2 (T (f + fo )) rect(
)]
2/T
2/T

3.6. PROCESSI ALEATORI GAUSSIANI

100

1.2
1
0.8
0.6
0.4
0.2
0
15

10

0
5
frequenze normalizzate fT

10

15

F IGURA 3.5.3. Filtraggio del processo Y (t). I valori nellesempio


riportato sono: f0 T = 5.

0.8

Sz(f)

0.6

0.4

0.2

0
15

10

0
5
frequenze normalizzate fT

10

15

F IGURA 3.5.4. Densit spettrale di potenza in uscita dal sistema, Sz (f )


3.6. Processi Aleatori Gaussiani
Nellesempio del rumore termico la generazione della tensione di rumore dovuta
alla somma della tensione provocata dal movimento casuale degli elettroni. Poich
il processo in esame generato dal contributo di molti fenomeni elementari ed indipendenti, si pu ritenere che la statistica del processo stesso sia di tipo gaussiano
(per il teorema del limite centrale). Poich una grande quantit di fenomeni fisici si
comportano in modo simile, utile studiare le propriet dei processi gaussiani.
D EFINITION 3.6.1. Un processo aleatorio X(t) gaussiano se scelto n arbitrariamente grande ed n istanti di tempo t1 , t2 , ..., tn , le variabili aleatorie
[X(t1 ), X(t2 ), ..., X(tn )] sono congiuntamente gaussiane.
In questa definizione quindi necessario verificare non solo la gaussianit della
singola variabile aleatoria che si pu ottenere ad ogni istante t, ma anche del vettore
aleatorio [X(t1 ), X(t2 ), ..., X(tn )], comunque si scelgano gli istanti di tempo.
Molti fenomeni fisici sono modellati come processi gaussiani (onde sismiche, voce
umana, rumore termico, etc) e questo spiega la centralit di questo tipo di processi nello
studio dei processi stocastici.

3.6. PROCESSI ALEATORI GAUSSIANI

101

La descrizione statistica completa di un processo possibile solo se nota la sua


funzione di densit di probabilit di ogni ordine e per ogni n pla di istanti di tempo:
fx (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ). Tuttavia se X(t) gaussiano la densit di probabilit
congiunta ha una forma nota:
(3.6.1)

1
1
fX (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) = p
exp( (x
2
(2)n det |CX |

X )T CX 1 (x

X ))

dove il vettore aleatorio x quello che si ottiene estraendo le variabili aleatorie


[X(t1 ), X(t2 ), ..., X(tn )]. Per la conoscenza completa della funzione di densit di
probabilit congiunta (e quindi dellintero processo) sufficiente conoscere quindi la
funzione valor medio e la funzione di autocovarianza; x (t) e Cx (t1 , t2 ). Infatti per
ogni n pla di istanti di tempo (t1 , t2 , ..., tn ) si ha:

(3.6.2)

X = [x (t1 ), x (t2 ), ..., x (tn )]

Invece per la funzione di autocovarianza si ha: Cx = [cij ], dove


(3.6.3)
cij = E[(X(ti )

x (ti )) (X(tj )

x (tj ))] = Cx (ti , tj ) = Rx (ti , tj )

x (ti )x (tj )

Una delle propriet notevoli dei processi gaussiani consiste nel fatto che la stazionariet in senso lato implica la stazionariet in senso stretto (cosa generalmente non vera). Infatti la stazionariet in senso lato equivale ad imporre una funzione valor medio
costante ed una funzione di autocorrelazione dipendente solo dalla differenza degli istanti di tempo: X (t) = X e Rx (t1 , t2 ) = Rx ( ). Se allora si considera ln pla di
istanti:

[t1 +

t, t2 +

t, ..., tn +

t]

in tali istanti la funzione valor medio non sar cambiata poich una costante. La
funzione di autocovarianza rimane anchessa costante dato che dipende solo dalle
differenze tra una qualunque coppia di istanti di tempo.

3.6. PROCESSI ALEATORI GAUSSIANI

102

Poiche infine la funzione di densit di probabilit congiunta del processo dipende


solo da questi due parametri statistici, si pu concludere che il processo stazionario in
senso lato lo anche in senso stretto.
Quando si fa passare un processo attraverso un sistema lineare tempo-invariante,
di cui si conosce la funzione di trasferimento, generalmete difficile determinare la
funzione di densit di probabilit congiunta di uscita, anche se nota quella di ingresso.
I processi gaussiani fanno eccezione a questa regola: un processo gaussiano che venga
fatto passare attraverso un sistema lineare conserva la sua propriet principale di gaussianit; inoltre conserva anche la stazionariet se il sistema anche tempo-invariante e
il processo in ingresso stazionario.
Intuitivamente il motivo per cui la statistica del processo non cambia si pu comprendere osservando loperazione che si effettua quando il processo passa attraverso il
sistema:

(3.6.4)

Y (t) = X(t) ? h(t) =

+1

X()h(t

)d

Questa operazione si pu pensare come una somma di infiniti termini, ciascuno del
quali vale approssimatamente:
(3.6.5)

X(k )h(t

k )

dove si deve pensare k intero e molto piccolo. Poich allora il processo in uscita
altro non che una combinazione lineare di tanti processi in ingresso, tutti gaussiani
(X(t), calcolato per t = k gaussiano), anchesso gaussiano, comunque si scelga
ln pla degli istanti di tempo [t1 , t2 , ..., tn ].
E XAMPLE 3.6.2. Si consideri un processo gaussiano stazionario con densit spettrale di potenza:

(3.6.6)

Sn (f ) = No (1

|f |
f
)rect( )
B
2B

e si supponga di far passare questo processo attraverso un campionatore. Il campionatore un sistema che, dato un segnale continuo, ne estrae il valore per particolari
istanti di tempo, normalmente equispaziati. A partire da una funzione tempo continua

3.6. PROCESSI ALEATORI GAUSSIANI

103

costruisce quindi una funzione tempo discreta o, se si preferisce, una successione di


numeri reali.
Il campionatore campioni il processo agli istanti di tempo k/B. Se k lo facciamo
variare da 1, ..., n otterremo n numeri reali

X(t1 = 1/B), X(t2 = 2/B), ..., X(tn = n/B)

corrispondenti ad n variabili aleatorie. Si vuole calcolare la densit di probabilit


congiunta di queste n variabili aleatorie fx (x1 , x2 , ..., xn ).
S n(f)
N0

Xk

X(t)
k/B

F IGURA 3.6.1. Densit spettrale e schema a blocchi dellesempio 3.6.2


Si osservi subito che se X(t) un processo a valor medio nullo, anche il processo
campionato, essendo linsieme di n v.a. a valor medio nullo, a valor medio nullo.
Inoltre la sua funzione di autocovarianza vale:

cxi xj = E[(Xi
(3.6.7)

xi )(Xi
= Rx (ti

xj )] = E[Xi Xj ] = E[X(ti )X(tj )] =


tj ) = Rx (

j
B

Poich conosciamo Sn (f ) possibile esprimere in forma chiusa anche la funzione di


autocorrelazione:

(3.6.8)

Rn ( ) = No B sinc2 (B )

3.7. PROCESSI ERGODICI

104

Quindi lautocovarianza vale: cxi xj = No B sinc2 (i j) = No B ik (con ik simbolo


di Kronecker) ed una matrice diagonale. Questo ci dice che le variabili aleatorie
estratte con loperazione di campionamento sono a due a due incorrelate. Essendo inoltre congiuntamente gaussiane (loperazione di campionamento infatti chiaramente
lineare) esse sono a due a due indipendenti. La loro potenza statistica, pari anche alla
loro varianza: Rn (0) = No B. La densit di probabilit congiunta allora il prodotto
delle singole densit di probabilit delle v.a. [X1 , X2 , ..., Xn ]:

f (x1 , x2 , ..., xn ) =

n
Y

f (xk )

k=1

(3.6.9)

1
x2 + x22 + ... + x2n
f (x1 , x2 , ..., xn ) = p
exp( 1
)
2No B
(2)n (No B)n
3.7. Processi Ergodici

I parametri statistici di un processo aleatorio si possono considerare operazioni


dinsieme, poich sono effettuate sullinsieme delle funzioni campione (o realizzazioni).
Ad esempio la funzione valor medio si determina, per ogni istante fissato t, effettuando la media di tutte le realizzazioni in t, nota che sia la funzione densit di probabilit
di primo ordine per quellistante. Questa operazione, dal punto di vista teorico non
comporta alcuna difficolt, ammesso che del processo si conosca una forma chiusa,
ammesso cio che si sia in grado di scrivere ogni possibile realizzazione del processo,
insieme con la funzione di densit di probabilit del primo ordine (o di ordine superiore
per le altre statistiche).
In pratica la funzione di densit di probabilit non nota e a volte non si riesce
nemmeno a fare delle ipotesi ragionevoli sulla sua forma con misure statistiche sul
processo in esame. A volte infatti, di un dato processo, possibile misurare soltanto una singola realizzazione. La domanda che sorge spontanea allora: possibile
effettuare alcune misure sulla singola realizzazione per ottenere un comportamento
statistico generale ? La risposta a questa domanda s, a volte si pu fare, ma ci
dipende da una particolare propriet che possono possedere i processi aleatori. Questa
propriet lergodicit.
D EFINITION 3.7.1. Un processo aleatorio stazionario in media si dice ergodico in
media se, con probabilit che tende ad 1 si ha che la media dinsieme coincide con la
media temporale effettuata sulla singola realizzazione:

3.7. PROCESSI ERGODICI

(3.7.1)

P ( E[X(t)] = lim

T !1

105

T /2

x(t)dt ) = 1
T /2

Tale definizione nasce infatti dallosservazione che, se si possiede una sola realizzazione del processo, pu avere senso effettuare delle misure deterministiche sul quel
processo (media temporale, misura della autocorrelazione e cos via). In particolare per
la misura della media temporale pu accadere che questa sia differente realizzazione
per realizzazione oppure che, anche se sempre uguale per tutte le realizzazioni, sia
differente dalla media dinsieme del processo in esame. Per alcuni processi invece
capita che non solo la media temporale uguale per tutte le realizzazioni, ma anche
che questo valore pari a quello che si determina dalla media dinsieme. Tali processi
sono appunto detti ergodici in media.
Un processo ergodico in media un processo la cui singola realizzazione si comporta come tutto il processo in esame dal punto di vista statistico, permette cio misure
di media che dovrebbero essere fatte altrimenti su tutta la statistica del processo stesso.
E evidente che, affinch un processo sia ergodico, necessario che sia stazionario, dato che la media temporale necessariamente un valore singolo e quindi non potrebbe
mai essere pari ad una funzione del tempo (se il processo non fosse stazionario).
Si osservi che nella definizione non abbiamo dato una condizione di uguaglianza con certezza, ma con probabilit tendente ad 1, che una cosa differente. Infatti
quando si osserva la singola realizzazione, questa una sola tra le tante che potrebbero capitare, e quindi il valore che estraiamo della media temporale essa stessa una
variabile aleatoria. Luguaglianza di tale variabile aleatoria con una costante (il valor
medio ottenuto come media dinsieme) pu essere fatta solo in termini probabilistici,
affermando cio che tale variabile aleatoria ha valor medio che coincide con la media
dinsieme e varianza nulla. Si tenga inoltre presente che nei casi pratici non si pu
osservare nemmeno tutta la realizzazione (cio da 1 a +1) e quindi quella che si
ottiene solo una stima del valor medio (che a sua volta una variabile aleatoria).
Quello che nella pratica si riesce ad ottenere quindi:

(3.7.2)

1
XT =
T

T /2

x(t)dt
T /2

la media temporale sar quindi:

Xm = lim XT
T !1

3.7. PROCESSI ERGODICI

106

ed inoltre:

(3.7.3)

Xm = lim XT ,
T !1

2
Xm

= lim

T !1

2
XT

!0

anche se questi ultimi risultati non sono accessibili in una situazione reale.
Si ricordi infine che, essendo la varianza della variabile aleatoria XT pari alla funzione
di autocovarianza valutata per = 0, il verificarsi della condizione di ergodicit in
media subordinato al verificarsi di una determinata condizione (CXT (0) ! 0) che
coinvolge la statistica del secondo ordine del processo.
Per il calcolo della media temporale si definisce un operatore valor medio temporale, che si pu applicare a qualunque segnale x(t) determinato o no:

(3.7.4)

1
hx(t)i = lim
T !1 T

T /2

x(t)dt
T /2

La propriet di ergodicit in media pu essere allora riscritta nel modo seguente:

(3.7.5)

E[X(t)] = hx(t; !)i

dove si messo in evidenza che la media temporale stata effettuata sulla particolare
realizzazione estratta dal processo X(t). Se per il processo ergodico tale valore
uguale per tutte le realizzazioni e quindi, con notazione non proprio rigorosa si pu
scrivere:

(3.7.6)

E[X(t)] = hX(t)i

La dimostrazione che luguaglianza della definizione vale con probabilit pari ad 1


legata alla dimostrazione che la media della variabile aleatoria hx(t)i sia pari al valor
medio dinsieme e la sua varianza tenda a zero. Laspettazione della media temporale

3.7. PROCESSI ERGODICI

107

1
E[hx(t)i] = E[ lim
T !1 T
1
= lim
T !1 T

(3.7.7)

T /2
T /2

T /2

x(t)dt] =
T /2

1
E[x(t)]dt = lim
T !1 T

T /2

x dt = x
T /2

La varianza della variabile aleatoria hx(t)i invece vale:


V ar(hx(t)i) = E[(hx(t)i
1
= E[( lim
T !1 T

T /2
T /2

1
= lim E[ 2
T !1
T

1
= lim 2
T !1 T
1
= lim 2
T !1 T

T /2
T /2

1
x ) ] = lim E[(
T !1
T
2

x(t)dt

1
= lim E[ 2
T !1
T

T /2
T /2

T /2

(x(t)
T /2
T /2
T /2

T /2
T /2

x )2 ] =

x )dt

T /2

x(t)dt

x )2 ] =

T /2

T /2

(x(t)

x )dt] =

T /2

T /2

(x(t)

x )(x(t1 )

x )dtdt1 ] =

E[(x(t)

x )(x(t1 )

x )]dtdt1 =

T /2

T /2
T /2

1
Cx (t, t1 )dtdt1 = lim 2
T !1 T

T /2
T /2

T /2

Cx (t

t1 )dtdt1 =

T /2

dove lultima uguaglianza vale solo nellipotesi che il processo sia stazionario in senso
lato e non solo in media. In questa ipotesi infatti la dimostrazione che la varianza
di hx(t)i va a zero per T ! 1 risulta pi semplice (la dimostrazione nel caso pi
generale pi complessa).
Se ora si pone t t1 = u, si osserva che al variare di (t,
p t1 ) nel quadrato [ T /2, T /2]
[ T /2, T /2], u varia da [ T, T ]. Inoltre dtdt1 = 2(T |u|)du: si provi infatti a
calcolare larea del rettangolino che si ottiene spostando di un infinitesimo du la retta
t t1 = u (vedi figura 3.7.1).

3.7. PROCESSI ERGODICI

108

t1

T/2

tt1 = u
tt1 = u+du

T/2

T/2

T/2

F IGURA 3.7.1. Calcolo del differenziale nel cambio di variabile t


t1 = u
Quindi:

(3.7.8)

1
= lim 2
T !1 T

|u|)Cx (u)du = 0

2(T

dato che la funzione di autocovarianza non pu divergere per nessun valore della variabile indipendente. E quindi dimostrata la definizione di ergodicit in media secondo
la relazione probabilistica.
Loperatore di media temporale pu essere utilizzato per definire lautocorrelazione
di un segnale deterministico a potenza finita:

(3.7.9)

hx(t)x(t

1
)i = lim
T !1 T

T /2

x(t)x(t

)dt

T /2

Risulta allora abbastanza chiaro che il concetto di ergodicit in media pu essere estesa
anche alla autocorrelazione, purch il processo sia stazionario non solo in media ma
anche per quel che riguarda lautocorrelazione, sia cio stazionario in senso lato.
D EFINITION 3.7.2. Un processo aleatorio stazionario in senso lato ergodico in
autocorrelazione se con probabilit pari ad 1 risulta vera luguaglianza;

3.7. PROCESSI ERGODICI

(3.7.10)
Rx ( ) = E[X(t)X(t

1
)i = lim
T !1 T

)] = hx(t)x(t

109

T /2

x(t)x(t

)dt

T /2

Si osservi che lipotesi di stazionariet necessaria per lergodicit in autocorrelazione, dato che altrimenti il processo avrebbe una funzione di autocorrelazione
dinsieme dipendente da due variabili, mentre lautocorrelazione temporale dipende
chiaramente da una sola variabile. Inoltre, per gli stessi motivi addotti precedentemente, necessario dare anche in questo caso una definizione in termini probabilistici.
Lergodicit in autocorrelazione importante poich mediante questa possibile
determinare la funzione di autocorrelazione dinsieme mediante losservazione di una
singola realizzazione. Dalla funzione di autocorrelazione si pu poi calcolare la densit
spettrale di potenza del processo.
Le condizioni sullergodicit in autocorrelazione del processo coinvolgono grandezze
statistiche del quarto ordine, poich si deve provare che la varianza della variabile
aleatoria

(3.7.11)

hx(t)x(t

1
)iT =
T

T /2

x(t)x(t

)dt

T /2

tende a zero al tendere di T ! 1.


Un processo ergodico in valor medio e in autocorrelazione si dice ergodico in
senso lato.
D EFINITION 3.7.3. Un processo si dice ergodico in senso stretto se la propriet
di ergodicit vale per una qualunque grandezza statistica estratta dal processo (e di
qualunque ordine):
(3.7.12)
E[g(X(t), X(t 1 ), ..., X(t n 1 ))] = hg(X(t; !), X(t

1 ; !), ..., X(t

n 1 ; !))i

E XAMPLE 3.7.4. Dimostriamo che il processo X(t) = a cos(2fo t + ), con


= U [0, 2[, con a ed fo noti, ergodico in senso lato.
Abbiamo gi dimostrato che tale processo stazionario in senso lato (quindi il
problema ben posto). Inoltre si gi trovato che:

3.8. CENNI SULLE CATENE DI MARKOV

(3.7.13)

x = 0,

Rx ( ) =

110

a2
cos(2fo )
2

Calcoliamo ora le corrispondenti medie temporali:


(3.7.14)
1
hx(t; )i = lim
T !1 T

T /2
T /2

1
a cos(2fo t + )dt =
T

T /2
T /2

a cos(2fo t + )dt = 0

dato che la media di un qualunque segnale periodico pu essere valutata sul singolo
periodo. Il risultato ottenuto indipendente dal particolare valore di . Il processo
quindi ergodico in media.
Per lautocorrelazione temporale si ha poi:

hx(t; )x(t
1
=
T

1
; )i = lim
T !1 T

T /2
T /2

a cos(2fo t + )a cos(2fo (t

T /2

(3.7.15)

T /2

a cos(2fo t + )a cos(2fo (t

a2
) + )dt =
2T

) + )dt =

T /2

cos(2fo )dt =
T /2

a2
cos(2fo ) = Rx ( )
2

Il processo ergodico anche in autocorrelazione e quindi lo in senso lato.


3.8. Cenni sulle Catene di Markov
3.8.1. Qualche definizione sulle catene di Markov. Le catene di Markov sono
una delle applicazioni della teoria dei processi aleatori pi diffusa. Esse sono utilizzate
in unenorme variet di contesti poich modellano molto bene una classe di fenomeni
reali (gli arrivi e le attese in coda).
Si supponga di considerare un processio aleatorio X(t) e si supponga di voler
conoscere qualche propriet della variabile aleatoria X(tk ) a partire dalla conoscenza
delle variabili aleatorie X(t1 ), X(t2 ), ..., X(tk 1 ), con t1 , t2 , ..., tk arbitrariamente estratti. Si vuole quindi, se possibile, determinare:

3.8. CENNI SULLE CATENE DI MARKOV

(3.8.1)

111

P (X(tk ) = xk /X(tk 1 ) = xk 1 , X(tk 2 ) = xk 2 , ..., X(t1 ) = x1 )

D EFINITION 3.8.1. Un processo aleatorio detto di Markov se risulta:

P (X(tk ) = xk /X(tk 1 ) = xk 1 , X(tk 2 ) = xk 2 , ..., X(t1 ) = x1 ) =


(3.8.2)

= P (X(tk ) = xk /X(tk 1 ) = xk 1 )

cio se levoluzione del processo dipende soltanto dallosservazione della variabile


aleatoria allistante immediatamente precedente, comunque si scelgano t1 , t2 , ..., tk .
La definizione precedente pu anche essere posta in questi termini: levoluzione futura
del processo dipende solo dallo stato attuale del processo e non dagli stati passati.
Una prima propriet la seguente:

P (X(tk ) = xk , X(tk 1 ) = xk 1 , ..., X(t1 ) = x1 ) =


P (X(tk ) = xk /X(tk 1 ) = xk 1 , X(tk 2 ) = xk 2 , ..., X(t1 ) = x1 )
P (X(tk 1 ) = xk 1 , X(tk 2 ) = xk 2 , ..., X(t1 ) = x1 ) =
= P (X(tk ) = xk /X(tk 1 ) = xk 1 )
P (X(tk 1 ) = xk 1 , X(tk 2 ) = xk 2 , ..., X(t1 ) = x1 ) =

= P (X(tk ) = xk /X(tk 1 ) = xk 1 ) P (X(tk 1 ) = xk 1 /X(tk 2 ) = xk 2 ) ...


(3.8.3)

... P (X(t1 ) = x1 )

3.8. CENNI SULLE CATENE DI MARKOV

112

Naturalmente lultima quantit, cio P (X(t1 ) = x1 ) una probabilit non condizionata e deve essere nota a priori.
D EFINITION 3.8.2. Una catena di Markov detta omogenea quando le probabilit
condizionate non dipendono dallorigine dellasse dei tempi ma solo dalla differenza
tra i tempi considerati:
(3.8.4)
P (X(tk ) = xk /X(tk 1 ) = xk 1 ) = P (X(tk +

t) = xk /X(tk

t) = xk 1 )

I processi di Markov che assumono solo valori discreti sono detti catene di Markov.
Le catene di Markov possono essere tempo discrete o tempo continue a seconda che
evolvano o no in modo discreto.
3.8.2. Catene di Markov tempo discrete. Per le catene di Markov discrete allora possibile scrivere le probabilit di transizione ad un passo, cio: pij = P (Xn+1 =
i/Xn = j), dove levoluzione temporale nel caso di catene discrete indicato con un
indice sul processo aleatorio: X(tn ) = X(n t) = Xn . E allora possibile raggruppare in forma matriciale le probabilit ad un passo, a seconda dei valori che il processo
aleatorio pu assumere. Naturalmente questa matrice pu anche essere di dimensione
infinita se il numero dei valori possibili assunti dal processo infinito:

(3.8.5)

6
6
P =6
6
4

p00 p01 ... p0n


p10 p11 ... p1n
..
.. . .
.
. ..
.
.
pn0 pn1 ... pnn
... ... ... ...

...
...
..
.

7
7
7
7
... 5
...

La somma degli elementi su una riga deve necessariamente essere pari ad 1 (da uno stato il processo deve capitare con probabilit 1 in uno qualunque degli altri stati possibili:

(3.8.6)

pij = 1

Generalizzando la definizione precedente si pu anche definire la probabilit di


transizione ad k passi:

3.8. CENNI SULLE CATENE DI MARKOV

(3.8.7)

113

pij (k) = P (Xn+k = i/Xn = j)

P
Si fa vedere facilmente che: pij (2) = k pik pkj , cio la probabilit di transizione
a due passi si determina effettuando il prodotto della riga i sima per la colonna
j sima della matrice di transizione ad un passo. Allora possibile costruire facilmente la matrice di transizione a due passi, dato che:

(3.8.8)

P (2) = P P = P 2

e, generalizzando:

(3.8.9)

P (k) = P
... P} = P k
| P {z
k volte

Se si vuole determinare la probabilit che allistante tn una singola realizzazione


del processo abbia valore pari a xi , si trova che:

P (Xn = i) =
(3.8.10)
X
=
P (Xn = i/Xn
j

= j) P (Xn

= j) =

X
j

pij Pi (n

1) =

pij (n)Pi (0)

Dato un processo aleatorio che risulta essere anche una catena di Markov tempo discreta, normalmente le quantit note sono la matrice di transizione ad un passo e le
probabilit iniziali del processo, cio le: Pi (0) = P (Xo = i).
D EFINITION 3.8.3. Una catena di Markov tempo discreta ammette equilibrio se
esiste il limite:

(3.8.11)

lim Pi (n) = i

n!1

3.8. CENNI SULLE CATENE DI MARKOV

114

Si vuole vedere cio se le probabilit, per tempi di osservazione lunghi si stabilizzano o variano continuamente.
D EFINITION 3.8.4. Una catena di Markov si dice stazionaria se, ammettendo
equilibrio risulta: i = Pi (0).
In una catena di Markov stazionaria si dimostra facilmente che 8n : Pi (n) = i .

3.8.3. Catene di Markov tempo continue. Le catene di Markov tempo continue


sono caratterizzate dal fatto che, seppure le singole realizzazioni del processo aleatorio
assumono valori discreti, il cambiamento di stato avviene ad istanti qualunque e non
per istanti discreti prefissati. Naturalmente vale il concetto generale che definisce le
catene di Markov: levoluzione per stati futuri dipende solo dallo stato attuale del
processo. Vale anche la definizione di catena omogenea, dato che questa stata data
in forma genericamente continua.
Le proabilit di transizione da uno stato ad un altro possono ancora essere definite,
ma ora sono genericamente funzioni del tempo:

(3.8.12)

P (X(s + t) = i/X(s) = j) = Pij (t)

Nel caso di catene di Markov tempo continue utile definire il cosiddetto tempo di
permanenza in un possibile stato. Questo tempo di permanenza normalmente una
variabile aleatoria, dato che la transizione da uno stato al successivo avviene in un istante non prevedibile. Se allora si vuole calcolare: P (Ti t) oppure la P (Ti > t) si
ha:
P (Ti > t + s/Ti > s) = P (Ti > t + s/X(s0 ) = i, 0 s0 s) =
cio la probabilit che il tempo di permanenza superi lintervallo t + s, noto che
rimasto nello stato i un tempo almeno pari ad s,
= P (Ti > t + s/X(s) = i) =
se ora supponiamo la catena omogenea:

3.8. CENNI SULLE CATENE DI MARKOV

(3.8.13)

115

= P (Ti > t/X(0) = i) = P (Ti > t)

La relazione precedente soddisfatta da una variabile aleatoria di tipo esponenziale:


P (Ti > t) = e i t . Quindi il tempo di permanenza modellabile come una variabile
aleatoria esponenziale per catene di Markov tempo continue ed omogenee. La quantit
1/i il tempo medio di permanenza nello stato i, mentre i si pu ritenere il numero
medio di volte che il sistema fuoriesce dallo stato i nellunit di tempo.
Detta allora qij la probabilit di passare dallo stato i allo stato j, si ha che la probabilit
di saltare da uno stato i ad uno stato j in un tempo piccolo :

(3.8.14)

Pij ( ) = (1

Pii ( )) qij i qij [+O( 2 )]

La quantit ij = i qij quindi il numero medio di transizioni che si effettuano


nellunit di tempo dallo stato i allo stato j.
D EFINITION 3.8.5. Una catena di Markov tempo continua ammette equilibrio se
al limite di t ! 1 la probabilit che il processo sia fermo su un particolare stato i non
dipende pi dalla variabile tempo, cio se

(3.8.15)

9 lim Pi (t) = pi
t!1

Per tali catene possibile costruire un diagramma delle frequenze di transizione di


stato, che mediante una rappresentazione con nodi ed archi permette di rappresentare
le probabilit di transizione e quelle di permanenza in un determinato stato (vedi figura
3.8.1).

3.8. CENNI SULLE CATENE DI MARKOV

116

12
1

21
32

13

23
31
3

F IGURA 3.8.1. Grafo delle probabilit di transizione per una catena di


Markov tempo continua costituita da soli tre stati
Tali grafi sono governati dal seguente sistema di equazioni lineari (facilmente ricavabile in base alle considerazioni precedenti):

(3.8.16)

X
ii6=j

ji

pj =

X
ii6=j

ij

pi

dove le pi sono le probabilit che il sistema si trovi nello stato i e


di transizioni dallo stato i allo stato j.

ij

il numero medio

CAPITOLO 4

La trasmissione dei segnali


4.1. Introduzione
Il segnale, come si gi detto, una grandezza fisica variabile alla quale associata
una qualche forma di informazione. Linterpretazione di questa informazione, cio del
messaggio che il segnale trasporta quindi normalmente lo scopo dello studio dei
segnali.
Una delle pi comuni situazioni in cui ci si pu trovare quando si ha a che fare
con i segnali quella in cui il segnale presente in un certo punto dello spazio e lo
si vuole invece in un altro punto. Ad esempio se una stazione radio programma della
musica, essa avr la necessit di farla ascoltare al maggior numero di persone. Oppure
se si vuole stampare il risultato di un programma al calcolatore necessario che i dati
raggiungano la stampante. Infine, persino nel caso in cui una sonda asculti il battito
cardiaco di un paziente si pone il problema della trasmissione del segnale: infatti dalla
sonda al macchinario (o al monitor sul quale il medico legge lelettrocardiogramma)
necessario un sistema di trasmissione del segnale cardiaco.
La trasmissione di un segnale quindi uno dei problemi base che bisogna affrontare
quando si studiano i segnali. E anche evidente che questo problema non pu avere
risposta univoca, dato che gli elementi che entrano in gioco nella trasmissione di un
segnale sono molto differenti tra loro, a seconda del tipo di segnale, della distanza tra
trasmettitore e ricevitore, delle caratteristiche vincolanti del progetto, e cos via.
4.2. Generalita sui Sistemi di Trasmissione
Uno schema molto generico di un sistema di trasmissione, a grandi linee comprende sempre i seguenti elementi base:
un trasmettitore, che comprende tutti gli apparati del sistema di trasmissione;
un mezzo trasmissivo, che rappresenta il mezzo fisico (con le sue caratteristiche) sul quale linformazione, sotto forma di una grandezza fisica variabile,
viaggia: ad esempio una tensione su un cavo od unonda elettromagnetica
nello spazio vuoto;
un ricevitore, che comprende tutti gli apparati atti a ricevere il segnale ed ad
estrarne la parte utile, cio quella che trasporta il messaggio.
Il trasmettitore ha il compito di fornire potenza al segnale, in modo che questo abbia
ancora una qualit sufficiente ad essere riconosciuto quando giunge al ricevitore. Il
trasmettitore dunque comprende tutti gli apparati necessari a fornire potenza al segnale
117

4.2. GENERALITA SUI SISTEMI DI TRASMISSIONE

118

e, soprattutto, a renderlo compatibile con i tipi di segnale che possono viaggiare su quel
mezzo trasmissivo.
Il ricevitore ha il compito di ricevere il segnale, cio di prelevarlo dal mezzo
trasmissivo e di estrarne la parte utile, cio quella che trasporta linformazione e di
offrirla allutente nella forma necessaria (ad esempio alle casse di un altoparlante se si
tratta di musica).
MT
Tx

Rx

F IGURA 4.2.1. Schema a blocchi elementare di un sistema di trasmissione


Il mezzo trasmissivo ha il compito di convogliare linformazione tra trasmettitore
e ricevitore. A seconda delle sue caratteristiche si modella il tipo di segnale che deve
viaggiare su di esso.
I mezzi trasmissivi si dividono in due grandi categorie a seconda del modo con cui
trasportano i segnali:
mezzi ad onde convogliate (o non dispersivi)
mezzi ad onde irradiate (o dispersivi)
4.2.1. I mezzi trasmissivi. I mezzi ad onde irradiate sono sostanzialmente latmosfera o lo spazio vuoto. Tra i due tipi di mezzi non vi grande differenza, dato
che questo tipo di trasmissione prevede comunque lirradiazione di onde elettromagnetiche. Tuttavia nel caso dellatmosfera vi possono essere interazioni delle onde con
i gas dellatmosfera, con il vapor dacqua o con la superficie terrestre (tali interazioni
sono in genere molto complesse e non ci soffermeremo su di esse). La trasmissione per
onde elettromagnetiche avviene quindi in modo radiativo, cio al lato trasmettitore e al
lato ricevitore vi sono due antenne che irradiano potenza sotto forma di onde elettromagnetiche. Queste si propagano con una legge che dipende dalla caratteristica radiativa dellantenna trasmittente (oltre che ovviamente dal mezzo). Il caso pi semplice
che si considera quello di antenne isotrope: la potenza del segnale si distribuisce in
modo uguale in tutte le direzioni dello spazio. Quindi londa elettromagnetica viaggia
continuamente sul fronte di una superficie sferica di raggio continuamente crescente.
la sua velocit pari alla velocit delle onde elettromagnetiche nel vuoto (c, detta
anche velocit della luce ed uguale 2.99792458 108 m/s). Ad una distanza R dallantenna trasmittente la potenza per unit di superficie :

(4.2.1)

P =

PT
4R2

4.2. GENERALITA SUI SISTEMI DI TRASMISSIONE

119

Se quindi il ricevitore si trova a distanza R dal trasmettitore, basta moltiplicare questa potenza per larea dellantenna ricevente per ottenere la potenza in ricezione. In
realt nel conto precedente si deve considerare larea efficace, dato che larea fisica
di unantenna non corrisponde esattamente allarea che effettivamente si pu sfruttare
per trasmettere/ricevere le onde e.m. Se poi lantenna trasmittente non isotropa, essa
ha un certo guadagno di direttivit, cio irradia prevalentemente pi potenza in una
direzione piuttosto che in altre. Naturalmente compito del progettista fare in modo
che la potenza irradiata venga fatta convogliare prevalentemente nella direzione in cui
posto il ricevitore. Lequazione diventa allora:

(4.2.2)

PR = PT

GT AR
4R2

sfruttando la relazione che lega area efficace al guadagno dantenna: Aef f = G


ha:

(4.2.3)

PR = PT

si

GT GR 2
(4)2 R2

I mezzi ad onde convogliate sono sostanzialmente tutti i sistemi a cavo. Tra questi
vi sono:

doppino in rame
cavo coassiale
fibra ottica
guide donda

I mezzi ad onde convogliate trasportano la potenza del segnale sotto forma di segnali di
tensione (o corrente) che viaggiano sul mezzo seguendo leggi fisiche differenti a seconda del tipo di mezzo con cui abbiamo a che fare. Questi tipi di mezzo trasmissivo
non possono essere studiati nello stesso modo dei circuiti a parametri concentrati, dato
che le loro dimensioni fisiche sono in genere molto maggiori della lunghezza donda
del segnale che convogliano. Per essi quindi si fa lipotesi di mezzo a costanti distribuite: cio resistenza, induttanza e capacit sono distribuite uniformemente lungo
la linea. Per lanalisi si suppone che, considerando un tratto infinitesimo di linea, dx,
la sezione esaminata sia a parametri concentrati e si suppone inoltre che la linea sia
uniforme, cio che questi parametri non varino lungo la linea stessa.
A causa della presenza di elementi dissipativi allinterno di una linea di trasmissione, anche per i mezzi non dispersivi la potenza cala lungo il percorso del mezzo.

4.2. GENERALITA SUI SISTEMI DI TRASMISSIONE

120

In particolare, se si suppongono costanti i parametri caratteristici del mezzo, la potenza decresce in modo lineare con la distanza in unit logaritmiche: PR = PT /10tot .
Cio la potenza ricevuta si pu scrivere come potenza trasmessa meno lattenuazione
specifica per unit di distanza moltiplicato per la distanza, purch le potenze vengano
espresse in dB:

(4.2.4)

P R = PT

s l

Per i conduttori in metallo (ad esempio il rame) lattenuazione varia anche con la frequenza dutilizzo (a causa delleffetto pelle):

(4.2.5)

s = r

f
fr

dove r lattenuazione ad una frequenza di riferimento fr (le attenuazioni sono


misurate in dB).
Nella tabella sono riportate le caratteristiche salienti dei pi comuni mezzi trasmissivi
Mezzo

Caratteristica

Variazione dell attenuazione con


la distanza

Vuoto
Atmosfera
doppino,cavo coassiale
Fibra ottica

dispersivo
dispersivo
non dispersivo
non dispersivo

1/R2
complessa 1/R2
esponenziale
esponenziale

Banda dutilizzo
passa banda
passa banda
passa basso
passa banda

Nellultima colonna stata anche riportata una delle caratteristiche fondamentali dei
mezzi trasmissivi: cio qual la loro banda prevalente dutilizzo, cio la banda di
frequenze dove essi esibiscono una minore attenuazione (per fare in modo da dover
utilizzare meno potenza per lo stesso segnale). I mezzi dispersivi sono ovviamente
passa banda (le onde elettromagnetiche hanno necessit di oscillare e quindi di avere
frequenza non nulla per potersi propagare). I mezzi metallici sono prevalentemente
passa basso a causa delleffetto pelle visto precedentemente: infatti allaumentare della
frequenza essi esibiscono una attenuazione sempre maggiore (che cresce esponenzialmente). Infine le fibre ottiche sono cos dette a causa del loro migliore comportamento
(unattenuazione specifica di circa 0.2 dB per Km) alle frequenze ottiche (nellordine
del migliaio di T Hz).

4.2. GENERALITA SUI SISTEMI DI TRASMISSIONE

121

4.2.2. Equalizzazione dei mezzi trasmissivi. Dalla rapida analisi dei mezzi trasmissivi non per emerso qual lo scopo fondamentale di un mezzo trasmissivo: quello
di convogliare linformazione in modo da lasciarla immutata.
Dato in ingresso ad un mezzo trasmissivo ideale un segnale s(t), al pi ci aspettiamo che il segnale di uscita si sia attenuato (ed inevitabile) e ritardato (a causa della
velocit di propagazione finita). La forma del segnale di uscita quindi

(4.2.6)

k s(t

to )

a cui corrisponde una funzione di trasferimento pari a:


(4.2.7)

H(f ) = k e

j!to

Il mezzo trasmissivo ideale ha quindi ampiezza costante dello spettro e fase che varia
linearmente. Si pu parlare di funzione di trasferimento del mezzo trasmissivo ideale
perch si suppone che esso sia lineare e che le sue caratteristiche non variano nel tempo
(tempo-invariante).
I mezzi reali tuttavia si discostano molto dal comportamento ideale. Prima di tutto
essi sono solo approssimatamente lineari (o lo sono solo per un determinato range
di ampiezze del segnale), le loro caratteristiche variano nel tempo a causa di molte
condizioni esterne (quindi sono lentamente tempo varianti), infine la loro funzione di
trasferimento (ricavabile con le approssimazioni di linearit e tempo invarianza) non
quella del mezzo ideale.
La prima operazione che si effettua in ricezione allora lequalizzazione del mezzo trasmissivo. Detta Ht (f ) la funzione di trasferimento del mezzo (ricavabile con
le approssimazioni viste), lequalizzazione un filtraggio effettuato per compensare
leffetto del mezzo trasmissivo:

(4.2.8)

Heq (f ) =

k e j!to
Ht (f )

Naturalmente, affinch si possa effettuare unequalizzazione del mezzo necessario


che il mezzo trasmissivo sia lineare, tempo invariante (una lenta tempo varianza
ammessa, purch in ricezione lequalizzazione si possa adattare a questa tempo varianza) e che si conosca il comportamento in frequenza del mezzo, cio la Ht (f ).
Se il mezzo non lineare compaiono termini armonici spuri, anche dove il segnale non ha componenti spettrali (distorsione non lineare). Le componenti spettrali
spurie possono essere filtrate, sempre che esse siano allesterno della banda del segnale, altrimenti non pi possibile distinguerle dal segnale stesso in uscita dal mezzo

4.3. TRASMISSIONE ANALOGICA E NUMERICA

122

trasmissivo. Inoltre, poich una non linearit si pu sempre approssimare con uno
sviluppo in serie di Taylor di ordine opportunamente elevato, pu essere istruttivo
vedere cosa accade quando un segnale passa attraverso un semplice quadratore, la pi
semplice delle non linearit. Questo dispositivo non lineare effettua il quadrato del
segnale che gli proviene allingresso: Y = X 2 . Ad un prodotto nei tempi corrisponde
una convoluzione nelle frequenze: Y (f ) = X(f ) X(f ), con conseguente raddoppio
della banda del segnale e mescolamento delle componenti armoniche.
Si ricordi infine che un mezzo trasmissivo reale introduce sempre una qualche
forma di disturbo sul segnale immesso. In ricezione dunque, oltre al segnale (distorto
o modificato dal mezzo) saranno sempre presenti una serie di segnali indesiderati,
legati in modo pi o meno complesso allinformazione. A tali tipi di disturbo si d il
nome generico di rumore.
4.3. Trasmissione Analogica e Numerica
Una prima grande distinzione tra i sistemi di trasmissione si ha a seconda del
segnale che si vuole trasmettere: se il segnale analogico o se il segnale numerico.
La trasmissione numerica da anni diventata pi popolare e conveniente della
trasmisione analogica per pi motivi. Il motivo fondamentale sta nel fatto che nella
trasmissione numerica la struttura del trasmettitore/ricevitore non cambia al variare
del segnale che si codifica o della sequenza di simboli che si devono trasmettere; al
contrario nella trasmissione analogica il sistema varia a seconda delle caratteristiche
del segnale. Inoltre nella trasmissione numerica si riesce a controllare con maggior
precisione lentit dei disturbi che inevitabilmente influenzano il segnale durante la
trasmissione. La trasmissione numerica inoltre permette un risparmio di potenza a
parit di informazione convogliata o, equivalentemente, una maggiore informazione
a parit di potenza in trasmissione. La trasmissione numerica, rispetto allanalogica,
tuttavia, richiede uno schema di trasmissione/ricezione pi complesso; si tenga conto
per che gli schemi di trasmissione numerica sono standardizzati ormai da anni e in
commercio esistono apparati economici per le pi svariate esigenze e soluzioni.
Dalla rapida analisi dei mezzi di trasmissione fatta precedentemente emersa una
caratteristica importante: i mezzi di trasmissione sono intrinsecamente analogici: cio
non possibile trasmettere su di essi dei segnali di tipo discreto, n tanto meno numeri.
Allora che cosa significa fare la distinzione tra trasmissione analogica e trasmissione
numerica ?
Nella trasmissione analogica linformazione che si trasmette la forma del segnale
stesso, cos come questo generato sul lato del trasmettitore (ad esempio un segnale
musicale generato da uno strumento).
Nella trasmissione numerica invece si effettuano una serie di operazioni sul segnale
sino a codificarlo in una serie di simboli. Una volta che sono stati ottenuti i simboli
si effettua la trasmissione di forme donda analogiche (perch altro non pu essere),
ma che, a differenza del caso precedente, sono rappresentative dei simboli codificati e
non della forma donda originaria. Addirittura possibile che il segnale analogico di

4.4. IL CAMPIONAMENTO

123

partenza non esista affatto: si pensi al caso della trasmissione di dati da un computer
ad una stampante, dove i simboli da trasmettere sono una sequenza di zeri e di uno.
Ritornando tuttavia al caso in cui si voglia trasmettere in modo numerico un segnale analogico, necessario fare su di esso una serie di operazioni per renderlo numerico. Queste operazioni naturalmente devono avere la caratteristica di essere invertibili:
cio al lato del ricevitore deve essere possibile tornare indietro, in modo da avere a
disposizione nuovamente il segnale originario o comunque qualcosa che gli assomigli
abbastanza per lutilizzo a cui destinato.
Le tre operazioni che si effettuano al lato trasmittente per rendere numerico un segnale analogico sono, nellordine, il filtraggio, il campionamento e la quantizzazione.
Cominciamo con lanalizzare il campionamento.
4.4. Il Campionamento
Dato un segnale analogico loperazione di campionamento consiste nellestrarre
una serie di campioni, cio i valori del segnale in posizioni equispaziate (anche se
esistono casi di campionamento a passo non costante). Dalloperazione di campionamento si ha cio una serie di numeri reali che rappresentano i campioni del segnale. In
figura 4.4.1 illustrata lestrazione dei campioni dal segnale analogico s(t).
s(t)

0
T

F IGURA 4.4.1. Campionamento di un segnale


Quando il campionamento avviene a passo regolare (e ci accade nella stragrande
maggioranza dei casi), il passo di campionamento T rappresenta lintervallo con cui
si spaziano i campioni, mentre detta frequenza di campionamento il reciproco di T :
fc = 1/T . Intuitivamente si pu gi capire che aumentando il numero di campioni
e quindi diminuendo il passo di campionamento, migliora la descrizione del segnale
analogico. Al limite con T ! 0 avremmo una descrizione perfetta del segnale di
partenza. In una situazione del genere naturalmente non saremmo per in grado di
gestire i campioni del segnale, dato che, anche per un intervallo di tempo piccolo,
avremmo un numero infinito di campioni. Si tratta allora di stabilire quale pu essere
il passo di campionamento pi grande che si pu utilizzare senza perdere informazione

4.4. IL CAMPIONAMENTO

124

del segnale, per fare in modo, cio, che esso possa essere ricostruito a partire dai suoi
campioni.
Cominciamo allora a dare una descrizione matematica del campionamento. Una
delle propriet dellimpulso, come si avuto modo di vedere, quella di estrarre un
campione del segnale, quando applicato nella posizione di estrazione:

(4.4.1)

s(t) (t

) = s( ) (t

Infatti la relazione precedente, sebbene pi corretta sotto il segno di integrale, ci dice


che se moltiplichiamo un impulso in per il segnale s(t), otteniamo un impulso di
area s( ) nella stessa posizione.
Dato allora un segnale s(t), il segnale campionato a passo T , sc (t), ha la seguente
rappresentazione:

(4.4.2)

sc (t) = s(t)

+1
X

(t

nT )

n= 1

cio una sequenza di impulsi equispaziati di area pari allampiezza del segnale nelle
posizioni nT . Proviamo ad effettuare la trasformata di Fourier del segnale campionato.

Sc (f ) = = {sc (t)} = S(f ) ? =

(4.4.3)

= S(f ) ?

+1
1 X
(f
T k= 1

+1
X

(t

nT )

n= 1

+1
k
1 X
)=
S(f
T
T k= 1

k
)
T

Lo spettro del segnale campionato la somma di tutte le repliche, a passo 1/T , dello
spettro del segnale di partenza; le repliche vanno da 1 a +1. Una rappresentazione
dello spettro di un segnale campionato riportata in figura 4.4.2.

4.4. IL CAMPIONAMENTO

125

S(f)

f
Sc (f)

0
fc

fc

2 fc

F IGURA 4.4.2. Spettro del segnale di partenza e della sua versione campionata

Da questa semplice osservazione si pu immediatamente dedurre qual la condizione sufficiente affinch un segnale campionato possa essere ricostruito, cio si
possano ottenere dai campioni il segnale di partenza analogico. La condizione da
verificare che la banda unilatera del segnale sia inferiore a met della frequenza di campionamento, oppure che la banda bilatera sia inferiore alla frequenza di
campionamento:

(4.4.4)

2Bs fc
Bt fc

La met della frequenza di campionamento detta frequenza di Nyquist. Lo spettro


di un segnale campionato esiste quindi solo allinterno dellintervallo [ fc /2, fc /2],
poi si ripete periodicamente uguale a s stesso. Se la condizione precedente non verificata il segnale di partenza non pu essere pi ricostruito poich le repliche spettrali
si sovrappongono in modo tale da non poter essere pi distinte tra loro. In tal caso
si dice che il segnale stato aliasato o che lo spettro del segnale campionato presenta
aliasing (equivocazione). Si veda a tale proposito la figura 4.4.3.

4.4. IL CAMPIONAMENTO

126

S(f)

f
Sc (f)

aliasing
0
f
c

fc

2fc

F IGURA 4.4.3. Spettro del segnale di partenza e della sua versione


campionata in presenza di alias
Dato un segnale analogico si supponga di volerlo trasmettere in forma numerica. Il
primo problema che ci dobbiamo porre : a quale frequenza lo devo campionare ? E
infatti molto probabile che lo spettro del segnale non sia limitato come negli esempi.
A rigore quindi la frequenza di campionamento dovrebbe essere infinita. In realt,
sulla base di considerazioni energetiche, si riesce comunque a stabilire una frequenza
di campionamento.
Ad esempio il segnale vocale compreso in una banda che va da circa 20 Hz a
circa 20 KHz. Quindi se si sceglie una frequenza di campionamento di, per esempio, 50 KHz, si sicuri di non commettere equivocazione sullo spettro del segnale
campionato.
Un modo per evitare sicuramente aliasing quello di filtrare il segnale prima di
campionarlo. Facendo passare il segnale attraverso un filtro passa basso di banda B,
si sicuri che tutte le frequenze al di l di B sono state abbattute. Successivamente il
segnale pu essere campionato ad una qualunque frequenza purch questa sia 2B.
Si supponga ora che il segnale numerico sia arrivato al ricevitore il quale si pone
il problema di riottenere il segnale analogico dai campioni di partenza. A questa operazione dato il nome di ricostruzione del segnale analogico. Se si osserva la figura,
la cosa pi ovvia quella di filtrare via, dallo spettro del segnale campionato, tutte
le repliche spettrali che non fanno parte dello spettro del segnale di partenza. A tale
proposito, per manterere inalterato lo spettro del segnale di partenza, si usa il filtro
passa basso ideale (cio un rettangolo di ampiezza 1) di banda fc /2 (vedi in figura
4.4.4).

4.4. IL CAMPIONAMENTO

127

S(f)

0
fc /2

+fc /2

F IGURA 4.4.4. Ricostruzione del segnale analogico


Il filtro passa basso ideale permette di far passare in modo inalterato tutto ci che
sta tra fc /2 ed fc /2, cio nel periodo fondamentale, eliminando in modo perfetto
tutto quello che sta al di fuori. Naturalmente il segnale analogico che si ricostruisce
quello che si ha a valle del filtro in trasmissione, dato che ci che viene eliminato da
quel filtro definitivamente perso.
Il filtro ricostruttore ideale ha la seguente forma analitica:

(4.4.5)

H(f ) = rect(

f
)
fc

quindi la sua risposta allimpulso quella di un seno cardinale:

(4.4.6)

h(t) =

1
t
sinc( )
T
T

avendo posto T = 1/fc . Proviamo allora a vedere analiticamente loperazione di ricostruzione:

1
sr (t) = sc (t) ? h(t) =
T
(4.4.7)

+1
1

+1
X

n= 1

s( ) (

nT )sinc(

)d =

+1
1 X
t nT
=
s(nT ) sinc(
)
T n= 1
T

Loperazione di ricostruzione si effettua quindi calcolando, nella posizione generica t,

4.4. IL CAMPIONAMENTO

128

il valore che assume la somma dei prodotti che si ottengono moltiplicando i campioni
del segnale per la funzione seno cardinale centrata in ciascuno dei campioni. Poich
inotre la funzione seno cardinale pari, la formula precedente pu anche essere scritta
come:
+1
1 X
nT t
sr (t) =
s(nT ) sinc(
)
T n= 1
T

il cui significato pu anche essere inteso nel modo seguente: il segnale ricostruito nella
posizione generica t si ottiene come somma dei prodotti tra i campioni e il valore che
assume la funzione seno cardinale nelle posizioni di campionamento quando questa
posta in t. Entrambe le interpretazioni sono riassunte in figura 4.4.5.

s(1)

s(2)
1.5

2
1.5

s(0)

s(3)

t s(1)

0.5

s(2)
0.5

0.5

0.5

s(3)

F IGURA 4.4.5. Rappresentazione grafica della ricostruzione del


segnale analogico a partire dai suoi campioni
La casistica e le difficolt nel campionamento di un segnale analogico non si esauriscono
qui: infatti si considerato solo il caso pi semplice di segnale di partenza con banda
concentrata dalla frequenza zero sino ad un certo valore massimo (segnale passa basso). Nel caso di segnali passa banda le cose sono leggermente differenti, anche se il
teorema del campionamento continua a valere.
Infine si osservi che, a rigore, un campionamento perfetto impossibile dato che
dovrebbe esistere un sistema in grado di estrarre linformazione del segnale in una
posizione istantanea. La maggior parte dei campionatori funziona approssimando il
comportamento sopra descritto: listante di campionamento diventa in realt un periodo di osservazione del segnale, durante il quale si effettua una sorta di media del
segnale stesso. Se questo periodo molto pi piccolo del periodo di campionamento
si pu ritenere corretta lapprossimazione di campionamento ideale. In figura 4.4.6
mostrato un campionamento reale.

4.5. LA QUANTIZZAZIONE

129

s(t)

0
T

F IGURA 4.4.6. Campionamento reale


Un campionamento reale si pu sempre schematizzare quindi come un campionamento
ideale preceduto da un filtro la cui risposta allimpulso il rettangolo alto 1 e di durata
, con T . Poich la trasformata di questo rettangolo un sinc con il primo zero
in 1/ , leffetto di un campionamento reale quello di fare leggero un filtraggio passa
basso del segnale prima di campionarlo.
4.5. La Quantizzazione
Dopo il campionamento si ha la serie di campioni del segnale. Questi altro non
sono che numeri reali, e quindi come tali, non rappresentabili su calcolatore o in
un sistema a logica digitale. Loperazione successiva al campionamento la quantizzazione. La quantizzazione consiste nel trasformare un numero reale in un altro
numero, scelto con un certo criterio, tra un certo insieme finito di valori. Poich infatti laritmetica del calcolatore finita, essa in grado di descrivere solo numeri con
una precisione finita. E necessario allora trasformare il numero reale estratto dal
campionatore in un numero a precisione finita, tra un certo insieme di valori possibili.
Da qui si capisce bene che la quantizzazione unoperazione irreversibile: infatti
una volta trasformato, il numero reale non pu pi essere ricostruito con precisione, dato che la sua informazione perduta per sempre. Naturalmente la trasmissione numerica possibile e funziona perch la quantizzazione viene fatta con criterio. Cominciamo
con lanalizzare quindi gli elementi della quantizzazione.
Il principio su cui si basa la quantizzazione il seguente: se i campioni del segnale
si quantizzano con un numero sufficiente di livelli (i possibili valori che il campione
pu assumere), allora leffetto di perdita che si ha a causa dellirreversibilit della
quantizzazione accettabile. Naturalmente si tratta di mettere in relazione questo
effetto di perdita con il numero di livelli e con le caratteristiche del segnale se si vuole
quantificare leffetto distorsivo della quantizzazione.
La quantizzazione caratterizzata dalla massima escursione dei campioni del segnale (o dinamica) e dal numero di livelli con i quali si vuole effettuare la quantizzazione
stessa. Poich la quantizzazione legata sempre allelaborazione del segnale allinterno di sistemi a logica binaria, conveniente quantizzare con un numero di livelli pari
ad una potenza del due: infatti in questo modo possibile descrivere un campione
come una sequenza di bit sempre della stessa lunghezza. Se ad esempio decidiamo di

4.5. LA QUANTIZZAZIONE

130

descrivere un campione con 8 bit, non ha senso utilizzare, ad esempio, solo 180 livelli per descrivere il segnale: sarebbe meglio utilizzarne il numero massimo consentito
dal numero di bit utilizzato (28 = 256). In questo modo usiamo comunque 8 bit per
descrivere i singoli campioni, e allo stesso tempo la descrizione del campione risulter
pi precisa.
La cosa pi logica da fare quando si effettua la descrizione del campione con i
livelli, quella di approssimarlo con il livello pi vicino, in modo da minimizzare
lerrore che inevitabilmente si commette nel quantizzare un segnale. In figura 4.5.1
risportato lo schema generale della quantizzazione
Q
...
011
010
001
000

dinamica

100
...

F IGURA 4.5.1. Schema della quantizzazione


I livelli sono codificati con una sequenza di bit scelta opportunamente. Ad esempio si
pu decidere di partire dal livello pi basso numerandolo come livello 0 e di giungere
a quello pi alto che avr valore 2n 1. Quindi i bit assegnati ai singoli livelli altro
non sono che la trasformazione binaria dei numeri assegnati ai livelli. Tale tipo di
corrispondenza, almeno teoricamente, puramente convenzionale, ma in realt per
motivi di convenienza si effettuano sempre e solo alcuni tipi di trasformazione, poich
questi permettono, in fase di ricezione, una pi veloce ricostruzione del livello da
assegnare al campione.
Anche la dinamica del segnale e la sua statistica ha la sua influenza sulla scelta
del numero di livelli e sulla dimensione del salto. Infatti si supponga di avere a che
fare con un segnale che per la maggior parte del tempo si mantiene a valori bassi
e che saltuariamente presenta picchi elevati. Se si volesse quantizzare tale segnale,
cercando di descrivere anche i picchi pi alti, si perderebbe inevitabilmente parte della
precisione nel descrivere il segnale quando questo presenta livelli bassi. Meglio in
tale situazione rinunciare alla descrizione del segnale quando salta e descrivere con
pi precisione la dinamica che il segnale occupa per la maggior parte del tempo. I
picchi saranno descritti con il livello massimo del segnale, e quindi una volta ricostruiti
risulteranno mozzati. Tale effetto noto con il nome di saturazione.

4.5. LA QUANTIZZAZIONE

131

Si supponga ora di avere a che fare con un processo aleatorio e stazionario, a media
nulla. Il campionamento di una delle sue realizzazioni d luogo, per ogni campione,
ad una variabile aleatoria, la cui densit di probabilit sia f (x). Si supponga inoltre
che la dinamica della variabile aleatoria sia [ a, a]. Detto allora Q il numero di livelli,
lampiezza del quanto o intervallino di quantizzazione :

(4.5.1)

2a
Q

I bordi degli intervallini si trovano in xi =


livelli hanno valore:
(4.5.2)

xq =

xi + xi
2

a+i

a+i

, i = 0, ..., Q, mentre i singoli

i = 1, ..., Q

In questo modo minimizzo lerrore di quantizzazione, dato che, ponendo il livello a


met tra due salti lerrore di quantizzazione massimo si commette se al pi il campione
ha un valore pari ad uno dei bordi. In questo caso estremo lerrore di quantizzazione
pari a met livello: 2 .
Per rendere quantitativo leffetto distorcitivo della quantizzazione possibile
misurare lerrore quadratico medio che si commette nello scegliere i livelli di quantizzazione piuttosto che il valore dei campioni (lerrore medio ci si aspetta sia nullo,
dato che c pari probabilit del campione di presentarsi poco pi sopra o poco pi
sotto del livello):

Nq = E (x

xq )

+a

(x

xq ) f (x)dx =

Q Z
X
i=1

xi

xi

(x

xq )2 f (x)dx =

A questo punto la risoluzione dellintegrale si pu effettuare solo se si conosce la statistica del processo. Una delle ipotesi semplificatrici che si fa molte volte quella di
supporre la statistica del segnale uniforme sulla dinamica considerata. Cio si suppone
f (x) una v.a. uniforme nellintervallo [ a, a]:
1
x 2 [ a, a]
2a
f (x) =
0
altrove
Q Z a+i
X
1
Nq =
(x + a i + )2 dx =
2 2a
a+(i 1)
i=1
(4.5.3)

Q Z
X
i=1

+ /2

y2
/2

2
1
dy =
2a
12

4.5. LA QUANTIZZAZIONE

132

Questa quantit va confrontata con la potenza del segnale, dato che, essendo un disturbo, esso pi o meno forte a seconda del livello di potenza che il segnale possiede
(non ha senso chiedersi il livello di un disturbo se non lo si confronta con il livello del
segnale disturbato):

(4.5.4)

Sx =

+a

1
a2
dx =
x
2a
3
2

a
2

Poich risulta: a = Q2 , allora Sx = Q12 . Il rapporto tra la potenza del segnale e


il valore quadratico medio dellerrore di quantizzazione detto rapporto segnale rumore di quantizzazione e vale:
Sx
= Q2
Nq

(4.5.5)

uguale quindi al quadrato del numero di intervalli. Questo conferma quanto gi


qualitativamente si era intuito: aumentando il numero di intervalli la descrizione dei
campioni del segnale avviene sempre pi precisamente. Se poi il numero di intervalli
Sx
una potenza del due il rapporto segnale rumore di quantizzazione vale: N
= 22n ,
q
che espresso in dB :
Sx
Nq

dB

= 10 log10 22n ' 6.02 n dB

Il rapporto segnale rumore aumenta in conclusione di circa 6dB per ogni bit di quantizzazione in pi.
4.5.1. Quantizzazione non lineare. Per il calcolo del rapporto segnale rumore di
quantizzazione si supposto precedentemente che la statistica del processo sia uniforme nella dinamica in cui si suppongono presenti i campioni del segnale. Tuttavia
questo normalmente non vero. Si pone quindi il problema di trovare il rapporto segnale rumore nel caso generale, e, ancora prima, di verificare se il metodo di
quantizzazione proposto lottimale.
Si supponga di avere un processo a media nulla e con una densit di probabilit
molto concentrata attorno allorigine, come potrebbe essere ad esempio un processo
gaussiano con varianza molto piccola. In tal caso le singole realizzazioni del processo, pur potendo in linea teorica avere una dinamica molto elevata, nella maggior
parte del tempo non si discosteranno in modo significativo dallo zero. Per le realizzazioni (e quindi per i campioni) di quel processo, pi probabile un valore piccolo

4.5. LA QUANTIZZAZIONE

133

che uno grande. Si tenga inoltre conto che, essendo il processo un processo gaussiano, la dinamica del segnale infinita, il segnale cio pu avere una escursione anche estremamente grande, sebbene questo evento ha una probabilit molto remota di
accadere.
Si tratta allora di trovare qual la quantizzazione ottima per questo tipo di processo, dove lottimo sta nella massimizzazione del rapporto segnale rumore di quantizzazione.
Quando si quantizzano i campioni di questo processo necessariamente si dovr
scegliere una dinamica finita entro cui far variare il processo, pur essendo questo a
dinamica teoricamente infinita. La descrizione che daremo del processo una descrizione in qualche modo mozzata: quando il campione assume cio un valore che
maggiore del valore della dinamica scelta, esso viene posto pari al valore massimo.
Questa descrizione ragionevole, purch questo evento sia molto remoto.
Per un processo gaussiano per esempio possiamo porre la dinamica pari a 3 volte la
deviazione standard, dato che un processo con densit di probabilit gaussiana ha una
probabilit di superare in escursione 3 pari ad appena lo 0.03%. Scelta la dinamica
si devono scegliere il numero di livelli. Questa normalmente una scelta legata alle
caratteristiche dellhardware, ed quindi limitata da altre considerazioni (il numero di
bit del sistema che effettua la transizione analogico-digitale).

F IGURA 4.5.2. Confronto tra una quantizzazione lineare ed una non lineare
Infine si deve decidere come dividere la dinamica tra i vari livelli. Infatti finora
si implicitamente supposto che la dinamica sia divisa equamente tra i vari livelli,
ma questa solo una possibilit. Unaltra possibilit sta nel dividere i livelli in modo da assegnare livelli pi piccoli dove il segnale pi probabile. In questo modo
la descrizione dei campioni che pi probabilmente occorrono pi precisa, mentre la
descrizione dei campioni pi rari perde di precisione. Complessivamente per questa quantizzazione, detta non lineare, risulta vantaggiosa e permette di migliorare il
rapporto segnale rumore di quantizzazione.

4.6. IL CANALE BINARIO

134

Pi precisamente la divisione tra livelli si fa in modo tale da suddividere lescursione della dinamica in intervalli che contengano la stessa area della funzione densit
di probabilit. Dove la densit di probabilit risulta elevata (evento pi probabile) sar
necessaria una suddivisione pi fine e quindi livelli pi piccoli; al contrario dove la
densit di probabilit pi bassa livelli pi ampi (vedi in figura 4.5.3 lesempio per
una gaussiana).
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
8

F IGURA 4.5.3. Quantizzazione non lineare di un processo gaussiano


4.6. Il Canale Binario
In un sistema di trasmissione numerico, i vari blocchi funzionali introdotti (filtraggio, campionamento, quantizzazione) servono a generare bit, che poi sono linformazione che si trasmette. Generalizzando questo concetto potremmo dire che in
un sistema di trasmissione numerico sono generati N differenti simboli, mentre al
ricevitore ne giungono M (vedi figura 4.6.1).
a1
a2

P(b 1R/a1 T)

...

...

aN

b1
b2
...

...

bM

F IGURA 4.6.1. Schematizzazione della trasmissione numerica


Se il canale fosse senza errori, avremmo N = M ed inoltre, alla trasmissione di ai
avremmo la ricezione con probabilit 1 di bi : P (bi R/ai T ) = 1 e P (bi R/aj T ) = 0 se
j 6= i. In un canale ideale lalfabeto dei simboli in ingresso uguale in numero a quello
dei simboli in uscita, dato che il canale non introduce equivocazione e quindi non c
possibilit di scambiare un simbolo per un altro o di dover introdurre altri simboli per
indicare situazioni indecidibili (simboli di cancellazione).

4.6. IL CANALE BINARIO

135

Se il numero di simboli trasmessi e ricevuti pari a due, allora il sistema si semplifica e si ha il canale binario (figura 4.6.2). Nel canale binario ideale si suppone di
avere due soli simboli in ingresso (che possono essere lo 0 e l1) e due soli simboli in
uscita.
a0
p1

a1

p0

q0

q1

b0
b1

F IGURA 4.6.2. Canale binario ideale


Senza perdere di generalit si pu supporre che a0 = 0 e a1 = 1, inoltre che b0 = 0 e
b1 = 1. Le probabilit di trasmissione corretta o errata sono quindi:
8
q = P (0R/0T )
>
>
< 0
q1 = P (1R/1T )
p
>
0 = P (1R/0T )
>
: p = P (0R/1T )
1

(4.6.1)

Le probabilit di errore, dette anche probabilit di transizione, si devono supporre


genericamente differenti. Inoltre i simboli in trasmissione sono emessi con probabilit pari a: P (0T ) = P0 e P (1T ) = P1 . Il canale si dice binario e simmetrico
quando la probabilit derrore uguale, cio non fa distizioni tra i simboli trasmessi:
p0 = p1 = p. Poich ogni simbolo trasmesso pu essere ricevuto in uno di due modi
possibili, si ha:

(4.6.2)

q0 + p 0 = 1
q1 + p 1 = 1

Per un canale binario la probabilit derrore la probabilit che, trasmesso un simbolo,


il simbolo ricevuto sia differente:
\
\
P (E) = P (E
0T ) + P (E
1T ) = P (E/0T ) P (0T ) + P (E/1T ) P (1T ) =
(4.6.3)

= P (1R/0T ) P (0T ) + P (0R/1T ) P (1T ) = p0 P0 + p1 P1

Se il canale simmetrico si ha:


(4.6.4)

P (E) = p(P0 + P1 ) = p

4.6. IL CANALE BINARIO

136

Vediamo invece quali sono le probabilit di ricevere i due simboli:

(4.6.5)

P (0R) = P (0R/0T ) P (0T ) + P (0R/1T ) P (1T ) = q0 P0 + p1 P1

(4.6.6)

P (1R) = P (1R/0T ) P (0T ) + P (1R/1T ) P (1T ) = p0 P0 + q1 P1

Lerrore sul canale binario pu essere abbassato ricorrendo in trasmissione ad alcuni


accorgimenti, che consistono generalmente nel modificare il bit trasmesso (o una sequenza di bit) in modo che questo risulti meno equivocabile con laltro simbolo. A
tale sistema si d il nome generico di codifica di sorgente. Lo schema di un sistema di
trasmissione numerico pu quindi riassumersi nella figura 4.6.3, dove ad ogni blocco
funzionale in trasmissione ne corrisponde uno in ricezione.
Per sorgente si suppone un qualche sistema che emetta bit, comunque questi siano
stati generati (campionando e quantizzando un segnale analogico o da un generatore
di dati binari come potrebbe essere la porta di un calcolatore). La codifica di sorgente
, come gi detto, un qualche sistema che dato un certo numero di bit, decide quale
sequenza di bit o quale simbolo trasmettere. Il suo scopo di rendere minimo lerrore
di trasmissione senza rendere troppo complessa limplementazione. Infine la codifica
di canale linsieme di sistemi che, presi i singoli simboli, ne associano la forma
donda corrispondente da mandare nel mezzo trasmissivo. In ricezione si fanno le
operazioni contrarie sino ad ottenere linformazione trasmessa.

Codifica di
sorgente

Codifica di
canale

Canale

Decodifica di
canale

Decodifica di
sorgente

F IGURA 4.6.3. Schema a blocchi di una trasmissione numerica


In figura stato quadrettata la parte che riguarda direttamente un canale binario:
per un canale binario la complessit che sta dietro la trasmissione attraverso il mezzo
trasmissivo nascosta, dato che esso vede solo bit trasmessi e ricevuti.
4.6.1. Codice a ripetizione. Tra i vari metodi di codifica di sorgente vi quello
della codifica a ripetizione. Supponiamo di avere un canale binario simmetrico. Per
ogni bit emesso dalla sorgente, nel canale sono trasmessi 2n + 1 bit. La velocit
di trasmissione evidentemente ridotta di un fattore 2n + 1, tuttavia anche lerrore
notevolmente minimizzato, dato che il ricevitore lavorer a maggioranza: esso attende

4.6. IL CANALE BINARIO

137

i 2n + 1 bit e poi decide il simbolo in base a quello che in questa sequenza si presenta
pi spesso. la probabilit di sbagliare la probabilit che nella sequenza siano stati
sbagliati almeno n + 1 bit tra i 2n + 1 trasmessi.
Esempio: sequenza da trasmettere: 0 1 1 0 1, sequenza effettivamente trasmessa con n = 1: 000 111 111 000 111.
La sequenza di bit in ricezione si pu vedere come un processo di Bernoulli, dato
che i simboli arrivano indipedentemente uno dallaltro e possono assumere solo due
valori (0 e 1). In realt una certa dipendenza statistica c, dato che 2n + 1 bit dovrebbero avere lo stesso valore. Tuttavia la presenza del rumore sul canale rende del tutto
casuale il valore che il bit assumer in ricezione.
La probabilit di errore su un bit allora la probabilit che siano stati sbagliati o
n + 1 bit, oppure n + 2 bit, e cos via sino a 2n + 1:

(4.6.7)

P (E1 ) =

2n+1
X

k=n+1

2n + 1
k

pk (1

p)2n+1

4.6.2. Codice a controllo di parit. Nel codice a controllo di parit il codificatore


di sorgente aspetta di ricevere n 1 bit per trasmetterne n: esso cio ne aggiunge solo
uno in pi, diminuendo la velocit di trasmissione di n/(n 1). La regola con cui tale
bit aggiunto la seguente: se il numero di bit pari ad 1 nella sequenza lunga n 1
dispari, si aggiunge un 1, in modo da renderlo pari, altrimenti si aggiunge uno zero.
Questa codifica detta a parit pari, dato che assicura sempre un numero di 1 pari
nella sequenza di n bit. Lalternativa consiste nellavere un numero sempre dispari di
1 nella sequenza di n bit ed chiamata parit dispari.
Ad esempio sia n = 7 e si abbia la sequenza: 0011010. Se vogliamo trasmettere a
parit pari dovremo trasmettere la sequenza: 00110101. Supponiamo ora che durante
la trasmissione sul mezzo lerrore sia avvenuto su un solo bit, ad esempio il terzo:
00010101. In ricezione ci si accorge dellerrore, dato che il ricevitore aspetta la sequenza di n bit per verificare se il numero di 1 pari (per poi scartare lultimo bit che
serve solo da controllo e non rappresenta informazione). Tuttavia questo sistema un
sistema di rivelazione e non correzione dellerrore, dato che, dopo la scoperta dellerrore il ricevitore non in grado di stabilire quale tra i bit trasmessi errato. A questo
punto per ha varie alternative: richiesta di trasmissione, scartare la sequenza, e cos
via. Lerrore inoltre si scopre solo perch nella sequenza stato sbagliato un solo bit
(o in generale un numero dispari). Se i bit sbagliati fossero stati due (o in generale un
numero pari) il ricevitore non in grado di stabilire nemmeno che c un errore, nello
stesso modo in cui nel codice a ripetizione se lerrore avviene su un numero sufficiente
di bit il ricevitore equivoca il simbolo trasmesso.

4.6. IL CANALE BINARIO

138

Tuttavia il sistema di codifica a parit funziona molto bene dato che normalmente
lerrore di trasmissione su singolo bit molto minore di 1. Questo comporta che a
fronte di un sistema di codifica molto semplice ed efficiente lerrore su pi di un bit in
una sequenza un evento molto pi remoto dellerrore sul singolo bit.
La probabilit che lerrore non sia rivelato dal ricevitore la probabilit che il numero di errori sui singoli bit sia pari. Supponendo n pari si ha:

(4.6.8)

n/2
X
n
P (Er) =
p2k (1
2k

p)n

2k

k=1

Se il numero di errori dispari invece il ricevitore pu chiedere la ritrasmissione.


Questo evento ha probabilit di accadere pari a:

(4.6.9)

P (Rt) =

n/2
X
k=1

n
2k

p2k 1 (1

p)n

2k+1

Infine la probabilit che la trasmissione sia corretta :


(4.6.10)

P (C) = (1

p)n

Poich possono risultare solo una di quste tre alternative, si ha: P (Er) + P (Rt) +
P (C) = 1. Le politiche di decisione a questo punto possono essere varie: ad esempio
il ricevitore pu chiedere la ritrasmissione sino a che non riceve una sequenza corretta
(o meglio una sequenza in cui esso non riesce a rivelare lerrore), oppure pu richiedere
la ritrasmissione solo per un numero di volte fissato e poi scartare la sequenza se questa
ancora corrotta, o non richiedere affatto la ritrasmissione.
Facciamo lesempio in cui il ricevitore richiede continuamente la ritrasmissione,
sino a che non rivela pi errore. In tal caso lerrore totale pu capitare se, in prima
trasmissione il ricevitore non si accorge della sequenza corrotta, oppure se, accorgendosi della sequenza corrotta in prima trasmissione, richiede la trasmissione e non si
accorge della sequenza corrotta in seconda trasmissione, o se le prime due trasmissioni sono corrotte in modo che il ricevitore se ne accorga e la terza corrotta in modo
che non se ne accorga e cos via. Quindi lerrore lunione di tutti questi eventi, dato
che questi possibili eventi sono tra loro disgiunti. La probabilit derrore totale quindi:

P (E) = P (Er) + P (Rt)P (Er) + P (Rt)2 P (Er) + ... =

4.6. IL CANALE BINARIO

(4.6.11)

= P (Er)

1
X

P (Rt)k =

k=0

139

P (Er)
1 P (Rt)

A questo punto anche il numero di ritrasmissioni che si possono richiedere una variabile casuale. Infatti il numero di ritrasmissioni zero se la sequenza corretta o se
il ricevitore non in grado di accorgersi dellerrore, uno se in prima trasmissione ci
si accorge dellerrore ma in seconda trasmissione no (oppure non c affatto) e cos via:

(4.6.12)

8
P (nR = 0) = P (Er) + P (C) = 1 P (Rt)
>
>
>
>
P (nR = 1) = P (Rt) (1 P (Rt))
<
P (nR = 2) = P (Rt)2 (1 P (Rt))
>
..
>
>
.
>
:
P (nR = k) = P (Rt)k (1 P (Rt))

Il numero medio di ritrasmissioni allora:


E[nR ] =

1
X
k=0

= (1

k P (nR = k) =

P (Rt)) P (Rt)

(4.6.13)

1
X
k=1

k P (Rt)k
=

1
X

k=0

k P (Rt)k (1

P (Rt)) =

P (Rt)) P (Rt)

= (1

(1

1
=
P (Rt))2

P (Rt)
1 P (Rt)

Il numero totale di trasmissioni anchesso una variabile aleatoria, pari a: nT = nR +1.


Quindi il suo valor medio vale:

(4.6.14)

E[nT ] = E[nR ] + 1 =

1
P (Rt)

Il canale binario pu essere soggetto a numerose varianti che rendono lo schema complesso quanto si vuole. Ad esempio sempre possibile immaginare situazioni in cui la
legge di ritrasmissione sia pi semplice del caso teorico di infinite ritrasmissioni: per
esempio si pu chiedere di ritrasmettere solo un certo numero di volte e poi accettare
ci che arriva eventualmente alla trasmissione n-sima.
Inoltre anche lipotesi di simmetria del canale pu cadere: si pu sempre pensare
ad un canale che tratta gli errori sulluno diversamente da quelli sullo zero, attribuendo
cos una probabilit derrore differente a seconda che si sbaglino gli uno o gli zero.

4.7. TEORIA DELLINFORMAZIONE

140

Infine unaltra situazione comune quella in cui in ricezione si introduce un terzo


simbolo, detto di cancellazione, che rappresenta lindecidibilit tra i due simboli attesi.
Lo schema del canale binario diventa allora quello proposto in figura 4.6.4.
q0

a0

p0
p1
a1

b0

r1

q1

b2

b1

F IGURA 4.6.4. Canale binario con il simbolo di cancellazione in ricezione


In ricezione, se si trasmette il simbolo a0 si pu avere corretta ricezione (b0 ), ricezione
sbagliata (b1 ) oppure un simbolo che non n corretto n sbagliato ma che risulta indecidibile (b2 ). In questa situazione il sistema non in grado di decidere correttamente
e quindi pu adottare politiche del tipo: lo scarta comunque, oppure lo prende comunque, oppure lo scarta per il 50% delle volte, oppure lo prende pari al valore precedentemente arrivato e cos via. La situazione simmetrica si ha trasmettendo laltro
simbolo (a1 ).
4.7. Teoria dellInformazione
Lo scopo della teoria dellinformazione di valutare i limiti teorici dellinformazione che si pu trasmettere su di un canale preassegnato sotto forma di trasmissione numerica. Dati infatti un insieme di sistemi reali differenti tra loro, un confronto
per valutarne lefficienza relativa molte volte impossibile. Lunica via sta nel riuscire a determinare un limite teorico di informazione trasmissibile: in questo modo i
sistemi reali si confrontano tutti con il sistema teorico. Questo problema fu posto (e
brillantemente risolto) per la prima volta da Shannon nel 1948.
Si supponga di avere uno schema ideale di trasmissione numerica. Per schema
ideale si suppone uno schema in cui i dettagli implementativi sono omessi ed inoltre la
parte che converte i dati numerici in forme donda da trasmettere sul mezzo trasmissivo, in trasmissione e la parte che riceve le forme donda e decide quale tra i possibili
simboli stato trasmesso, in ricezione, tutta racchiusa in una scatola che indicheremo
come canale numerico o binario.
Si consideri dunque una sorgente discreta che emette continuamente, indipendentemente tra loro e a velocit costante, una serie di simboli scelti tra quelli di un possibile
alfabeto. Lalfabeto sia composto da M simboli, per codificare i quali si ha necessit
di log2 M bit/simbolo. Questo dunque il rate di informazione trasmesso dalla sorgente. La legge con la quale si assegna ad ogni simbolo una determinata sequenza
di bit detta codifica. Se i simboli fossero equiprobabili ragionevole supporre una
codifica a lunghezza fissa. Se i simboli non sono pi equiprobabili pi ragionevole

4.7. TEORIA DELLINFORMAZIONE

141

utilizzare una codifica a lunghezza variabile, dato che pi conveniente utilizzare parole (stringhe di bit che codificano un simbolo) pi corte per i simboli pi probabili,
in modo da minimizzare il numero di bit che per unit di tempo transitano sul canale
binario.
Genericamente quindi la quantit di informazione media che transita sul canale si
pu ritenere pari ad una media pesata della lunghezza delle parole di bit, i pesi essendo
le probabilit di presentarsi da parte dei simboli che quelle parole codificano (praticamente il numero medio di bit che transitano su canale):
(4.7.1)

X
i

p(xi ) ni

dove xi il simbolo i-simo, p(xi ) la sua probabilit di occorrere e ni il numero di bit


per codificare quel simbolo.
Linformazione emessa dalla sorgente si pu determinare utilizzando il cosiddetto
teorema dellequipartizione. Supponiamo la sorgente ergodica. Questo significa che
stazionaria e quindi che le sue propriet statistiche non variano nel tempo ed inoltre
che queste si possono desumere dallosservazione di una sola realizzazione per tempi via via pi lunghi (la sorgente passa per tutti i possibili stati). Questo ci consente
allora di dire che un messaggio formato da N simboli, con N molto grande, conterr
mediamente N p1 simboli x1 , N p2 simboli x2 e cos via, sino ad N pM simboli xM .
Per N tendente ad infinito la probabilit che tali simboli si presentino quel numero
di volte praticamente 1. Con questi N simboli si pu effettuare la costruzione di
tantissimi possibili messaggi: tutti quelli che hanno N p1 simboli x1 , N p2 simboli x2
,..., N pM simboli xM . Questi messaggi si differenziano tra loro per la posizione dei
simboli allinterno del messaggio stesso. La probabilit di un singolo messaggio di
presentarsi si pu determinare basandosi sullassunto che i simboli sono emessi tutti
in modo indipendente:
(4.7.2)

p1
p2
pM
pmess = pN
pN
.... pN
1
2
M

Per la supposta ergodicit della sorgente tutti i messaggi leciti emessi dalla sorgente
sono equiprobabili, quindi i possibili messaggi con N simboli sono: 1/pmess .
Il numero minimo di bit necessari per descrivere tutto il messaggio , a questo punto:
n = log2

1
pmess

log2 pmess

e quindi il numero medio di bit necessari per descrivere il singolo simbolo :

4.7. TEORIA DELLINFORMAZIONE

(4.7.3)

n
H(x) =
=
N

M
Y
1
pi
log2
pN
=
i
N
i=1

M
X
i=1

142

pi log2 pi

A tale quantit si d il nome di entropia della sorgente e si misura in bit/simbolo.


Il suo nome, strettamente legato al concetto di entropia fisica (che una misura dello
stato termodinamico di un sistema fisico), dice qual linformazione media legata alla
sorgente, cio la parte non predicibile del messaggio.
La quantit log2 pi , confrontando la (4.7.1) con la (4.7.3), rappresenta il minimo numero di bit teoricamente necessari per descrivere un simbolo. Linformazione
emessa da un simbolo si pu allora definire come:
(4.7.4)

I(xi ) =

log2 p(xi )

Lentropia rappresenta quindi il numero minimo di bit per simbolo mediamente necessari a descrivere un messaggio. Se descriviamo in questo modo linformazione legata
alla sorgente allora valgono le seguenti propriet.
(1) Se p(xi ) ! 1 allora I(xi ) ! 0
Concettualmente, quanto pi probabile lemissione di un simbolo, tanto
meno informazione esso trasporta. Al limite, se esso certo, la quantit di
informazione trasportata nulla.
(2) I(xi ) > I(xj ) se p(xi ) < p(xj )
T
(3) Se lemissione di simboli successivi

indipendente,
allora:
I(x
i
T
T xj ) =
I(xi ) + I(xj ). Infatti si ha: P (xi xj ) = P (xi ) P (xj ) )I(xi xj ) =
1
1
log2 P (xi 1T xj ) = log2 P (xi )P
= log2 P (x
+ log2 P (x1 j ) = I(xi ) + I(xj )
(xj )
i)

In conclusione, se ci si vuole avvicinare ad una trasmissione numerica ottimale, si deve


trasmettere codificando i simboli con parole a lunghezza variabile.

E XAMPLE 4.7.1. Si supponga che la sorgente possa emettere solo una coppia di
simboli (come accade nel caso di sorgente binaria), x1 e x2 , con probabilit di emissione rispettivamente p e 1 p:

x1
,p
x2 , 1 p

Lentropia in tal caso vale: H(S) = p log2 p1 + (1 p) log2 1 1 p . La funzione rappresentata in figura 4.7.1. Come si vede il massimo dellentropia, e cio dellinformazione
emessa dalla sorgente si ha quando i simboli sono equiprobabili.

4.7. TEORIA DELLINFORMAZIONE

143

0.8

0.6

0.4

0.2

0.2

0.4

0.6

0.8

F IGURA 4.7.1. Entropia di una sorgente binaria


Dimostriamo adesso che: H(s) log2 M , dove M il numero totale di simboli
dellalfabeto. Cio se si tenta di codificare i simboli nel modo pi ovvio, si sprecano
bit per simbolo, dato che c sempre una codifica migliore che permetterebbe maggior
efficienza e quindi di avvicinarsi di pi al limite teorico che rappresentato da H(s).

(4.7.5)

log2 M 0 ()

H(s)

tuttavia si ha
M
M
X
X
1
pi = 1 )
pi log2
pi
i=1
i=1

M
X
i=1

M
X
i=1

i=1

pi

1
M pi

pi log2

i=1

pi log2 M =

pi (log2

Si fa vedere facilmente che ln y y


precedente si ha:
M
X

M
X

1
pi

M
X
i=1

log2 M 0

pi (log2

1
pi

log2 M ) 0

1
)0
M pi

1. Applicando tale risultato alla disuguaglianza

M
X
1
1 log2 e = log2 e
M
i=1

pi

=0

Quindi la disuguaglianza in (4.7.5) dimostrata. Luguaglianza vale solo nel caso in


cui gli elementi emessi sono equiprobabili.
4.7.1. Codifica di Huffmann. Si visto precedentemente che una codifica efficiente implica una codifica a lunghezza variabile. Al ricevitore, tuttavia, arrivano i
bit in sequenza e quindi senza soluzione di continuit. In ricezione si pone allora un
problema fondamentale: come fare a capire quando termina la sequenza di bit che codifica un simbolo e inizia la sequenza che codifica il simbolo successivo ? E evidente

4.7. TEORIA DELLINFORMAZIONE

144

infatti che, al contrario della codifica a lunghezza fissa, in questa situazione si deve essere in grado di comprendere la fine di un simbolo, altrimenti si rischia di equivocare
linterpretazione.
Facciamo il seguente esempio. La sorgente S emetta quattro simboli differenti
x1 , x2 , x3 , x4 (scritti in ordine dal pi probabile al meno probabile) e i simboli siano
codificati con le seguenti parole:
8
x
0
>
>
< 1
x2 01
x3 010
>
>
: x 100
4

Al ricevitore arrivi la seguente sequenza di bit: 100010010 che pu essere interpretata in modo equivoco, dato che pu essere: x4 , x3 , x3 , ma anche x4 , x1 , x4 , ... oppure
ancora x4 , x2 , x1 , x1 , .... Situazioni del genere devono essere evitate.
T HEOREM 4.7.2. Siano M i simboli x1 , x2 , ..., xM e siano n1 , n2 , ..., nM le lunghezze
delle parole di bit che codificano tali simboli. Condizione necessaria affinch un
codice sia univocamente decodificabile che risulti vera la seguente disuguaglianza (disuguaglianza di Kraft):

(4.7.6)

M
X

ni

i=1

E evidente che tale disuguaglianza non pu fornire una condizione sufficiente, dato
che non dice come costruire il codice, n qual la lunghezza delle singole parole. Lunica cosa che pu fare di verificare a posteriori che un codice sia univocamente decodificabile. Codici con parole di lunghezza grande verificheranno facilmente la condizione di cui sopra. Ovviamente noi siamo tuttavia interessati a codici con parole di
lunghezza quanto pi piccola possibile e che siano ancora univocamente decodificabili.
In linea di principio potremmo costruire un codice con una lunghezza di parola
pari a
(4.7.7)

ni = d log pi e

dato che non possiamo costruirlo di lunghezza ni =


quantit intera. La relazione precedente ci dice anche che:
(4.7.8)

log pi ni

log pi + 1

log pi poich non una

4.7. TEORIA DELLINFORMAZIONE

145

Sommando tutti i termini (per i = 1, ..., M ) moltiplicati per la quantit positiva pi


si ha dunque:
M
X
i=1

pi log pi

(4.7.9)

M
X
i=1

M
X

pi ni

pi log pi +

i=1

M
X

pi

i=1

H(X) n H(X) + 1

La condizione nella Eq. (4.7.8) implica la disuguaglianza di Kraft, dato che:


I(xi ) ni I(xi ) + 1 )
ni

I(xi ) = log2

1
) ni
pi

log2

1
) pi
pi

ni

che proprio la (4.7.6) quando si estende la disuguaglianza a tutti i simboli (i =


1, ..., M ).
La struttura base che si utilizza per produrre sequenze univocamente decodificabili
lalbero binario. Le codifiche prodotte con tale metodo sono dette di Huffmann.
E XAMPLE 4.7.3. Sia data una sorgente che emette simboli in modo indipendente,
x1 , x2 , x3 , x4 con probabilit rispettivamente di: p1 = 0.6, p2 = 0.25, p3 = 0.1 e
p4 = 0.05. Costruiamo lalbero binario, procedendo dal simbolo meno probabile al
pi probabile (vedi figura 4.7.2).
1

x 1 0.6

x 2 0.25
x 3 0.1
x 4 0.05

1
0

0.4
0.15

0
0

F IGURA 4.7.2. Lalbero binario della codifica alla Huffmann


La codifica che ne risulta :

(4.7.10)

8
x
1
>
>
< 1
x2 01
x3 001
>
>
: x 000
4

La tecnica consiste nellaccoppiare sempre le due probabilit pi piccole. Per valutare lefficienza del codice, basta confrontare la quantit media di informazione con
lentropia della sorgente:

4.7. TEORIA DELLINFORMAZIONE

H(s) =

146

0.6 log2 0.6 0.25 log2 0.25 0.1 log2 0.1 0.05 log2 0.05 = 1.49 bit/simbolo
n = 1 0.6 + 2 0.25 + 3 0.1 + 3 0.05 = 1.55 bit/simbolo

Come si vede la codifica di Huffmann risulta molto efficiente poich porta alluso di un
numero medio di bit per simbolo ragionevolmente vicino allentropia. In una codifica
tradizionale (con 2 bit/simbolo) si sarebbe ottenuto n = 2 bit/simbolo.
Vediamo ora lesempio notevole dalla trasmissione fax.
E XAMPLE 4.7.4. Nella trasmissione fax la sorgente emette due simboli, il nero
(N ) e il bianco (B). La probabilit di emissione del bianco enormemente pi grande
di quella del nero. Per semplicit si supponga che le probabilit di emissione siano:
pN = 0.1 e pB = 0.9. Si suppone inoltre che lemissione dei simboli sia indipendente,
cosa nella realt non vera e che viene anzi sfruttata per migliorare ulteriormente la
codifica. Se codificassimo con un bit per simbolo, avremmo che la quantit di informazione media varrebbe: n = 1 bit/simbolo, molto lontana dal limite teorico, dato
dallentropia:
H(s) =

0.9 log2 0.9

0.1 log2 0.1 = 0.47 bit/simbolo

Sprechiamo quindi il 53% dellinformazione trasmessa. La situazione migliora un po


se si effettua una codifica a coppie. Siccome si supposto che i simboli sono emessi
in modo indipendente luno dallaltro (cosa, ripetiamo, non vera nella realt), si ha che
la probabilit di emissione delle quattro possibili coppie vale:
8
BB
>
>
<
BN
NB
>
>
: NN

(4.7.11)

0.81
0.09
0.09
0.01

e codificando con lalbero binario (si veda in figura 4.7.3)


1

BB 0.81
0

BN 0.09
NB 0.09
NN 0.01

0.1

F IGURA 4.7.3. Codifica binaria per la trasmissione fax

4.7. TEORIA DELLINFORMAZIONE

147

La codifica che si ottiene la seguente:


8
BB 1
>
>
<
BN 00
N B 011
>
>
: N N 010

(4.7.12)

Il numero medio di bit necessari per codificare una coppia vale: n = 1 0.81 + 2
0.09 + 3 0.09 + 3 0.01 = 1.29 bit/coppia e quindi 0.645 bit/simbolo. Come si
vede ci si gi avvicinati al valore teorico fornito dallentropia. Si potrebbero anche
considerare blocchi pi lunghi, a patto che la complessit del sistema in ricezione lo
permetta: infatti conviene non aumentare pi la complessit quando lincremento di
efficienza diventa piccolo in confronto allincremento di complessit circuitale.
Una codifica a lunghezza variabile pu tuttavia creare qualche problema. Prima di
tutto si suppone che la sorgente emetta i simboli a tasso costante. Se il codificatore
di sorgente codifica ogni simbolo con un numero differente di bit, allora il numero di
bit trasmessi per unit di tempo potrebbe essere variabile. A tale problema si pone
rimedio con un blocco di memoria sufficientemente lungo sia in trasmissione che in
ricezione: nel blocco di memoria in trasmissione si pongono una serie di simboli che
sono codificati, in modo che la trasmissione avvenga sempre a bit rate costante. In
ricezione i bit sono posti nel registro e quindi prelevati simbolo per simbolo. Quando i bit in ingresso tuttavia riempiono la memoria vi sar overflow e andranno persi.
Viceversa, se la memoria si svuota si ricorre al bit stuffing: si riempie la memoria con
bit privi di informazione unicamente per mantenere occupato il canale.
Un altro problema sta nella pi facile propagazione degli errori. Infatti in una
codifica alla Huffmann lerrore su di un bit non fa equivocare soltanto il simbolo a
cui associato, ma anche il successivo (e forse anche oltre), dato che sbagliando un
simbolo non si pi in grado di riconoscere linizio del successivo/i.
4.7.2. Codifica a blocchi. Nel caso della trasmissione fax si visto che codificando i singoli bit si molto lontani dal limite teorico imposto dallentropia. Per far
fronte a questo problema si pensato di codificare insieme due simboli. In questo modo il limite dellentropia si avicinato un po di pi. Questo approccio di codifica pu
essere formalizzato. Quando infatti il numero medio di bit trasmessi, n
abbastanza
lontano da H(S) si pu pensare di codificare insieme una coppia, una terna, ... oppure
una -pla di simboli. In questo modo la sorgente S diventa, formalmente, la sorgente
Y = S S ... S = S .
Se lemissione dei simboli indipendente, allora si dimostra che:
(4.7.13)

H(Y ) = H(S)

Dimostriamo che vero per = 2.

4.7. TEORIA DELLINFORMAZIONE

H(Y ) =

X
i,j

XX
1
1
1
p(si , sj )log2
=
p(si )p(sj ) log2
+ log2
=
p(si , sj )
p(s
)
p(s
)
i
j
i
j

XX
i

X
j

148

p(sj )

p(si )p(sj ) log2

"

p(si ) log2

X
j

XX
1
1
+
p(si )p(sj ) log2
=
p(si )
p(s
)
j
i
j
#

1
+
p(si )

p(sj ) H(S) +

X
i

p(si )

"

p(sj ) log2

1
=
p(sj )

p(si ) H(S) = 2 H(S)

Inoltre, poich risulta anche: H(Y ) nY H(Y ) + 1, allora:


(4.7.14)

H(S)

nY
1
H(S) +

Se quindi nY il numero medio di bit associati alla sorgente Y = S , nY / il


numero medio di bit associati ai simboli della sorgente S. Allaumentare di questo
numero medio tende pi o meno velocemente alentropia (vedi la convergenza della
doppia disuguaglianza in 4.7.14).
4.7.3. Sorgenti discrete con memoria. Sinora si supposto che i simboli emessi
dalla sorgente siano tutti statisticamente indipendenti tra loro. Questa unapprossimazione inaccettabile nella maggior parte dei casi e quindi vediamo se possibile
estendere i ragionamenti precedenti a sorgenti con memoria.
Nellipotesi di sorgente con memoria la definizione di entropia data precedentemente non pi sufficiente a descrivere linformazione emessa dalla sorgente stessa,
dato che il simbolo corrente, dipendendo dai precedenti, perde parte dellinformazione
che trasporta poich questa poteva essere desunta dai simboli precedenti. La statistica
dipendenza costituisce informazione aggiuntiva di cui non si tiene conto nel calcolo
dellentropia come stata definita sinora.
Data lemissione di un simbolo s1 , la sua informazione legata allemissione del
simbolo precedente s0 :
(4.7.15)

I(s1 /s0 ) = log2

1
p(s1 /s0 )

Linformazione media, legata alla condizione che il simbolo precedente sia s0 :


(4.7.16)

H(S/s0 ) =

X
i

p(si /s0 ) log2

1
p(si /s0 )

4.7. TEORIA DELLINFORMAZIONE

149

Linformazione media, o anche entropia del primo ordine, allora la media pesata di
tutte le possibili emissioni del simbolo precedente, con pesi le probabilit che i simboli
precedenti hanno di essere emessi:
(4.7.17)
H(S/s) =

XX
j

p(si /sj ) log2

X
1
1
p(sj ) =
p(si , sj ) log2
p(si /sj )
p(si /sj )
i,j

Lentropia condizionata rappresenta lulteriore contenuto informativo che si ottiene


dallemissione del simbolo nuovo, tolta la conoscenza che il simbolo precedente in
grado di dare. A questo punto per si pu supporre che la sorgente abbia una memoria pi estesa, e quindi si passa a definire lentropia del secondo ordine, del terzo e
cos via, sino a che la sorgente non esaurisce la sua memoria:

H(si /si 1 , si 2 , ..., si

(4.7.18)

XX
si

si

...

si

p(si , si 1 , si 2 , ..., si

n)

n)

log2

1
p(si /si 1 , ..., si

n)

Lentropia vera di una sorgente , in conclusione:


(4.7.19)

H(S) = lim H(sn /sn 1 , sn 2 , ..., s0 )


n!1

Tenendo conto della statistica dipendenza tra i simboli si possono ottenere prestazioni
notevolmente migliori. Ad esempio nella codifica fax evidente una dipendenza statistica tra i simboli. Infatti la presenza di un evento nero rende molto pi probabile
larrivo di un altro evento nero, dato che lo spessore della traccia di scrittura non
nullo. Questo discorso ancora pi valido per il bianco. In conclusione sequenze
anche molto lunghe di 1 o di 0 possono essere codificate con stringhe molto corte di
bit, tanto pi che alcune di esse sono anche molto probabili (ad esempio una sequenza
di eventi bianco che copre tutta la pagina quella corrispondente a una riga tutta
bianca, come ad esempio si trova al termine di un foglio).
Sfruttando quindi la conoscenza sui simboli precedenti si riesce a predire qualcosa
sui simboli in arrivo e quindi lentropia di ordine n ci si aspetta che sia minore di quella
di ordine n 1. Dimostriamo che questo vero per:
(4.7.20)

H(s1 /s0 ) H(s1 )

4.7. TEORIA DELLINFORMAZIONE

XX
s1

s0

XX
s1

s0

p(s1 , s0 ) log2

p(s1 , s0 ) log2

1
p(s1 /s0 )

1
p(s1 /s0 )

s1

p(s1 ) log2

XX
s1

s0

s1

s0

1
=
p(s1 )

p(s1 , s0 ) log2

dove lultima uguaglianza discende dal fatto che: p(s1 ) =


XX

150

s0

1
=
p(s1 )

p(s1 , s0 )

XX
p(s1 )
p(s1 )
p(s1 , s0 ) log2

p(s1 , s0 )
p(s1 /s0 )
p(s1 /s0 )
s
s
1

(si ricordi infatti la disuguaglianza ln y y


=

XX
s1

"

XX
s1

s0

s0

p(s1 /s0 )p(s0 )

p(s0 )p(s1 )

1)

p(s1 ) p(s1 /s0 )


log2 e =
p(s1 /s0 )

XX
s1

1 log2 e =

s0

p(s0 )p(s1 /s0 ) log2 e = 0

da cui la tesi. Da ci si deduce facilmente che:


(4.7.21)

0 H(S) H(sn /sn 1 , ..., s0 ) H(sn ) log2 M

4.7.4. Capacit del canale. Caratterizzata la sorgente rimane il problema di come


caratterizzare il canale trasmissivo. Supponiamo di avere un canale binario ideale, cio
in grado di far passare bit al suo interno senza commettere errori. Detto allora N (t) il
numero di possibili messaggi leciti in grado di trasitare in un intervallo di tempo t, per
codificarli sar necessario utilizzare al minimo log2 N (t). Facendo tendere il tempo di
osservazione allinfinito si definisce capacit del canale la quantit:
(4.7.22)

log2 N (t)
t!1
t

C = lim

misurata in bit/s. Nel caso di un canale reale i simboli in uscita da un mezzo trasmissivo sono in parte sbagliati. Consideriamo la sorgente e il canale binario reale come
ununica sorgente che emette un messaggio Y , generalmente diverso (a causa dei bit
errati) dal messaggio X emesso dalla sorgente originaria (vedi figura 4.7.4).

4.7. TEORIA DELLINFORMAZIONE

H(X)
Sorgente X

151

H(Y)
Canale Binario

F IGURA 4.7.4. Schematizzazione di un canale binario reale


Considerata lentropia della sorgente Y , H(Y ), se il canale fosse ideale, allora si
avrebbe: H(Y ) = H(X). Nel caso di canale reale H(Y ) contiene anche informazione
errata a causa della presenza di errori nei bit trasmessi. Linformazione in uscita dal
canale non quindi H(Y ), ma H(Y ) depurata di quella parte di informazione falsa
che il canale introduce a causa degli errori. Linformazione vera che emerge dal canale
in conclusione:
(4.7.23)

I(X, Y ) = H(Y )

H(Y /X)

dove H(Y /X) lequivocazione, cio quella parte di informazione dovuta alla non
idealit del canale. Al variare della statistica della sorgente il canale pu essere pi o
meno in grado di trasmettere informazione. A questo punto la capacit del canale pu
essere definita anche in base alla seguente:
(4.7.24)

C = max I(X, Y )
X

dove il massimo preso rispetto a tutte le possibili statistiche di emissione della


sorgente.
In questo modo si mette meglio in evidenza che C rappresenta una misura dellinformazione vera che il canale in grado di convogliare, poich fa riferimento ai bit per
unit di tempo che riescono a transitare correttamente sul canale.
Tra tutte le sorgenti con una data varianza, quella che permette di ottenere la massima capacit di canale a parit di statistica derrore del canale stesso (che si suppone
gaussiana) la sorgente con densit di probabilit di emissione di simboli gaussiana.
Supponendo la statistica della sorgente e quella del canale a media nulla, si dimostra
che la capacit del canale (calcolata in bit/simbolo) in tali ipotesi vale:
(4.7.25)

C =

1
S
log2 (1 + )
2
N

essendo S ed N rispettivamente la potenza delle statistiche di sorgente e del rumore

4.7. TEORIA DELLINFORMAZIONE

152

di canale. Questo teorema, noto anche come teorema di Shannon, permette di stabilire un limite superiore alla capacit di trasmettere bit su un canale, fissato che sia
il rapporto tra la potenza del segnale emesso dalla sorgente e il rumore presente sul
canale.