Processi Aleatori

Politecnico di Bari
Corso di Laurea in Ingegneria Elettronica-Telecominicazioni DM 270/04
Appunti del corso di INTRODUZIONE AI PROCESSI ALEATORI
Pietro Guccione
Anno Accademico 2010-2011
Indice
Capitolo 1. Segnali e Sistemi 1.1. Introduzione 1.2. Tipi di segnale 1.3. Segnali elementari 1.4. La Correlazione Capitolo 2. La teoria delle probabilit 2.1. Esperimenti Aleatori 2.2. Le Basi della Teoria delle Probabilit 2.3. Variabili Aleatorie 2.4. Densita di Probabilita 2.5. Operazioni sulla Variabile Aleatoria 2.6. Parametri Statistici di una Variabile Aleatoria 2.7. Esempi di Variabili Aleatorie 2.8. Variabili Aleatorie Condizionate 2.9. Applicazioni notevoli 2.10. Sistemi di Variabili Aleatorie Capitolo 3. Convergenza e approssimazione 3.1. Convergenza ed approssimazione Capitolo 4. I Processi Aleatori 4.1. Denizione di Processi Aleatori 4.2. Parametri Statistici del 1o e 2o Ordine 4.3. Processi Stazionari 4.4. Filtraggio di un Processo Aleatorio 4.5. Analisi Spettrale di un Processo Aleatorio 4.6. Processi Aleatori Gaussiani 4.7. Processi Ergodici 4 4 5 8 14 20 20 21 27 29 31 32 35 44 45 49 62 62 67 67 70 77 86 90 98 102
CAPITOLO 1
Segnali e Sistemi
1.1. Introduzione La denizione di segnale parte dallesperienza comune. Esempi di segnale nella vita quotidiana sono il segnale acustico che viene prodotto da uno strumento musicale, il segnale radio captato dallantenna di un ricevitore, la rappresentazione del battito cardiaco attraverso un elettrocardiografo e cos via. Tutti gli esempi che si possono fare hanno una matrice comune: il segnale una grandezza sica variabile a cui associata una qualche forma di informazione. Lo studio dei segnali quindi passa necessariamente attraverso lo studio delle funzioni matematiche di una o pi variabili. Le grandezze siche rappresentate da un segnale sono le pi svariate: lintensit luminosa e il colore su uno schermo nel caso di un segnale televisivo, la variazione della pressione dellaria nel caso di un segnale musicale, la tensione elettrica o la corrente nel caso di un segnale misurato su di un circuito elettrico, unonda elettromagnetica nel caso di un segnale radio captato dallo spazio. Levoluzione di molti segnali monodimensionali (cio dipendenti da una sola grandezza) avviene nel tempo: esempi sono il segnale musicale, la misura della tensione su un condensatore, la variazione dellintensit luminosa del sole durante il giorno, eccetera. Tuttavia possibile considerare dipendenze diverse di un segnale: ad esempio la sua variazione nello spazio. La misura dellintensit delloscillazione di un terremoto ad uno stesso istante nelle varie localit rappresenta un segnale di cui interessa la cui estensione spaziale e non la sua evoluzione temporale. Naturalmente sempre possibile immaginare lo stesso tipo di informazione (lintensit di un terremoto) in una data localit e seguirne la sua evoluzione nel tempo. Questultimo esempio porta alla rappresentazione di segnali bidimensionali o anche multidimensionali, segnali cio che variano in dipendenza della variazione di due o pi grandezze. Il segnale televisivo bianco e nero un esempio di segnale tridimensionale, dato che esso dipendente da due coordinate spaziali (larghezza ed altezza dello schermo) e da una coordinata temporale (il susseguirsi delle scene sullo schermo). Se consideriamo invece un segnale televisivo a colori esso in realt la sovrapposizione di tre segnali tridimensionali, dato che separatamente in ogni punto dello schermo rappresentata la sovrapposizione dei tre colori fondamentali: rosso, verde, blu. Quindi un segnale televisivo a colori si pu pensare come un segnale vettoriale (costituito cio da tre componenti) a tre dimensioni, dipendente cio da tre grandezze siche: c(x, y, t) = [red(x, y, t), green(x, y, t), blue(x, y, t)].
4
1.2. TIPI DI SEGNALE
1.2. Tipi di segnale Una prima classicazione di segnale stata gi fatta differenziando i segnali monodimensionali da quelli multidimensionali, come anche quelli scalari da quelli vettoriali, costituiti cio da pi componenti. Si possono inoltre differenziare i segnali in base ai valori assunti dalla variabile indipendente: segnali a tempo continuo: sono quelli per i quali il dominio della funzione ha la cardinalit dei numeri reali. La variabile indipendente (ad esempio il tempo) assume valori in modo continuo (ad esempio un segnale musicale emesso da uno strumento). segnali a tempo discreto: sono quelli per i quali il dominio della funzione ha la cardinalit dei numeri naturali. Per questi segnali la variabile indipendente assume valori in un insieme discreto. In tal caso la dipendenza del segnale dalla variabile indipendente rappresentata mediante la successione dei valori assunti: x(n) per indicare il valore del segnale x dallnsimo valore della variabile indipendente. Esempio di un segnale tempo discreto il segnale televisivo, dato che esso rappresentato sullo schermo mediante la successione di 25 fotogrammi al secondo. I segnali stessi possono assumere valori in un insieme non numerabile di valori (segnali ad ampiezza continua) o in un insieme numerabile di valori (segnali ad ampiezza discreta). Esempio di un segnale ad ampiezza continua la misura della tensione su un condensatore cos come essa rappresentata su un oscilloscopio analogico; esempio di un segnale ad ampiezza discreta invece lo stato di un semaforo: ad ogni istante esso pu assumere solo due possibili valori: acceso o spento. I segnali ad ampiezza continua sono detti anche segnali analogici, quelli ad ampiezza discreta sono detti numerici. In gura (1.2.1) sono rappresentati i due tipi di segnale sinora visti.
s(t)
s(t)
F IGURA 1.2.1. Differenza tra segnale ad ampiezza continua e segnale ad ampiezza discreta
Unaltra distinzione pu essere fatta tra i segnali periodici e segnali non periodici (o aperiodici). Detto T un numero reale > 0, un segnale s(t) si dice periodico se n Z : s(t) = s(t + nT ). Un segnale periodico quindi denito su tutto lasse reale e per una sua descrizione completa sufciente la conoscenza allinterno di un periodo. Un segnale di durata nita , quindi, aperiodico. Una combinazione lineare di segnali periodici di stesso periodo T o di periodo che un sottomultiplo di T , cio T /n , a sua volta, periodica di periodo T . I segnali inoltre possono essere suddivisi in base al loro comportamento energetico. Si dicono ad energia nita i segnali che vericano la seguente propriet:
(1.2.1)
| s(t) |2 dt < +
dove la quantit a primo membro dellespressione detta energia del segnale. I segnali +T /2 periodici non sono segnali ad energia nita, dato che, se T /2 | s(t) |2 dt una quantit nita, lintegrale su tutto risulter sicuramente innito. Tali segnali sono allora segnali a potenza nita, per i quali cio risulta:
(1.2.2)
1 T + T lim
+T /2 T /2
| s(t) |2 dt < +
La quantit a primo membro detta potenza del segnale. Per i segnali ad energia nita la potenza nulla. Per i segnali tempo discreti la denizione di energia e potenza rispettivamente:
(1.2.3)
n=
|s(n)|2
+N
(1.2.4)
1 lim |s(n)|2 N + 2N + 1 n=N
Inne altre distinzioni tra segnali possono essere fatte sulla base delle loro propriet puramente matematiche: ad esempio si distinguono i segnali reali da quelli complessi, composti cio di una parte reale e di una parte immaginaria: sc (t) = sR (t) + jsI (t). Particolari simmetrie dei segnali possono permettere di distinguere i segnali pari, per i
quali risulta: s(t) = s(t), da quelli dispari, per i quali vale invece: s(t) = s(t). Per un segnale che non gode di simmetria pari, n dispari, si pu sempre pensare di estrarne la sua parte pari:
(1.2.5)
1 se (t) = [s(t) + s(t)] 2
e la sua parte dispari
(1.2.6)
1 so (t) = [s(t) s(t)] 2
1.2.1. Operazioni sui segnali. Vengono qui richiamate le principali operazioni che possibile compiere sui segnali. Particolare interesse assumono le operazioni sulla variabile indipendente 1.2.1.1. Traslazione. La traslazione di un segnale il suo spostamento sullasse della variabile indipendente (o nel piano delle sue variabili indipendenti se dipende da due variabili): s(t to ) il segnale s(t) spostato temporalmente nella posizione to . Se la variabile indipendente il tempo, si dice anche che il segnale ritardato di to secondi se to > 0 altrimenti anticipato di to secondi, se risulta to < 0. 1.2.1.2. Ribaltamento. Il ribaltamento di un segnale corrisponde alloperazione: s(t) s(t), esso cio viene descritto con lasse della variabile indipendente riesso rispetto allasse delle ordinate. Questa operazione utile per esaminare le propriet di simmetria di un segnale (segnale pari o dispari). 1.2.1.3. Scalatura dellasse. Considerato un numero reale a > 0, un segnale si dice che ha subito un cambiamento di scala se risulta la seguente trasformazione: s(t) s(at). In particolare se a > 1 il segnale ha subito un restringimento, altrimenti, con 0 < a < 1 il segnale subisce unespansione. E sempre possibile estendere il cambiamento di scala dellasse della variabile indipendente ai casi in cui risulta a < 0, basta applicare separatamente le due operazioni di ribaltamento e di scalatura del segnale: s(t) s(t) s( |a| t). Si ricordi che loperazione di cambiamento di scala, come quella di ribaltamento che si pu considerare come un caso particolare con a = 1 non commuta con quella di traslazione. 1.2.1.4. Convoluzione tra segnali. Dati due segnali x(t) ed h(t), si denisce il prodotto di convoluzione tra i due segnali come:
1.3. SEGNALI ELEMENTARI
(1.2.7)
y(t) = x(t) h(t) =
x( )h(t )d
La convoluzione gode delle seguenti propriet: (1) La convoluzione unoperazione commutativa: x(t) h(t) = h(t) x(t) (2) La convoluzione gode della propriet associativa: x(t) y(t) h(t) = (x(t) y(t)) h(t) = x(t) (y(t) h(t)) (3) La convoluzione distributiva rispetto alla somma: (x(t) + y(t)) h(t) = x(t) h(t) + y(t) h(t) 1.3. Segnali elementari Esiste una classe di segnali che, per la loro particolare semplicit, viene spesso utilizzata per schematizzare il comportamento dei segnali che si incontrano nei casi reali. A questi segnali si d il nome di segnali elementari. Le propriet viste precedentemente si applicano ovviamente anche ai segnali elementari. 1.3.1. Gradino unitario. Il gradino unitario la funzione cos denita:
(1.3.1)
u(t) =
1, 0,
t>0 t<0
Per t = 0 si assume che s(0) = 0.5. 1.3.2. Rampa. E un segnale nullo per t < 0 e che, per t > 0, cresce proporzionalmente a t: (1.3.2) r(t) = t, 0, t>0 t<0
r(t) a t a t
F IGURA 1.3.1. Rampa unitaria
Tale segnale pu considerarsi come il risultato del passaggio dello scalino unitario attraverso un integratore:
t
(1.3.3)
r(t) =
u( ) d
1.3.3. Parabola. La parabola (o rampa parabolica) il segnale che si ottiene riapplicando loperatore di integrazione alla rampa:
t
(1.3.4)
p(t) =
r( ) d =
1 2 t 2
p(t)
F IGURA 1.3.2. Rampa parabolica 1.3.4. Segnale rettangolare, onda quadra. Si chiama rettangolare un segnale che mantenga valore costante per tutta la sua durata limitata:
(1.3.5)
rect
1, |t| < 0, |t| >
2 2
E, chiaramente, un segnale di energia nita e la sua energia vale . La somma di segnali rettangolari ripetuti a distanza T d luogo ad un segnale periodico, di periodo T:
10
(1.3.6)
sq(t) =
n=
rect
t nT
che viene detto onda quadra.
2 2 2
+ 2 2
F IGURA 1.3.3. Rettagolo ed onda quadra Se = T /2 londa quadra si dice a duty cycle 50%. Londa quadra (1.3.6) oscilla tra 0 e 1 ed ha valor medio /T . Unonda quadra con duty cycle 50% che oscilla tra +1 e 1 ha valor medio nullo. Si osservi inne che, a rigore, il segnale rettangolare (1.3.5) discontinuo in /2 ed il suo valore in tali punti sarebbe indenito. In un punto di discontinuit 1 assumeremo che il segnale assuma il valore s(to ) = 2 [s(t ) + s(t+ )] o o 1.3.5. Delta di Dirac. Il Delta di Dirac non in realt una vera e propria funzione, ma una distribuzione. Essa, a rigore, dovrebbe essere denita solo allinterno di un integrale. La sua denizione parte dalla osservazione che la funzione:
(1.3.7)
1 t rect( ) T T
ha sempre area pari ad 1, qualunque sia il valore di T . Al tendere per di T a zero, il rettangolo diventa innitamente stretto ed alto. Una denizione della funzione delta allora la seguente:
(1.3.8)
(t) = lim
t 1 rect( ) T 0 T T
11
La funzione cos denita ha valori sempre nulli tranne in t = 0 dove assume valore nominalmente innito. La sua rappresentazione su di un graco quindi a rigore impossibile. La schematizzazione che si usa quella riportata in g. 1.3.4
(t)
F IGURA 1.3.4. Rappresentazione graca dellimpulso o delta di Dirac. In base a quanto detto:
(1.3.9)
(t)dt = 1
inoltre la funzione delta pari: (t) = (t). La principale propriet della funzione delta la seguente:
(1.3.10)
s(t)(t to )dt = s(to )
essa cio applicata ad una funzione allinterno di un integrale permette di estrarre il valore di quella funzione nel punto in cui il delta applicato (sempre che la funzione s(t) sia continua in t = to ). Questa notazione utilizzata per indicare lestrazione di un campione da un segnale nella posizione in cui posto limpulso. La propriet in (1.3.10) pu essere vista anche nel modo seguente: limpulso piazzato ad un dato istante e moltiplicato per una funzione s(t) risulta pari allimpulso stesso ma con area uguale al valore che il segnale assume in quella posizione : s(t) (t ) = s( ) (t ). Un segnale pu essere rappresentato mediante una successione innita di impulsi delta innitamente vicini tra loro e di valore pari al valore che il segnale assume in quel punto:
(1.3.11)
s( )(t )d = s(t)
12
Il signicato di quesultimo integrale anche quello di una convoluzione tra il segnale s(t) e la funzione delta. Un cambiamento di scala della variabile indipendente inuisce sul risultato:
(1.3.12)
x(t) (at + b) dt =
b a
()
d 1 b = x( ) |a| |a| a
Per limpulso quindi un cambiamento di scala ed una traslazione comporta la variazione dellarea dellimpulso stesso:
(1.3.13)
(at + b) =
1 b (t + ) |a| a
Ultima considerazione quella relativa alle derivate dellimpulso. La derivata dellimpulso, indicata con (t) detta doppietto:
(1.3.14)
x(t) (t ) dt = x ( )
sempre che x(t) sia dotata di derivata in t = . La (1.3.14) si pu ricavare dalla denizione dellimpulso (1.3.8) mediante integrazione per parti (ricordando che D(AB) = AD(B) + BD(A), dove D() rappresenta loperatore di derivazione):
(1.3.15)
x(t) (t ) dt = x(t)(t )|+
x (t) (t ) dt = x ( )
Si osservi inne che lintergale dellimpulso lo scalino di ampiezza unitaria:
(1.3.16)
u(t) =
( ) d
13
infatti tale integrale vale zero nch t < 0, ed 1 non appena t > 0. Dualmente, la d derivata dello scalino unitario limpulso unitario: dt u(t) = (t) 1.3.6. Funzioni sinusoidali. Una classe di funzioni molto utilizzate, soprattutto nellambito dellanalisi di funzioni periodiche sono le funzioni sinusoidali. Per la denizione di una funzione sinusoidale sono sufcienti tre elementi: ampiezza A, pulsazione o e fase iniziale (cio largomento della sinusoide per t = 0). Lampiezza rappresenta lescursione massima che la funzione assume, la frequenza il numero di cicli per unit di tempo che esegue:
(1.3.17)
A sin(2f t + )
La sinusoide si ripete uguale a se stessa ad una distanza temporale T tale che o T = 2. Il periodo di una sinusoide di pulsazione o , perci:
(1.3.18)
T =
2 o
f = 1/T la frequenza. Va da s che una sinusoide di frequenza f periodica di periodo T = 1/f ma, anche, di periodo 2T , 3T, . . . , N T . Una sinusoide con fase iniziale /2 chiamata cosinusoide e vale la relazione sin(t + /2) = cos(t). La potenza media di una sinusoide di ampiezza unitaria vale:
(1.3.19)
Pm =
2/ 0
sin2 (t) dt =
1 2
La sua potenza di picco
(1.3.20)
Pp = max sin2 (t) = 1

t
Il rapporto tra potenza di picco e potenza media detto fattore di picco e, per una sinusoide vale 2.
1.4. LA CORRELAZIONE
14
1.3.7. Seno cardinale. Unultima funzione molto utilizzata la funzione seno cardinale, cos denita:
(1.3.21)
sinc(t) =
t sin( T ) t T
e che assume valore pari ad 1 al limite per t 0. E una funzione pari, in quanto rapporto di due funzioni dispari. 1.4. La Correlazione Dato un segnale deterministico e non periodico, s(t), di esso si pu denire, come gi visto lenergia:
(1.4.1)
Es =
| s(t) |2 dt =
| S(f ) |2 df
dove lultima uguaglianza discende dal teorema di Parseval, il quale afferma che lenergia del segnale, calcolabile nei due domini tempo e frequenza, non cambia. Se il segnale passa attraverso un sistema lineare tempo invariante con funzione di trasferimento: H(f ):
Y (f ) = S(f ) H(f )
+
(1.4.2)
Ey =
| S(f ) |2 | H(f ) |2 df
Lenergia si pu quindi ottenere conoscendo lo spettro del segnale (e | S(f ) |2 detto spettro di energia del segnale) e la funzione di trasferimento del sistema. 1.4.1. Autocorrelazione per segnali ad energia nita. Sia ora x(t) un segnale reale ad energia nita. Si denisce autocorrelazione di x(t) la funzione che si ottiene dal seguente integrale:
(1.4.3)
Rx ( ) =
x(t)x(t )dt x( ) (per dimostrarlo si
Dalla denizione si osserva subito che: Rx ( ) = x( )
15
provi a porre x( ) = y( ) e ad eseguire lintegrale di convoluzione: Rx ( ) = + x(t)y( t)dt) e quindi che:

+
(1.4.4)
Rx ( ) =
| X(f ) |2 ej2f df
cio lautocorrelazione di un segnale anche lantitrasformata del suo spettro di energia. Si ricordi che per un segnale reale, se ad x(t) X(f ), allora ad x(t) X(f ) = X (f ), mentre per un segnale complesso si ha che se ad x(t) X(f ), allora ad x(t) X(f ), e ad x (t) X (f ), inne ad x (t) X (f ). Poich questultima denizione vale sempre, allora se il segnale complesso la denizione di autocorrelazione deve essere adeguatamente modicata:
(1.4.5)
1
Rx ( ) =
x(t)x (t )dt = x( ) x ( )
Propriet della funzione di autocorrelazione: (1) Rx (0) = Ex , cio la funzione di autocorrelazione calcolata per = 0 rappresenta lenergia del segnale (2) Rx ( ) = Rx ( ), cio la funzione di autocorrelazione una funzione pari (Rx ( ) = Rx ( ) per i segnali complessi) (3) | Rx ( ) | Rx (0), cio il massimo della funzione di autocorrelazione localizzato in = 0: [x(t ) x(t)]2 0
x(t )2 + x(t)2 2x(t )x(t) 0 ed integrando da a + si ha: 2Ex 2Rx ( ). Lautocorrelazione di un segnale ha uninteressante interpretazione sica. Essa rappresenta una misura del grado di somiglianza del segnale con s stesso. Infatti quanto pi un segnale somiglia a s stesso tanto pi alto il valore dellintegrale in 1.4.3. Ecco quindi il motivo per cui la funzione di autocorrelazione assume valore massimo per = 0: quando infatti il segnale perfettamente sovrapposto a s stesso il grado di somiglianza massimo. Per valori di crescenti i segnali generalmente tendono
1
Su alcuni testi riportata la relazione: Rx ( ) =
x (t)(t )dt = x ( ) x( ).
16
a non somigliare pi a s stessi e quindi il valore dellautocorrelazione diminuisce. Eccezione notevole a questa regola sono, come si vedr pi avanti, i segnali periodici. 1.4.2. Cross correlazione di due segnali. Dati due segnali x(t) ed y(t), si denisce la crosscorrelazione tra i due segnali come:
+
(1.4.6) ed anche:
Rxy ( ) =
x(t)y(t )dt = x( ) y( )
(1.4.7)
Ryx ( ) =
y(t)x(t )dt = y( ) x( )
Per i segnali complessi la denizione invece:

+
(1.4.8)
Rxy ( ) =
x (t)y(t )dt = x ( ) y( )
(1.4.9)
Ryx ( ) =
y (t)x(t )dt = y ( ) x( )
Si pu facilmente dimostrare che: Rxy ( ) = Ryx ( ): + + +
Rxy ( ) =
+
x (t)y(t )dt =
x (z + )y(z)dz =
y(z)x (z + )dz
=
= Ryx ( )
y (z)x(z ( ))dz
Due segnali si dicono ortogonali se risulta che Rxy ( ) = 0, . La cross correlazione d una misura del grado di somiglianza tra due segnali, analogamente allautocorrelazione di un segnale.
17
1.4.3. Segnali a potenza nita. Per i segnali a potenza nita
(1.4.10)
P = lim
1 T + T
+T /2 T /2
| s(t) |2 dt
si pu ancora denire una quantit che nel dominio delle frequenze ci dice come sono distribuite le potenze del segnale: la densit spettrale di potenza del segnale. Sia infatti: sT (t) la limitazione di s(t) nellintervallo: [T, T ] : (1.4.11) sT (t) = s(t) |t| T 0 altrove
Poich questultimo segnale sicuramente ad energia nita, per esso si pu dare la denizione di trasformata di Fourier e quindi la densit spettrale di energia: sT (t) ST (f ):
+
(1.4.12)
ET =
| sT (t) |2 dt =
| ST (f ) |2 df
Poich la potenza di s(t) denita come limite dellenergia della sua limitazione, sT (t), al tendere dellintervallo di limitazione allinnito (e rapportando per lintervallo di tempo stesso), la densit spettrale di potenza si pu scrivere come:
+
P =
1 | ST (f ) |2 df T + 2T lim 1 | ST (f ) |2 T + 2T
(1.4.13)
Sp (f ) = lim
La densit spettrale di potenza gode di propriet simili a quelle della densit spettrale di energia: cio una funzione pari (per i segnali reali), sempre non negativa e il suo intergale su tutto lasse delle frequenze d luogo alla potenza del segnale. Analogamente a ci che accade per i segnali ad energia nita, il passaggio di un segnale a potenza nita attraverso un sistema lineare tempo invariante d luogo ad un segnale a potenza nita in uscita, la cui densit spettrale di potenza pari a: Sy (f ) = Sx (f ) |H(f )|2 . Troviamo ora la funzione del tempo che corrisponde alla funzione densit spettrale di potenza: Sp (f ) = lim 1 1 | ST (f ) |2 = lim ST (f ) ST (f ) T + 2T 2T
T +
18
antitrasformando: 1 sT ( ) sT ( ) = T + 2T
+T
lim = lim
1 T + 2T
sT (t)sT (t + )dt
T
A tale quantit diamo il nome di funzione di autocorrelazione:
(1.4.14)
1 Rg ( ) = lim T + 2T
+T
sT (t)sT (t + )dt
T
La funzione di autocorrelazione per i segnali a potenza nita lantitrasformata di Fourier della densit spettrale di potenza, nello stesso modo con cui nel caso di segnali ad energia nit essa lantitrasformata di Fourier della densit spettrale di energia. La funzione di autocorrelazione dei segnali a potenza nita gode delle stesse propriet della corrispondente funzione denita per i segnali ad energia nita. Inoltre possibile dare una denizione analoga anche per la cross correlazione di segnali a potenza nita. 1.4.4. Segnali periodici. Sia dato un segnale periodico e la sua rappresentazione in serie di Fourier:
s(t) = s(t + n T )
+
(1.4.15)
s(t) =
n=
n cn exp(j2 t) T
Lo spettro dampiezza di un segnale periodico uno spettro a righe:
(1.4.16)
S(f ) =
n=
cn (f
n ) T
dove i cn si possono calcolare in base alla trasformata di Fourier di una singola ripetizione del segnale:
19
(1.4.17)
1 cn = T
+T /2 T /2
s(t) ej2 T t dt =
1 ST (f )|f = n T T
I segnali periodici sono ovviamente segnali a potenza nita. La loro densit spettrale di potenza anchessa a righe e si pu ricavare facilmente : 1 T
+T /2 T /2
n j2 T t
P = 1 = T = 1 T
+T /2
s(t)s (t)dt = cm e
m
n m
cn e
T /2 n
j2 m t T
dt = |cn |2
cn c m
n m
+T /2 T /2
ej2 T t ej2 T t dt =
n
(1.4.18)
Sp (f ) ==
n=
|cn |2 (f
n ) T
La corrispondente funzione di autocorrelazione, essendo un intergale di funzione periodica, anchessa periodica di periodo T e la sua denizione si pu restringere ad un singolo periodo: Rg ( ) = lim (1.4.19) 1 = T 1 T + 2T
+
sT (t)sT (t + )d =
+T /2
s(t)s(t + )d
T /2
CAPITOLO 2
La teoria delle probabilit

2.1. Esperimenti Aleatori Nelle scienze sperimentali la verica di una ipotesi di lavoro afdata allesperimento. Lesperimento quindi consiste nel controllare che, sotto alcune ipotesi, la teoria e la realt sono equivalenti, cio la teoria descrittiva di un certo fenomeno della natura. Esempio classico pu essere la descrizione della caduta di un grave. Poich esso segue la legge: s = 1 gt2 , si pu facilmente determinare quanto tempo il grave impiega 2 a cadere per terra a partire da una certa altezza s con velocit iniziale nulla. I dati raccolti in molte prove ripetute permetteranno di ridurre lincertezza legata alla misura sperimentale, affetta sempre da una certa dose di errore. Un esperimento di questo tipo, oltre a vericare le ipotesi, ci dice anche unaltra cosa e cio che se ci poniamo in certe condizioni (un grave cade da una altezza ssa, si riduce al minimo leffetto della resistenza dellaria in modo da ridurre lincertezza della misura, e cos via), la realt non pu fare a meno di comportarsi seguendo determinate leggi. Lesperimento condotto cio di tipo deterministico, segue una legge ben precisa e vericabile ogni volta che si desidera, a meno delle inevitabili incertezze dovute alle non perfette condizioni pratiche. Si supponga ora di voler condurre un altro tipo di esperimento. Si vogliono misurare il numero di autovetture che attraversano un casello autostradale durante una giornata. In questo tipo di esperimento, come si capisce bene, una determinata ipotesi di lavoro come ad esempio che i giorni feriali sono pi trafcati di quelli festivi, non permette di prevedere lesito dellesperimento stesso. La prova che si effettua inoltre dar un risultato diverso giorno per giorno. La prova si dice di tipo aleatorio. Per questa classe di esperimenti non possibile quindi trovare una legge che permetta di predire lesito dellesperimento stesso. Tuttavia possibile trovare una descrizione globale dellesperimento che permetta cio di predire, dopo numerose prove, che queste seguono comunque una certa regolarit statistica. Il risultato dellesperimento singolo non quindi mai prevedibile a priori, ma esso pu essere inglobato in una teoria che, entro certi limiti, ne d una previsione grossolana. Si supponga, per maggiore chiarezza, di volere osservare i risultati del lancio di un dado. Questo tipo di esperimento appartiene alla classe ora vista, cio d luogo ad un risultato che non pu essere previsto. Tuttavia dopo il lancio dello stesso dado mille volte, pu essere abbastanza ragionevole supporre che la faccia con il numero 6 si sar presentata allincirca 167 volte (1000/6). Quindi se il risultato dellesperimento d
20
2.2. LE BASI DELLA TEORIA DELLE PROBABILIT
21
un valore che ragionevolmente vicino a questo numero possiamo dire che questo risultato prevedibile, e possiamo dire anche che il dado si comportato seguendo le ipotesi iniziali, cio che non fosse truccato e che tutte e sei le facce avessero la stessa probabilit di presentarsi. La teoria alla base dei fenomeni della natura che seguono leggi aleatorie la teoria delle probabilit. Questa teoria stata sviluppata da sici e matematici come Bernoulli, Pascal e Laplace, durante il XVII e il XVIII secolo e inizialmente fu utilizzata per quanticare le vincite ai tavoli da gioco da gestori di casin e giocatori dazzardo. 2.2. Le Basi della Teoria delle Probabilit Vediamo ora come la teoria delle probabilit permette di modellare un esperimento aleatorio, in modo che si possano ricavare delle leggi applicabili allesperimento stesso. Un elemento fondamentale della teoria quello di ricavare tutti i possibili risultati che lesperimento stesso in grado di produrre. Per il lancio di un dado questo piusttosto facile, dato che lo spazio campione dellesperimento costituito dai numeri {1, 2, 3, 4, 5, 6}. In altre situazioni lo spazio campione pi difcile da ottenere. Nellesperimento descritto precedentemente, delle automobili che transitano da un casello autostradale durante una giornata, si pu dire che il risultato sicuramente un numero intero, zero compreso. Tuttavia piuttosto difcile indicare il limite superiore di questo intervallo se non intervengono altre ipotesi di lavoro (come ad esempio potrebbero essere il tempo medio di transito, la velocit media delle autovetture sullautostrada, e cos via). P ROPOSITION 2.2.1. Lo spazio campione rappresenta linsieme dei possibili risultati di un esperimento aleatorio. Dato inoltre un certo esperimento, come quello delle auto al casello, possono interessare anche determinati gruppi di risultati. Ad esempio potrebbe essere interessante valutare il numero di automobili che transitano al casello in unora, oppure il numero di automobili che transita dalle 8.30 alle 11.30 e cos via. Questi possibili risultati sono nientaltro che possibili sottoinsiemi dello spazio campione e sono detti eventi. Gli eventi devono per soddisfare determinate condizioni per potere essere deniti tali: se A un evento, anche il suo complemento rispetto allo spazio campione, A, un evento; se A e B sono eventi, anche A B un evento. Utilizzando queste due condizioni si pu dimostrare anche che: lintersezione A B di due eventi arbitrari, A e B un evento (infatti si ha che A B = (A B)); dato un evento A, anche A A e A A sono eventi. Il primo rappresenta tutto lo spazio campione , il secondo rappresenta levento nullo detto anche evento impossibile.
22
Gli eventi di uno spazio campione costituiscono quindi una classe S cio un insieme chiuso rispetto alle operazioni di unione e di intersezione. Un esperimento aleatorio completamente caratterizzato se sono dati i seguenti tre elementi: i) la descrizione del suo spazio campione , ii) lindividuazione della classe degli eventi S, ed inne iii) la descrizione della legge di probabilit P (), la legge che associa ad ogni evento di S la sua probabilit di presentarsi. La terna , S, P () detta lo spazio delle probabilit. A volte lesperimento aleatorio viene identicato con il suo spazio delle probabilit, cio con la sua descrizione matematica astratta. 2.2.1. La probabilit. Varie denizioni ed interpretazioni sono state date alla probabilit. Secondo la teoria assiomatica moderna, dovuta al matematico Kolmogorov, dato un esperimento aleatorio con il suo spazio campione, la legge di probabilit una corrispondenza che permette di associare ad ogni evento di S un numero reale che soddisfa i seguenti tre assiomi: la probabilit di un evento arbitrario sempre non negativa: P (A) 0; La probabilit dellevento certo pari ad 1: P () = 1; Dati due eventi mutuamente esclusivi, la probabilit dellevento unione pari alla somma delle probabilit dei singoli eventi:A B = P (A B) = P (A) + P (B) Da questi assiomi si ricavano alcune propriet (quindi teoremi che si possono dimostrare a partire dagli assiomi): T HEOREM 2.2.2. Dato un evento A la probabilit dellevento complementare A pari al complemento ad uno della probabilit di A: P (A) = 1 P (A).
T HEOREM 2.2.3. Levento nullo ha probabilit zero di vericarsi: P () = 0.
T HEOREM 2.2.4. La probabilit di un evento A sempre un numero reale compreso tra zero ed 1: 0 P (A) 1.
T HEOREM 2.2.5. Dati due eventi, A e B, la probabilit dellevento unione espressa da: P (A B) = P (A) + P (B) P (A B). D IMOSTRAZIONE . A B = (A B) = (A B) (A A) = (A A) (A A) (B A) (B A) = A (B A) P (A B) = P (A (B A). Tuttavia, essendo B = B = B (A A) = = (B A) (B A). Quindi: P (B) = P (B A) + P (B A), da cui la tesi. La probabilit intersezione di due eventi anche detta probabilit congiunta, mentre le probabilit dei due eventi, prese separatamente, sono dette probabilit marginali. Data
23
una coppia di eventi, A e B con P (B) = 0, la probabilit di A condizionata allevento B, indicata con P (A/B) denita dalla relazione:
(2.2.1)
P (A/B) =
P (A B) P (B)
La probabilit di A, presa separatamente, detta probabilit a priori, mentre la probabilit di A noto anche levento B, cio P (A/B) detta probabilit a posteriori. Levento B condiziona levento A e quindi ne modica la sua probabilit, una volta che esso si sia vericato. Da questa osservazione nasce la denizione stessa nella quale levento congiunto rinormalizzato per la probabilit di B che funge quindi da nuovo spazio campione (da denizione infatti: P (B/B) = 1). E XAMPLE 2.2.6. Supponiamo di voler studiare lesperimento aleatorio che modelli il lancio di un dado non truccato. Lo spazio campione, costituito dallinsieme dei possibili risultati, dato da: = {1 , 2 , 3 , 4 , 5 , 6 } dove i rapresenta il risultato della faccia i sima al termine dellesperimento. La classe S di tutti i possibili eventi costituita da 26 possibili valori, compresi e . La legge di probabilit resta assegnata non appena si assegna una probabilit a ciascuno dei risultati dello spazio dei campioni i . Poich abbiamo ritenuto il dado non truccato e quindi ragionevole supporre che in un lancio tutte le facce di un dado abbiano uguale possibilit di presentarsi, si pu ritenere che:
(2.2.2)
P (i ) =
1 6
A questo punto possibile denire un qualsiasi evento e trovare la sua probabilit di occorrenza. Si voglia ad esempio determinare la probabilit che lanciando il dado, appaiano numeri inferiori a 3. Questa probabilit la probabilit che accada: P (A) = P (1 2 ). Poich questi eventi sono disgiunti, la probabilit della loro unione 1 1 anche pari alla somma delle loro probabilit: P (A) = P (1 ) + P (2 ) = 6 + 1 = 3 . 6 In casi semplici come questo, dove lo spazio dei campioni nito ed simmetrico (cio vi equiprobabilit di tutti i possibili risultati dello spazio campione ), possibile utilizzare la denizione classica di probabilit dovuta a Laplace. Questa denizione parte dallosservazione dei casi favorevoli nellinsieme di tutti i casi possibili che si possono vericare. Detta allora N il numero di tutti i casi possibili ed NA quelli favorevoli allevento A, la probabilit cercata data dal rapporto:
24
(2.2.3)
P (A) =
NA N
Lipotesi cruciale alla base di questa denizione sta nel fatto che tutti i risultati dello spazio campione hanno pari probabilit di vericarsi. Nellipotesi in cui non vi sia equiprobabilit dei risultati dello spazio campione la denizione precedente non pi adeguata e si ricorre allora ad un approccio di tipo sperimentale. Si supponga di effettuare un numero molto alto di lanci N e di collezionare il numero di volte che levento A si verica, NA . Allaumentare di N si comincia a notare una certa regolarit nella relazione che esiste tra il numero di lanci e il numero di volte che A si verica. La frequenza relativa con cui si verica A, cio: NA /N tende allora, per un numero di lanci molto elevato, alla probabilit, secondo la denizione di Von Mises:
(2.2.4)
P (A) = lim
NA N N
Questa denizione, seppure non corrispondente alla visione moderna ( assiomatica) della teoria delle probabilit, ha il vantaggio di prescindere dalla simmetria (e quindi equiprobabilit) del problema in esame. Si osservi che la denizione di Von Mises non in contrasto con quella assiomatica di Kolmogorov, dato che il rapporto tra due numeri positivi sempre positivo. Se inoltre A un sottinsieme di , accade sempre che NA N , e quindi che 0 P (A) 1. Inoltre si pu osservare che, detti A e B due eventi disgiunti, e dette NA ed NB le loro occorrenze su un numero totale di esperimenti pari ad N , la probabilit dellevento unione:
(2.2.5)
P (A
B) = lim
NA N N
= lim
NA + NB = P (A) + P (B) N N
e quindi gli assiomi di Kolmogorov sono vericati. P ROPOSITION 2.2.7. Due eventi A e B sono detti indipendenti se la probabilit marginale di A e la probabilit di A condizionata a B sono uguali, cio se:
(2.2.6)
P (A) = P (A/B)
25
Partendo dalla denizione della probabilit condizionata, questo signica che:
(2.2.7)
P (A) = P (A/B) =
P (A B) P (A) P (B) = P (A P (B)
B)
I due eventi sono detti indipendenti quando la probabilit congiunta pari al prodotto delle singole probabilit. Lindipendenza tra i due eventi esplicata nel fatto che la probabilit dellevento A uguale a priori ed a posteriori dellevento B. Levento B quindi non ha alcuna inuenza su A, cio i due eventi sono tra loro indipendenti. Dalla denizione di probabilit condizionata nasce anche la seguente osservazione:
(2.2.8)
P (A/B) P (B) = P (B/A) P (A) P (A/B) =
P (B/A) P (A) P (B)
nota anche con il nome di teorema (o formula) di Bayes. IL teorema di Bayes noto anche con il nome di teorema delle probabilit totali. Si consideri infatti una certa partizione dello spazio dei campioni , fatto da N eventi disgiunti tra loro: B1 , B2 , ..., BN , con Bi Bj = e i Bi = . La probabilit di un dato evento A si pu allora calcolare in base alla conoscenza delle probabilit condizionate di A con le Bi : (2.2.9)
N N N
P (A) = P (A
) = P (A
i=1
Bi ) = P (
(A
Bi )) =
i=1
P (A
Bi )
i=1
da cui si ricava, ricordando la relazione che esiste tra la probabilit congiunta e quella condizionata:
(2.2.10)
P (A) =
i=1
P (A/Bi ) P (Bi )
26
2.2.2. Esperimento composto. Si considerino ora due esperimenti aleatori differenti tra loro e caratterizzati dagli spazi campione 1 ed 2 . Si pu pensare un esperimento composto come la contemporanea osservazione dei due esperimenti. Lo spazio campione sar allora il prodotto cartesiano dei due spazi campione: 1 2 e gli elementi di questo spazio sono le coppie ordinate che si ottengono dalla combinazione di tutti i possibili risultati di 1 con quelli di 2 . I due esperimenti naturalmente possono fare riferimento a due esperienze uguali (ad esempio due lanci di dadi) o a due completamente differenti, come ad esempio il lancio di un dado e lestrazione di una carta da un mazzo di 52 carte francesi. Sia ora A1 un evento del primo spazio campione ed A2 un evento del secondo. Si voglia studiare la probabilit dellevento composizione dei due eventi A1 ed A2 , cio: A = A1 A2 . Se i due eventi fossero indipendenti evidente che la probabilita dellevento A pari al prodotto delle due probabilit: P (A) = P (A1 ) P (A2 ). Se invece i due esperimenti sono tra loro in qualche modo legati necessario valutare il grado di correlazione dei due eventi e quindi la probabilit non pi pari al prodotto delle due probabilit. E ad esempio evidente che se si vuole stabilire la probabilit di un evento come lestrazione di un numero dispari da un lancio di un dado e di un asso da 1 4 1 un mazzo di carte, avremo:P (Adisp Aasso ) = P (Adisp ) P (Aasso ) = 2 52 = 26 . Le considerazioni fatte per la composizione di due esperimenti si possono fare per la composizione di N qualunque esperimenti, ricordando per che in generale, dalla conoscenza delle leggi di probabilit dei singoli esperimenti non possibile determinare la legge di probabilit dellesperimento composto. In tale ambito ricade il problema delle prove ripetute ed indipendenti. Caso notevole quello delle prove binarie ripetute ed indipendenti o prove di Bernoulli. E XAMPLE 2.2.8. Formula di Bernoulli. Si supponga di voler indagare sullesperimento composto da n esperimenti uguali tra loro ed indipendenti. Ciascuno degli esperimenti d luogo ad uno spazio dei campioni con due soli possibili risultati: o ed 1 , con P (o ) = p e P (1 ) = 1 p. Un classico esempio il lancio di n monete, o anche il lancio di una stessa moneta, purch il risultato sia la composizione dei singoli lanci. Si costruisca ora levento A = o si presenta k volte negli n esperimenti (o prove ripetute). La formula di Bernoulli (o binomiale) dice che:
(2.2.11)
P (A) = (
n ) pk (1 p)nk k
ove il coefciente binomiale vale: (

1
n )= k
n! . k!(nk)!
Si ricordi che il modo con cui possono essere disposti n oggetti in k differenti posizioni, distinguendo i gruppi anche per lordine, dato dal numero Dn,k = n (n 1) ... (n k + 1), chiamato
2.3. VARIABILI ALEATORIE
27
2.3. Variabili Aleatorie Si consideri lesperimento aleatorio costituito dal lancio di un dado. Sappiamo gi che il suo spazio campione costituito da tutti i possibili valori che possono essere ottenuti, e cio i numeri da 1 a 6. Questi stessi numeri li potremmo ottenere anche con altri esperimenti aleatori (ad esempio un qualche esperimento che consideri i giorni della settimana lavorativi). Quello che si pu osservare da un insieme di esperimenti di questo tipo la comune cardinalit dello spazio campione, sebbene gli elementi dello spazio campione siano differenti. Se allora astraiamo i casi particolari che abbiamo ottenuto, possibile numerare gli elementi (od i risultati) dello spazio campione, sino ad ottenere il valore associato a ciascuno dei possibili risultati. Quindi in questo modo lesito del lancio di un dado diventa linsieme dei numeri da 1 a 6, mentre lesito di un qualche esperimento che coinvolga i giorni della settimana lavorativi diventa, ancora una volta, linsieme dei numeri da 1 a 6. Abbiamo costruito quindi una quantit variabile a seconda del risultato dellesperimento. A questa quantit dato il nome di variabile aleatoria. Formalmente si pu denire la variabile aleatoria come segue. P ROPOSITION 2.3.1. Dato un esperimento aleatorio avente come spazio campione , come classe degli eventi S e come legge di probabilit P (), si denisce una corrispondenza che associ a ciascun risultato dello spazio un unico numero reale. Tale corrispondenza tra lasse reale e lo spazio detta variabile aleatoria se linsieme dei risultati per i quali vericata la disuguaglianza X(i ) a un evento, comunque si scelga il numero reale a. La variabile aleatoria si introduce ogni volta che il risultato di un esperimento aleatorio un valore numerico, come ad esempio una misura. Per quanto preciso ed accurato possa essere lo strumento, ripetendo pi volte un esperimento (anche deterministico!) si otterranno di volta in volta valori differenti, dovuti agli errori di misura. Linsieme delle misure ottenute rappresenta proprio una variabile aleatoria, per leffetto di incertezza dovuto allerrore di misura. Rimane ora il problema di come trasferire la legge di probabilit alle variabili aleatorie. Vogliamo cio essere in grado di stabilire qual la probabilit di un evento, quando questo sia denito sullasse dei numeri reali e non nella classe degli eventi S. In particolare, dati due numeri reali a e b, con a < b, ha interesse determinare qual
disposizioni di n oggetti in classe k. Le disposizioni di n oggetti in classe n, cio il modo con cui possono essere disposti n oggetti distinguendoli solo per lordine che assumono nelle n posizioni detto permutazioni in classe n e vale: Pn = n!. Inne si dicono combinazioni di n oggetti in classe k il modo con cui disporre n oggetti in k differenti posizioni, non distinguendoli per lordine. E quindi il numero di disposizioni Dn,k diviso il n n n! numero delle permutazioni di k oggetti: Cn,k = Dn,k /Pk = k!(nk)! = . Il numero k k detto anche coefciente binomiale.
2.3. VARIABILI ALEATORIE
28
la probabilit che la variabile aleatoria sia compresa tra a e b, cio P (a < X b). Estendendo il linguaggio usato solo nellambito degli esperimenti aleatori, si denir evento anche lintervallo di valori sullasse reale compreso tra a e b, dato che, per la denizione di variabile aleatoria, lintervallo ]a, b] associabile ad un dato evento di S. Questa operazione di determinazione della legge di probabilit di un dato evento denito direttamente sullasse reale diventa immediato se si introduce una funzione, la funzione distribuzione di probabilit: FX (x), denita come segue:
(2.3.1)
FX (x) = P (X x)
dove x un numero reale ben denito. La funzione di distribuzione di probabilit una funzione che associa ad ogni numero reale il valore della probabilit dellevento identicato dallintervallo X x. Per FX (x) valgono le seguenti propriet: (1) 0 FX (x) 1 (2) Il suo valore limite, per x + vale 1: limx+ FX (x) = FX (+) = P (X +) = 1 (3) Il suo valore limite per x vale 0: limx FX (x) = FX () = P (X ) = 0 (4) La funzione monotona non decrescente, cio se x1 < x2 FX (x1 ) FX (x2 ) (5) La funzione continua da destra, cio FX (x) = limh0+ FX (x + h) (6) Se la funzione di distribuzione presenta una discontinuit di prima specie nel punto x, allora la differenza tra il limite a destra e quello a sinistra proprio il valore della probablit dellevento in X = x: P (X = x) = limh0+ FX ( + x h) limh0 FX ( + h) x (7) La probabilit dellevento a < X b pu essere calcolata tramite la relazione: FX (b) FX (a). Le variabili aleatorie possono essere suddivise in tre classi: variabili aleatorie continue, variabili aleatorie discrete e variabili aleatorie miste. Una variabile aleatoria detta discreta se la sua funzione di distribuzione continua a tratti: FX (x) = k P (X = xk )u(xxk ). Tenendo conto delle ultime due propriet viste precedentemente questo signica che la variabile aleatoria assume valore solo in un numero discreto (cio con cardinalit pari a quella dei numeri naturali) di valori, e non continuo. Le posizioni in cui questo accade sono proprio le xk . In queste posizioni la probabilit dellevento concentrata nel valore xk : pk = P (X = xk ). Le pk sono dette anche masse di probabilit. Se invece abbiamo a che fare con una distribuzione di probabilit continua, allora linsieme dei valori che pu assumere la funzione FX (x) si distribuisce con continuit
2.4. DENSITA DI PROBABILITA
29
sullasse dei numeri reali. Linsieme degli eventi a cui associata tale v.a. un innito di cardinalit pari a quello dei numeri reali, quindi la probabilit che la variabile aleatoria assuma un certo valore x un innitesimo, tende cio a zero. Una variabile aleatoria mista una variabile aleatoria continua quasi ovunque, tranne che per un numero nito (o uninnit numerabile) di punti per i quali presenta discontinuit. 2.4. Densita di Probabilita Una descrizione alternativa di una variabile aleatoria data anche della funzione densit di probabilit, fX (x), denita dalla relazione: dFX (x) dx
(2.4.1)
fX (x) =
La relazione inversa invece:

x
(2.4.2)
FX (x) =
fX (x)dx
La funzione densit di probabilit ovviamente non negativa, discendendo dalla derivazione di una funzione monotona non descrescente, inoltre la sua area vale sempre 1:
+
(2.4.3) .
fX (x)dx = 1
Il nome di densit di probabilit discende dalla sua stessa denizione. Infatti si supponga di considerare un intervallino molto piccolo: [x, x + x] e di voler calcolare la probabilit che X capiti in quellintervallo: P (x < X x + x). Per denizione si ha:
x+x
P (x < X x + x) =
x
fX (x)dx fX (x) x
(2.4.4)
fX (x) =
P (x < X x + x) x
2.4. DENSITA DI PROBABILITA
30
cio la funzione densit di probabilit in un punto rappresenta il valore della probabilit che si pu calcolare in un intervallino nellintorno di quel punto diviso lampiezza di quellintervallino. La sua misura quindi una misura di densit, cio di come la probabilit si addensa attorno ai vari valori che la variabile aleatoria pu assumere sullasse reale. Poich la funzione distribuzione di probabilit pu essere continua, discreta o mista, anche per la densit di probabilit dovremmo distinguere i vari casi. Quando la funzione di distribuzione discreta o mista, essa costituita da un insieme (anche innito) di discontinuit di prima specie. Conseguentemente in questi punti la funzione non , a rigore, derivabile e quindi non si potrebbe denire la densit di probabilit. Tuttavia di una variabile aleatoria discreta stata data una descrizione in termini di distribuzione di probabilit che introduceva luso dei gradini. Difatti il gradino d informazione del salto di probabilt che avvenuto in un certo punto a causa della presenza di una certa massa di probabilit. Una funzione di distribuzione di probabilit discreta rappresentata in gura (2.4.1)
F(x)
xi
F IGURA 2.4.1. Distribuzione di probabilit di una variabile aleatoria discreta Se allora si considera la descrizione per gradini possibile introdurre, come densit di probabilit, una densit che sia costituita da impulsi nelle posizioni delle discontinuit e sia uguale a zero altrove. Gli impulsi infatti rappresentano, nella descrizione della densit di probabilit, un valore concentrato e non distribuito della probabilit, un valore cio che assume una densit innita, dovendo essere denita in un solo punto matematico (vedi gura (2.4.2)). Da un punto di vista della rappresentazione matematica si ha: (2.4.5) FX (x) =
k
P (X = xk ) u(x xk ) fX (x) =
k
P (X = xk ) (x xk )
2.5. OPERAZIONI SULLA VARIABILE ALEATORIA

F(x)
31
xi
F IGURA 2.4.2. Densit di probabilit di una variabile aleatoria discreta
2.5. Operazioni sulla Variabile Aleatoria Nei problemi che coinvolgono una variabile aleatoria pu essere comune lesigenza di dover effettuare alcune operazioni su di essa. In particolare, data una variabile aleatoria X, si pone il problema di come determinare le caratteristiche della variabile aleatoria ottenuta come Y = g(X), dove g() una funzione deterministica denita sullasse reale (e dotata di determinate propriet). Un esempio pu essere dato dalla tensione di rumore ai capi di una resistenza. Questa quantit pu essere descritta mediante una variabile aleatoria, X, dato che il fenomeno che sta alla base della tensione di rumore un fenomeno di tipo statistico. Se ora si vuole misurare la potenza di rumore dissipata sul resistore, poich la potenza su un resistore sempre pari a PR = x2 /R, sar anchessa una variabile aleatoria, ottenuta come prodotto di una costante (il valore della resistenza) per il quadrato di una quantit aleatoria. Se dunque X varia in modo imprevedibile, ma con una certa legge di probabilit, ci si pu chiedere come varia la potenza PR . Questa nuova variabile aleatoria si pu ottenere trasformando la variabile aleatoria originaria. Sia y = g(x). Si vuole determinare: FY (y) = P (Y y) = P (g(X) y). Si devono allora prendere tutti i valori di x, per i quali risulta g(x) y. Detto DY questo insieme: DY = {x g(x) y}, si ha che: FY (y) = DY fX (x)dx. Da questa si
Y ricava poi la densit di probabilit: fY (y) = dFdy(y) . Si supponga in particolare che la funzione g() sia monotona strettamente crescente. In tal caso possibile denire la sua inversa: g 1 () ed immediata la relazione per determinare la densit di probabilit di Y :
FY (y) = P (Y y) = P (g(X) y) = P (X g 1 (y)) = FX (g 1 (y))
2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA
32
(2.5.1)
fX (g 1 (y)) dg 1 (y) fY (y) = fX (g (y)) = dy g (g 1 (y))

1
se la funzione monotona strettamente decrescente invece si ha: (2.5.2) fY (y) = fX (g 1 (y)) fX (g 1 (y)) dg 1 (y) = dy g (g 1 (y))
La relazione generale si pu quindi riassumere nella seguente formula: (2.5.3) fY (y) =

dY
fX (x) dx |g (x)|
dove dY linsieme di tutti i valori x che sono soluzioni dellequazione g(x) = y. Naturalmente linsieme delle soluzioni di g(x) = y pu anche essere linsieme vuoto, nel qual caso si ha ovviamente: fY (y) = 0. Il caso in cui invece risulta: g (x) = 0 trattato differentemente a seconda che anche fX (x) sia nullo oppure no. Nel primo caso sono costanti sia FX (x) che g(x) quindi risulter: P (Y = y) = P (X I) con I intervallo delle x in cui g(x) assume valore costante. Nel secondo caso fY (y) tender ad un valore innito (cio ad un impulso). 2.6. Parametri Statistici di una Variabile Aleatoria Nelle situazioni reali non sempre possibile avere a disposizione tutte le conoscenze necessarie per caratterizzare una variabile aleatoria. Il massimo di informazione che si pu trarre da un esperimento aleatorio la determinazione della sua funzione densit di probabilit. Quando questa funzione non si conosce comunque possibile determinare alcuni parametri statistici che, seppure non permettono una conoscenza completa della variabile aleatoria, permettono di estrarne qualche propriet. Il pi importante di questi parametri statistici il valore atteso o media, x , denito dalla seguente relazione:
(2.6.1)
X =
x fX (x)dx
e rappresenta una sorta di baricentro della funzione densit di probabilit (si confronti a tale proposito la media con le denizioni, meno note di moda e mediana). Se la variabile aleatoria discreta la relazione precedente, a causa della presenza degli
33
impulsi, diventa una sommatoria:
(2.6.2)
X =
x fX (x)dx =
k
pk
x (x xk )dx =
k
xk pk
Loperazione precedente di media pu essere scritta molto pi facilmente introducendo loperatore di aspettazione (o di valor medio):
(2.6.3)
E[g(X)] =
g(x) fX (x)dx
che nel caso della media assume la semplice relazione: X = E[X]. Loperatore di valor medio gode della propriet di linearit, dato che denito attraverso unoperazione di integrazione: E[ag(X)+bh(X)] = aE[g(X)]+bE[h(X)]. Inoltre, si supponga di avere una variabile aleatoria Y ottenuta tramite trasformazione della v.a. X attraverso la funzione y = g(x). Senza passare attraverso il calcolo (a volte difcoltoso) della densit di probabilit di Y nota quella di X possibile determinare il valor medio di Y :
(2.6.4)
Y = E[Y ] = E[g(X)] =
g(x) fX (x)dx
Questo risultato noto con il nome di teorema del valor medio. Due v.a. possono possedere lo stesso valor medio ed essere molto differenti tra loro. In particolare possibile che le v.a. abbiano una densit di probabilit che sia in un caso molto stretta, nellaltro molto larga. Si confrontino le due densit in gura (2.6.1). Questo fatto suggerisce che, seppure con una media uguale, le due v.a. hanno comportamenti molto differenti tra loro. Nel caso della v.a. con densit di probabilit molto larga pi probabile che capitino valori della v.a. lontani dal valor medio, cosa invece meno probabile nel secondo caso. E possibile allora quanticare questo fatto statistico introducendo un nuovo parametro, la varianza, che denita come segue:
(2.6.5)
2 X = E[(X X )2 ] =
(x X )2 fX (x)dx
34
2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 6 4 2 0 2 4 6
F IGURA 2.6.1. Confronto tra due densit di probabilit con la stessa media
La radice quadrata della varianza detta deviazione standard e rappresenta una misura di quanto dispersa sia la densit di probabilit attorno alla media (pi grande la deviazione standard, maggiore la dispersione). Una v.a. che non presenti affatto dispersione attorno alla media (cio con X = 0) sarebbe tutta concentrata sulla media, cio avrebbe una densit di probabilit pari ad un impulso di area unitaria posto sulla posizione della media (ovviamente in questo caso non si pu parlare di densit di probabilit vera e propria, dato che i possibili valori collassano su unico valore certo). Il valore quadratico medio (chiamato a volte anche potenza) denito come segue:
(2.6.6)
m2 X
= E[X ] =
x2 fX (x)dx
Loperatore E[] un operatore lineare, quindi possibile trovare la relazione che lega tra loro varianza e potenza:
2 2 X = E[(X X )2 ] = E[X 2 2XX + X ] = E[X 2 ] 2E[X] X + 2 = X
(2.6.7)
= m2 22 + 2 = m2 2 X X X X X
2.7. ESEMPI DI VARIABILI ALEATORIE
35
2.7. Esempi di Variabili Aleatorie 2.7.1. Variabile aleatoria uniforme. Una variabile aleatoria uniforme presenta una densit di probabilit costante in tutto lintervallo in cui denita, [a, b] e valore nullo al di fuori di questo. Conseguentemente, dato che larea sottesa dalla densit di probabilit deve essere unitaria, laltezza di tale valore costante : 1/(b a). La densit di probabilit si pu quindi scrivere come:
(2.7.1)
fX (x) =
x b+a 1 2 rect( ) ba ba
La v.a. non pu assumere mai valori al di fuori dellintervallo [a, b], ma dentro di questo intervallo la probabilit di occorrenza di tutti i possibili valori uguale ( come se fosse un dado continuo, dotato cio di innite facce). La funzione di distribuzione, essendo la funzione integrale della densit di probabilit avr comportamento a rampa nellintervallo in cui la funzione di densit non nulla: 0 (2.7.2) FX (x) = 1
xa ba
x<a axb x>b
Gli andamenti della funzione di densit e di quella di distribuzione sono mostrati in gura (2.7.1).
1/(ba)
F IGURA 2.7.1. Densit e distribuzione della v.a. uniforme Si possono calcolare facilmente i suoi parametri statistici:
36
(2.7.3)
X =
a 2 X = b
x (x
b+a 1 dx = ba 2 b+a 2 1 ) dx = 2 ba
(2.7.4)
1 b3 a3 (b + a) (b2 a2 ) (b2 + a2 + 2ab)(b a) (b a)2 ( + )= ba 3 2 4 12 m2 = X

b a
(2.7.5)
x2
1 b3 a3 a2 + ab + b2 dx = = ba 3(b a) 3
2.7.2. Variabile aleatoria esponenziale. Una variabile aleatoria molto utilizzata la cosiddetta variabile aleatoria continua esponenziale unilatera o semplicemente esponenziale, cos denita:
(2.7.6)
fX (x) = exp(x) u(x)
dove u(x) il gradino unitario con discontinuit in x = 0. Il signicato del parametro reale e positivo sar chiaro in seguito, quando si vedr uno dei pi comuni utilizzi della v.a. esponenziale, cio nei problemi di afdabilit e calcolo del rischio. La distribuzione di probabilit esponenziale vale:
x
(2.7.7)
FX (x) =
0
exp(x)dx = [1 exp(x)] u(x)
ed entrambe sono illustrate in gura (2.7.2). I suoi parametri statistici valgono:
(2.7.8)
X =
0
x exp(x)dx =
+ 0
1 2 2
(2.7.9)
m2 = X
x2 exp(x)dx =
37
2.5
1.5
0.5
0.5
1.5
F IGURA 2.7.2. Densit e distribuzione della v.a. esponenziale

+ 0
(2.7.10)
2 X =
1 1 (x )2 exp(x)dx = 2
2.7.3. Variabile aleatoria di Poisson. La variabile aleatoria di Poisson una v.a. discreta con densit di probabilit:
(2.7.11)
fZ (z) =
n=0
n (z n) n!
dove il parametro caratterizza la v.a. discreta. La v.a. di Poisson assume valori di probabilit (di massa) differenti da zero solo per valori interi e non negativi. La variabile aleatoria di Poisson e quella esponenziale sono in realt legate tra loro, come si vedr in seguito. Esse modellano bene fenomeni come il conteggio del numero di clienti che paga ad una cassa di un supermercato nellunit di tempo o il numero di automobili che transita ad un casello autostradale o il numero di elettroni che transita attraverso una giunzione np. La funzione di distribuzione essendo lintegrale della fZ (z) precedente, molto semplice:
(2.7.12)
FZ (z) =
n=0
n u(z n) n!
dovendo integrare solo la variabile z. Un andamento della massa di probabilit per = 3 mostrato in gura (2.7.3).
38
0.25
0.2
0.15
0.1
0.05
10
12
F IGURA 2.7.3. Densit e distribuzione della v.a. di Poisson I suoi parametri statistici sono:
(2.7.13) Z =
0
z
n=0
n!
(z n)dz =
n=0
n!
n=e
n=1
n n= n!
m2 = Z (2.7.14) e
+ 0
z2
n=0
n n 2 (z n)dz = e n = n! n! n=0
+
n=1
n n1 n1 (n1+1) = e (n1)+e = 2 + (n 1)! (n 1)! (n 1)! n=2 n=2

2 Z = m2 2 = Z Z
(2.7.15)
Quindi per la v.a. di Poisson il parametro caratteristico rappresenta sia il valor medio sia la varianza. 2.7.4. Variabile aleatoria binomiale. Considerato un esperimento che conduce a due soli possibili risultati (successo, con probabilit p e insuccesso, con probabilit 1 p), la variabile aleatoria binomiale (o di Bernoulli) conta il numero di successi accaduti in n esperimenti aleatori di questo tipo indipendenti tra loro: P (X = k) = n k pk (1 p)nk k = 0, ..., n
39
Questa v.a. discreta, quindi hanno ovvia formulazione sia la distribuzione sia la densit di probabilit. La media vale:
n
X =
k=0
n k
pk (1 p)nk =
k=1
n(n 1)! ppk1 (1 p)nk = np k(k 1)!(n k)!
la varianza vale invece:

n 2 X = k=0
(k np)2
n k
pk (1 p)nk = np(1 p)
2.7.5. Variabile aleatoria geometrica. Considerati n esperimenti aleatori indipendenti di Bernoulli la v.a. geometrica conta qual il numero di successi da osservare prima di registrare il primo insuccesso: P (X = k) = pk (1 p) k = 0, ..., La media vale: p kpk (1 p) = X = 1p k=0 la varianza vale invece:
2 X = k=0 2
p 1p
pk (1 p) =
p (1 p)2
sebbene la determinazione attraverso la formula riportata risulti alquanto difcoltosa. 2.7.6. Variabile aleatoria binomiale negativa e ipergeometrica. La variabile aleatoria binomiale negativa o di Pascal conta il numero di successi che si devono collezionare in una serie di prove ripetute ed indipendenti di Bernoulli prima di osservare un numero di insuccessi complessivamente pari ad m, con m intero positivo, zero compreso: P (X = n) = n+m1 m1 pn (1 p)m1 (1 p)
p Il valore medio pari a: X = m 1p . Inne la variabile aleatoria ipergeometrica si introduce in una particolare classe di esperimenti detti senza rimessa (o senza rimescolamento). Si supponga, per rendere chiara lidea con un esempio, di avere un lotto di N oggetti di cui D difettosi. Si supponga ora di pescare da questo lotto un numero di oggetti n senza rimessa (cio senza rimetterli dentro dopo aver osservato di quale oggetto si tratti). Detti k gli oggetti difettosi tra gli n pescati, la v.a. ipergeometrica permette di valutare la probabilit di k (numero compreso tra 0, ..., n):
40
P (X = k) =
D k
N D nk N n
2.7.7. Derivazione e signicato delle v.a. esponenziale e di Poisson. La v.a. esponenziale e quella di Poisson sono legate allo stesso signicato sico che quello dellattesa di un evento. In un processo di Poisson la casualit afdata al tempo di arrivo di un certo evento. In generale nei processi di Poisson siamo interessati da vari fenomeni: (1) osservare il numero di eventi in un certo intervallo di tempo ssato; (2) il tempo di interarrivo, cio il tempo che intercorre tra larrivo di due eventi successivi; (3) il tempo di attesa, cio il tempo che occorre afnch arrivi il primo evento a partire da un istante iniziale di osservazione. I tre tipi di fenomeni sono riassunti nella gura (2.7.4), dove le crocette rappresentano gli arrivi di un certo evento sullasse temporale.
1) x 0 x x x
2) x 0
3) x
F IGURA 2.7.4. Rappresentazione graca dei tre fenomeni descritti Per poter ricavare la distribuzione di un processo poissoniano si fanno alcune ipotesi semplicative: (1) ssato un intervallo T e suddividendo questo intervallo in n (con n grande) intervallini piccoli di durata T , T = n T , la probabilit che un evento capiti in un intervallino pari ad una v.a. di Bernoulli: P (N (T ) = 1) = p P (N (T ) = 0) = 1 p si esclude la probabilit che in un singolo intervallino capiti pi di un evento (2) Gli arrivi in intervallini diversi sono indipendenti tra loro.
41
Calcoliamo ora qual la probabilit che in un dato intervallo nito T capitino k eventi: Pn (N (T ) = k). In base alle formule viste per la v.a. di Bernoulli si ha: n P (N (T ) = k) = ( )pk (1 p)nk con n numero totale di intervallini in cui si pu k pensare suddiviso lintervallo T . Sia ora un parametro costante, tale che si possa scrivere: T = np = , cos che, quando il numero di intervallini tende ad innito, la probabilit che un evento capiti in un dato intervallino vada a zero: n p 0. La probabilit diventa allora: n k )p (1 p)nk = k
P (N (T ) = k) = lim Pn (N (T ) = k) = lim (
n n
= lim (
n
k n (n 1) ... (n k)! n k )( ) (1 )nk = lim (1 )n (1 )k = k (n k)! k n n k! n n n n = k k lim (1 )n = exp() k! n n k!
(2.7.16)
Si osservi che se si pone T = 1 allora la P (N (1) = k) coincide con la distribuzione di Poisson trovata nel par. 2.7.3, che a questo punto rappresenta la probabilit che nellunit di tempo capitino k eventi. La probabilit che nellunit di tempo non capitino affatto eventi vale: P (N (1) = 0) = exp(). Calcoliamo ora il tempo di attesa, cio il tempo che bisogna attendere afnch capiti il primo evento a partire da un instante iniziale di osservazione. Se x listante in cui si vuole valutare la v.a., distribuzione di probabilit della v.a. tempo di attesa pu essere espressa anche come: F (x) = P ( x) = 1 P ( > x). Ma P ( > x) anche la probabilit che sino ad x non sia capitato alcun evento: P ( > x) = exp(x). Quindi:
(2.7.17)
F (x) = 1 ex f (x) = ex
che, confrontata con le (2.7.6) e (2.7.7) d signicato alla v.a. esponenziale, purch si 1 ponga: = . Si supponga ora che, a partire da un certo istante in cui capitato un evento, si voglia determinare quale sar la probabilit che sia il tempo di arrivo dellevento successivo. Questa probabilit di arrivo, detta tempo di interarrivo si pu calcolare facilmente a partire dalle considerazioni fatte precedentemente. Infatti, poich gli eventi sono indipendenti tra loro, loccorrere di un evento ad un certo istante (quello nel quale
42
noi poniamo t = 0) non genera alcuna dipendenza futura sullevento successivo. Ne consegue che la distribuzione e la densit di probabilit del tempo di interarrivo sono uguali a quelle calcolate per il tempo di attesa. La variabile aleatoria esponenziale esprime cio la mancanza di memoria di un sistema. 2.7.8. Variabie aleatoria gaussiana. La variabile aleatoria di Gauss detta anche v.a. normale, o a campana, emerge nellesperienza dellumanit come una delle pi ampie generalizzazioni della losoa naturale. Essa serve come strumento guida in ricerche della scienza, della medicina e dellingegneria. E uno strumento indispensabile per lanalisi e linterpretazione dei dati fondamentali ottenuti dallosservazione e dallesperimento.2 Moltissimi fenomeni naturali si modellano statisticamente, in mancanza di altre informazioni, come se seguissero una variabile aleatoria gaussiana. Inoltre, come verr dimostrato pi avanti con il teorema del limite centrale, la v.a. gaussiana si pu sempre considerare una generalizzazione di altre v.a. quando il numero di elementi presenti diventa molto grande. La densit di probabilit della v.a. gaussiana :
(2.7.18)
1 (x )2 fX (x) = exp( ) 2 2 2
dove, come si pu dimostrare, i parametri e 2 sono rispettivamente il valor medio e la varianza della v.a. La densit di probabilit gaussiana si estende su tutto lasse dei numeri reali, ed simmetrica rispetto al suo valor medio . La v.a. gaussiana indicata anche con (, 2 ), dato che la media e la varianza sono sufcienti per caratterizzarla completamente. La gaussiana standard quella con densit di probabilit (0, 1), cio:
(2.7.19)
1 x2 fXN (x) = exp( ) 2 2
Essa particolarmente importante poich si pu facilmente vedere che una gaussiana qualunque (, 2 ) pu essere ottenuta come trasformazione lineare della gaussiana standard: X = XN + . Infatti: 1 x 1 (x )2 exp( fX (x) = fXN ( )= ) 2 2 2
2
J. Gleick: Caos: la nascita di una nuova scienza, ed. Bur.
43
La funzione di distribuzione della gaussiana non pu essere espressa in forma chiusa. A tale proposito si introduce la funzione di distribuzione della gaussiana standard:
(2.7.20)
XN (x) =
z2 1 exp( )dz 2 2
Questa funzione calcolata con metodi numerici e spesso si danno anche valori tabulati. Talvolta si usa anche la funzione Q(x) = 1(x). Nota la funzione di distribuzione standard possibile calcolare la funzione di distribuzione per una normale qualunque (, 2 ): X (x) = P (X x) = P (XN + x) = XN ( x ). Quindi, ad esem pio, se si vuole conoscere la probabilit che la variabile gaussiana assuma valori in un intervallo [a, b], si ottiene: (2.7.21) . Molte volte nei calcolatori si ha a disposizione, direttamente implementata, la funzione di distribuzione standard. Quando questa non presente, si hanno le funzioni errore ed errore complementare (error function e complementary error function): P (a < x b) = FX (b) FX (a) = N ( b a ) N ( )
(2.7.22)
2 erf (x) =
x 0
ez dz
+ x
(2.7.23)
2 erf c(x) = 1 erf (x) =
ez dz
Quando si hanno a disposizione solo la funzione errore o la sua complementare si pu x ricavare la funzione di distribuzione standard da questultima: (x) = 1 (1+erf ( 2 )), 2 1 x e la funzione Q(x) = 2 erf c( 2 ). Da questa relazione si pu ricavare facilmente la probabilit che una gaussiana assuma valori nellintervallo [a, b]: P (a < x b) = b a a b 1 [erf ( 2 ) erf ( 2 )] = 1 [erf c( 2 ) erf c( 2 )]. Nelle gura (2.7.5) sono 2 2 riportate la densit di probabilit gaussiana con la funzione di distribuzione e la Q(x), in gura (2.7.6) riportata invece la funzione errore e la sua complementare.
2.8. VARIABILI ALEATORIE CONDIZIONATE
44
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4
Q(x)
F IGURA 2.7.5. Densit, distribuzione e funzione Q(x) per la v.a. gaussiana
erfc(x)
1.5
erf(x)
1
0.5
0.5
1 4
F IGURA 2.7.6. Funzione errore e funzione errore complementare 2.8. Variabili Aleatorie Condizionate La funzione di distribuzione della probabilit, FX (x) passa attraverso la denizione di un evento, di cui la funzione ne rappresenta la probabilit: FX (x) = P (X x) = P (A), dove levento A levento che la v.a. assuma valori minori od uguali ad X. Il vericarsi di un evento per pu essere anche inuenzato dal vericarsi o meno di un altro evento B avente probabilit non nulla di accadere, P (B). Ha quindi senso porsi il problema del calcolo di una funzione di distribuzione condizionata dalloccorrere dellevento B. Tale funzione di distribuzione della v.a. X, indicata con FX/B (x/B), vale ovviamente:
(2.8.1)
FX/B (x/B) =
P (A, B) P (X x, B) = P (B) P (B)
2.9. APPLICAZIONI NOTEVOLI
45
da cui si pu denire anche la densit di probabilit:
(2.8.2)
fX/B (x/B) =
dFX/B (x/B) dx
Le funzioni di distribuzione e di densit di probabilit godono di tutte le propriet viste nora e valide per le funzioni e distribuzioni non condizionate. 2.9. Applicazioni notevoli 2.9.1. Trasformazione di una variabile aleatoria. Schematizzazione del guasto di un circuito elettrico. Si supponga di avere il semplice circuito elettrico riportato in gura (2.9.1). Il generatore di tensione sia collegato alla serie RC allistante t = 0. Il resistore R abbia un tempo di guasto aleatorio X, in corrispondenza del quale esso interrompe il circuito. Questo tipo di fenomeno, cio listante in cui interrompe il circuito, si pu modellare (per quanto detto in par. 2.7.7) come una v.a. esponenziale con parametro (scelto arbitrariamente) pari a 2 = 2RC: 1 x exp( ) u(x) 2 2
(2.9.1)
fX (x) =
t=0 t=X
0000 1111 0000 1111 0000 1111
Vo
111111 000000 111111 000000 000000 111111 000000 111111
F IGURA 2.9.1. Schema del circuito RC con un guasto in t = X. Si vuole determinare la densit di probabilit fV (v) della v.a. V che rappresenta la tensione ai capi del condensatore dopo che avvenuto il guasto al resistore R. Il guasto al resistore si pu schematizzare come linterruzione del circuito e il conseguente mantenimento della tensione sul condensatore (qui supposto ideale). Poich
46
non si conosce listante in cui il guasto avverr, anche la tensione che verr mantenuta ai capi del condensatore una quantit statistica, cio ignota a priori, di cui per possibile determinare la probabilit che assuma un certo valore. E sufciente a tale proposito determinare la legge che lega il tempo alla tensione ai capi del condensatore: v(t) = Vo [1 exp(t/)] u(t). Ponendo t = X, segue: v(X) = Vo [1 exp(X/)] u(X). Conosciamo quindi la legge di trasformazione e la densit di probabilit di X. Si deve quindi applicare quanto riportato nel par. 2.5:
(2.9.2)
fV (v) =
fX (x) v (x)
dove x la quantit che soddisfa lequazione v = v(x). Poich la legge v(t) perfettamente invertibile nellintervallo [0, Vo ], solo in questo intervallo avr senso denire la densit di probabilit di fV (v). Linversione della legge porta a: v ) Vo
(2.9.3)
v = v(x) x = ln(1
poich inoltre:
(2.9.4)
v (x) =
Vo exp(t/)
si ha inne:
(2.9.5)
fV (v) =
1 2Vo
1 1
v Vo
2.9.2. Tempo di guasto dopo il rodaggio. Un altro problema interessante quello del tempo di guasto dopo il rodaggio. Si abbia una serie di resistenze, tutte nominalmente uguali tra loro. Se queste resistenze si pongono sotto tensione, presto o tardi esse tenderanno a rompersi. La rottura di una singola resistenza ovviamente un evento casuale, che ben modellato da una variabile aleatoria esponenziale, con densit di
47
probabilit data dalla (2.7.6). Il parametro , che nella densit di probabilit esponenziale rappresenta il valor medio, detto tempo medio di guasto o MTTF (Mean Time To Failure). Effettuiamo ora unoperazione di rodaggio. Dato cio un tempo pressato a piacere, to , scartiamo le resistenze che si sono guastate sino a quellistante. Quindi cominciamo, per istanti t to , ad osservare le resistenze che non si sono ancora guastate. In base alla propriet di mancanza di memoria della variabile aleatoria esponenziale, ci si aspetta che la densit di probabilit condizionata da questo evento non sia mutata. Verichiamolo. Quello che vogliamo determinare la densit di probabilit condizionata dallevento B, con B = {t to }. Si calcola prima la distribuzione di probabilit FX/B (x/B). La probabilit dellevento B : P (B) = P (X to ) = 1 P (X < to ) = 1 FX (to ), dove FX (x) la funzione di distribuzione della v.a. X. La probabilit congiunta dellevento P (X x, B) si pu determinare invece a partire dai due casi in cui x > to oppure x to :
P (X x, B) = P (X x, X to ) = (2.9.6)
FX (x) FX (to ) x > to = 0 altrimenti
= [FX (x) FX (to )] u(x to )
Sostituendo nella denizione di distribuzione di probabilit condizionata da un evento: P (X x, B) [FX (x) FX (to )] u(x to ) = = P (B) 1 FX (to ) = [FX (x) FX (to )] u(x to ) 1 FX (to )
FX/B (x/B) = (2.9.7)
da cui si ricava facilmente la densit di probabilit condizionata:
(2.9.8)
fX/B (x/B) =
dFX/B (x/B) fX (x) = u(x to ) dx 1 FX (to )
Questa densit di probabilit spiega il comportamento delle resistenze quando si introduce il tempo di rodaggio: la probabilit che se ne guasti qualcuna per x < to
48
ovviamente nulla, dato che si stanno considerando solo le resistenze sopravvisute allistante t = to ; inoltre la densit di probabilit la stessa del caso in cui si cominci ad osservare il fenomeno per t = 0 (e quindi vericato che il sistema privo di memo1 ria), tranne per il fattore di scala 1FX (to ) che ha lo scopo di rinormalizzare la densit di probabilit in modo che la sua area sia sempre pari ad 1. 2.9.3. Generatori aleatori. Nei problemi di simulazione capita talvolta di richiedere, ai computer, di produrre dei numeri casuali, generati con una legge assegnata. La routine di sistema di un computer, basata sulle complesse relazioni esistenti tra i registri della macchina e il clock, in grado spesso di fornire un numero casuale, ad aritmetica nita, compreso tra 0 ed 1 e distribuito in modo uniforme. Il primo problema da risolvere per produrre numeri a caso con distribuzione assegnata, consiste nel costruire una funzione tale che se X uniforme nellintervallo [0, 1], allora (X) abbia la distribuzione assegnata nellintervallo assegnato. Il problema si formalizza cos: data una v.a. X uniforme in [0, 1], ed assegnata una densit di probabilit (continua) f , si deve trovare unapplicazione , tale che Y = (X) abbia densit di probabilit f . Supponiamo che si voglia f non nulla allinterno di un intervallo assegnato [a, b] e nulla al di fuori di esso. In tal caso la F , funzione cumulativa, sar strettamente crescente e quindi invertibile in questo intervallo. Mostriamo che la scelta = F 1 risolve il nostro problema. Anzitutto osserviamo che la F di una v.a. uniforme vale: F (x) = x vale 0 per x < 0 e 1 per x > 1. 0x1
FY (y) = P (Y y) = P ((X) y) = P (X 1 (y)) = FX (1 (y)) = 1 (y) FY = 1 La v.a. Y = (X) = F 1 (X) risolve il problema, dato che avr una funzione cumulativa pari ad F . Supponiamo, ad esempio, di voler ottenere una legge esponenziale con parametro . Siccome la funzione cumulativa vale: F (t) = 1 exp(t), t 0 e la sua inversa vale:
essa invertibile su
1 F 1 (x) = log(1 x) 1 Quindi se X uniforme su [0, 1], allora la funzione trasformata Y = log(1X) esponenziale con parametro . In altri casi esistono tecniche pi rafnate (o pi semplici, quando la funzione da invertire non semplice) che, pur sfruttando il principio sopra esposto, permettono di aggirare le difcolt del problema in esame.
2.10. SISTEMI DI VARIABILI ALEATORIE
49
2.10. Sistemi di Variabili Aleatorie 2.10.1. Sistemi di due variabili aleatorie. Nello studio di un esperimento aleatorio pu avere senso associare due grandezze siche differenti a due risultati differenti dellesperimento. Tuttavia le corrispondenti v.a. associate a queste grandezze, X ed Y , difcilmente forniranno risultati signicativi allesperimento stesso, se prese singolarmente. Ad esempio si supponga di considerare un esperimento statistico in cui si misura laltezza e il peso di una certa popolazione di persone. Sar molto difcile trovare una persona molto alta e molto magra, sebbene la variabilit di peso e di altezza, prese singolarmente permettono escursioni ampie. Questo signica che, nellesperimento aleatorio, le due grandezze forniscono informazione utile solo se prese insieme (informazione congiunta). Data allora una coppia di variabili aleatorie (X, Y ) si denisce la funzione di distribuzione di probabilit congiunta:
(2.10.1)
FXY (x, y) = P (X x, Y y)
che descrive in modo completo il comportamento statistico delle due v.a. In particolare, conoscendo FXY (x, y) possibile avere informazioni sul comportamento statistico delle due v.a. prese separatamente (probabilit marginali). Le propriet della funzione di distribuzione di probabilit congiunta sono molto simili a quelle viste per la funzione di distribuzione di una sola variabile: (1) la funzione FXY (x, y) assume valori compresi tra 0 ed 1; (2) Dato un valore sso di y, y = yo , la funzione FXY (x, yo ) monotona non decrescente in x e continua da destra; analoga propriet vale per laltra variabile; (3) la funzione soddisfa le seguenti uguaglianze: FXY (, y) = P (X , Y y) = 0 FXY (x, ) = P (X x, Y ) = 0 FXY (, ) = P (X , Y ) = 0 (4) Le funzioni di distribuzione marginale si ricavano come: FX (x) = FXY (x, +) FY (y) = FXY (+, y) (5) limx,y FXY (x, y) = 1 (6) La probabilit dellevento rettangolare R = {x1 X x2 , y1 Y y2 } si calcola con la relazione: (2.10.2) P (x1 X x2 , y1 Y y2 ) = FXY (x2 , y2 )FXY (x1 , y2 )FXY (x2 , y1 )+FXY (x1 , y1 )
50
In particolare lultima propriet permette di determinare la funzione densit di probabilit congiunta quando lampiezza degli intervalli in x ed in y tende a diventare molto piccola:
P (x X x + x, y Y y + y) = [FXY (x + x, y + y) FXY (x, y + y)] [FXY (x + x, y) FXY (x, y)] = = FXY (x, y + y) FXY (x, y) 2 FXY (x, y) x x = xy x x xy
2 FXY (x,y) , xy
Se allora si denisce la funzione: fXY (x, y) =
si ha:
(2.10.3)
P (x X x + x, y Y y + y) fXY (x, y) xy =
La funzione denita detta densit di probabilit congiunta. Essa sempre non negativa ed integra ad 1 su tutto il piano:
(2.10.4)
2
fXY (x, y)dxdy = 1
Le densit di probabilit marginali si ricavano in base a quanto gi visto per la distribuzione di probabilit congiunta:
(2.10.5)
fX (x) =
+
fXY (x, y)dy
(2.10.6)
fY (y) =
fXY (x, y)dx
51
Dato un evento A, identicabile con un dominio sul piano lit di quellevento : (2.10.7)
A
: (x, y) A, la probabi-
fXY (x, y)dxdy
Inne la funzione di distribuzione pu essere ricavata dalla densit di probabilit mediante la relazione:
x y
(2.10.8)
FXY (x, y) =

fXY (s, t)dsdt
Anche in questo caso si pu denire la funzione di distribuzione e la densit di probabilit condizionata. Si supponga infatti che la v.a. X abbia assunto un certo valore X = x. In tal caso la probabilit marginale di Y sar condizionata da questo cambiamento. Si denisce allora la funzione di distribuzione condizionata:
(2.10.9)
FY /X (y/x) =
fXY (x, t)dt fX (x)
Da questa si ricava poi la densit di probabilit condizionata derivando rispetto ad y: (2.10.10) fY /X (y/x) = FY /X (y/x) fXY (x, y) = y fX (x)
Se il comportamento della variabile aleatoria Y uguale sia sotto condizionamento per X = x, x sia senza condizionamento, cio se fY (y) = fY /X (y/x) allora questo signica che le v.a. sono indipendenti tra loro. In questo caso la densit di probabilit congiunta pari al prodotto delle due densit di probabilit: fXY (x, y) = fX (x) fY (y). Come gi visto nel caso di una sola v.a., anche nel caso di due v.a. si pu effettuare una trasformazione: Z = g(X, Y ), dove g(, ) una funzione reale di due variabili reali. La funzione denisce una nuova v.a. con funzione di distribuzione: FZ (z) = P (g(X, Y ) z). Il calcolo della FZ (z) pu essere facilmente effettuato tramite:
52
(2.10.11)
FZ (z) =
R(Z)
fXY (x, y)dxdy
dove il dominio R(Z) indica la regione di piano in cui vale la relazione g(X, Y ) z. Nota la funzione di distribuzione, la densit di probabilit si ricava mediante semplice derivazione rispetto allunica variabile z. E XAMPLE 2.10.1. Somma di due variabili aleatorie. Questo esempio d luogo ad un risultato notevole. Detta infatti D la regione di piano individuata dalla relazione x + y z, si ha che D = {x, y z x} , x. Quindi si ha:
zx
zx
FZ (z) =
+
fXY (x, y)dxdy =

fXY (x, y)dy dx

+
fZ (z) =
dFZ (z) = dz
d dz
zx
fXY (x, y)dy dx =

fXY (x, z x)dx
Se poi le v.a. sono indipendenti si ottiene: (2.10.12) fZ (z) =

+ +
fXY (x, z x)dx =
fX (x) fY (z x)dx = fX (z) fY (z)
cio date due v.a. sommate tra loro ed indipendenti, la densit di probabilit della v.a. somma pari alla convoluzione delle densit di probabilit delle due v.a. di partenza. Il risultato facilmente generalizzabile alla somma di n variabili aleatorie indipendenti tra loro. 2.10.2. Correlazione e covarianza. Il comportamento statistico di una coppia di v.a. pu essere descritto da alcuni parametri che le descrivono in modo congiunto. Tra questi parametri vi sono la correlazione:
(2.10.13)
rXY = E[XY ] =

xy fXY (x, y)dxdy
e la covarianza:
53
(2.10.14) cXY = E[(X X )(Y Y )] =
(x X )(y Y ) fXY (x, y)dxdy
Si fa vedere facilmente che cXY = rXY X Y . La covarianza un parametro statistico molto importante. Essa stabilisce se esiste un qualche tipo di dipendenza lineare tra le v.a. Cerca in ogni caso di misurare una dispersione congiunta intorno ai rispettivi valori medi. Se ad esempio la covarianza positiva questo signica che, prevalentemente, le v.a. tendono a muoversi nella stessa direzione, cio pi probabile che se una di esse sopra la media lo sia anche laltra (come ad esempio peso ed altezza di una persona). Una covarianza negativa indica invece il fenomeno contrario, cio che prevalentemente le due v.a. si muovono statisticamente in direzioni opposte, come ad esempio et ed acuit visiva di una popolazione. Supponiamo che tra le due v.a. X e Y esista una certa dipendenza lineare: Y = aX + b Y = aX + b Y Y = a(X X )
(2.10.15)
La covarianza vale allora:

2 cXY = E [(X X )(Y Y )] = E [(X X )a(X X )] = aX 2 cXY = E [(X X )(Y Y )] = E [(Y Y )(Y Y )/a] = Y /a
da cui si ricava che: (2.10.16)

2 2 c2 = X Y XY
XY In questo caso il rapporto cX Y = 1. E possibile generalizzare il discorso precedente e porre, per una data coppia di v.a. X e Y , la seguente denizione:
(2.10.17)
=E
X X Y Y X Y
cXY X Y
che d una misura del grado di correlazione o di dipendenza lineare tra le due v.a. Si ponga ora il caso generale: Y = aX + b + Z, in cui la quantit Z una v.a. Con questo modello abbiamo supposto che la dipendenza lineare tra X e Y sia dubbia o comunque non nota. Il problema che ci poniamo quello di determinare la retta migliore possibile (cio i coefcienti a e b) che permettano di formulare la migliore predizione lineare di Y in funzione di X.
54
La soluzione considerata ottima quella che si ottiene imponendo che la media di Z sia nulla e che la sua varianza sia minima: Z = Y aX b = 0 2 2 2 Z = Y + a2 X 2acXY = min
(2.10.18)
la seconda equazione va derivata e posta = 0:

2 Z 2 = 2aX 2cXY = 0 a da cui si ricava abbastanza facilmente:
(2.10.19)
(2.10.20)
a=
cXY 2 X
Sostituendo il valore determinato di a nella seconda equazione della (2.10.18) si ricava la varianza minima che deve assumere la v.a. Z: (2.10.21)
2 2 Zmin = Y +
c2 cXY XY 2 2 X 2 2 cXY = Y (1 2 ) 4 X X
Dalla precedente equazione si ricavano le seguenti osservazioni: (1) il valore del coefciente di correlazione un numero in valore assoluto sempre minore di 1: 0 || 1; (2) Tanto pi || 1 tanto pi sono linearmente dipendenti le v.a. X e Y . Se || = 1, X e Y dipendono linearmente tra loro. (3) Se || = 0 allora cXY = 0, cio le due v.a. sono incorrelate. Il coefciente di correlazione serve a normalizzare la covarianza che altrimenti potrebbe assumere valori anche molto differenti per diverse coppie di v.a. Esso permette quindi di confrontare diversi risultati tra loro, dato che lintervallo in cui denito sempre [1, 1]. Il coefciente di correlazione si pu anche vedere come una correlazione denita per la nuova coppia di v.a. normalizzate ( XX , Y Y ). Quanto pi X Y vicino questo coefciente ad 1 in modulo, tanto pi le v.a. tendono a seguire una legge di variazione lineare. Se poi le v.a. sono indipendenti tra loro la loro correlazione vale:
+ +
rXY = E[XY ] =
+ +
xy fXY (x, y)dxdy = y fY (y)dy = X Y
(2.10.22)
xfX (x)dx
55
cio due v.a. indipendenti sono anche incorrelate. Linverso di questa relazione non sempre vera tuttavia: cio due v.a. incorrelate possono anche essere dipendenti tra loro. Lindipendenza una condizione pi restrittiva della incorrelazione.
2.10.3. Metodo dei minimi quadrati. Questo metodo, strettamente correlato con il concetto di dipendenza lineare tra due v.a. in realt oggetto di studio della statistica e non della teoria delle probabilit. Infatti il metodo si introduce in un contesto in cui leventuale dipendenza lineare tra due v.a. ignota ma si suppone esistente per ipotesi di lavoro; si suppone inoltre che le statistiche delle due v.a. non siano note. Si suppongono invece note una serie di misure delle due v.a., che in un esperimento aleatorio, si possono considerare due grandezze siche in qualche modo dipendenti tra loro (per esempio si potrebbe pensare ad un esperimento aleatorio che coinvolga spazio percorso da un oggetto che si muove di moto rettilineo uniforme e tempo trascorso. E ragionevole supporre dipendenza lineare tra le due grandezze siche). Siano xi e yi , con i = 1, 2, ..., N la serie di misure ottenute. La retta ottima consiste nel considerare la soluzione che minimizza la somma dei quadrati della relazione di dipendenza lineare:
zi = yi axi b S=
i
zi2
=
i
(yi axi b)2 x2 + b i

i i
S = a (2.10.23)
xi yi + a
i
xi = 0
S = b
yi + a
i i
xi + N b = 0
Le relazioni precedenti possono essere riarrangiate in un sistema di due equazioni in due incognite: a e b, dato che le restanti quantit sono note, essendo ricavabili dalle coppie di misure (xi , yi ). Se si pongono le seguenti stime:
56
X =
1 N
xi
i
1 Y = N 1 2 X = N 1 2 Y = N cXY = 1 N
yi
i
(xi X )2
i
(yi Y )2
i
(xi X ) (yi Y )
i
I valori ottimali di a e b nel senso dei minimi quadrati si possono riscrivere nel seguente modo: a= cXY
(2.10.24)
2 X b = Y aX cXY = X Y
2.10.4. Sistemi di n variabili aleatorie. Quanto visto per due v.a. pu essere facilmente generalizzato per n variabili aleatorie. La funzione di distribuzione di probabilit congiunta denita come:
(2.10.25)
FX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) = P (X1 x1 , X2 x2 , ..., Xn xn )
e la relativa densit di probabilit :
(2.10.26)
fX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) =
n FX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) x1 x2 ...xn
Dalla densit di probabilit congiunta possibile ricavare la densit di probabilit marginale rispetto a ciascuna delle variabili: sufciente integrare su tutto il dominio per tutte le altre. Inoltre possibile ricavare la densit di probabilit marginale di un qualunque sottoinsieme di v.a., sempre integrando in rispetto a quelle che
57
devono mancare (se ad esempio si vuole la densit di probabilit marginale rispetto ad x3 , x4 , ..., xn si deve integrare fX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) rispetto ad x1 , x2 . In modo analogo si ricavano le densit di probabilit condizionate. Se si vuole determinare la densit di probabilit condizionata ad un qualunque sottoinsieme di v.a. sufciente dividere la densit di probabilit congiunta per la marginale ristretta a quel sottoinsieme. Se ad esempio si vuole determinare
(2.10.27)
fX1 ,X4 ,...,Xn /X2 ,X3 (x1 , x4 , ..., xn /x2 , x3 ) =
fX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) fX2 ,X3 (x2 , x3 )
Le v.a. si dicono indipendenti tra loro se, preso un qualunque sottoinsieme di esse, condizionato da un qualunque altro sottoinsieme (distinto dal primo), la densit di probabilit condizionata pari alla densit del primo sottoinsieme considerato non condizionato. Per lo studio dei sistemi di v.a. si utilizza normalmente la notazione matriciale: X = {X1 , X2 , ..., Xn } dove X un vettore aleatorio: X1 X2 X = . = [X1 , X2 , ..., Xn ]T . . Xn La funzione di distribuzione di probabilit congiunta e la funzione di densit di probabilit congiunta possono essere quindi indicate con notazione vettoriale: FX (X) ed fX (X). Anche i parametri statistici possono essere indicati con notazione vettoriale:
(2.10.28)
(2.10.29)
X = E[X] = [X1 , X2 , ..., Xn ]T
Poich la correlazione e la covarianza sono state denite per coppie di v.a. quando si hanno pi di due v.a., ha senso denire la correlazione e la covarianza per tutte le possibili coppie di v.a. In tal caso tutte le correlazioni, come pure tutte le covarianze possono essere riunite in una matrice di dimensione n n dette matrici di correlazione e di covarianza:
58
(2.10.30)
rX1 X1 rX1 X2 ... rX1 Xn rX2 X1 rX2 X2 ... rX2 Xn RX = E[XX T ] = . . . ... . . . . . . rXn X1 rXn X2 ... rXn Xn
(2.10.31)
cX1 X1 cX1 X2 ... cX1 Xn cX2 X1 cX2 X2 ... cX2 Xn CX = E[(X X )(X X )T ] = . . . .. . . . . . . . cXn X1 cXn X2 ... cXn Xn
Le matrici di correlazione e di covarianza sono simmetriche, essendo (2.10.32) rXi Xj = rXj Xi cXi Xj = cXj Xi
dalle loro stesse denizioni. I valori sulla diagonale di RX sono i valori quadratici medi delle singole v.a. Xi : rXi Xi = E[Xi Xi ] = m2 i . I valori sulla diagonale della X matrice di covarianza sono le varianze delle singole v.a. Xi : (2.10.33)
2 cXi Xi = E[(Xi Xi )(Xi Xi )] = Xi
La relazione tra la matrice di correlazione e quella di covarianza pari alla relazione che esiste tra la correlazione e la covarianza per una coppia di v.a.: CX = RX X T . X Anche per la trasformazione si possono fare considerazioni analoghe. Si consideri una funzione vettoriale di n variabili in n valori g(, , ..., ) = g1 (), g2 (), ..., gn (), e si applichi tale funzione al vettore aleatorio X ottenendo un nuovo vettore aleatorio di n v.a.: Y = g(X). Per determinare la densit di probabilit congiunta del nuovo vettore fY (y) a partire da quella di X si pu utilizzare la generalizzazione di quanto visto in par. 2.5:
(2.10.34)
fY (y) =
i
fX (xi ) |det(J(xi ))|
dove xi il sottoinsieme di Rn soluzione della relazione: g(xi ) = y e dove J(xi ) la matrice jacobiana calcolata per tali valori.
59
Nellipotesi in cui il vettore aleatorio sia trasformato in un altro vettore di dimensioni differenti, m, necessario passare prima attraverso il calcolo della funzione di distribuzione di probabilit congiunta, estesa al dominio che soddisfa la disuguaglianza data dalla trasformazione:
(2.10.35)
FZ (z) =
RD
fX (x)dx
dove RD linsieme che soddisfa la relazione: RD = (X1 , X2 , ..., Xn ) (2.10.36) g1 (X1 , X2 , ..., Xn ) Z1 gm (X1 , X2 , ..., Xn ) Zm
g2 (X1 , X2 , ..., Xn ) Z2 ...
Nota poi la funzione di distribuzione, si pu determinare la funzione di densit di probabilit congiunta mediante derivazione. Particolare interesse ha il caso in cui m = 1, cio si voglia trasformare il vettore aleatorio in una sola variabile aleatoria. Facciamo il caso in cui la v.a. che si vuole ottenere somma delle n v.a. di partenza: Z = i Xi . Poich si pu scrivere: Z = 1T X con 1T = [1 1 ... 1], si ha che il valore atteso vale: (2.10.37) Z = E[Z] = E[1T X] = 1T E[X] = 1T X =
i
Xi
Per la varianza si ha:
2 Z = E[(Z Z )2 ] = E[(Z Z )T (Z Z )] =
= E[(1T X 1T X )T (1T X 1T X )] = E[(X X )T 11T (X X )] = (2.10.38) =

i j
cxi xj
60
Se allora le v.a. componenti il vettore aleatorio X sono a due a due incorrelate (o addirittura indipendenti), cioe se cxi xj = 0 i, j = 1, ..., n ed i = j allora la varianza della v.a. somma pari alla somma delle varianze delle singole v.a. Xi . 2.10.5. Variabili aleatorie congiuntamente gaussiane. Particolare interesse assume la composizione di v.a. gaussiane. Si supponga di avere n v.a. gaussiane che costituiscono un vettore aleatorio X = [X1 , X2 , ..., Xn ]T . Se le v.a. sono tutte indipendenti tra loro la densit di probabilit congiunta pari al prodotto delle densit di probabilit di tutte le componenti del vettore:
(2.10.39)
fX (x) =
i=1
fxi (xi )
2 Inoltre, poich si supposta la gaussianit delle singole Xi , (i , i ), la fX (x) diventa:
(2.10.40) fX (x) =
i=1
(x i )2 exp( )= 2 2i 2
1 (2)n
1 exp( 2 2 i i
i=1
(x i )2 ) 2 i
2 2 dove si posto, con notazione abbreviata, i = Xi e i = Xi . La densit di probabilit pu essere riscritta sfruttando il vettore dei valori medi = [1 , 2 , ..., n ]T e la matrice di covarianza, che peraltro diagonale data lindipendenza delle n variabili:
(2.10.41)
2 1 0 ... 0 2 0 2 ... 0 . CX = . . .. . . . . . . . 2 0 0 n
n
(2.10.42)
det CX =
i=1
2 i
La densit di probabilit congiunta diventa:
61
(2.10.43)
fX (x) =
1 1 exp( (x X )T CX (x X )) 2 (2)n |det CX |
La densit di probabilit congiunta, nel caso di n v.a. congiuntamente gaussiane e non indipendenti pu essere ancora scritta come risportato nella equazione precedente, purch si tenga in conto in fatto che, in tal caso, la matrice di covarianza non pi diagonale ma ha i valori tutti genericamente differenti da zero. Un vettore gaussiano gode delle seguenti propriet: (1) il suo comportamento statistico univocamente determinato dal vettore dei valori medi e dalla matrice di covarianza CX ; (2) se le v.a. gaussiane sono incorrelate a due a due allora la densit di probabilit congiunta si pu esprimere come prodotto delle densit di probabilit marginali (poich gli elementi fuori diagonale di CX sono nulli). Cio per le v.a. gaussiane la incorrelazione implica la indipendenza. (3) Un qualunque sottoinsieme di v.a. gaussiane ancora un insieme di v.a. congiuntamente gaussiane. (4) Data una qualunque trasformazione di tipo lineare: Y = aX + b il vettore aleatorio Y ancora congiuntamente gaussiano, con vettore dei valori medi pari a Y = aX + b e matrice di covarianza CY = ACX AT (5) Un qualunque sottogruppo di v.a. preso tra le n del vettore X, condizionato ad un qualunque altro sottogruppo (purch formato da v.a. distinte da quelle considerate nel primo sottogruppo) ancora congiuntamente gaussiano.
CAPITOLO 3
Convergenza e approssimazione
3.1. Convergenza ed approssimazione Si gi accennato al fatto che la deviazione standard (radice quadrata della varianza) in grado di dare una misura della dispersione di una v.a. attorno al suo valor medio. Valori di varianza grandi sono indice del fatto che c una signicativa probabilit che valori casuali estratti dalla v.a. siano abbastanza lontani dal valor medio; viceversa per valori piccoli della varianza. E evidente, tuttavia, che la varianza non in grado di dire quanto questa dispersione sia signicativa, dato che differenti v.a. possono avere anche varianze uguali, pur essendo disperse attorno al valor medio in modi differenti. Esiste tuttavia un teorema che in grado di dare una misura quantitativa della dispersione in termini di probabilit e che utilizza proprio la varianza. T HEOREM 3.1.1. Disuguaglianza di Chebyshev. Data una v.a. X, > 0 risulta che: (3.1.1) P (|X E [X]| > ) V ar (X) 2
D IMOSTRAZIONE . Si consideri la v.a. Y che vale: Y = E allora chiaro che (|X E [X]|)2 Y sempre, dato che se accade levento |X E [X]| > , si ha Y = 2 < (|X E [X]|)2 . Se invece accade levento |X E [X]| , la v.a. Y vale 0, ma |X E [X]| comunque un numero 0. Se ora si fa laspettazione di ambo i membri della relazione precedente si ha: V ar (X) = E (|X E [X]|)2 E [Y ] = 2 P (|X E [X]| > ) che d il risultato cercato.
62
2 , |X E [X]| > 0 , |X E [X]|
3.1. CONVERGENZA ED APPROSSIMAZIONE
63
La disuguaglianza di Chebyshev rende rigorosa linterpretazione intuitiva di varianza come misura della dispersione: pi V ar(X) piccola pi piccola la probabilit che X prenda valori lontani dalla media. Tuttavia la disuguaglianza di Chebyshev spesso una maggiorazione grossolana della probabilit di P (|X E [X]| > ). Ad esempio si consideri la v.a. che assume i valori 1, 1 con probabilit rispettivamente di 1/2, 1/2. Per questa v.a. la media 0 e la varianza vale V ar(X) = 1. Se si sceglie = 2 si ha che P (|X E [X]| > ) = 0 mentre V ar(X)/ 2 = 1/4, ma se addirittura si prende un < 1 si ha una maggiorazione con il valore V ar(X)/ 2 > 1, cosa ovvia dato che una probabilit sicuramente maggiorata da un numero maggiore di 1. In molte circostanza tuttavia la disuguaglianza di Chebyshev si dimostra preziosa. E infatti fondamentale per dimostrare e giusticare la cosiddetta Legge dei grandi numeri. Partiamo prima con un esempio. Si supponga di lanciare n volte una moneta e sia k il numero di lanci in cui si ottiene testa. La quantit k/n quindi la proporzione di teste ottenute in n lanci. Se la moneta equilibrata lintuizione suggerisce che tale proporzione non debba discostarsi troppo dal valore 1/2. Tuttavia sar difcile che la quantit k/n dia esattamente 1/2, come anche poco probabile (ma non impossibile) che il numero di teste sia molto piccolo (o addirittura nullo) o molto grande. Tuttavia empiricamente si pu vericare che al crescere del numero di lanci, il fenomeno di discostamento dal valore 1/2 dovrebbe sparire: cio il numero di teste e croci tende a compensarsi sempre pi man mano che cresce il valore di n. Formalizziamo allora quanto lintuizione ci suggerisce. Il lancio di una moneta rappresentabile da una v.a. di Bernoulli con n = 1 e p = 1/2; a tale v.a. facciamo assumere valore 1 quando si presenta una testa: Xi = 1, altrimenti 0. Il numero totale di teste ottenute negli n lanci pu essere dunque rappresentato dalla quantit Sn = X1 + X2 + ... + Xn e la proporzione di teste negli n lanci dalla quantit 1 X n = (X1 + X2 + ... + Xn ) n Quanto osservato prima pu essere quindi schematizzato dallosservazione che, allaumentare di n la quantit X n tende a discostarsi sempre meno da 1/2. Quanto trovato corrisponde al vero, anzi tale risultato formalizzato e generalizzato dalla cosiddetta Legge dei Grandi Numeri: T HEOREM 3.1.2. Sia (Xn )n una successione di v.a. indipendenti ed aventi tutte la stessa legge, la stessa media e varianza 2 . Posto allora 1 X n = (X1 + X2 + ... + Xn ) n si ha che, > 0 lim P X n = 0
n
64
D IMOSTRAZIONE . La v.a. X n ha anchessa media : 1 1 E X n = E [X1 + X2 + ... + Xn ] = ( + + ... + ) = n n e varianza pari a: V ar X n = = 1 V ar (X1 + X2 + ... + Xn ) = n2
1 1 2 (V ar(X1 ) + V ar(X2 ) + ... + V ar(Xn )) = 2 n V ar(X1 ) = n2 n n Ora, applicando la disuguaglianza di Chebyshev si ha la dimostrazione: 0P Xn > V ar X n 2 = 2 n 0 2 n
Riprendiamo lesempio introduttivo sul lancio della moneta. Supponiamo di non sapere a priori se la moneta sia equilibrata o no (p = 1/2). la legge dei grandi numeri fornisce uno strumento per stimare tale probabilit. Lanciamo la moneta n volte e stimiamo p tramite la quantit: # teste in n lanci n Se infatti poniamo Xi = 1 lancio i-simo d testa 0 altrimenti
1 allora X n = n (X1 + X2 + ... + Xn ) e, per la Legge dei Grandi Numeri X n p = E[Xi ] per n . Tuttavia, nella pratica, noi possiamo fare soltanto un numero nito di lanci e quindi occorre valutare lerrore che si commette stimando p con il valore di X n che verr fuori da tale esperimento composto. Si pu procedere allora in questo modo. Si ssi un numero > 0 e si stimi la probabilit di commettere un errore nel valutare p maggiore di . Si tratta di valutare quindi la quantit:
Xn p >
Naturalmente, siccome tale valutazione richiederebbe il calcolo della funzione di distribuzione (cumulativa) di una binomiale con n molto grande (quantit per la quale il calcolo spesso lungo e non vi sono formule chiuse), meglio limitarci a maggiorare quella probabilt con la disuguaglianza di Chebyshev: P Xn p > V ar(X n ) p(1 p) 1 = 2 2 n
65
Questa disuguaglianza dipende ancora dalla incognita p (che la quantit che vogliamo stimare), ma un semplice studio di funzione permette di stabilire che p(1p) 1/4, con 0 p 1. Allora si ha: 1 4n 2 Per n = 100 la probabilit che p disti da X n pi di 0.1 una quantit minore di 0.25. Tale valutazione, come si pu vedere, spesso grossolana, soprattutto per esperimenti semplici e per un numero n di prove piccolo. Esiste tuttavia un Teorema che permette di migliorare tale stima, ed il Teorema del Limite Centrale, dovuto al matematico russo Lyapunov. Questo teorema vale sotto condizioni non particolarmente restrittive, sebbene la sua dimostrazione risulti difcoltosa nel caso pi generale. Si considerino n v.a. Xi indipendenti tra loro e tutte dotate della stessa densit di probabilit fXi (x) = fX (x) e quindi con stesso valor medio e stessa varianza 2 . Sappiamo che, se si considera la somma delle v.a. Sn = i Xi questa avr media pari alla somma dei valori medi e varianza pari alla somma delle varianze: n = n e 2 n = n 2 . Ovviamente, al crescere di n, sia il valor medio, sia la varianza tendono a divergere. Si pu considerare in tal caso una v.a. normalizzata (nello stesso modo con cui si fa per la gaussiana): P Xn p > S n n Sn n = n n
(3.1.2)
Zn =
che, per qualunque valore di n, ha sempre valor medio nullo e varianza pari ad 1. T HEOREM 3.1.3. Date n v.a. indipendenti e con la stessa densit di probabilit, al limite per n che tende ad innito la variabile aleatoria somma normalizzata, Zn , tende ad una gaussiana standard, cio a media 0 e varianza 1:
(3.1.3)
1 x2 lim fZn (x) = fN (x) = exp( ) n 2 2
A prescindere dalla particolare distribuzione che possiedono le v.a. Xi la loro somma tende comunque a diventare gaussiana. Questo risultato particolarmente utile per modellare numerosi fenomeni sici quali il rumore termico. Riprendiamo ora lesempio del lancio ripetuto di una moneta. Si vuole stimare meglio la quantit P Xn p >
66
avendo posto = 0.1 ed n = 100. Siccome la somma di n = 100 v.a. di Bernoulli si pu ritenere con ottima approssimazione una gaussiana, allora si ha: n n = P Xn p Sn np n =P = n n n n n P |ZN | = ( ) ( ) = 2( ) 1 avendo indicato con ZN una v.a. gaussiana a media 0 e varianza 1. Per = 0.1, n = 100 e 2 1/4 si ha: n P |ZN | 2(2) 1 la quantit che volevamo stimare si determina facilmente dal risultato precedente: P Xn p > 1 (2(2) 1) = 0.0455 stima migliore della quantit 0.25 trovata precedentemente.
CAPITOLO 4
I Processi Aleatori
4.1. Denizione di Processi Aleatori Una distinzione importante tra i segnali quella che si fa tra segnali predicibili, di cui si pu conoscere a priori levoluzione nel tempo (come ad esempio unonda quadra) e segnali non predicibili, di cui si possono al pi supporre alcune caratteristiche principali (ad esempio le escursioni massime, la velocit di variazione e cos via). Si supponga di registrare levoluzione della pressione atmosferica in un certo luogo della Terra durante lanno. Questa grandezza sica non predicibile a priori, e lunico modo per conoscerla quello di osservarla a posteriori. Dopo lacquisizione si potranno fare alcune osservazioni, come ad esempio il fatto che essa difcilmente supera i 1030 mB e altrettanto difcilmente va al di sotto di 950 mB. Una cosa importante a proposito di questo segnale che non solo non si pu prevedere, ma che esso cambia a seconda del periodo in cui stato registrato (cio la sua osservazione nel mese di marzo sicuramente diversa da quella nel mese di agosto) ed inoltre cambia a seconda del luogo della Terra in cui viene registrato, anche se la registrazione fatta nello stesso periodo (vedi in gura 4.1.1 tre differenti misurazioni).
250
200
150
100
50
50
10
20
30
40
50
60
70
80
90
100
F IGURA 4.1.1. Rappresentazione delle pressioni atmosferiche in vari luoghi della Terra. La variabilit del processo quindi di due tipi: una variabilit tra i vari segnali ed una variabilit dellevoluzione temporale del singolo segnale. Il modellamento di un segnale aleatorio (o stocastico) viene fatto attraverso la teoria dei processi aleatori.
67
4.1. DEFINIZIONE DI PROCESSI ALEATORI
68
Come nella teoria delle probabilit, dovremmo, per un segnale aleatorio, individuare lo spazio delle probabilit, cio linsieme di tutti i possibili segnali che costituiscono il processo (ammesso che questo si possa fare): = {i }. Quindi riferendosi al processo si pu pensare una corrispondenza che associ ad ogni campione i di un dato segnale. Questa corrispondenza costituisce il processo aleatorio. Una data misurazione della pressione atmosferica in un punto della Terra costituisce un risultato dello spazio campione e viene chiamato realizzazione del processo xi (t) = X(t, i ). Il processo aleatorio comunemente indicato con X(t), omettendo la relazione di dipendenza dallo spazio campione con cui associato . Una volta ssato quale tra i vari segnali del processo va estratto, si ha una funzione del tempo che rappresenta la realizzazione. Una realizzazione del processo aleatorio non pi aleatoria, a posteriori, nel senso che dopo losservazione essa una funzione deterministica del tempo. Viceversa, si pu ssare un arbitrario istante di tempo ed osservare il valore che tutte le realizzazioni del processo assumono a quellistante: X(to ) (vedi in gura 4.1.2)
400 350 300 250 200 150 100 50 0 50 0 10 20 30 40 50 60 70 80 90 100
to
F IGURA 4.1.2. Estrazione di una variabile aleatoria dal processo aleatorio. I valori che sono assunti sulle varie realizzazioni del processo non sono predicibili a priori e quindi rappresentano i risultati di una variabile aleatoria. 4.1.1. Processi parametrici. Un primo esempio di processi aleatori dato dai processi parametrici, cio processi in cui per le funzioni del tempo esiste una forma chiusa che permetta di rappresentarle, sebbene uno o pi parametri di queste funzioni siano variabili aleatorie. Si supponga di considerare il seguente processo:
(4.1.1)
X(t; ) = eA()t u(t)
4.1. DEFINIZIONE DI PROCESSI ALEATORI
69
dove A() rappresenta una variabile aleatoria con distribuzione uniforme nellintervallo [0, 1/T ]. Se omettiamo la dipendenza dal risultato , si pu scrivere: X(t) = eAt u(t). In questo processo parametrico quindi denita una classe di funzioni il cui andamento dipende dal valore estratto di una v.a. Un altro esempio notevole (che avremo modo di riprendere pi avanti) quello delloscillazione sinusoidale prodotta da un oscillatore reale. In un oscillatore reale, mentre si possono controllare abbastanza bene lampiezza e la frequenza delloscillazione, molte volte difcile determinare la fase iniziale. Ne consegue che accendendo in tempi differenti loscillatore la funzione sinusoidale che viene generata pu essere modellata come un processo aleatorio parametrico:
(4.1.2)
X(t) = A sin(2fo t + )
dove una variabile aleatoria uniforme nellintervallo [0, 2[. 4.1.2. Caratterizzazione di un processo aleatorio. Al contrario di quanto si pu fare per un segnale deterministico, per un processo aleatorio non possibile una sua caratterizzazione in termini di andamento temporale. Si devono quindi introdurre gli strumenti della teoria delle probabilit per poter caratterizzare il processo in modo statistico. Si cominci ad osservare che, se si considera un istante di tempo ben determinato to , il valore che tutte le realizzazioni assumono in quellistante rappresenta una v.a. Quindi possibile, per quella v.a. denire una funzione di distribuzione di probabilit (dipendente da to ):
(4.1.3)
F (x; to ) = P (X(to ) x)
La funzione di distribuzione cambier al variare di to , dato che al variare dellistante di osservazione la v.a. differente. Questo modellamento non tuttavia sufciente a caratterizzare il processo. Se cos fosse dovremmo essere in grado di prevedere landamento della singola realizzazione a partire da tutte le funzioni di distribuzione di probabilit estratte ad ogni istante, e cos non . Si pensi ad esempio alla possibilit che abbiamo di prevedere landamento di un titolo in borsa nel tempo. Si vuole cio cercare di determinare quando il valore del titolo supera il valore attuale. Per fare questo la caratterizzazione del primo ordine che abbiamo dato non sufciente. E necessaria una caratterizzazione che permetta di correlare, congiuntamente, le due variabili aleatorie nei due istanti differenti to e t1 nei quali conduciamo losservazione.
4.2. PARAMETRI STATISTICI DEL 1o E 2o ORDINE
70
E necessaria quindi una caratterizzazione del secondo ordine. Questa relazione descritta dalla funzione di distribuzione di probabilit congiunta per una coppia di v.a.:
(4.1.4)
F (x1 , x2 ; t1 , t2 ) = P (X(t1 ) x1 ; X(t2 ) t2 )
La conoscenza completa della statistica del secondo ordine richiede che queste funzioni di distribuzione siano note per ogni coppia possibile di istanti di tempo. Iterando questo ragionamento, si capisce che la caratterizzazione di un processo aleatorio si pu considerare completa solo quando, ssati n istanti di tempo (con n arbitrariamente grande), si in grado di determinare la funzione di distribuzione congiunta di ordine n per le n variabili aleatorie che si hanno estraendo i valori dalle realizzazioni agli istanti t1 , t2 , ..., tn : (4.1.5) F (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) = P (X(t1 ) x1 , X(t2 ) x2 , ..., X(tn ) xn )
Da questa si pu ricavare la funzione densit di probabilit di ordine n:
(4.1.6)
f (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) =
n F (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) x1 x2 ...xn
La conoscenza della classe di funzioni f (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) per qualunque valore n e qualunque n pla di istanti di tempo caratterizza completamente il processo aleatorio. Si capisce bene che la conoscenza completa di un processo aleatorio impresa quali sempre impossibile. Nella maggior parte dei casi si cerca di determinare la distribuzione (e densit) del primo o al pi secondo ordine. Altre volte ci si accontenta di determinare alcuni parametri statistici. 4.2. Parametri Statistici del 1o e 2o Ordine 4.2.1. Valor medio, potenza e varianza. Alcuni parametri statistici permettono di determinare le caratteristiche principali di un processo statistico, pur senza la conoscenza completa di esso. Tra questi parametri particolarmente signicativa la funzione valor medio: X (t). Per denizione questa funzione il valor medio della v.a. che si ottiene estraendo i
71
valori delle realizzazioni allistante assegnato:

+
(4.2.1)
(t) = E[X(t)] =
xfX (x, t)dx
al variare di t si generano una serie di valori medi che costituiscono la funzione. La funzione valor medio rappresenta una statistica del primo ordine, dato che per il suo calcolo sufciente la conoscenza della statistica di primo ordine del processo. La funzione valor medio rappresenta una specie di compendio di tutte le realizzazioni del processo aleatorio, ma non rappresenta necessariamente essa stessa una realizzazione del processo. E XAMPLE 4.2.1. Si supponga di considerare il processo aleatorio parametrico X(t) = a cos(2fo t + ), dove una v.a. con densit di probabilit uniforme nellintervallo [0, [. La funzione valor medio si pu determinare osservando che, per ogni istante t ssato, il processo X(t) si pu pensare come la trasformazione della v.a. in unaltra v.a. X = X(). Il suo valor medio quindi si pu determinare con il teorema del valor medio: (t) = E[X(t)] = E[a cos(2fo t + )]: (4.2.2) (t) =
a a cos(2fo t + )f ()d =
cos(2fo t + )d =
0
2a sin(2fo t)
Analogamente si potrebbe ricavare la funzione valor medio nel caso visto nella eq. 4.1.2, in cui cio: X(t) = a sin(2fo t + ), con = U (0, 2). Unaltra grandezza statistica del primo ordine utile per caratterizzare il processo, la potenza media statistica istantanea (brevemente detta potenza media):
+
(4.2.3)
Px (t) = E[X 2 (t)] =
x2 fX (x, t)dx
analoga alla potenza istantanea per i segnali deterministici. Si pu inoltre denire la funzione varianza del processo:
+
(4.2.4)
2 x (t) = E[(X(t) (t))2 ] =
(x (t))2 fX (x, t)dx
72
Si ricava, abbastanza facilmente:
(4.2.5)
2 x (t) = Px (t) 2 (t)
la relazione che esprime la dipendenza tra varianza, funzione valor medio e potenza istantanea. 4.2.2. Autocorrelazione e autocovarianza. Due parametri statistici del secondo ordine, fondamentali per lo studio dei processi aleatori, sono la funzione di autocorrelazione e la funzione di autocovarianza. Il loro signicato rimandato pi avanti, quando si introdurranno i processi stazionari. Si supponga di considerare due istanti di tempo arbitrari, t1 e t2 . Dato il processo aleatorio, possibile estrarre le due v.a. Y = X(t1 ) e Z = X(t2 ). Ha senso allora effettuare il calcolo della correlazione tra Y e Z. Generalmente questa correlazione sar funzione dei due istanti di tempo, e quindi si pu ritenere una funzione di due variabili: (4.2.6) Rx (t1 , t2 ) = E[X(t1 )X(t2 )] =
x1 = x2 =
x1 x2 fx (x1 , x2 ; t1 , t2 )dx1 dx2
La funzione che cos si ottiene detta funzione di autocorrelazione, poich le due variabili aleatorie sono state ottenute estraendole dallo stesso processo. In modo del tutto analogo possibile determinare la funzione di autocovarianza:
Cx (t1 , t2 ) = E[(X(t1 ) (t1 )) (X(t2 ) (t2 ))] =

+ +
(4.2.7)
=
x1 = x2 =
(x1 (t1 )) (x2 (t2 )) fx (x1 , x2 ; t1 , t2 )dx1 dx2
Dalla denizione facile ricavare che: Cx (t1 , t2 ) = Rx (t1 , t2 ) (t1 )(t2 ). E XAMPLE 4.2.2. Si calcoli la funzione di autocorrelazione del processo X(t) = a cos(2fo t + ), con = U [0, [. Estraendo il processo negli istanti t1 e t2 si ottengono le v.a.: X(t1 ) = a cos(2fo t1 + ) e X(t2 ) = a cos(2fo t2 + ), che si
73
possono ritenere entrambe trasformazioni della stessa v.a.. Quindi, mediante il teorema del valor medio si ottiene:
Rx (t1 , t2 ) = E[X(t1 )X(t2 )] = E[a cos(2fo t1 + ) a cos(2fo t2 + )] = (4.2.8) = a2

0
1 a2 cos(2fo t1 + ) cos(2fo t2 + )d = cos(2fo (t1 t2 )) 2
In questo esempio la funzione di autocorrelazione sinusoidale, come i segnali che costituiscono le singole realizzazioni del processo, inoltre dipende dalle due variabili attraverso la loro differenza. La funzione di autocorrelazione quindi, in realt, funzione di una sola variabile. Si supponga ora di avere lo stesso processo precedente: X(t) = a cos(2fo t + ), ma con = U [0, 2[. Si voglia calcolare la funzione valor medio, la funzione di autocorrelazione e la funzione di autocovarianza. Si osservi che, se per la funzione valor medio si ha:
2
(4.2.9)
(t) = E[X(t)] =
0
1 a cos(2fo t + )d = 0 2
allora: Cx (t1 , t2 ) = Rx (t1 , t2 ). Entrambe valgono: Rx (t1 , t2 ) = E[X(t1 )X(t2 )] =

2
(4.2.10) =
0
1 a2 acos(2fo t1 +)acos(2fo t2 +)d = cos(2fo (t1 t2 )) 2 2
pari al risultato ottenuto precedentemente (vedi 4.2.8). Vediamo inne il caso in cui nel processo X(t) = A cos(2fo t) a variare sia lampiezza delloscillazione sinusoidale. Tale ampiezza vari come una v.a. uniforme nellintervallo [0, 1]. La funzione valor medio si ottiene ssando un dato istante di tempo t: 1 cos(2fo t) 2
(4.2.11) (t) = E[X(t)] = E[A cos(2fo t)] = E[A] cos(2fo t) =
74
La funzione di autocorrelazione vale:
Rx (t1 , t2 ) = E[A cos(2fo t1 ) A cos(2fo t2 )] = cos(2fo t1 ) cos(2fo t2 ) E[A2 ] = (4.2.12) = 1 cos(2fo t1 ) cos(2fo t2 ) 3
e in questo caso non si pu esprimere come funzione di una sola variabile. La funzione di autocovarianza vale inne: 1 1 1 cos(2fo t1 ) cos(2fo t2 ) cos(2fo t1 ) cos(2fo t2 ) = 3 2 2 = 1 cos(2fo t1 ) cos(2fo t2 ) 12
Cx (t1 , t2 ) = (4.2.13)
Un altro esempio notevole il seguente: E XAMPLE 4.2.3. Una variazione sul tema dei processi aleatori di Bernoulli il segnale telegraco casuale. Il processo consiste di realizzazioni che possono assumere solo valori discreti pari a 1 od a 1. Le funzioni sono continue nel tempo:
(4.2.14)
X(t) =
1 1
Per ipotesi si suppone inoltre che (4.2.15) P (X(0) = 1) = P (X(0) = 1) = 1/2
Le realizzazioni del processo assumono valori differenti cambiando di stato nello stesso modo con cui arrivano gli eventi negli esperimenti aleatori alla Poisson. Una possibile realizzazione riportata in gura (4.2.1). Sia lintensit della legge di Poisson che governa il processo. Ogni singola realizzazione, x(t), permane ad un dato valore sino a che non c un arrivo che gli fa cambiare
75
F IGURA 4.2.1. Realizzazione di un processo telegraco casuale stato. Il numero di arrivi nellunit di tempo regolato da una v.a. discreta di Poisson con intensit . Calcoliamo la probabilit che ad un dato istante t la singola realizzazione abbia uno dei due valori:
P (X(t) = 1) = P (X(t) = 1/X(0) = 1) P (X(0) = 1) (4.2.16) +P (X(t) = 1/X(0) = 1) P (X(0) = 1)
la prima delle due somme a secondo membro ha il termine P (X(t) = 1/X(0) = 1) che si pu vercare solo se il numero di cambiamenti (eventi di Poisson) vericatosi pari, per il secondo termine il numero di cambiamenti da vericarsi dispari:
(4.2.17) P(Ncamb = pari) =

j=0
(t)2j t 1 1 e = et (et + et ) = (1 + e2t ) (2j)! 2 2
(4.2.18) P (Ncamb = dispari) =
j=0
(t)2j+1 t 1 1 e = et (et et ) = (1 e2t ) (2j + 1)! 2 2
Da cui si ha in conclusione:
(4.2.19)
1 1 1 1 P (X(t) = 1) = [ (1 + e2t ) + (1 e2t )] = 2 2 2 2
ed analogamente: P (X(t) = 1) = 1 . 2 Calcoliamo la funzione valor medio e la funzione varianza del processo:
76
(4.2.20)
mX (t) = E[X(t)] =
1 1 (1) + (+1) = 0 2 2 1 1 (1)2 + (+1)2 = 1 2 2
(4.2.21)
2 X (t) = Px (t) = E[X(t)2 ] =
Calcoliamo inne la funzione di autocorrelazione e la funzione di autocovarianza: Rx (t1 , t2 ) = Cx (t1 , t2 ).
(4.2.22)
Rx (t1 , t2 ) = E[X(t1 )X(t2 )]
tuttavia il prodotto di X(t1 )X(t2 ) pu essere solo o 1 oppure +1. In particolare pari a 1 quando il numero di cambiamenti (eventi di Poisson) avvenuti tra t1 e t2 dispari, altrimenti il prodotto X(t1 )X(t2 ) pari a +1. Quindi:
P (X(t1 )X(t2 ) = 1) = P (Ncamb = pari) = P (N (t2 t1 ) = pari) = (4.2.23) 1 = (1 + e2(t2 t1 ) ) 2
Analogamente per un numero dispari di arrivi:
P (X(t1 )X(t2 ) = 1) = P (Ncamb = dispari) = P (N (t2 t1 ) = dispari) = (4.2.24) 1 = (1 e2(t2 t1 ) ) 2
Si ha in conclusione:
1 1 E[X(t1 )X(t2 )] = (+1) (1 + e2(t2 t1 ) ) + (1) (1 e2(t2 t1 ) ) = 2 2
4.3. PROCESSI STAZIONARI
77
(4.2.25)
= e2|t2 t1 |
ed, ancora una volta, abbiamo trovato un processo la cui funzione di autocorrelazione (e di autocovarianza) dipende solo dalla differenza dei due istanti generici, e non separatamente dai due. 4.3. Processi Stazionari Una notevole propriet dei processi aleatori la stazionariet. Si visto che i parametri statistici del primo e secondo ordine dipendono dalla scelta degli istanti di tempo. Anche la funzione densit di probabilit congiunta di ordine n dipende generalmente dalla scelta degli istanti di tempo in corrispondenza dei quali si valuta il processo. Si supponga ora di considerare n istanti di tempo t1 , t2 , ..., tn , in corrispondenza dei quali si ottiene la funzione di densit di probabilit congiunta: fx (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ). Se si spostano rigidamente tutti gli istanti di tempo di una stessa quantit t, generalmente otterremo una differente funzione di densit di probabilit congiunta:
(4.3.1) .
fx (x1 , x2 , ..., xn ; t1 + t, t2 + t, ..., tn + t)
P ROPOSITION 4.3.1. Un processo si dice stazionario in senso stretto, se risulta che, per ogni scelta di n, t1 , t2 , ..., tn e di t:
(4.3.2) fx (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) = fx (x1 , x2 , ..., xn ; t1 +t, t2 +t, ..., tn +t)
La stazionariet forte (in senso stretto) richiede luguaglianza della funzione di densit di probabilit congiunta per qualunque ordine, scelta degli istanti di tempo e di traslazione. Cio richiede che rispetto a tutte queste variabili la funzione fx sia invariante. I processi X(t) e X(t + t) devono quindi avere le stesse statistiche. Questo non signica che le due variabili aleatorie che estrarremo nei due istanti di tempo sono identiche (poich questo non pu mai accadere per il signicato stesso di grandezza statistica) ma signica che le due quantit non possono essere distinte tra loro con misure statistiche.
78
Conseguenza di questa denizione che: fx (x; t) = fx (x; t + t) cio la funzione densit di probabilit del primo ordine non funzione del tempo e anche i parametri statistici del primo ordine (funzione valor medio, funzione potenza e funzione varianza) non dipendono dalla variabile tempo (stazionariet del primo ordine). Inoltre per quel che riguarda la stazionariet del secondo ordine, si ha:
(4.3.3)
fx (x1 , x2 ; t1 , t2 ) = fx (x1 , x2 ; t1 + t, t2 + t)
e questo pu accadere solo se la funzione di densit di probabilit dipende dalla differenza tra gli istanti di tempo, e non separatamente dai due: fx (x1 , x2 ; t1 , t2 ) = fx (x1 , x2 ; t1 t2 ). Allora tutte le statistiche del secondo ordine (funzione di autocorrelazione e funzione di autocovarianza) dipenderanno dalla differenza degli istanti di tempo e non separatamente dai due. Questo il caso del processo visto in (4.1.2) o del segnale telegraco casuale. Salendo di ordine (sebbene statistiche di ordine superiore non siano state introdotte) si ottiene che la funzione densit di probabilit congiunta di ordine n e tutte le statistiche di ordine correlato non dipenderanno dagli istanti di tempo separatamente, ma dalle n 1 differenze t1 t2 , t2 t3 , ..., tn1 tn , dato che solo queste differenze restano invariate rispetto ad una traslazione rigida dei tempi. C OROLLARY 4.3.2. Una stazionariet di ordine n implica la stazionariet di tutti gli ordini pi bassi (il contrario generalmente non vero). 4.3.1. Stazionariet in senso lato. La verica della stazionariet in senso stretto, anche per ordini bassi, in genere un compito arduo (salvo casi particolari). Di solito allora ci si accontenta di una denizione di stazionariet meno restrittiva: la stazionariet in senso lato (o debole). P ROPOSITION 4.3.3. Un processo aleatorio stazionario in senso lato se la sua funzione valor medio costante x (t) = x e la sua funzione di autocorrelazione dipende solo dalla differenza degli istanti di tempo Rx (t1 , t2 ) = Rx (t1 t2 ). La denizione di stazionariet in senso lato coinvolge solo due statistiche e quindi non richiede alcuna paricolare propriet alla funzione densit di probabilit congiunta. C OROLLARY 4.3.4. Un processo stazionario in senso stretto stazionario anche in senso lato. Non vero il viceversa Se il processo stazionario in senso lato la funzione di autocovarianza vale:
(4.3.4)
Cx (t1 , t2 ) = Rx (t1 t2 ) 2 = Cx (t1 t2 ) x
79
cio anche la funzione di autocovarianza dipende dalla differenza degli istanti di tempo. Anche nel caso di stazionariet in senso lato rimane comunque difcile vericare la propriet. Infatti la verica di una propriet statistica come la stazionariet richiede che si riescano a manipolare (per effettuare misure statistiche) tutte le possibili realizzazioni del primo e secondo ordine del processo, o che si conosca in qualche modo una forma chiusa della funzione di densit di probabilit del processo stesso al variare di t (cosa normalmente non vera). La funzione di autocorrelazione, nellipotesi di stazionariet in senso lato pu essere riscritta mettendo in evidenza proprio la dipendenza dalla differenza degli istanti di tempo:
(4.3.5)
Rx (t1 , t2 ) = Rx (t, t ) = E[X(t)X(t )]
E XAMPLE 4.3.5. Riprediamo lesempio visto pi volte: X(t) = acos(2fo t+), con = U [0, [. Si ottenuto che (t) = 2a sin(2fo t), quindi il processo non si pu considerare stazionario in senso lato, dato che la funzione valor medio dipende dal tempo. Il processo X(t) = a cos(2fo t + ), con = U [0, 2[, ha invece: (t) = 0 2 e Rx (t1 , t2 ) = a2 cos(2fo (t1 t2 )), e quindi si pu ritenere un processo stazionario in senso lato, dato che la funzione valor medio costante e la funzione di autocorrelazione dipende solo dalla differenza dei tempi. Un caso particolare del processo telegraco casuale il seguente E XAMPLE 4.3.6. Segnale dati. Si supponga di avere un processo aleatori le cui realizzazioni sono funzioni del tempo V (t) che possono assumere solo due valori discreti: +1 e 1 con probabilit 1/2. Si supponga inoltre che la funzione cambi di stato solo ad istanti pressati, che verranno indicati con degli indici interi: V (nT ) = Vn . I valori inoltre sono assunti in modo indipendente luno dallaltro. Quindi la funzione assume valore costante per tutti gli istanti di tempo t compresi tra due transizioni: V (t) = Vn per nT t < (n + 1)T . La forma generica della funzione quindi la seguente:
+
(4.3.6)
V (t) =
n=
Vn rect(
t nT T /2 ) T
80
Il precedente processo modella molto bene un segnale dati binario con velocit di clock pari a 1/T . Esso utile a schematizzare tutte le situazioni in cui si ha il trasferimento di bit tra due sistemi (ad esempio un computer ed una sua periferica). Poich infatti non nota a priori linformazione che si sta trasmettendo, il processo si pu considerare a tutti gli effetti aleatorio. Determiniamo ora i parametri statistici rilevanti e verichiamo leventuale stazionariet. Ad un certo istante ssato t, losservazione di tutte le realizzazioni porta a dire che i valori che queste possono assumere sono soltanto +1 o 1. Inoltre, poich si supposto che tali valori sono assunti con probabilit pari ad 1/2, la funzione di densit di probabilit del primo ordine non pu che valere:
(4.3.7)
1 1 fv (v; t) = (v + 1) + (v 1) 2 2
Questa funzione non dipende dalla variabile tempo. Quindi il processo stazionario in senso stretto per il primo ordine. Ci aspettiamo allora che la funzione valor medio sia costante:
(4.3.8)
v (t) =
vfv (v; t)dv =
1 1 v [ (v + 1) + (v 1)]dv = 0 2 2
Il calcolo della funzione di autocorrelazione un po pi complesso. Tuttavia si pu facilmente dimostrare che il processo non stazionario n in senso stretto, n in senso lato per quel che riguarda il secondo ordine, dato che la funzione di autocorrelazione non pu dipendere dalla sola differenza dei tempi. Si consideri infatti, nella gura 4.3.1, i due istanti di tempo t1 e t2 . Nel graco in alto i due istanti di tempo capitano allinterno dellintervallo [nT, (n + 1)T ], quindi la realizzazione assume valore uguale: V (t1 ) = V (t2 ) = Vn . Si ha allora che 2 Rv (t1 , t2 ) = E[V (t1 )V (t2 )] = E[Vn ] = 1. Se ora spostiamo rigidamente i due istanti di tempo sino a farli capitare a cavallo di due intervalli, come indicato nella gura in basso, si avr che V (t1 ) = V (t2 ) e quindi
(4.3.9)
Rv (t1 , t2 ) = E[V (t1 )V (t2 )] = E[V (t1 )]E[V (t2 )] = E[Vn ]E[Vn+1 ] = 0
81
Se il processo fosse stazionario in senso lato la funzione di autocorrelazione dovrebbe dipendere solo dalla differenza dei due istanti di tempo e quindi la Rv (t1 , t2 ) nei due casi avrebbe dovuto mantenere lo stesso valore.
t1
t2
t1
t2
F IGURA 4.3.1. Realizzazione di un processo dati binario Si pu concludere quindi che il processo in esame non stazionario in senso lato, pur essendo stazionario in senso stretto per il primo ordine. Un caso molto frequente quello in cui si conosce la forma di un segnale (cio il suo andamento) ma non si riesce a piazzare il segnale rispetto ad un preciso riferimento temporale. In tal caso il segnale pu essere modellato come un processo aleatorio di questo tipo: E XAMPLE 4.3.7. X(t) = p(t ), con variabile aleatoria che modella lincertezza sulla posizione temporale del segnale. Un esempio classico leco del segnale radar. Se supponiamo per semplicit che il segnale sia periodico di periodo T : p(t) = p(t + T ), si pu ipotizzare distribuita in modo uniforme tra 0 e T : U (0, T ). Troviamo le propriet del processo descritto. La funzione valor medio:
(4.3.10)
(t) = E[p(t )] =
0
1 1 p(t ) d = T T
p()d
tT
82
Poich la funzione p() periodica di periodo T , il suo integrale in un periodo non pu dipendere dagli estremi di integrazione, quindi dal valore t. Quindi la funzione valor medio indipendente dalla variabile tempo. In particolare il valore che la funzione valor medio assume pari al valor medio della funzione p(). Per la funzione di autocorrelazione si ha invece: Rx (t1 , t2 ) = E[X(t1 )X(t2 )] = E[p(t1 )p(t2 )] =
T
(4.3.11)
=
0
1 1 p(t1 ) p(t2 ) d = T T
t1
p() p(t2 t1 + )d
t1 T
Anche in questo caso la funzione integranda, essendo il prodotto di due segnali periodici di periodo T, ancora periodica di periodo T , quindi il suo integrale non dipende dal particolare posizionamento degli estremi di integrazione. La funzione di autocorrelazione quindi non dipende separatamente da t1 o da t2 , ma solo dalla loro differenza: Rx (t1 , t2 ) = Rx (t1 t2 ). Se si pone allora: t1 t2 = nella equazione precedente si ha:
T /2
(4.3.12)
Rx ( ) =
1 T
p() p( )d
T /2
avendo posto t1 = T /2. La funzione di autocorrelazione statistica del processo X(t) pari alla funzione di autocorrelazione del segnale deterministico e periodico p(t). 4.3.2. Propriet della funzione di autocorrelazione di un processo stazionario in senso lato. Vediamo ora alcune propriet della funzione di autocorrelazione di un processo stazionario in senso lato. (1) La funzione di autocorrelazione Rx ( ) pari: Rx ( ) = Rx ( ). Per dimostrare questa propriet si osservi che, per la stazionariet del processo, la funzione di autocorrelazione rimane invariata se la si calcola relativamente a due istanti di tempo t e t oppure ai due istanti t e t + , dato che questi ultimi sono ottenuti semplicemente mediante traslazione rigida. Si ha allora (4.3.13) Rx ( ) = E[X(t)X(t )] = E[X(t + )X(t)] = Rx ( )
(2) Il valore assunto da Rx ( ) nellorigine pari alla potenza statisica del processo: (4.3.14) Rx ( )| =0 = Rx (0) = E[X(t)X(t)] = E[X 2 (t)]
83
. (3) La funzione di autocorrelazione massima in modulo nellorigine: Rx (0) |Rx ( )|. Se si considera infatti la disuguaglianza: E[(X(t) X(t ))2 ] 0, si osserva che essa sempre vera, dato che rappresenta la aspettazione di una quantit sempre positiva. Sviluppando la relazione precedente si ha per: E[(X(t) X(t ))2 ] = (4.3.15) = E[X 2 (t) + X 2 (t ) 2X(t)X(t )] = 2Rx (0) 2Rx ( )
che prova la disuguaglianza. (4) Se Rx ( ) non periodica il suo valore limite per il quadrato del valor medio: (4.3.16) lim Rx ( ) = 2 x
Per giusticare qualitativamente questa propriet si ricordi innanzitutto che: Rx ( ) = Cx ( ) + 2 . Al crescere della distanza tra gli istanti di tempo, t x e t , i valori delle variabili aleatorie tendono sempre pi ad allontanarsi tra loro, ad assumere cio comportamenti statistici sempre pi indipendenti, nch, al limite per , il loro comportamento completamente indipendente e quindi la loro autocovarianza nulla. La funzione di autocorrelazione quindi diventa pari al quadrato del valor medio. E XAMPLE 4.3.8. Si riconsideri il processo dati binario gi visto precedentemente. Se il riferimento temporale non noto, il modello pi appropriato per questo processo :
+
(4.3.17)
V (t) =
n=
Vn rect(
t T /2 nT ) T
dove la variabile aleatoria contiene lincertezza relativa al riferimento temporale, ed distribuita nellintervallo [0, T ] in modo uniforme. Tale v.a. indipendente dalla generazione dei dati binari, ed modellata da una v.a. uniforme nellintervallo [0, T [. Indipendentemente dallistante di inizio del processo, il ragionamento fatto per determinare la funzione di densit di probabilit del primo ordine vale ancora. Quindi il processo si pu ancora denire stazionario in senso stretto per il primo ordine, e il calcolo della funzione valor medio uguale a quanto gi fatto in (4.3.8). Si ha allora
84
F IGURA 4.3.2. Realizzazioni di un processo dati binario con riferimento temporale non noto che: v (t) = v = 0. Per il calcolo della funzione di autocorrelazione si ha invece:
Rv (t1 , t2 ) = E[
n= +
Vn rect(
t1 T /2 nT ) T
m=
Vm rect(
t2 T /2 mT )] = T
(4.3.18) =
E[Vn Vm rect(
n= m=
t1 T /2 nT t2 T /2 mT ) rect( )] T T
ottenibile sfruttando la linearit delloperatore aspettazione. Ora si osservi che rispetto alla statistica dei dati binari, E[Vn Vm ] diversa da zero solo quando gli indici n ed m sono uguali (vedi il ragionamento e leq. (4.3.9)). Quindi della doppia sommatoria sopravvive solo un indice:
Rx (t1 , t2 ) =
n=
E [rect(
t2 T /2 nT t1 T /2 nT ) rect( )] = T T
85
=
n=
E [rect(
+ 0 T
t T /2 nT t T /2 nT ) rect( )] = T T t T /2 nT t T /2 nT ) rect( )d = T T
1 T
rect(
n=
se ora si pone: = t nT , si ha:
(4.3.19)
1 T
tnT
rect(
n= tnT T
T /2 T /2 )rect( )d T T
Si osservi ora che la funzione integranda non contiene la dipendenza da n, quindi i valori dellintegrale saranno tutti uguali al variare di n e saranno funzioni dipendenti solo da . Inoltre, poich tali integrali sono calcolati in intervalli disgiunti del tipo: [nT T, nT ], la funzione di autocorrelazione si pu anche scrivere come:
+
(4.3.20)
Rx ( ) =
1 T
rect(
T /2 T /2 )rect( )d T T
che rappresenta la nota correlazione deterministica tra due funzioni rettangolo. Il risultato pari alla funzione triangolo di base 2T :
(4.3.21)
Rx ( ) = (1
| | )rect( ) T 2T
Quindi, in questo secondo caso, il segnali dati binario stazionario in senso lato, dato che la funzione valor medio costante e la funzione di autocorrelazione dipende solo dalla variabile . 4.3.2.1. Signicato della funzione di autocorrelazione. Si supponga di avere due processi aleatori e stazionari in senso lato X(t) e Y (t), dotati degli stessi parametri statistici del primo ordine (funzione valor medio, funzione potenza e funzione varianza). In tal caso, rinunciando allidea di riuscire a determinare la funzione di densit di probabilit congiunta di qualunque ordine per i due processi, ci si deve afdare, per poterli distinguere, ai parametri statistici. I parametri statistici del primo ordine per
4.4. FILTRAGGIO DI UN PROCESSO ALEATORIO
86
sono tra loro uguali e quindi non permettono una distinzione statistica dei due processi in esame. In tal caso vengono in aiuto i parametri statistici del secondo ordine ed in particolare la funzione di autocorrelazione, il cui signicato ed utilit sono molto bene evidenziati proprio per i processi stazionari. Infatti se si suppone che i due processi X(t) ed Y (t) hanno funzioni di autocorrelazione differenti tra loro, qusto signica che, in uno stesso istante di tempo , Rx ( ) ed Ry ( ) saranno differenti. Cio se si osservano i processi in due istanti di tempo distaccati di un intervallo , la loro velocit di variazione differente, dato che uno dei due processi assomiglia molto di pi a se stesso rispetto allaltro processo (quello con autocorrelazione maggiore ha unautosomiglianza maggiore). In conclusione la funzione di autocorrelazione decresce tanto pi velocemente a zero quanto pi rapida la variazione delle realizzazioni del processo. Essa misura cio la rapidit di variazione del segnale aleatorio. 4.4. Filtraggio di un Processo Aleatorio Si gi detto che il motivo principale nellintroduzione della teoria dei processi aleatori sta nel modellamento di fenomeni reali che sono descrivibili da grandezze siche che variano nel tempo e il cui comportamento non predicibile a priori. Poich le grandezze siche con cui ha a che fare lingegnere sono anche grandezze siche manipolabili, ha senso porsi il problema di cosa succede al processo (e quindi anche alle sue statistiche) se lo si fa passare per un sistema. Uno dei sistemi pi semplici da studiare il ltro, cio un sistema lineare e tempo-invariante, che pu essere descritto completamente dalla sua risposta allimpulso, o dalla sua funzione di trasferimento. Un tipico esempio quello in cui il processo in ingresso costituito da un segnale deterministico noto a cui sovrapposto un processo aleatorio a valor medio nullo (detto disturbo o rumore): X(t) = s(t) + n(t), come riportato nellesempio in gura 4.4.1.
1.5
0.5
0.5
1.5
10
15
20
25
30
F IGURA 4.4.1. Esempio di un segnale deterministico rumoroso
87
Quello che si fa normalmente di cercare, almeno in parte, di elaborare s(t) eliminando la componente rumorosa. Questa operazione pu essere effettuata da un ltro. Loperazione imposta da un ltro unoperazione di convoluzione con un segnale noto (la risposta allimpulso del ltro), quindi il comportamento sui segnali deterministici noto. Resta da vedere come si comporta sui processi aleatori.
X(t)
h(t)
Y(t)
F IGURA 4.4.2. Filtraggio del processo X(t) Ogni realizzazione del processo di partenza X(t) ottenuta mediante estrazione di un risultato dallo spazio campione : x(t; ). Questa realizzazione un segnale che ammette unuscita dal sistema ltro: y(t) = x(t; ) h(t), dove loperazione denota la convoluzione. Per ogni risultato dello spazio campione si ha una realizzazione differente e quindi un segnale di uscita differente. Linsieme dei segnali di uscita costituiscono un nuovo processo, Y (t), che pu complessivamente denotarsi con:
(4.4.1)
Y (t) = X(t) h(t)
Generalmente il problema di determinare la funzione densit di probabilit congiunta di qualunque ordine del processo di uscita, ammesso che sia nota quella del processo di partenza, insolubile. Quello che si fa allora di determinare la relazione che esiste tra i parametri stastitici del primo e secondo ordine (si suppone di essere riusciti a determinare per lo meno la funzione valor medio e la funzione di autocorrelazione di X(t)). La funzione valor medio vale:
+
y (t) = E[Y (t)] = E[X(t) h(t)] =

+
h( )E[X(t )]d =
(4.4.2)
h( )x (t )d = x (t) h(t)
88
La funzione valor medio in uscita si ottiene effettuando la convoluzione tra la funzione valor medio in ingresso con la risposta allimpulso del sistema. Il processo in ingresso si pu sempre pensare, ai ni del ltraggio, come la somma di una funzione deterministica, x (t) e di un processo a valor medio nullo: X(t) = Xo (t) + x (t). Il ltraggio del processo X(t), per la linearit del sistema, d in uscita un processo somma di due componenti: quella deterministica ottenuta ltrando il segnale deterministico x (t), la componente statistica ha valor medio nullo. Vediamo adesso la funzione di autocorrelazione del segnale di uscita:
Ry (t1 , t2 ) = E[Y (t1 )Y (t2 )] = E[(X(t1 ) h(t1 ))(X(t2 ) h(t2 ))] =

+ +
= E[
+
X()h(t1 )d
+
X()h(t2 )d] =
=
+ +
E[X()h(t1 )X()h(t2 )]dd = h(t1 )h(t2 )E[X()X()]dd =

+
=
+
(4.4.3) =

h(t1 )h(t2 )Rx (, )dd = Rx (t1 , t2 ) h(t1 ) h(t2 )
La doppia convoluzione va intesa nel senso che, nella prima la variabile t2 considerata costante, nella seconda convoluzione t1 ad essere considerata costante. 4.4.1. Filtraggio di un processo stazionario in senso lato. Particolare interesse assume il caso in cui il processo in ingresso al ltro sia stazionario in senso lato. Per la funzione valor medio sia ha infatti la seguente relazione ingresso-uscita:
(4.4.4)
y (t) = y =
h( )x (t )d = x
h( )d = H(0) x
dove H(0) il valore che la trasformata di Fourier della risposta allimpulso del sistema (la sua funzione di trasferimento H(f )) assume in f = 0. La funzione di autocorrelazione vale:
Ry (t, t ) = E[Y (t)Y (t )] = E[(X(t) h(t))(X(t ) h(t ))] =
89
= E[
+
h()X(t )d
+
h()X(t )d] =
= E[
+ +
h()h()X(t )X(t )dd] =
=
+
h()h()E[X(t )X(t )]dd =

+
=
+
h()h()Rx ( + )dd =
+
(4.4.5)
h() [
h()Rx ( + )d]d
Si osservi subito che la funzione di autocorrelazione non dipende da t, ma solo da . Inoltre:
(4.4.6)
h()Rx ( + )d = Rx ( + ) h( + )
Quindi la funzione di autocorrelazione in uscita diventa:
(4.4.7)
Ry ( ) =
h() [Rx ( + ) h( + )]d = Rx ( ) h( ) h( )
Se poi si osserva che la convoluzione di un segnale con se stesso ribaltato rispetto allasse dei tempi la autocorrelazione deterministica, si ha che: h( ) h( ) = rh ( ). Quindi: Ry ( ) = Rx ( ) rh ( ). In conclusione: T HEOREM 4.4.1. Se un processo in ingresso ad un sistema lineare tempo invariante stazionario in senso lato, lo anche in uscita dal sistema. Il valore medio e la funzione di autocorrelazione del processo in uscita sono legate a quelle del processo in ingresso tramite, rispettivamente, le (4.4.4) e (4.4.7).
4.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO
90
4.5. Analisi Spettrale di un Processo Aleatorio Poich si introdotto il problema del ltraggio di un processo aleatorio, pu avere senso la descrizione dello stesso problema in termini spettrali, dato che per il sistema la funzione di trasferimento facilmente calcolabile. Si deve tuttavia introdurre lanalisi frequenziale per i processi aleatori. Si supporr di studiare le propriet in frequenza per i soli processi aleatori stazionari in senso lato, anche se, concettualmente, possibile analizzare nel dominio delle frequenze un qualunque processo aleatorio. La caratterizzazione di un processo aleatorio in frequenza, in termini di spettro di ampiezza e fase normalmente inusuale. E infatti sempre concepibile lestrazione di una realizzazione x(t) dal processo X(t) e la sua trasformazione secondo Fourier. Tuttavia lanalisi dellintero processo richiederebbe lo studio in frequenza di ogni realizzazione del processo. Conseguentemente le ampiezze e le fasi dello spettro sarebbero caratterizzate in maniera aleatoria, con relazione tra aleatoriet nel tempo e aleatoriet in frequenza non banale. E allora pi comune limitarsi alla descrizione degli spettri di potenza del segnale aleatorio. Le realizzazioni di un processo stazionario in senso lato non possono essere segnali ad energia nita. Infatti tutti i segnali ad energia nita prima o poi, al tendere di t tendono a zero. Se cos fosse anche la funzione valor medio, calcolata per valori di t tenderebbe a zero, e quindi, a meno che non sempre pari a zero, essa non sarebbe pi un valore costante. Quindi generalmente le realizzazioni di un processo stazionario in senso lato sono segnali a potenza nita e perci il processo aleatorio ammette spettro di potenza. La funzione densit spettrale di potenza di un processo aleatorio la media delle funzioni densit spettrale di potenza ottenute per le singole realizzazioni: | {xT (t; )}|2 Sx (f ) = E[Sx (f ; )] = E[ lim ] T T
(4.5.1)
dove loperazione di media va fatta tra tutti i segnali aleatori Sx (f ; ) che si ottengono prendendo i pezzi delle realizzazioni del processo X(t) che sono compresi tra [T /2, T /2], e cio: t xT (t; ) = x(t; ) rect( ) T e facendone il modulo quadro della loro trasformata di Fourier. La denizione di spettro di potenza ricalca quindi quella che si potrebbe fare per un segnale deterministico di potenza. Lunica differenza dovuta alla presenza di una collezione (anche innita) di realizzazioni sulla quali non possiamo fare altro che effettuare una media. Questa denizione del tutto generale, cio valida anche per processi non stazionari.
91
Normalmente essa molto difcile da utilizzare, anche per processi stazionari in senso lato. Si utilizza allora nella pratica la denizione dovuta a Wiener-Kintchine. In base a questa denizione P ROPOSITION 4.5.1. la densit spettrale di potenza dei processi stazionari calcolabile come trasformata di Fourier della funzione di autocorrelazione:
(4.5.2)
Sx (f ) =
Rx ( )ej2f d
Vediamo alcune propriet. (1) La densit spettrale di potenza di un processo aleatorio e stazionario in senso lato una funzione reale e pari, dato che la trasformata di Fourier di un segnale reale e pari (2) La potenza statistica media del processo (che si ricordi una costante, data la stazionariet del processo) pari allintegrale della densit spettrale di frequenza su tutto lasse delle frequenze: (4.5.3) Px = E[X 2 (t)] =
+
Sx (f )df
(3) la densit spettrale di potenza una funzione non negativa: Sx (f ) 0. Questultima propriet discende direttamente dalla denizione diretta, e non dalla denizione di Wiener-Kintchine. 4.5.1. Filtraggio di un processo stazionario. Riprendiamo allora il problema del ltraggio visto in g. 4.4.2 di un processo stazionario e vediamo come ora si pu caratterizzare la densit spettrale del processo in uscita, nota la densit spettrale del processo in ingresso. Sappiamo infatti che, se il processo in ingresso stazionario in senso lato, lo anche quello in uscita. La densit spettrale del processo in uscita vale:
(4.5.4)
Sy (f ) = F {Rx ( ) h( ) h( )} = Sx (f )H(f )H(f )
Inoltre, poich il sistema si suppone reale, H(f ) = H (f ), si ha:
(4.5.5)
Sy (f ) = Sx (f ) |H(f )|2
92
che la stessa relazione che vale per gli spettri di potenza dei segnali deterministici. La risposta in fase del sistema non inuenza la densit spettrale del processo in uscita. Nella densit spettrale di potenza sono quindi contenute tutte le informazioni spettrali del processo e cio come si distribuisce la potenza sulle varie componenti armoniche, dato che Sx (f ) si comporta come la densit spettrale di potenza di un segnale deterministico. Conseguentemente il signicato di densit spettrale di potenza lo stesso per i segnali deterministici e per i processi aleatori: una fettina spettrale alla frequenza f rappresenta il contenuto in potenza del processo sulla sinusoide a frequenza f moltiplicato per la banda passante innitesima intorno a f , df : dPx (f ) = Sx (f )df . E XAMPLE 4.5.2. Calcoliamo la densit spettrale di potenza del processo visto in (4.1.2): X(t) = A sin(2fo t + ), con = U [0, 2[. Poich il processo stazionario in senso lato, la sua densit spettrale di potenza pu essere calcolata secondo la 2 denizione di Wiener-Kintchine. Poich si gi trovato che: Rx ( ) = a2 cos(2fo ), la densit spettrale di potenza vale:
(4.5.6)
Sx (f ) = F
a2 cos(2fo ) 2
a2 [(f fo ) + (f + fo )] 4
La potenza dellintero processo quindi concentrata sulla frequenza fo . La funzione di autocorrelazione misura, come gi detto, la velocit di variazione e lautosomiglianza di un processo con s stesso. Poich la densit spettrale di potenza la trasformata di Fourier della funzione di autocorrelazione (per i processi stazionari), allora anche la densit spettrale di potenza pu caratterizzare un processo. In particolare, quanto pi rapidamente variano le singole realizzazioni di un processo, tanto pi larga la banda passante della densit spettrale di potenza, dato che ad una banda larga corrisponde una funzione di autocorrelazione piccola. Quindi a variazioni rapide corrispondono termini spettrali a potenza non nulla sempre pi in alta frequenza. Nella gura 4.5.1 riportata una singola realizzazione di tre processi, ciascuno dei quali presenta una densit spettrale di potenza a banda crescente. Si osservi come, al crescere della banda aumenta non solo la rapidit di variazione della realizzazione, ma anche lampiezza delle escursioni, e cio la potenza complessiva del segnale
93
1.5
0.5
0.5
1.5
1000
2000
3000
4000
5000
6000
7000
8000
1.5
0.5
0.5
1.5
1000
2000
3000
4000
5000
6000
7000
8000
94
1.5
0.5
0.5
1.5
1000
2000
3000
4000
5000
6000
7000
8000
F IGURA 4.5.1. Esempio di tre processi a banda crescente nello spettro di potenza 4.5.2. Processo aleatorio bianco. Si supponga ora di considerare un processo la cui densit spettrale di potenza ha una banda che cresce illimitatamente, pur mantenendo lo stesso valore per f = 0. La funzione di autocorrelazione di tale processo tender ad un valore piccolissimo (la funzione non assomiglia quasi per niente a s stessa e varia sempre pi rapidamente). Al limite per f la funzione di autocorrelazione diventa impulsiva e quindi la densit spettrale di potenza diventa costante su tutto lo spettro di frequenze:
(4.5.7)
Rx ( ) = n ( ) Sx (f ) = n
A tale tipo di processo, astrazione matematica di molti fenomeni reali, si d il nome di processo di rumore bianco. Il nome rumore bianco deriva dal fatto che tutte le componenti spettrali sono ugualmente rappresentate, cos come tutti i colori sono ugualmente rappresentati nel processo di composizione della luce bianca. Il valor medio di questo processo nullo, dato che il valor medio pari al lim Rx ( ) = 0. Inoltre si capisce bene che tale processo solo una idealizzazione, dato che esso dovrebbe possedere potenza innita, condizione impossibile per un qualunque processo che modelli un segnale sico. Una delle applicazioni pi comuni di questa idealizzazione consiste nel modellamento del rumore termico. Un comune resistore, oltre a presentare una certa resistenza R, presenta anche una debole tensione di rumore, dovuta alla casuale agitazione termica degli elettroni nel materiale che compone il resistore. Questa agitazione termica tanto pi elevata quanto pi alta la temperatura assoluta alla quale si trova il resistore. Il modello che normalmente si utilizza allora quello di considerare il resististore
95
ideale e di porre in serie ad esso un generatore di tensione con tensione pari a n(t) V , dove n(t) un processo casuale, responsabile della produzione di rumore termico. Lespressione che assume la densit spettrale di potenza del rumore termico deriva da considerazioni di carattere quantistico (e quindi non verr effettuata in questa sede) ed assume la forma:
(4.5.8)
Sn (f ) = kTR
|f | /fo e|f |/fo 1
dove il valore di fo : fo = kTR /h, con k = 1.38 1023 J/K costante di Boltzmann, h = 6.62 1034 J s costante di Plank e TR temperatura assoluta del resistore. Alla temperatura ambiente il valore di fo estremamente alto ( 6T Hz). Poich i valori di frequenza che normalmente si utilizzano nelle applicazioni pratiche sono molto pi bassi, lespressione precedente si pu approssimare come segue:
(4.5.9)
Sn (f ) = kTR
e|f |/fo
|f | /fo kTR 1
cio come una costante. Il processo di rumore bianco quindi, in questo caso, un utile idealizzazione di una situazione reale. Un circuito elettrico infatti che sia composto da un ltro con banda passante B fo , vedr la densit spettrale del processo praticamente come piatta. E XAMPLE 4.5.3. Si voglia determinare la densit spettrale di potenza del processo in uscita dal sistema riportato in gura 4.5.2, con N (t) un processo stazionario in senso lato e densit spettrale di potenza costante e pari ad n. Il primo blocco effettua una media pesata del segnale in ingresso su un intervallo [t T, T ]:
(4.5.10)
1 T
()d
tT
1 La sua risposta allimpulso vale allora: g(t) = T rect( tT /2 ). Il secondo blocco un T ltro passa banda ideale, con banda pari a 2/T intorno ad f0 , con f0 T 1. Inne il moltiplicatore moltiplica per un oscillatore locale la cui espressione del tipo: p(t) = 2 cos(2f0 t + ), quindi in realt un processo, con variabile aleatoria con densit di probabilit uniforme in [0, 2[.
96
N(t) g(t)
X(t)
Y(t) H(f)
Z(t)
p(t) | H(f) | 2/T
f f0 0 f0
F IGURA 4.5.2. Sistema dellesempio e ltro passa banda H(f ) Poich il processo in ingresso stazionario in senso lato e il blocco g(t) lineare e tempo invariante, anche il processo in uscita X(t) stazionario in senso lato. Il suo valor medio : x = n G(0) = 0 G(0) = 0, essendo il processo in ingresso a media nulla. La funzione di autocorrelazione di X(t) : (4.5.11) Rx ( ) = Rn ( ) g( ) g( ) = n( ) rg ( ) = nrg ( ) =
n | | (1 )rect( ) T T 2T
e dipende solo da . La corrispondente densit spettrale di potenza vale: Sx (f ) = F {Rx ( )} = n sinc2 (T f ). Il processo p(t) sappiamo che stazionario, avendo valor medio nullo e funzione di autocorrelazione pari a: Rp ( ) = 2 cos(2fo ). La funzione valor medio del prodotto tra le due :
(4.5.12)
y (t) = E[X(t)p(t)] = 2E[X(t) cos(2f0 t + )]
Poich la v.a. indipendente dalla sinusoide in cui contenuta (allinterno del processo p(t)) lo a maggior ragione anche dal processo X(t). Quindi laspettazione del prodotto pari allaspettazione presa separatamente dei singoli processi: y (t) = E[X(t)p(t)] = E[X(t)]E[p(t)] = 0. La funzione di autocorrelazione vale:
97
Ry (t, t ) = E[Y (t)Y (t )] =
= 4E[X(t)X(t ) cos(2f0 t + ) cos(2f0 (t ) + )] =
= 4E[X(t)X(t )] E[cos(2f0 t + ) cos(2f0 (t ) + )] =
(4.5.13)
= 2Rx ( ) cos(2f0 )
Anche il processo Y (t) quindi stazionario in senso lato, essendo il suo valor medio nullo e la sua funzione di autocorrelazione dipendente solo da . La densit spettrale di potenza la trasformata di Fourier di Ry ( ): Sy (f ) = F {Ry ( )} = (4.5.14) = n sinc2 (f T ) [(f fo ) + (f + fo )] = n [sinc2 (T (f fo )) + sinc2 (T (f + fo ))]
La maggior parte della potenza si spostata attorno ad fo , anche se le code delle funzioni sinc2 si sovrappongono sino ad innito. Leffetto del ltraggio passa banda nale quello di tagliare appunto queste code, in modo da lasciar passare solo la parte dello spettro che contiene pi potenza (vedi in gure 4.5.3 ed 4.5.4 ). Approssimatamente quindi lo spettro di potenza in uscita si pu scrivere come: (4.5.15) Sz (f ) n [sinc2 (T (f fo )) rect(
f + fo f fo ) + sinc2 (T (f + fo )) rect( )] 2/T 2/T
4.6. PROCESSI ALEATORI GAUSSIANI
98
1.2
0.8
0.6
0.4
0.2
0 15
10
0 5 frequenze normalizzate fT
10
15
F IGURA 4.5.3. Filtraggio del processo Y (t). I valori nellesempio riportato sono: f0 T = 5.
0.8
0.6 Sz(f) 0.4 0.2 0 15
10
0 5 frequenze normalizzate fT
10
15
F IGURA 4.5.4. Densit spettrale di potenza in uscita dal sistema, Sz (f ) 4.6. Processi Aleatori Gaussiani Nellesempio del rumore termico la generazione della tensione di rumore dovuta alla somma della tensione provocata dal movimento casuale degli elettroni. Poich il processo in esame generato dal contributo di molti fenomeni elementari ed indipendenti, si pu ritenere che la statistica del processo stesso sia di tipo gaussiano (per il teorema del limite centrale). Poich una grande quantit di fenomeni sici si comportano in modo simile, utile studiare le propriet dei processi gaussiani. D EFINITION 4.6.1. Un processo aleatorio X(t) gaussiano se scelto n arbitrariamente grande ed n istanti di tempo t1 , t2 , ..., tn , le variabili aleatorie [X(t1 ), X(t2 ), ..., X(tn )] sono congiuntamente gaussiane. In questa denizione quindi necessario vericare non solo la gaussianit della singola variabile aleatoria che si pu ottenere ad ogni istante t, ma anche del vettore aleatorio [X(t1 ), X(t2 ), ..., X(tn )], comunque si scelgano gli istanti di tempo. Molti fenomeni sici sono modellati come processi gaussiani (onde sismiche, voce umana, rumore termico, etc) e questo spiega la centralit di questo tipo di processi nello studio dei processi aleatori.
99
La descrizione statistica completa di un processo possibile solo se nota la sua funzione di densit di probabilit di ogni ordine e per ogni n pla di istanti di tempo: fx (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ). Tuttavia se X(t) gaussiano la densit di probabilit congiunta ha una forma nota: (4.6.1) fX (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) =
1 1 exp( (x X )T CX (x X )) n det |C | 2 (2) X
dove il vettore aleatorio x quello che si ottiene estraendo le variabili aleatorie [X(t1 ), X(t2 ), ..., X(tn )]. Per la conoscenza completa della funzione di densit di probabilit congiunta (e quindi dellintero processo) sufciente conoscere quindi la funzione valor medio e la funzione di autocovarianza; x (t) e Cx (t1 , t2 ). Infatti per ogni n pla di istanti di tempo (t1 , t2 , ..., tn ) si ha:
(4.6.2)
X = [x (t1 ), x (t2 ), ..., x (tn )]
Invece per la funzione di autocovarianza si ha: Cx = [cij ], dove (4.6.3) cij = E[(X(ti ) x (ti )) (X(tj ) x (tj ))] = Cx (ti , tj ) = Rx (ti , tj ) x (ti )x (tj )
Una delle propriet notevoli dei processi gaussiani consiste nel fatto che la stazionariet in senso lato implica la stazionariet in senso stretto (cosa generalmente non vera). Infatti la stazionariet in senso lato equivale ad imporre una funzione valor medio costante ed una funzione di autocorrelazione dipendente solo dalla differenza degli istanti di tempo: X (t) = X e Rx (t1 , t2 ) = Rx ( ). Se allora si considera ln pla di istanti:
[t1 + t, t2 + t, ..., tn + t]
in tali istanti la funzione valor medio non sar cambiata poich una costante. La funzione di autocovarianza rimane anchessa costante dato che dipende solo dalle differenze tra una qualunque coppia di istanti di tempo.
100
Poiche inne la funzione di densit di probabilit congiunta del processo dipende solo da questi due parametri statistici, si pu concludere che il processo stazionario in senso lato lo anche in senso stretto. Quando si fa passare un processo attraverso un sistema lineare tempo-invariante, di cui si conosce la funzione di trasferimento, generalmete difcile determinare la funzione di densit di probabilit congiunta di uscita, anche se nota quella di ingresso. I processi gaussiani fanno eccezione a questa regola: un processo gaussiano che venga fatto passare attraverso un sistema lineare conserva la sua propriet principale di gaussianit; inoltre conserva anche la stazionariet se il sistema anche tempo-invariante e il processo in ingresso stazionario. Intuitivamente il motivo per cui la statistica del processo non cambia si pu comprendere osservando loperazione che si effettua quando il processo passa attraverso il sistema:
(4.6.4)
Y (t) = X(t) h(t) =
X()h(t )d
Questa operazione si pu pensare come una somma di inniti termini, ciascuno del quali vale approssimatamente: (4.6.5) X(k)h(t k)
dove si deve pensare k intero e molto piccolo. Poich allora il processo in uscita altro non che una combinazione lineare di tanti processi in ingresso, tutti gaussiani (X(t), calcolato per t = k gaussiano), anchesso gaussiano, comunque si scelga ln pla degli istanti di tempo [t1 , t2 , ..., tn ]. E XAMPLE 4.6.2. Si consideri un processo gaussiano stazionario con densit spettrale di potenza:
(4.6.6)
Sn (f ) = No (1
f |f | )rect( ) B 2B
e si supponga di far passare questo processo attraverso un campionatore. Il campionatore un sistema che, dato un segnale continuo, ne estrae il valore per particolari istanti di tempo, normalmente equispaziati. A partire da una funzione tempo continua
101
costruisce quindi una funzione tempo discreta o, se si preferisce, una successione di numeri reali. Il campionatore campioni il processo agli istanti di tempo k/B. Se k lo facciamo variare da 1, ..., n otterremo n numeri reali
X(t1 = 1/B), X(t2 = 2/B), ..., X(tn = n/B)
corrispondenti ad n variabili aleatorie. Si vuole calcolare la densit di probabilit congiunta di queste n variabili aleatorie fx (x1 , x2 , ..., xn ).
S n(f) N0
f B 0 B
X(t) k/B
Xk
F IGURA 4.6.1. Densit spettrale e schema a blocchi dellesempio 4.6.2 Si osservi subito che se X(t) un processo a valor medio nullo, anche il processo campionato, essendo linsieme di n v.a. a valor medio nullo, a valor medio nullo. Inoltre la sua funzione di autocovarianza vale:
cxi xj = E[(Xi xi )(Xi xj )] = E[Xi Xj ] = E[X(ti )X(tj )] = (4.6.7) = Rx (ti tj ) = Rx ( ij ) B
Poich conosciamo Sn (f ) possibile esprimere in forma chiusa anche la funzione di autocorrelazione:
(4.6.8)
Rn ( ) = No B sinc2 (B )
4.7. PROCESSI ERGODICI
102
Quindi lautocovarianza vale: cxi xj = No Bsinc2 (ij) = No Bik (con ik simbolo di Kronecker) ed una matrice diagonale. Questo ci dice che le variabili aleatorie estratte con loperazione di campionamento sono a due a due incorrelate. Essendo inoltre congiuntamente gaussiane (loperazione di campionamento infatti chiaramente lineare) esse sono a due a due indipendenti. La loro potenza statistica, pari anche alla loro varianza: Rn (0) = No B. La densit di probabilit congiunta allora il prodotto delle singole densit di probabilit delle v.a. [X1 , X2 , ..., Xn ]:
n
f (x1 , x2 , ..., xn ) =
k=1
f (xk ) x2 + x2 + ... + x2 1 2 n ) 2No B
(4.6.9)
f (x1 , x2 , ..., xn ) =
1 (2)n (No B)n
exp(
4.7. Processi Ergodici I parametri statistici di un processo aleatorio si possono considerare operazioni dinsieme, poich sono effettuate sullinsieme delle funzioni campione (o realizzazioni). Ad esempio la funzione valor medio si determina, per ogni istante ssato t, effettuando la media di tutte le realizzazioni in t, nota che sia la funzione densit di probabilit di primo ordine per quellistante. Questa operazione, dal punto di vista teorico non comporta alcuna difcolt, ammesso che del processo si conosca una forma chiusa, ammesso cio che si sia in grado di scrivere ogni possibile realizzazione del processo, insieme con la funzione di densit di probabilit del primo ordine (o di ordine superiore per le altre statistiche). In pratica la funzione di densit di probabilit non nota e a volte non si riesce nemmeno a fare delle ipotesi ragionevoli sulla sua forma con misure statistiche sul processo in esame. A volte infatti, di un dato processo, possibile misurare soltanto una singola realizzazione. La domanda che sorge spontanea allora: possibile effettuare alcune misure sulla singola realizzazione per ottenere un comportamento statistico generale ? La risposta a questa domanda s, a volte si pu fare, ma ci dipende da una particolare propriet che possono possedere i processi aleatori. Questa propriet lergodicit. D EFINITION 4.7.1. Un processo aleatorio stazionario in media si dice ergodico in media se, con probabilit che tende ad 1 si ha che la media dinsieme coincide con la media temporale effettuata sulla singola realizzazione:
103
T /2
(4.7.1)
P ( E[X(t)] = lim
x(t)dt ) = 1
T /2
Tale denizione nasce infatti dallosservazione che, se si possiede una sola realizzazione del processo, pu avere senso effettuare delle misure deterministiche sul quel processo (media temporale, misura della autocorrelazione e cos via). In particolare per la misura della media temporale pu accadere che questa sia differente realizzazione per realizzazione oppure che, anche se sempre uguale per tutte le realizzazioni, sia differente dalla media dinsieme del processo in esame. Per alcuni processi invece capita che non solo la media temporale uguale per tutte le realizzazioni, ma anche che questo valore pari a quello che si determina dalla media dinsieme. Tali processi sono appunto detti ergodici in media. Un processo ergodico in media un processo la cui singola realizzazione si comporta come tutto il processo in esame dal punto di vista statistico, permette cio misure di media che dovrebbero essere fatte altrimenti su tutta la statistica del processo stesso. E evidente che, afnch un processo sia ergodico, necessario che sia stazionario, dato che la media temporale necessariamente un valore singolo e quindi non potrebbe mai essere pari ad una funzione del tempo (se il processo non fosse stazionario). Si osservi che nella denizione non abbiamo dato una condizione di uguaglianza con certezza, ma con probabilit tendente ad 1, che una cosa differente. Infatti quando si osserva la singola realizzazione, questa una sola tra le tante che potrebbero capitare, e quindi il valore che estraiamo della media temporale essa stessa una variabile aleatoria. Luguaglianza di tale variabile aleatoria con una costante (il valor medio ottenuto come media dinsieme) pu essere fatta solo in termini probabilistici, affermando cio che tale variabile aleatoria ha valor medio che coincide con la media dinsieme e varianza nulla. Si tenga inoltre presente che nei casi pratici non si pu osservare nemmeno tutta la realizzazione (cio da a +) e quindi quella che si ottiene solo una stima del valor medio (che a sua volta una variabile aleatoria). Quello che nella pratica si riesce ad ottenere quindi:
(4.7.2)
1 XT = T
T /2
x(t)dt
T /2
la media temporale sar quindi:
Xm = lim XT
T
104
ed inoltre:
(4.7.3)
2 2 Xm = lim XT , Xm = lim XT 0 T T
anche se questi ultimi risultati non sono accessibili in una situazione reale. Si ricordi inne che, essendo la varianza della variabile aleatoria XT pari alla funzione di autocovarianza valutata per = 0, il vericarsi della condizione di ergodicit in media subordinato al vericarsi di una determinata condizione (CXT (0) 0) che coinvolge la statistica del secondo ordine del processo. Per il calcolo della media temporale si denisce un operatore valor medio temporale, che si pu applicare a qualunque segnale x(t) determinato o no:
(4.7.4)
x(t) = lim
1 T T
T /2
x(t)dt
T /2
La propriet di ergodicit in media pu essere allora riscritta nel modo seguente:
(4.7.5)
E[X(t)] = x(t; )
dove si messo in evidenza che la media temporale stata effettuata sulla particolare realizzazione estratta dal processo X(t). Se per il processo ergodico tale valore uguale per tutte le realizzazioni e quindi, con notazione non proprio rigorosa si pu scrivere:
(4.7.6)
E[X(t)] = X(t)
La dimostrazione che luguaglianza della denizione vale con probabilit pari ad 1 legata alla dimostrazione che la media della variabile aleatoria x(t) sia pari al valor medio dinsieme e la sua varianza tenda a zero. Laspettazione della media temporale
105
1 E[ x(t) ] = E[ lim T T (4.7.7) = lim 1 T T

T /2 T /2
T /2
x(t)dt] =
T /2
E[x(t)]dt = lim
1 T T
T /2
x dt = x
T /2
La varianza della variabile aleatoria x(t) invece vale:
V ar( x(t) ) = E[( x(t) x )2 ] = 1 = E[( lim T T

T /2 T /2
1 x(t)dt x ) ] = lim E[( T T

2 T /2 T /2
T /2 T /2
x(t)dt x )2 ] =
1 = lim E[ 2 T T = lim E[
T
(x(t) x )dt
T /2 T /2 T /2 T /2 T /2 T /2
(x(t) x )dt] =
1 T2
(x(t) x )(x(t1 ) x )dtdt1 ] =

T /2 T /2
= lim 1 = lim 2 T T
T /2 T /2
1 T T 2
T /2 T /2
E[(x(t) x )(x(t1 ) x )]dtdt1 =

T /2 T /2 T /2 T /2 T /2
1 Cx (t, t1 )dtdt1 = lim 2 T T
Cx (t t1 )dtdt1 =
T /2
dove lultima uguaglianza vale solo nellipotesi che il processo sia stazionario in senso lato e non solo in media. In questa ipotesi infatti la dimostrazione che la varianza di x(t) va a zero per T risulta pi semplice (la dimostrazione nel caso pi generale pi complessa). Se ora si pone tt1 = u, si osserva che al variare di (t, t1 ) nel quadrato [T /2, T /2] [T /2, T /2], u varia da [T, T ]. Inoltre dtdt1 = 2(T |u|)du: si provi infatti a calcolare larea del rettangolino che si ottiene spostando di un innitesimo du la retta t t1 = u (vedi gura 4.7.1).

t1
106
T/2 T/2 0
tt1 = u tt1 = u+du
T/2
T/2
F IGURA 4.7.1. Calcolo del differenziale nel cambio di variabile t t1 = u Quindi:
(4.7.8)
= lim
1 T T 2
T T
2(T |u|)Cx (u)du = 0
dato che la funzione di autocovarianza non pu divergere per nessun valore della variabile indipendente. E quindi dimostrata la denizione di ergodicit in media secondo la relazione probabilistica. Loperatore di media temporale pu essere utilizzato per denire lautocorrelazione di un segnale deterministico a potenza nita:
(4.7.9)
1 x(t)x(t ) = lim T T
T /2
x(t)x(t )dt
T /2
Risulta allora abbastanza chiaro che il concetto di ergodicit in media pu essere estesa anche alla autocorrelazione, purch il processo sia stazionario non solo in media ma anche per quel che riguarda lautocorrelazione, sia cio stazionario in senso lato. D EFINITION 4.7.2. Un processo aleatorio stazionario in senso lato ergodico in autocorrelazione se con probabilit pari ad 1 risulta vera luguaglianza;
107
(4.7.10) 1 Rx ( ) = E[X(t)X(t )] = x(t)x(t ) = lim T T
T /2
x(t)x(t )dt
T /2
Si osservi che lipotesi di stazionariet necessaria per lergodicit in autocorrelazione, dato che altrimenti il processo avrebbe una funzione di autocorrelazione dinsieme dipendente da due variabili, mentre lautocorrelazione temporale dipende chiaramente da una sola variabile. Inoltre, per gli stessi motivi addotti precedentemente, necessario dare anche in questo caso una denizione in termini probabilistici. Lergodicit in autocorrelazione importante poich mediante questa possibile determinare la funzione di autocorrelazione dinsieme mediante losservazione di una singola realizzazione. Dalla funzione di autocorrelazione si pu poi calcolare la densit spettrale di potenza del processo. Le condizioni sullergodicit in autocorrelazione del processo coinvolgono grandezze statistiche del quarto ordine, poich si deve provare che la varianza della variabile aleatoria
(4.7.11)
x(t)x(t )
1 = T
T /2
x(t)x(t )dt
T /2
tende a zero al tendere di T . Un processo ergodico in valor medio e in autocorrelazione si dice ergodico in senso lato. D EFINITION 4.7.3. Un processo si dice ergodico in senso stretto se la propriet di ergodicit vale per una qualunque grandezza statistica estratta dal processo (e di qualunque ordine): (4.7.12) E[g(X(t), X(t1 ), ..., X(tn1 ))] = g(X(t; ), X(t 1 ; ), ..., X(t n1 ; ))
E XAMPLE 4.7.4. Dimostriamo che il processo X(t) = a cos(2fo t + ), con = U [0, 2[, con a ed fo noti, ergodico in senso lato. Abbiamo gi dimostrato che tale processo stazionario in senso lato (quindi il problema ben posto). Inoltre si gi trovato che:
108
(4.7.13)
x = 0,
Rx ( ) =
a2 cos(2fo ) 2
Calcoliamo ora le corrispondenti medie temporali: (4.7.14) x(t; ) = lim 1 T T
T /2
a cos(2fo t + )dt =
T /2
1 T
T /2
a cos(2fo t + )dt = 0
T /2
dato che la media di un qualunque segnale periodico pu essere valutata sul singolo periodo. Il risultato ottenuto indipendente dal particolare valore di . Il processo quindi ergodico in media. Per lautocorrelazione temporale si ha poi:
x(t; )x(t ; ) = lim 1 T

T /2
1 T T
T /2
a cos(2fo t + )a cos(2fo (t ) + )dt =

T /2
a cos(2fo t + )a cos(2fo (t ) + )dt =

T /2
a2 2T
T /2
cos(2fo )dt =
T /2
(4.7.15)
a2 cos(2fo ) = Rx ( ) 2
Il processo ergodico anche in autocorrelazione e quindi lo in senso lato.

Processi Aleatori

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Processi Aleatori

Caricato da

Copyright:

Formati disponibili

Politecnico di Bari

Corso di Laurea in Ingegneria Elettronica-Telecominicazioni DM 270/04

Appunti del corso di INTRODUZIONE AI PROCESSI ALEATORI

Anno Accademico 2010-2011

1.2. TIPI DI SEGNALE

1.2. TIPI DI SEGNALE

1 lim |s(n)|2 N + 2N + 1 n=N

1.2. TIPI DI SEGNALE

1 se (t) = [s(t) + s(t)] 2

e la sua parte dispari

1 so (t) = [s(t) s(t)] 2

1.3. SEGNALI ELEMENTARI

y(t) = x(t) h(t) =

F IGURA 1.3.1. Rampa unitaria

1.3. SEGNALI ELEMENTARI

1, |t| < 0, |t| >

1.3. SEGNALI ELEMENTARI

che viene detto onda quadra.

1.3. SEGNALI ELEMENTARI

s(t)(t to )dt = s(to )

1.3. SEGNALI ELEMENTARI

x(t) (t ) dt = x(t)(t )|+

Si osservi inne che lintergale dellimpulso lo scalino di ampiezza unitaria:

1.3. SEGNALI ELEMENTARI

La sua potenza di picco

Pp = max sin2 (t) = 1

x(t)x(t )dt x( ) (per dimostrarlo si

Dalla denizione si osserva subito che: Rx ( ) = x( )

provi a porre x( ) = y( ) e ad eseguire lintegrale di convoluzione: Rx ( ) = + x(t)y( t)dt) e quindi che:

Su alcuni testi riportata la relazione: Rx ( ) =

Per i segnali complessi la denizione invece:

Si pu facilmente dimostrare che: Rxy ( ) = Ryx ( ): + + +

1.4.3. Segnali a potenza nita. Per i segnali a potenza nita

A tale quantit diamo il nome di funzione di autocorrelazione:

Lo spettro dampiezza di un segnale periodico uno spettro a righe:

La teoria delle probabilit

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

T HEOREM 2.2.3. Levento nullo ha probabilit zero di vericarsi: P () = 0.

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

Partendo dalla denizione della probabilit condizionata, questo signica che:

P (A B) P (A) P (B) = P (A P (B)

P (A/B) P (B) = P (B/A) P (A) P (A/B) =

P (B/A) P (A) P (B)

2.2. LE BASI DELLA TEORIA DELLE PROBABILIT

ove il coefciente binomiale vale: (

2.3. VARIABILI ALEATORIE

2.3. VARIABILI ALEATORIE

2.4. DENSITA DI PROBABILITA

La relazione inversa invece:

2.4. DENSITA DI PROBABILITA

2.5. OPERAZIONI SULLA VARIABILE ALEATORIA

F IGURA 2.4.2. Densit di probabilit di una variabile aleatoria discreta

FY (y) = P (Y y) = P (g(X) y) = P (X g 1 (y)) = FX (g 1 (y))

2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA

fX (g 1 (y)) dg 1 (y) fY (y) = fX (g (y)) = dy g (g 1 (y))

La relazione generale si pu quindi riassumere nella seguente formula: (2.5.3) fY (y) =

2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA

impulsi, diventa una sommatoria:

2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA

2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 6 4 2 0 2 4 6

2 2 X = E[(X X )2 ] = E[X 2 2XX + X ] = E[X 2 ] 2E[X] X + 2 = X