Modellistica e Identificazione
a.a. 2016-2017
Rapporto fra varianze F - Valori critici per p = 0,05 (carattere tondo), valori critici per p = 0,01
(carattere grassetto) - nella prima riga i gradi di libertà del numeratore, nella prima colonna i gradi
di libertà del denominatore
Gradi di
1 2 3 4 5 6 8 12 24 24
libertà
161 200 216 225 230 234 239 244 249 254
1
4052 4999 5403 5625 5764 5859 5982 6106 6234 6366
18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,41 19,45 19,50
2
98,50 99,00 99,17 99,25 99,30 99,33 99,37 99,42 99,45 99,50
10,13 9,55 9,28 9,12 9,01 8,94 8,84 8,74 8,64 8,53
3
34,12 30,82 29,46 28,71 28,24 27,91 27,49 27,05 26,60 26,12
7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,91 5,77 5,63
4
21,20 18,00 16,69 15,98 15,52 15,21 14,80 14,37 13,93 13,46
6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,68 4,53 4,36
5
16,26 13,27 12,06 11,39 10,97 10,67 10,29 9,89 9,47 9,02
5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,00 3,84 3,67
6
13,74 10,92 9,78 9,15 8,75 8,47 8,10 7,72 7,31 6,88
5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,28 3,12 2,93
8
11,26 8,65 7,59 7,01 6,63 6,37 6,03 5,67 5,28 4,86
4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,91 2,74 2,54
10
10,04 7,56 6,55 5,99 5,64 5,39 5,06 4,71 4,33 3,91
4,75 3,88 3,49 3,26 3,11 3,00 2,85 2,69 2,50 2,30
12
9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,16 3,78 3,36
4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,48 2,29 2,07
15
8,68 6,36 5,42 4,89 4,56 4,32 4,00 3,67 3,29 2,87
4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,28 2,08 1,84
20
8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,23 2,86 2,42
4,24 3,38 2,99 2,76 2,60 2,49 2,34 2,16 1,96 1,71
25
7,77 5,57 4,68 4,18 3,86 3,63 3,32 2,99 2,62 2,17
4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,09 1,89 1,62
30
7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,84 2,47 2,01
4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,00 1,79 1,51
40
7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,66 2,29 1,80
4,00 3,15 2,76 2,52 2,37 2,25 2,10 1,92 1,70 1,39
60
7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,50 2,12 1,60
3,92 3,07 2,68 2,45 2,29 2,17 2,02 1,83 1,61 1,25
120
6,85 4,79 3,95 3,48 3,17 2,96 2,66 2,34 1,95 1,38
3,84 2,99 2,60 2,37 2,21 2,10 1,94 1,75 1,52 1,00
> 120
6,64 4,60 3,78 3,32 3,02 2,80 2,51 2,18 1,79 1,00
1 2 3 4 5 6 8 12 24 24
Critical Values for the Chi-Squared Distribution
Gradi di
libertà
ε ==>
ν 0.995 0.99 0.975 0.95 0.9 0.1 0.05 0.025 0.01 0.005
1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.832 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
8 1.344 1.647 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 7.041 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.558
25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
27 11.808 12.878 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.994
29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.335
30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
31 14.458 15.655 17.539 19.281 21.434 41.422 44.985 48.232 52.191 55.002
32 15.134 16.362 18.291 20.072 22.271 42.585 46.194 49.480 53.486 56.328
33 15.815 17.073 19.047 20.867 23.110 43.745 47.400 50.725 54.775 57.648
34 16.501 17.789 19.806 21.664 23.952 44.903 48.602 51.966 56.061 58.964
35 17.192 18.509 20.569 22.465 24.797 46.059 49.802 53.203 57.342 60.275
36 17.887 19.233 21.336 23.269 25.643 47.212 50.998 54.437 58.619 61.581
37 18.586 19.960 22.106 24.075 26.492 48.363 52.192 55.668 59.893 62.883
38 19.289 20.691 22.878 24.884 27.343 49.513 53.384 56.895 61.162 64.181
39 19.996 21.426 23.654 25.695 28.196 50.660 54.572 58.120 62.428 65.475
40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766
50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490
60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952
70 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215
80 51.172 53.540 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321
90 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299
100 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.170
150 109.142 112.668 117.985 122.692 128.275 172.581 179.581 185.800 193.207 198.360
200 152.241 156.432 162.728 168.279 174.835 226.021 233.994 241.058 249.445 255.264
Modello lineare con rumore additivo: stima
dei minimi quadrati.
Nella maggior parte dei casi un modello lineare risulta essere sufficiente per rappresentare in
modo significativo il legame tra la grandezza di misura y e le variabili indipendenti x1 , x2 , , xm
dove wi è una sequenza aleatoria a valor medio nullo che rappresenta il disturbo connesso al
rilevamento sperimentale delle misure yi della grandezza di misura. I parametri incogniti del
modello che devono essere determinati sono l’ordine del modello m e le m 1 costanti 0 , , m .
Nei riguardi del legame tra la grandezza di misura e le variabili indipendenti , tali costanti hanno un
significato preciso. La costante 0 è l’offset del modello, e rappresenta il valore di y quando tutte
le variabili indipendenti hanno valore nullo; sebbene questo possa sembrare un controsenso è difatto
più frequente di quanto non si pensi in quanto il più delle volte il modello lineare è una
rappresentazione del comportamento del processo allo studio nell’intorno di un punto di lavoro
y f x1 , , xm che corrisponde a determinati valori costanti y , x1 , , xm della variabile di
misura e di quelle indipendenti, mentre i valori x1i , x2i , , xmi sono le variazioni di ampiezza
opportuna rispetto ai valori di equilibrio x1 , , xm . Inoltre 0 è utile per intercettare
eventualmente un valor medio non nullo del disturbo di misura. La costante generica j rappresenta
la sensibilità della variabile di misura rispetto alle variazioni della j -esima variabile indipendente
x j quando le altre sono tenute costanti; infatti risulta
y
j , j 1, , m
x j
Il modello (1.1) è molto usato in vari campi, per cui i suoi elementi sono suscettibili di varie
denominazioni, di cui si riportano quelle più usate: l’uscita viene chiamata genericamente dato; le
variabili indipendenti vengono dette variabili di regressione, regressori, predittori, scores; i
parametri possono chiamarsi coefficienti di correlazione parziale, oppure loads. Il modello quindi
può trovarsi sotto il nome di modello di regressione lineare, modello di regressione multipla o
multivariata.
Assegnato ora un set di N misure sperimentali yi della grandezza di misura e delle
variabili indipendenti x ji vogliamo stimare i parametri del modello; a tale scopo, sulla base di
opportune informazioni a disposizione circa il processo allo studio, si scelga un valore dell’ordine
m del modello, tale scelta sarà poi perfezionata in sede di validazione del modello identificato. I
parametri 0 , , m possono essere determinati minimizzando la seguente funzione di costo
2
1 mN 1 N
2
f 0 , , m yi 0 j x ji N yi ˆyi (1.2)
Ni 1
j 1
i 1
T
per cui si vuole trovare il valore ˆ ˆ0 ˆm che minimizzi lo scarto quadratico medio tra le
misure sperimentali yi ed i valori dell’uscita riprodotti dal modello identificato ˆyi .
Per il problema dei minimi quadrati sarà dimostrato più avanti la sussistenza di condizioni
necessarie e sufficienti di minimo globale
f 2 N m
0
yi 0 j x ji 0
N
i 1 j 1
(1.3)
f 2 N m
k
yi 0 j x ji xki 0 , k 1, , m
N i 1
j 1
N N
1 1
y
N
yi , xk
N
x ki
i 1 i 1
yi y xki xk
N N
1 2 1 2
2y , x2k
N i 1 N i 1
xhi xh xki xk
N N
1 1
2yxk yi y xki xk , x2h xk
N i 1 N i 1
m
y 0 j x j
j 1
(1.4)
N N m
1 1
N
yi x k i 0 xk
N
j x ji xki , k 1, , m
i 1 i 1 j 1
Ora, per il generico k , si moltiplichi la prima delle (1.4) per xk e la si sottragga dalla seconda
delle (1.4); si ottiene
1 N m 1 N
i k i y xk j N
y x x ji xki x j xk , k 1, , m (1.5)
N i 1 j 1 i 1
x ji x j xki xk x2 j xk
N N
1 1
N
x ji xki x j xk
N
i 1 i 1
Il sistema (1.7) fornisce la stessa soluzione del sistema (1.4) da un punto di vista teorico; tuttavia da
un punto di vista numerico, mentre i coefficienti del sistema (1.4) sono dati dai campioni misurati
della variabile di misura e di quelle indipendenti, valori quindi affetti da rumore di misura, i
coefficienti del sistema (1.7) sono dati dalle medie campionarie dei suddetti campioni, in cui la
presenza del rumore è drasticamente ridotta proprio dall’operazione di media campionaria; dal
sistema (1.7) otterremo quindi una stima dei parametri del modello numericamente più affidabile.
Esaminiamo ora alcuni modelli tipici.
ˆ0 y ˆ1 x1
2yx x2 x21x2
1
1 1
yx x x
2 2 1 x2 2
2 2 2
da cui si ottiene
2yx1 x22 x21x2 2yx2
ˆ1
2
x21 x22 x21x2
Una volta identificato il modello, dobbiamo fare tutta una serie di verifiche atte a validare la
capacità del modello di descrivere adeguatamente il legame tra le variabili di interesse. Uno dei test
m
più usati è quello del R 2 : esso consiste nel valutare in che percentuale i dati ˆyi ˆ0 ˆ j x ji
j 1
riprodotti dal modello identificato catturino la variabilità dei dati sperimentali yi . A tale scopo
esprimiamo la varianza dei dati nel seguente modo
2 2 2
yi y ˆyi y
N N N
1 1 1
2
y
N
N
yi ˆyi
N
(1.8)
i 1 i 1 i 1
Il primo termine a destra viene detto varianza residua, mentre il secondo termine a destra viene
detto varianza spiegata (dal modello s’intende). Il modello identificato è tanto migliore quanto più
la varianza spiegata eguaglia la varianza totale, cioè quanto più
ˆyi y
N 2
i 1
R2
yi y
N 2
i 1
è prossimo ad uno. Se questo non dovesse succedere si deve aumentare l’ordine del modello; tale
scelta fa certamente diminuire il valore della varianza residua in quanto questa costituisce proprio il
valore all’ottimo della funzione di costo dei minimi quadrati. Tuttavia si può aumentare l’ordine
m del modello fino a che la diminuzione della varianza residua è significativo.
m 1
N
c m 2
ln f ˆ
Questo, dato che m assume solo valori interi positivi,
viene fatto semplicemente calcolando la funzione c m
per valori crescenti dell’ordine m del modello: all’inizio
avremo un decremento della funzione all’aumentare di
m fino a raggiungere un punto minimo in corrispondenza
ad un valore m0 , per poi riaumentare man mano che il valore di m si avvicina al numero di dati
disponibili N (numero dei parametri confrontabile con il numero dei punti di misura). Il valore
m0 è da ritenersi il miglior compromesso tra diminuzione della varianza residua ottenibile e
complessità del modello. Di nuovo, se all’aumentare del numero dei parametri del modello non si
dovesse raggiungere il minimo della funzione c m questo sarebbe indice che il modello lineare
non rappresenta adeguatamente i dati.
2
1 N m
f pi2 yi 0 j x ji (1.9)
N i 1 j 1
Ad esempio, se fossero note le varianze i2 degli errori di misura wi , si può scegliere pi2 1 / i2 ;
in questo modo gli scarti grandi dovuti ad una maggiore imprecisione della misura vedrebbero
ridotta la loro influenza nella sommatoria in ragione della varianza del rumore di misura. Un’altra
scelta può essere pi2 1 / yi2 quando si hanno misure effettuate su scale differenti ed il fatto di avere
scarti più grandi significativamente di altri dipende quindi dal fatto che vengono misurati valori più
grandi dell’uscita.
Per prevenire qualsiasi problema di non equalizzazione degli scarti è buona norma effettuare
una standardizzazione dei dati yi , x j i , j 1, , m , in modo che le nuove sequenze delle
variabili indipendenti j i , j 1, , m e della grandezza di misura i abbiano valor medio nullo
e varianza unitaria
yi yi x ji x j
ji , ji i
(1.10)
yi xj
i
dove ovviamente non compare il termine di offset dato che tutte le variabili sono a valor medio
nullo.
I parametri 1 , , m che si ottengono dalla minimizzazione della (1.11), dove gli scarti si
riferiscono a variabili tutte con la stessa scala di variazione, sono legati a quelli del modello
originale 0 ,1 , , m da semplici relazioni. Infatti tenendo conto che
m m xj x
ˆyi y yˆ i y y ˆ j j y yˆ j i j
j 1
i
j 1 xj
m ˆ m ˆ
y x j y j x ji
y j
(1.12)
j 1 xj j 1 xj
m
ˆ0 ˆ j x x j
i
j 1
si ottiene
y m y m
ˆ j ˆ , j 1, , m , ˆ0 y ˆ j x j y ˆ j x j
xj j j 1 x j j 1
1
Statistica Matematica
Lo studio dei fenomeni complessi, tipici della realtà industriale moderna, comporta
l’adozione di opportuni modelli matematici che ne descrivano i caratteri essenziali, funzionali agli
obiettivi che il suddetto studio si prefigge. Nei riguardi di un sistema di produzione di beni e/o
servizi, è compito dell’ingegneria gestionale definire strategie di intervento che determinino il
miglioramento del ciclo produttivo, l’uso efficiente di risorse, la sicurezza e manutenzione degli
impianti, il rispetto dell’ambiente.
Il processo di formazione delle decisioni fa uso appunto di modelli descrittivi e di
predizione. Questi si ottengono individuando le variabili di interesse e le relazioni che intervengono
tra esse. Quest’ultimo passaggio è abbastanza complicato nei sistemi complessi, dove il numero
delle variabili che intervengono nel processo è elevato; di conseguenza si dispone anche di un
insieme di dati sperimentali, ottenuto dalle misure di dette grandezze, molto grande.
L’analisi dei dati sperimentali ha il compito di individuare quali tra le variabili misurate
siano effettivamente significative nel processo in questione, e la complessità delle relazioni che
intervengono tra esse. In tale ambito, la statistica gioca un ruolo fondamentale: nel suo aspetto
descrittivo e induttivo permette di dedurre i caratteri essenziali di una distribuzione di valori
dall’esame di un campione di essi, per poi fornire, unitamente ai risultati propri della teoria della
probabilità, una metodologia per la formazione delle decisioni. I metodi statistici intervengono
nell’identificazione e nella verifica dei modelli: la prima permette di selezionare il miglior modello
di una data classe e la seconda permette di convalidare il modello identificato in termini di
rappresentatività dei dati e di potere predittivo.
Statistica descrittiva
Cominciamo con l’osservare che tutti i valori cadono nell’intervallo dell’asse reale
40, 110 , in effetti il minimo valore del carico di rottura è 42.6 Kg/cm
2
mentre il valore massimo è
di 107.8 Kg/cm2 per cui, per questo esperimento consideriamo il carico di rottura come una
variabile aleatoria continua X , con intervallo di definizione . Dividiamo l’intervallo in
sottointervalli contigui Ei , Ei (in questo esempio sono della stessa ampiezza, ma in generale
prende il nome di frequenza assoluta dell’evento che il generico risultato X cada nell’intervallo
Ei , mentre il rapporto i ni / N prende il nome di frequenza relativa, o rapporto di frequenza
M M
ni N , i 1
i 1 i 1
3
Riportando su un grafico in ascisse i valori della variabile X ed in ordinate i valori delle frequenze
relative otteniamo il classico diagramma a barre
graficoGrafico
del del
carico
carico didi rottura
rottura
110
100
90
carico di rottura Kg/cm2
80
70
60
50
40
10 20 30 40 50 60 70 80 90 100
unità esaminate
unità esaminate
valori del carico di rottura (Kg/cm2)
60
25
50
20
n° unità per classe
40
15
30
10
20
5
10
0 0
30 52 74 96 118 30 36 42 48 54 60 66 72 78 84 90 96 102 108 114 120
unità unità
4
L’istogramma determina una rappresentazione compatta dei dati di partenza, dalla quale è
possibile estrarre utili informazioni. Da una semplice ispezione visiva possiamo dire che per il lotto
di prodotti considerato, la distribuzione dei valori del carico di rottura si localizza nella classe
[70, 80], dove si presenta il massimo della frequenza relativa pari a 0.29. Osserviamo inoltre che i
valori di X sono abbastanza addensati intorno alla classe centrale (più dello 0.7 di frequenza
relativa nella classe centrale più le due ad essa contigue) e che si distribuiscono in modo simmetrico
rispetto ad essa. Quindi, come si vede, possiamo in definitiva individuare una certa regolarità nel
processo di produzione che ad un primo esame dei dati non era parsa evidente; l’istogramma è una
rappresentazione più maneggevole dei dati iniziali, fornendone una classificazione significativa.
Le qualità dell’istogramma che naturalmente sono risultate rilevanti ai fini della
caratterizzazione dell’insieme di dati analizzato, sono suscettibili di una precisa definizione
analitica, e quindi di una valutazione quantitativa. Ai fini del calcolo, la variabile aleatoria
dell’esempio trattato che riguardava una grandezza a valori nel continuo, può essere approssimata
da una variabile aleatoria, che chiameremo ancora X , a valori discreti xi rappresentati dalle
ascisse dei punti centrali delle classi Ei , assunti con valori di probabilità i dati dalle
Il valore medio
Questo parametro costituisce una misura della localizzazione della distribuzione dei valori,
in quanto determina quel valore rispetto al quale si distribuiscono meglio tutti gli altri
M
xi i
i 1
dove xi è l’ascissa del punto centrale della classe, o sottointervallo, Ei . Nell’esempio considerato
avremmo
16
m 70 80 70 75.517
29
dove 29 sono le unità che compongono la classe [70, 80]. La mediana risulta essere poco sensibile
alla variazioni dei termini estremi, in quanto se ai termini della prima metà si sostituiscono termini
con valore minore e a quelli della seconda metà termini con valore maggiore, la mediana non
cambia.
La varianza
Questa è una misura di quanto i valori della distribuzione siano più o meno dispersi intorno
al valor medio
M
2 xi i
2
i 1
e si ottiene come valore medio degli scarti al quadrato, per cui è sempre una quantità positiva. Un
basso valore di 2 denota che le determinazioni della X sono addensate intorno al valor medio, e
che quindi il processo descritto dalla X ha una bassa variabilità; al contrario un grande valore della
varianza, significa che si hanno scarti dal valor medio grandi, e che quindi la X è molto dispersa
denotando grande variabilità nel fenomeno allo studio.
6
Si noti come la varianza sia una grandezza del secondo ordine, per cui in termini di unità di
misura non è omogenea alla X ; a tale scopo si è soliti considerare la radice quadrata (positiva)
della varianza
2
che prende il nome di deviazione standard, od in inglese root mean square (rms). Per l’insieme di
dati dell’esempio considerato si ha
Prima di esaminare altri parametri, vediamo come si modificano valor medio e varianza
quando la variabile aleatoria cui si riferiscono subisce delle semplici trasformazioni.
M M M M
Y yi i xi c i xi i c i X c
i 1 i 1 i 1 i 1
yi y i xi c ( X c) i xi X i X2
M 2 M M
2 2 2
Y
i 1 i 1 i 1
da cui si vede che il valor medio varia proprio della costante c addizionata, mentre la varianza resta
inalterata.
M M M
Y yi i cxi i c xi i c X
i 1 i 1 i 1
Y2 yi y i cxi c X i c 2 xi X i c 2 X2
M 2 M M
2 2
i 1 i 1 i 1
per cui il valor medio risulta moltiplicato per la stessa costante, mentre la varianza è moltiplicata
per la costante al quadrato.
Trasformazione affine: Y aX b
M M M M
Y yi i axi b i a xi i b i a X b
i 1 i 1 i 1 i 1
Y2 yi y i (axi b) (a X b) i a 2 xi X i a 2 X2
M 2 M M
2 2
i 1 i 1 i 1
L’ultima trasformazione riassume il risultato ottenuto nelle prime due! Questa è importante perché
permette di effettuare la standardizzazione di una variabile aleatoria X , ovvero la trasformazione in
una variabile aleatoria X ' con lo stesso tipo di distribuzione, ma con valor medio nullo e varianza
pari ad uno
X X
X '
X
1 X
X ' a X b X 0
X X
1
X2 ' a 2 X2 X2 1
2
X
Dissimmetria
Questo parametro dà una misura della dissimmetria della curva della distribuzione rispetto al
valore medio, ed è definita nel seguente modo
M
xi i
3
i 1
M
xi i
3
3
i 1
d
Valori positivi dell’indice denotano che nella distribuzione sono più frequenti scarti positivi dal
valor medio; il viceversa vale nel caso di valori di d negativi. Per l’esempio trattato si ottiene
M
xi i
4
C i 1
3
4
e vale zero per una distribuzione gaussiana. Una distribuzione con Curtosi positiva vuol dire che ha
una distribuzione più appuntita e concentrata intorno al valor medio rispetto ad una gaussiana di
pari valor medio e varianza; si dice anche in questo caso che la distribuzione presenta un eccesso
positivo rispetto alla gaussiana. Nel caso opposto la distribuzione apparirà più appiattita e dispersa
in corrispondenza del valor medio rispetto ad una gaussiana.
Vediamo come la considerazione di questi semplici elementi descrittivi di una distribuzione possa
permettere di orientarci tra varie strategie di intervento. Consideriamo un tipico esempio in cui
un’azienda debba decidere tra diversi tipi di investimento nei riguardi della produzione e vendita di
un certo prodotto. Nella seguente tabella si riportano, per ognuna delle cinque strategie, le
previsioni per gli utili annui xi ( in euro ) e la distribuzione delle frequenze relative i
10
1 2 3 4 5
X1 i 1 X2 i 2 X3 i 3 X4 i 4 X5 i 5
0 0.8 2000 0.1 0 0.3 4000 1 1000 0.2
20000 0.2 3000 0.3 3000 0.4 2000 0.7
4000 0.4 5000 0.2 8000 0.1
5000 0.2 7000 0.1
1 1 1 1 1
Dalla semplice ispezione dei dati non riusciamo facilmente a decidere quale strategia sia
preferibile alle altre. Una buona politica è quella di scegliere l’investimento che mediamente
comporti i maggiori guadagni. Se calcoliamo il valore medio dei dati presenti in ciascuna colonna
della tabella, si ottengono i seguenti guadagni medi annui
Strategia 1 X 4000
1
Strategia 2 X 3700
2
Strategia 3 X 2900
3
Strategia 4 X 4000
4
Strategia 5 X 2400
5
Si vede che le strategie migliori dal punto di vista dei guadagni medi annui previsti sono la
prima e la quarta, ma quale scegliere tra le due? A questo punto dobbiamo valutare la variabilità dei
dati relativi alle due politiche di investimento. Nel caso della strategia n° 4 la variabilità è nulla:
quindi in questo caso si guadagna mediamente 4000 euro senza alcun rischio. Per la strategia n° 1 si
ottiene X1 8000 , pari al doppio del valor medio; questo indica una estrema variabilità che rende
questa strategia molto rischiosa: nel 20% dei casi potremmo guadagnare molto, 20000 euro, ma
nell’80% dei casi i guadagni attesi potrebbero essere nulli. Chi ama rischiare sceglierà la strategia
n°1, mentre chi vuole assicurarsi sceglierà la strategia n° 4.
Questo semplice esempio mostra come i parametri della distribuzione campionaria dei dati,
determinino una rappresentazione concisa dell’informazione contenuta in essi, ed utile alla
definizione di opportune alternative di decisione nei riguardi di un dato problema.
In molti casi pratici tuttavia l’uso dell’istogramma non è molto agevole e risulta più utile poter
sostituire alla distribuzione empirica un’opportuna distribuzione analitica ad essa equivalente.
Riportiamo quindi di seguito le distribuzioni più utilizzate e le loro proprietà!
11
Nella introduzione della distribuzione campionaria dei dati abbiamo visto come per una v.a. discreta
con un numero finito N di possibili valori x1 ,, xN , la distribuzione è rappresentata da N valori
PX ( x)
pk
p1 p2 pN
X
x2 xk xN
N
Naturalmente gli N valori pk devono essere tali che la massa totale valga 1, cioè p
k 1
k
1.
Nel caso di v.a. continua la legge di distribuzione è data da una funzione p X ( x) che
chiameremo funzione di densità di probabilità . Tale denominazione deriva dal fatto che per il
PX ( E ) p X ( x)dx
PX ( A) p X ( x)dx
a
p X ( x)
a b X
x x dx
Come più volte precisato, non è tanto importante poter calcolare la probabilità di un qualsiasi
evento legato ad una v.a. quanto caratterizzare la legge di distribuzione con un numero limitato di
parametri che ne descrivano il carattere globale. Questi parametri sono dati dai momenti della
distribuzione, e sono una misura delle seguenti caratteristiche.
1. Valor medio. E’ il momento del primo ordine e si calcola nel seguente modo
N
X E ( X ) x p X ( x) dx, X xk pk
k 1
nel caso continuo e nel caso discreto. Fornisce il baricentro della distribuzione, ovvero quel
valore compreso in rispetto al quale si ripartiscono in modo equilibrato i valori assunti
dalla X .
N
X2 E ( X ) ( x X ) 2 p X ( x)dx, X2 ( xk X ) 2 pk
2
k 1
13
In altre parole la varianza è lo scarto quadratico medio rispetto a X ed è una misura della
dispersione dei valori della X : una varianza grande indica che possiamo trovare con buona
probabilità valori della X lontani dal valor medio, mentre una bassa varianza vuol dire che i
pX(x) pX(x)
0.3 0.3
X = 2 X = 1.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
X X
-10 -5 0 5 10 -10 -5 0 5 10
valori della v.a. sono addensati intorno al valor medio e valori distanti da esso occorrono con
bassa probabilità. Dalle figure vediamo che la prima distribuzione è molto più dispersa
intorno al valor medio della seconda distribuzione; la prima ha certamente una varianza
maggiore della seconda.
Tuttavia osserviamo che parlare di entità della dispersione in assoluto non ha molto senso;
infatti occorre rapportare il valore della varianza all’entità del valor medio: per esempio se
considerassimo due distribuzioni con stessa varianza pari 10, ma una con valor medio pari a
20 e l’altra con valor medio pari 1000 vedremmo che l’entità dello scarto rispetto al valor
medio sarebbe nel primo caso del 50%, nel secondo caso del 1%. Si è soliti quindi introdurre
un fattore di forma della curva della distribuzione che valuta l’entità della varianza rispetto
al valor medio
X2 X
cv X , X 0
X X
che viene detto coefficiente di variazione della v.a. X ; in esso compare la radice quadrata
della varianza per poter confrontare grandezze omogenee, e prende il nome di deviazione
standard. Il cv X in definitiva fornisce lo scarto medio dei valori della X rispetto alla media
in percentuale del valore della media stessa: un valore del 1% indica una distribuzione molto
14
concentrata intorno al valor medio, mentre un valore del 50% indica che i valori di X
possono essere anche abbastanza lontani da X .
N
E ( X ) ( x X )3 p X ( x)dx, E ( X ) ( xk X )3 pk
3 3
k 1
3
3
E( X )
d
X
0.12 0.12
pX(x) pX(x)
0.1 d>0 0.1 d<0
0.08 0.08
0.06 0.06
0.04 0.04
0.02 0.02
0 X 0 X
0 X 10 20 30 0 10 20 X 30
15
4. Tightness (Curtosi). Questo parametro misura quanto una distribuzione si discosti da una
gaussiana; in particolare dice se le code della distribuzione vadano zero più o meno
rapidamente di quelle di una gaussiana. Si deve considerare il momento centrato del quarto
ordine
N
E ( X ) ( x X ) 4 p X ( x)dx, E ( X ) ( xk X ) 4 pk
4 4
k 1
da cui
leptocurtica
4
E( X ) normale
C 3
4
X platicurtica
X mx
X
con probabilità
X mx
P %
X
16
X mX
X
Tali ascisse vengono dette percentili della distribuzione in quanto sono i valori della X per
cui l’evento del tipo considerato ha un assegnato % di probabilità! Questi vengono forniti
in tabelle disponibili su tutti i testi di statistica per le distribuzioni normalmente usate nei test
statistici, come la gaussiana, la 2 , la t -Student e la F -Fisher.
Prima di passare in rassegna le distribuzioni di più largo uso, illustriamo un altro metodo per
rappresentare in maniera concisa le proprietà statistiche di un insieme di dati .
Box Plot. In tale rappresentazione vengono riportati: la mediana, i percentili 0.25 e 0.75 (si
chiamano anche quartili per via che corrispondono a valori di probabilità multipli di 0.25) i valori
massimo e minimo dei dati, eventuali outliers.
17
Se la mediana non è equidistante dal primo e terzo quartile la distribuzione non è simmetrica.
Il Box Plot permette un rapido confronto tra le proprietà statistiche principali di più insiemi di dati
che possano riguardare uno stesso fenomeno.
La distribuzione gaussiana.
medio m e dalla varianza ; viene detta anche distribuzione normale ed indicata con il simbolo
2
N (m, )
1 ( x m) 2
N (m, ) exp
2 2 2
E’ una distribuzione simmetrica ( 3 0 ); in particolare tutti i momenti centrati dispari sono nulli,
mentre per quelli pari si ha
E ( X ) 1 3 5 (2k 1) ( 2 ) k , k 1,2,3,
2k
4
da cui si vede subito che E[ X ] 3.
18
La distribuzione 2 .
Consideriamo n v.a. i gaussiane standard N (0,1) indipendenti; la v.a. 2 è definita nel seguente
modo
n
2 i2
i 1
Il parametro n definisce il numero dei gradi di libertà della v.a., che assume valori in (0, ) . E’
generalmente una distribuzione non simmetrica, che tende a diventare simmetrica all’aumentare di
n . Essa ha andamento monotono decrescente per n 2 , mentre per n 2 è unimodale con il
massimo di ascissa ( n 2)
1
p ( y ) y n / 21e y / 2 , y0
2 (n / 2)
2
n/2
dove () è la funzione speciale gamma-euleriana. Essa possiede i momenti di qualunque ordine
E ( y k ) n(n 2) (n 2k 2)
I percentili vengono tabulati per numero crescente di gradi di libertà e si riferiscono ad eventi del
tipo ( )
2
La distribuzione di Student.
x
t
1 n 2
i
n i 1
n 1
2 ( n 1) / 2
1 2 t
pT (t ) 1 n , t0
n n
2
E’ importante notare che la distribuzione è indipendente dalla varianza delle componenti. Essa
2
ha valor medio nullo ed è simmetrica, quindi con tutti i momenti dispari nulli, con i momenti pari
(per n 2 ) dati da
1 3 (2k 1)n k
E (t )
2k
(n 2)(n 4) (n 2k )
Al solito i percentili vengono tabulati per numero crescente di gradi di libertà e si riferiscono ad
eventi del tipo ( t ) .
La distribuzione di Fisher.
Consideriamo m n v.a. gaussiane indipendenti 1 ,, m ,1 ,,n tutte N (0, ) . La v.a.
1 m 2
m
i
F ni 1
1
n j 1
2j
ha distribuzione che prende il nome di distribuzione di Fisher, che risulta indipendente dalla
varianza delle componenti. Assume valori in (0, ) con valor medio e varianza dati da
23
n
E(F ) , n2
n2
2n 2 (n m 2)
2
, n4
m(n 2) 2 (n 4)
F
24
Questo teorema è anche noto con il nome di “teorema del limite centrale”. Sia X k una
E X k k , E X k k2
2
e si consideri la seguente v.a.
n n n
Sn X k con S k , S2 k2
n n
k 1 k 1 k 1
lim S2n
n
E X k C , 2
standard N(0,1).
Il risultato di questo teorema è di notevole interesse in quanto stabilisce che, sotto le due
ipotesi fatte, la somma di un numero elevato di v.a. indipendenti tende a distribuirsi come una
gaussiana, indipendentemente dalla distribuzione delle singole componenti. Le due ipotesi in pratica
stabiliscono che la somma deve essere determinata da variabili indipendenti (prima ipotesi) nessuna
predominante rispetto alle altre (seconda ipotesi). In particolare la seconda ipotesi è verificata se le
v.a. componenti hanno tutte la stessa distribuzione.
Questo teorema assegna una importanza centrale della distribuzione gaussiana nell’insieme
delle leggi di distribuzione della variabili aleatorie e spiega il largo impiego della distribuzione
gaussiana come modello statistico nella maggior parte dei processi considerati nell’ambito
ingegneristico!
26
Si vuole decidere se sia più verosimile che il dato osservato derivi dalla distribuzione con
media m 1 ( e quindi saremmo sani) oppure dalla distribuzione con media m 2 (e quindi saremmo
infettati dal virus). L'ipotesi che m m 1 viene chiamata ipotesi nulla, ed indicata con H 0 , mentre
l'ipotesi che m m 2 viene chiamata ipotesi alternativa, ed indicata con H1 (ovviamente si poteva
27
scegliere anche nell'altro modo). Come facciamo a prendere tale decisione? Tutto dipende da dove
si localizza il dato osservato.
Nel caso in cui x m1 potremmo senza dubbio accettare l'ipotesi H 0 e ritenerci sani perché la
piccolo intorno di x . Allo stesso modo, nel caso in cui fosse x m 2 , con analogo ragionamento,
anche i valori x m 2 ). Tuttavia, comunque venga scelto , si può notare che le regole precedenti
significa che se l'ipotesi H 0 è vera, per cui la media della distribuzione è effettivamente m 1 , c'è
comunque una probabilità non trascurabile di poter ottenere dati sperimentali di ampiezza più
grande del valore , che quindi ci farebbero rifiutare l'ipotesi H 0 . Tale errore viene detto errore di
La probabilità di commettere questo errore è data dalla probabilità dell'evento x sotto l'ipotesi
H0
( x m 1)
2
1
P( x | H 0 ) e 2 dx
2
2
e viene detta livello di significatività del test. L'insieme dei valori x per cui si rifiuta l'ipotesi
nulla prende il nome di set critico del test.
Normalmente in un test di ipotesi si fissa il livello di significatività del test (usualmente 0.05, in
alcuni casi 0.01), quindi si determina il set critico. Dobbiamo quindi trovare il valore di per cui
risulti
29
( x m1 ) 2
1 2 2
e dx
2
Questo può essere ottenuto facilmente esprimendo la distanza m1 secondo la scala tipica di
x m1
P ( x m 1 0 ) P( 0 )
è proprio il percentile 2 della gaussiana (si ricordi che per le distribuzioni simmetriche
x m1
usualmente i percentili sono tabulati in corrispondenza agli eventi bilaterali 0 ).
In definitiva se la risposta x della nostra analisi per l'influenza supera il valore
m 1 2 dobbiamo concludere di essere infetti, e quindi seguiremo la profilassi per l'influenza,
sapendo che con una probabilità pari ad siamo invece non affetti dal virus e prenderemmo delle
medicine inutilmente.
Facciamo ora un passo ulteriore: che fine ha fatto l'ipotesi alternativa? Questa in effetti entra
in gioco quando x per cui accettiamo H 0 . Come si vede dalla figura seguente, la distribuzione
che corrisponde all'ipotesi alternativa assegna una probabilità finita all'evento x data da
( x m 2) 2
1 2 2
P ( x | H1 ) e dx
2
Per cui, se l'ipotesi H 0 è falsa per cui la media della distribuzione è effettivamente pari a m 2 , c'è
comunque una probabilità non nulla di osservare valori sperimentali x che siano minori di e per i
quali effettivamente accetteremmo H 0 . Tale errore prende il nome di errore di tipo 2: si accetta
( x m 2)
2
1
1 P( x | H1 ) e 2
2
dx
2
prende il nome di potenza del test, e corrisponde alla probabilità del set critico sotto l'ipotesi
alternativa H1 : P ( x | H 1) .
Si può dimostrare (lemma di Neyman-Pearson) che, assegnato il livello di significatività del test,
il set critico scelto x m 1 2 è quello a cui corrisponde la minima probabilità di commettere
l'errore di tipo 2, e quindi la massima potenza; per cui potremmo anche dire che il set critico scelto
fornisce il test più potente di livello .
Nell'esempio trattato abbiamo considerato il caso che m 2 fosse maggiore di m1 ; nella
situazione complementare in cui risulti m 2 minore di m1 , con ragionamenti analoghi a quelli fatti
si otterrebbe il seguente test più potente di livello
x m 1 m 1 2
31
x m1 x m1
ottenendo ancora il set critico più potente di livello .
32
I test di ipotesi del tipo di quello analizzato vengono detti test di ipotesi semplice: in questi la forma
della distribuzione è nota, il vettore dei suoi parametri è incognito ma può assumere valore solo
in un punto 0 per l'ipotesi nulla e un punto 1 per l'ipotesi alternativa. Nel caso in cui, per almeno
una delle due ipotesi, il vettore dei parametri della distribuzione potesse assumere valori in un
insieme di punti si parlerebbe di test di ipotesi composta. Altri tipi di test di ipotesi semplice e
composta saranno affrontati nel seguito del corso.
In molte situazioni, l'ipotesi da verificare riguarda proprio la forma della distribuzione nel
suo insieme. Quindi, da un insieme di dati, si vuole stabilire se la variabile aleatoria cui essi si
riferiscono abbia o meno una distribuzione p X ( x) assegnata. Nel caso che la forma ipotizzata della
distribuzione sia gaussiana N (m, 2 ) , esiste un semplice metodo grafico per testare questa ipotesi,
il Q-Q Plot (Quantile-Quantile Plot). Il grafico riporta in ascisse i quantili della N (m, 2 ) (
usualmente ad intervalli di 0.1 ) ed in ordinate gli stessi quantili ottenuti dalla distribuzione
campionaria dei dati.
Quanto più i quantili sono uguali tanto più i dati confermano l'ipotesi di gaussianità. In questo caso
il Q-Q plot si presenta come un insieme di punti abbastanza allineati lungo la bisettrice (vedi
figura). Nel caso in cui i punti non fossero adeguatamente allineati lungo la bisettrice si dovrebbe
rifiutare l'ipotesi che la loro distribuzione sia N (m, 2 ) . E' un metodo diciamo abbastanza euristico
in quanto si basa su un giudizio soggettivo, ma è di rapida applicazione e di immediata
interpretazione. Il Q-Q plot è presente in un qualsiasi applicativo, come ad es. Matlab.
33
Test 2 di Pearson.
In questo test l'ipotesi nulla H 0 consiste nello specificare la distribuzione p X ( x ) di una
variabile aleatoria X . Dividiamo l'insieme ammissibile dei valori della distribuzione allo studio in
r sottointervalli S1 ,, Sr disgiunti, non necessariamente tutti uguali. Questi sono eventi elementari
di cui si possono definire le probabilità secondo l'ipotesi H 0
p j p X ( x)dx, j 1,, r
Sj
r
risultando peraltro che p
j 1
j
1 . In congruenza con la decomposizione dell'insieme dei possibili
risultati effettuata, dividiamo ora il campione osservato in gruppi di dati ottenuti contando per ogni
sottointervallo S j il numero n j di risultati fra gli N possibili che appartengono ad esso. Possiamo
p X ( x) j
S1 Sj Sr X
riportando in corrispondenza degli S j i valori di frequenza realtiva j n j / N , che ovviamente
r
verificano
j 1
j
1 . Da un punto di vista intuitivo se l'ipotesi H 0 è vera, per N abbastanza
grande le frequenze relative dovrebbero non discostarsi molto dai valori di probabilità p j , calcolati
N j p j n Np j
r 2 r 2
D
2 j
j 1 pj j 1 Np j
dove vengono considerati gli scarti al quadrato tra i valori ipotizzati di probabilità e quelli
determinati dai dati sperimentali.
Il risultato notevole ottenuto da Pearson consiste nell'aver dimostrato che al crescere di N ,
2
la distribuzione di D tende ad una distribuzione limite che è indipendente da quella ipotizzata . In
effetti si dimostra che tale distribuzione limite corrisponde ad una 2 con r 1 gradi di libertà. Si
noti che questo non vuol dire che la v.a. diventi una 2 (in particolare non è vero che risulti essere
la somma dei quadrati di gaussiane standard indipendenti) ma solo che la probabilità degli eventi
2
legati alla D può essere valutata mediante la distribuzione limite, con approssimazione tanto
migliore quando maggiore è N .
A questo punto si può determinare quel valore percentile a cui corrisponde una
(area della coda della distribuzione a destra di ). Quindi se nel nostro esperimento, a fronte degli
N dati prelevati, con N sufficientemente grande, dovessimo ottenere un valore D 2 minore del
prescelto, dovremmo ritenere la distribuzione campionaria consistente con l'ipotesi , con un
E' ovvio che dovendo ottenere una informazione molto sofisticata quale l'andamento della
distribuzione, ci si debba aspettare valori di N molto grandi.
Valori grandi di N sono anche richiesti dal fatto che il test di Pearson non è un test esatto,
l'approssimazione alla distribuzione limite è tanto migliore quanto più N è grande. Il vantaggio di
questo test è che la statistica del test non dipende dall'ipotesi da testare, e che inoltre i parametri
dell'ipotesi da testare possono anche essere stimati dai dati; in questo caso la statistica limite sarà
una r2c dove c è pari al numero dei parametri da stimare aumentato di uno.
Per calcolare i valori corrispondenti della distribuzione cumulativa campionaria basta ordinare i dati
in valore crescente x1 x2 xN , si ottiene subito
i 1
Fc ( xi )
N
che corrisponde al numero dei dati che hanno valore minore di xi diviso il numero totale dei dati.
A questo punto la statistica del test è ottenuta nel modo seguente
D 2 max F ( xi ) Fc ( xi ), Fc ( xi 1 ) F ( xi )
1i N
i 1 i
max F ( xi ) , F ( xi )
1i N N N
I percentili che corrispondono alla statistica del test sono forniti da opportune tabelle. Ogni tabella è
costruita rispetto ad opportune variazioni di scala della statistica; quindi bisogna fare attenzione,
quando si usa una di queste tabelle, di scalare la D 2 come previsto dalla tabella. C'è da dire che
anche questo test si trova già implementato (tabelle incluse) in tutti gli applicativi di analisi dei dati
in commercio. Il test quindi va eseguito nel solito modo, si fissa il livello di significatività , dalle
Come il test del 2 , anche il K-S test è indipendente dall'ipotesi da testare. Esso è però un test
esatto in quanto la sua statistica non è una statistica limite, per cui normalmente è richiesto un
numero N di dati moderato (qualche decina).
Vediamo i difetti. Il test si può eseguire solo per distribuzioni continue e la distribuzione deve
essere completamente specificata, cioè i suoi parametri debbono essere noti e non stimati dai dati.
Quest'ultimo in effetti rappresenta un difetto sostanziale. Inoltre il test è maggiormente sensibile ai
valori centrali della distribuzione e meno a quelli sulle code.
Con le stesse notazioni introdotte nel K-S test, la statistica del test di Anderson-Darling è data da
N 2i 1
D2 N ln F ( xi ) ln 1 F ( xN 1i )
i 1 N
dove i dati sono ovviamente ordinati per valori crescenti. Il test è affidabile anche con un numero
di dati esiguo, intorno a 20.
27
2. Statistica induttiva
Abbiamo visto come per mezzo della statistica descrittiva sia possibile ottenere una
descrizione sintetica di dati sperimentali riguardanti un determinato processo; questa è finalizzata
alla rappresentazione dell’informazione utile agli scopi fissati per la definizione di opportune
strategie di intervento. Tuttavia, riprendendo l’esempio trattato, abbiamo visto come i parametri
descrittivi venivano dedotti dalla distribuzione campionaria o empirica, ovvero il loro valore era
legato strettamente ai valori dei dati ottenuti nel particolare esperimento eseguito; ripetendo
l’esperimento, cioè prelevando un altro campione di N 100 supporti di ferro, determinando sul
nuovo campione di dati la distribuzione campionaria i , non necessariamente rispetto agli stessi
sottoinsiemi Ei , ricalcolando i parametri statistici , 2 , d , c , otterremmo dei valori diversi da
quelli relativi al primo insieme di dati! Questa variabilità dipende in primo luogo dalla numerosità
del campione analizzato e poi dalla sua significatività, ovvero da quanto debba ritenersi
rappresentativo di tutta la produzione. E’ facile comprendere come un campione molto numeroso
consenta di definire un istogramma più preciso della distribuzione effettiva e quindi un calcolo più
attendibile delle varie medie; tuttavia se la nostra fabbrica di supporti in ferro si servisse da due
diversi fornitori di materie prime, ed il nostro campione di dati, ancorché numeroso, avesse
riguardato le unità prodotte con materie prime prese solo da uno dei due fornitori, avremmo
ottenuto una parziale descrizione delle caratteristiche del processo di produzione, non considerando
le caratteristiche dei prodotti ottenuti con lo stesso processo ma con materie prime di altra
provenienza.
La statistica induttiva si propone di fornire procedure sistematiche per la verifica della
significatività di un campione di dati in termini sia di scelta della numerosità che di
rappresentatività dell’intera popolazione! Possiamo grosso modo distinguere i seguenti argomenti
Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare
l’attendibilità della stima
Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere
con buona probabilità il valore di un parametro incognito
Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello
più verosimile sulla base dell’evidenza sperimentale
Analisi della varianza: per verificare ipotesi complesse
Programmazione degli esperimenti: tecniche di campionamento e di scelta della
numerosità del campione.
Consideriamo un insieme di N unità e sia X una v.a. che rappresenta i valori di una
determinata qualità degli elementi dell’insieme (il carico di rottura dei supporti in ferro, il
coefficiente del transistor, il rendimento annuo di un prodotto finanziario, la percentuale di
sostanze inquinanti in un campione di acqua, ecc.), che quindi assume i valori xi , i 1, , N , su
. Come è noto il valor medio e la varianza di X sono definiti nel seguente modo
28
1 N 1 N
2 xi
2
xi ,
N i 1 N i 1
ma, non potendo analizzare tutto l’insieme , risultano di valore incognito.
Estraiamo ora dall’insieme un campione casuale di n N elementi e valutiamo la media
campionaria su questo sottoinsieme di dati
1 n
ˆ n xj
n j 1
Ci chiediamo, quanto il valore ̂ n sia vicino o meno al valore medio di popolazione ; in altre
parole possiamo dire che ̂ n è una buona stima di ? Quali caratteristiche di ̂ n dovremmo
osservare per validare o meno questa affermazione?
Come al solito dovremo considerare le cose da un punto di vista statistico. Infatti la
grandezza ̂ n è di natura aleatoria in quanto scegliendo a caso da un qualunque altro campione
di dimensione n , otterremmo un valore ̂ n differente dal precedente, e così via per ogni scelta del
campione. La stima sarà buona se la distribuzione dei valori di ̂ n si localizza sul valore vero e
se i valori sono tutti addensati intorno a . In altre parole stiamo richiedendo che
cioè che la media E ˆ n della stima di valor medio coincida con il valore vero , e che la
varianza della stima sia piccola. Calcoliamo quindi queste grandezze
1 n 1 n 1
E ˆ n E x j E x j n
n j 1 n j 1 n
dove nel penultimo passaggio si è considerato che il generico valore x j deriva da una popolazione
con valore medio . Il primo requisito è rispettato; in questi casi si dice che la stima non è distorta,
vale a dire che mediamente non si commettono errori nel determinare il valore della grandezza
incognita . Se questo non fosse stato il caso, i.e. E ˆ n , avrebbe significato che il nostro
metodo di stima sarebbe stato affetto da un errore sistematico (uno strumento starato).
Il calcolo della varianza è un po’ più elaborato perché dipende da come è estratto il
campione; se gli elementi del campione sono scelti in maniera indipendente uno dall’altro si ha
1 n
2
E ˆ n E x j
2 2
ˆ n n j 1
29
1 n
2
1 n
2
1 n n
2
ˆ n E x j E 2 ( x j ) E 2 xi x j
n j 1 n j 1 n i 1 j 1
2
2 E x j E xi x j 2 n
1 n 2
n n
1
2
n j 1 i 1 j 1 n n
j i
1 n
2
1 n
2
1 n n
2
ˆ n E x j E 2 ( x j ) E 2 xi x j
n j 1 n j 1 n i 1 j 1
2 2 n
2 E x j E xi x j
1 n 2
n n
n j 1 i 1 j 1 n n 2 2
j i
2 2 N 2 N 1 2
0
N N 2 2 N N N 1
da cui
2n 1 2 n 1 2
2
1
n N 1 N 1 n
ˆ n
n
In entrambi i casi si vede come aumentando n si ottenga una diminuzione di 2ˆ n e quindi un
aumento della precisione della stima!
Tuttavia, se dal problema ci fosse richiesto di determinare il minimo valore di n per
assicurare che la precisione della stima non scenda sotto un minimo assegnato, per cui la varianza
30
della stima 2ˆ n non deve superare un limite assegnato, ci troveremmo nella necessità di dover
stimare anche la varianza 2 della popolazione. Analogamente a quanto è stato fatto per il valor
medio, potremmo pensare di stimare la varianza campionaria con la seguente espressione
x j ˆ n
1 n 2
sn2
n j 1
ma in questo caso si può vedere subito che tale stima sarebbe distorta, cioè presenterebbe un errore
sistematico; infatti, nel caso in cui gli elementi del campione siano scelti in modo indipendente, si
ottiene
1 n 2 1 n 2 1 n 2
E[ sn2 ] E x j ˆ n E x j ˆ n E ( x j ) ( ˆ n )
n j 1 n j 1 n j 1
1 n
E x j ˆ n 2 x j ˆ n
2 n 2 n
n j 1 j 1 j 1
1 2 1 2 n 1 2
n 2 n 2ˆ n n 2 n 2 n 2 2 2
n n n n n
mentre nel caso che gli elementi non siano scelti in modo indipendente, omettendo i calcoli, si
ottiene
n 1 N
E[ sn2 ] 2 2
n N 1
Ma la situazione non è così drammatica, infatti basta modificare l’espressione della stima in
modo opportuno per togliere l’errore sistematico. Nel caso di campione indipendente si scelga come
stima campionaria della varianza la seguente espressione
x j ˆ n ,
n 2 1 n 2
ˆ n2,1 sn E ˆ n2,1 2
n 1 n 1 j 1
n N 1 2 N 1 1 n 2
ˆ n2,2
n 1 N
sn
N n 1 j 1
x j
ˆ n ,
E ˆ n2,2 2
31
In entrambi i casi siamo in grado di ottenere quindi una stima centrata della varianza.
Analizziamo ora la varianza della stima. Per il caso di campione indipendente si ha (omettiamo la
dimostrazione)
4 E X n 3
4
E ˆ n,1 E[ˆ n,1 ]
2
2 2 2
ˆ n2,1 n 4 n 1
Ora sappiamo che un valore di riferimento per il rapporto E[( X )4 ]/ 4 è 3 ( tale valore occorre
se la distribuzione della v.a. X è gaussiana); per tale valore si ha
2 4
2
ˆ n2,1
n 1
E ˆ n2,1 E[ˆ n2,1 ] 2
2
2
n 1 2
E[ˆ n2,1 ] 2 n 1
Per una distribuzione che si vuole piuttosto addensata intorno al valor medio si può
richiedere che il coefficiente di variazione non superi il 20%; per cui
2
0.2 n 51
n 1
Se poi la Curtosi è compresa tra 0 e 2, come nei casi di asimmetria, si ricava n 100 . Se
invece la Curtosi è compresa tra 2 e 20, come nei casi di distribuzione con probabilità non
trascurabile di presentare valori eccezionali (code grasse), si ottiene n 500 .
Se la Curtosi è inferiore a 0 occorre sempre che n 50 .
Le stesse conclusioni si ottengono nel caso di non indipendenza del campione.
Riassumendo possiamo dire che, nel caso di campione indipendente, la stima centrata
ˆ 2ˆ n della varianza 2ˆ n di ˆ n è data da
2
2
ˆ n
n
ˆ n2,1
1 n s2
ˆ 2ˆ n sn2 n
n n n 1 n 1
mentre nel caso di campione con elementi non indipendenti si ha
32
2 N n
2
ˆ n
n N 1
ˆ n2,2 N n
1 n N 1 N n sn2 n
ˆ 2ˆ n sn2 1
n N 1 n n 1 N N 1 n 1 N
sn2
ˆ 2ˆ n 0.00183
n 1
mentre nel caso che gli elementi del campione non siano scelti tutti indipendentemente uno
dall’altro si ha
sn2 n
ˆ 2ˆ n 1 0.00174
n 1 N
Nell’ipotesi che la distribuzione dei valori del diametro delle barrette possa ritenersi
gaussiana nel lotto, dato che n 50 , la stima di ˆ n è da ritenersi accurata, nel senso che il
coefficiente di variazione della stima della sua varianza ˆ ˆ è non superiore al 20%.
2
n
0.09 0.09
0.0004 n 1 226
n 1 0.0004
nell’altro caso.
Il prelievo del campione fatto in modo che tutti gli elementi siano scelti in modo
indipendente uno dall’altro significa in sostanza che il fatto di selezionare un elemento dalla
popolazione per metterlo nel campione, non deve alterare la composizione statistica della
popolazione. Questo può essere ottenuto sostanzialmente in due modi: se la dimensione della
popolazione non è molto grande rispetto a quella del campione da prelevare si effettua un
campionamento con reinserzione; nel caso contrario se N n si può ritenere che il prelievo del
campione alteri la composizione statistica della popolazione in modo trascurabile. Naturalmente la
reinserzione può essere praticata se l’analisi del campione non modifica in alcun modo i suoi
elementi: nell’esempio della misura del diametro delle barrette questo si verifica, ma nell’esempio
della misura del carico di rottura, l’elemento analizzato verrebbe distrutto e quindi diventerebbe non
reinseribile! In questo caso il campionamento sarebbe necessariamente senza reinserzione, e la
indipendenza del campione dipenderebbe solo, come detto, dal confronto tra la numerosità della
popolazione e quella del campione stesso!
Riassumiamo con una tabella sinottica i risultati della stima puntuale di valore medio e
varianza di una popolazione ottenuta da un campione dei suoi elementi
Valori di
Stime campionarie
popolazione
Campione indipendente Campione non indipendente
1 n 1 n
Valor medio ˆ n xj ˆ n xj
n j 1 n j 1
n N 1 2 N 1 1 n 2
n 2 1 n
x j ˆ n ˆ n ,2
2
Varianza 2 ˆ n2,1 sn 2
sn x
ˆ
n 1 n 1 j 1 n 1 N N n 1 j 1
j n
Varianza ˆ 2
ˆ 2
1 n s2 ˆ N n sn n
2 2
n
ˆ 2ˆ n,1 sn2 n ˆ 2ˆ n,2 1
della stima ˆ n n
n n n 1 n 1 n
n N 1 n 1 N
4 E X
4
n 3
sn x j mn ;
1 n 2
2
ˆ 2
2
(varianza di ˆ n ,1 , valore di popolazione)
2
n j 1 n ,1 n 4
n 1
34
Quindi abbiamo visto come la media aritmetica ˆ n costituisca una buona stima del valore
medio di una v.a. X con varianza 2 , di cui si sono considerati n determinazioni xi in1
indipendenti; si è supposto quindi che il campione di dati sperimentali sia stato prelevato da una
popolazione molto grande, ovvero sia stato prelevato con reinserzione da una popolazione finita. In
tale caso si ha
E[ ˆ n ] , E[( ˆ n )2 ] ˆ n2,1 / n .
Come si vede, la stima di valor medio è una stima accurata in quanto ha distorsione nulla, e la sua
precisione aumenta all'aumentare della dimensione n del campione casuale analizzato, in quanto la
varianza della stima è inversamente proporzionale a n .
In definitiva, il parametro incognito viene valutato mediante una sua stima puntuale ˆ n che ha
una variabilità misurata da ˆ n2,1 / n . Questo significa che se si analizzassero più campioni di
dimensione n , si otterrebbero tanti valori differenti della stima puntuale ˆ n , ma che si localizzano
intorno al valore incognito , potendo peraltro presentare errori ˆ n positivi e negativi che
hanno mediamente un range dell'ordine di ˆ n,1 / n .
Da quanto detto la stima puntuale del valor medio per essere apprezzabile deve essere
accompagnata anche dal valore della sua dispersione, cioè dalla misura della sua variabilità.
Ci si chiede quindi se non sia possibile rappresentare la stima con un unico elemento che faccia
comparire in modo esplicito la variabilità della stima. In altre parole appare di più facile
interpretazione poter fornire un intervallo I,n di possibili valori tale che si possa ritenere con una
certa confidenza che il valore incognito appartenga a tale intervallo
P I ,n 1 %
In questo caso non si fornirebbe un unico valore ˆ n per , attendibile a meno di un errore medio
pari a ˆ n,1 / n , ma un intervallo I,n di valori attendibili per con una confidenza dell' 1 % .
Vediamo come fare.
Consideriamo la v.a. standardizzata
ˆ n
n
ˆ n,1 / n
che ha quindi valor medio nullo e varianza pari a 1. Se si conoscesse la distribuzione di tale
variabile aleatoria, potremmo risolvere il seguente problema: assegnato il valore % trovare il
valore per cui risulti
P n 1 %
35
Ora, dal teorema del limite centrale sappiamo che per n la variabile standardizzata n tende
in distribuzione ad una gaussiana standard N (0,1) . Questo implica che, se n è abbastanza grande ,
la probabilità dell'evento n possa essere calcolata usando la distribuzione limite
et /2
2
P n dt
2
P P %
che fa riferimento all'evento complementare, ed è esattamente l'evento che viene considerato sulle
tabelle dei percentili.
A questo punto sappiamo che con una confidenza del 1 % il valore n ottenuto dai dati
sperimentali sarà compreso nel seguente intervallo
n
cioè
ˆ n
ˆ n,1 / n
ˆ n,1 ˆ n,1
ˆ n ˆ n
n n
n 2
e quindi, ricordando che ˆ n2,1 sn , si ha
n 1
sn sn
ˆ n ˆ n
n 1 n 1
sn sn sn
I ,n ˆ n ˆ n 2
n 1 n 1 n 1
per cui, all'aumentare della dimensione del campione analizzato, a parità di confidenza,
36
l'intervallo I ,n diventa più stretto, dando luogo ad una valutazione più precisa dei valori attendibili
del parametro incognito .
Ovviamente nel caso che il campione fosse stato non casuale, con ragionamenti del tutto
analoghi, avremmo ottenuto I ,n pari a
sn n sn n
ˆ n 1 ˆ n 1
n 1 N n 1 N
di lunghezza pari a
sn n
I ,n 2 1
n 1 N
Nel caso in cui i dati a disposizione non soddisfacessero nessuna delle condizioni
precedenti, ad esempio n 30 sempre per un campione casuale, allora si può avere la distribuzione
della v.a. standardizzata n solo nel caso in cui si possa validare un'ipotesi di gaussianità dei dati.
In tal caso infatti la variabile standardizzata
ˆ nn
n
sn / n 1
ha distribuzione t-student con n 1 gradi di libertà, per cui il valore per cui, fissato % , si ha
P n 1 % oppure P %
è dato dal percentile t della distribuzione t-student con n 1 gradi di libertà (ottenibile
dall'opportuna tabella dei percentili) , ottenendo per l’intervallo di confidenza
sn sn
ˆ n t ˆ n t
n 1 n 1
sn 2,16 Kg / cm2 . Dalla tabella della N(0,1) si ricava che con 0.05 sia ha 1.96 , per cui
il carico di rottura medio si trova nell’intervallo
2.16 2.16
1115 1.96 , 1115 1.96 1114.57, 1115.42 kg / cm
2
100 1 100 1
con una confidenza di 0.95. Se aumentassimo il campione analizzato a 300 unità si otterrebbe un
intervallo di confidenza dello 0.95 pari a
2.16 2.16
1115 1.96 , 1115 1.96 1114.8, 1115.2 kg / cm
2
300 1 300 1
quindi più ristretto rispetto al precedente, costituendo quindi un intervallo di valori più preciso per il
carico di rottura medio .
La stessa officina vuole determinare il valore medio dello spessore di un lotto di lamine; tale
grandezza risulta avere distribuzione gaussiana con media e varianza 2 incognite. Si preleva
un campione di 14 barrette e si determina n 52.52 mm e sn 3.37 mm . Siccome n 30 ,
stavolta dobbiamo usare la distribuzione t-student per determinare l’intervallo di confidenza per lo
spessore medio . Dalla tabella per 0.05 si ottiene t 2.160 per 13 gradi di libertà, per cui si
ha
3.37 3.37
52.52 2.16 , 52.52 2.16 50.5011,54.5389
14 1 14 1
Controllo di qualità.
L’intervallo di confidenza viene utilizzato nel controllo statistico della qualità di un processo
di produzione. In condizioni nominali le unità prodotte presentino, per quanto concerne un certo
attributo, una distribuzione gaussiana con un valor medio ed una varianza 2 , noti perché
determinati in modo preliminare (cioè determinati con un esperimento dedicato, con un campione di
dati differente da quelli attualmente in esame) usando i metodi descritti precedetemente. Per
controllare che il processo mantenga la qualità nel tempo, vengono prelevati ad intervalli regolari
dei campioni di dimensione n e su questi si calcola la media campionaria ˆ n ; dato che la
distribuzione si suppone gaussiana, n può essere scelto anche piccolo, ad esempio 5 o 10, e la
variabile normalizzata
ˆ n
n
/ n
P ˆ n 0.95
n
ˆ n
n n
ˆ n
n n
occorre con probabilità del 95%. La qualità del processo di produzione è quindi da ritenersi idonea
se ˆ n si mantiene nell’intervallo / n , / n
ˆ n
/ n
/ n
tempo
39
Qualora ˆ n dovesse uscire dai limiti prefissati si dovrebbe intervenire subito per individuare le
cause che hanno determinato questo scostamento significativo della qualità della produzione dallo
standard (utensile logorato, inquinamento dei reagenti, ecc.).
Test di confronto.
In molti casi pratici si deve poter confrontare la stima di campionaria di una statistica ( media,
varianza, frequenza relativa) con valori considerati come noti, evidentemente acquisiti da indagini
precedenti. Esaminiamo ad esempio il seguente caso.
Una compagnia di televisione via cavo asserisce che il 60% degli abitanti della zona di
esercizio possiede la televisione via cavo, mentre una compagnia di televisione satellitare crede che
il precedente valore sia troppo grande, dopo aver effettuato un rilevamento per cui 81 abitazioni
avevano la televisione via cavo e 69 ne erano sprovviste. La compagnia di televisione via cavo
afferma che tale differenza è solo dovuta al caso. A quale delle due compagnie dareste ragione, con
una confidenza del 95%?
La compagnia di televisione via cavo sostiene che in media la proporzione p delle persone
nella popolazione di riferimento che hanno la tv via cavo è pari a 0.6, potendo la proporzione
effettiva variare entro certi limiti. Il valore di questa proporzione, risultante dall'esame del campione
di abitazioni effettuato dalla compagnia di tv satellitare, è di 81/(81+69)=0.54. C'è quindi uno
scostamento significativo del valore stimato della proporzione pˆ 0.54 dal valore di riferimento
ipotizzato p 0.6 . La compagnia di tv via cavo sostiene che tale scostamento rientra nella
variabilità naturale insita nella stima campionaria di p ; per cui l'ipotesi nulla è che il valore di
riferimento della proporzione di abitazioni con tv via cavo sia del 60%
H 0 : p 0.6
H1 : p 0.6
Per validare o meno questa ipotesi, basta appunto misurare la variabilità della stima della
proporzione 2p e costruire un set critico con significatività del 5%
p p 2 p
con il percentile del 10% in modo che la singola coda misuri 5%. La regola di rifiuto dell'ipotesi
nulla è unilaterale perché pˆ p e la compagnia di tv satellitare ritiene che appunto che p 0.6
sia troppo grande.
La misura delle proporzioni segue la distribuzione binomiale: in una popolazione in cui un
dato evento occorre con probabilità p0 , la probabilità con cui si avranno k risultati favorevoli
all'evento su un campione di N unità (caso delle prove ripetute di Bernoulli) è pari a
N N!
P ( X k ) p0k (1 p0 ) N k p0k (1 p0 ) N k
k ( N k )!k !
La variabile aleatoria X data dal "n° di successi su N prove indipendenti" viene detta binomiale
ed ha valor medio e varianza pari a
40
X N p0 , X2 N p0 (1 p0 )
Tale distribuzione è simmetrica per qualunque N se p0 0.5 , mentre tende ad essere simmetrica
per qualunque p0 quanto più N è grande. Dalla distribuzione di X si ottiene subito la distribuzione
della proporzione p X del numero di successi su N prove ripetute: essa è ancora una
N
binomiale, ma con media e varianza pari a
2 p (1 p0 )
p X p0 , 2p X2 0
N N N
p p p p0
: N 0,1
p p0 (1 p0 )
N
cioè, la variabile aleatoria standardizzata ha distribuzione limite pari alla gaussiana standard. Questo
risultato al solito è fondamentale per dedurre i percentili per gli intervalli di confidenza che
riguardano la variabile aleatoria p . Nel caso in esame infatti abbiamo
p0 (1 p0 )
p p0 0.6, p 0.04, Np0 (1 p0 ) 36 10
N
per cui, dato che pˆ 0.54 , dobbiamo concludere che la compagnia di tv via cavo aveva ragione,
con un rischio del 5% di prendere la decisione sbagliata.
Nel prossimo caso le proporzioni da confrontare sono estratte da due campioni differenti.
La malattia di Lyme o Borreliosi è una infezione batterica che colpisce le articolazioni, il sistema
nervoso, gli organi interni e la pelle dei gatti. Il contagio avviene per via delle zecche. Vogliamo
valutare l'efficacia di un nuovo antibiotico X nella terapia contro la Borrelliosi, confrontandola
con quella dell' amoxicillina. A questo scopo, analizziamo i test clinici su una popolazione di gatti
affetti da Borrelliosi in cura presso alcuni ambulatori veterinari in un trimestre. I dati raccolti sono
riportati in tabella
In particolare, si noti che su un totale di 145 gatti, 70 sono stati sottoposti a trattamento con il nuovo
antibiotico X e di questi l'80% sono guariti ( 56 su 70). Per i restanti 75 gatti, trattati con
amoxicillina, si è avuta una percentuale di guarigione pari al 69.33% (52 su 75). Sembrerebbe che il
nuovo farmaco sia più efficace. Tuttavia, bisogna assicurarsi che la differenza tra le percentuali dei
guariti nei due gruppi sia significativa e non dovuta al caso.
Nel gruppo di gatti trattati con X si ha quindi una proporzione pˆ1 0.8 di soggetti guariti su un
campione di n1 70 unità, prelevato da una popolazione in cui la proporzione dei guariti è un
p (1 p1 )
valore p1 . Per quanto visto precedentemente sia ha che E[ pˆ1 ] p1 e 2pˆ1 1 .
n1
Analogamente per il gruppo di n2 75 unità trattato con amoxicillina si osserva una proporzione di
p (1 p2 )
soggetti guariti pˆ 2 0.7 , con E[ pˆ 2 ] p2 e 2pˆ 2 2 . Ora come statistica del test possiamo
n2
scegliere la differenza delle proporzioni p pˆ1 pˆ 2 , che avrà valor medio pari a E p p1 p2 ,
e varianza ˆ 2 p 2p1 2p2 dato che i due gruppi di dati sono indipendenti. Dobbiamo quindi testare
le seguenti ipotesi
H 0 : E p p1 p2 0
H1 : E p 0
L'ipotesi nulla H 0 si riferisce al caso in cui i due trattamenti sono equivalenti e la differenza tra le
proporzioni osservate è del tutto casuale. La statistica del test, se è vera H 0 è
p E p p p
2pˆ1 2pˆ 2 2pˆ1 2pˆ 2 1 1
p0 (1 p0 )
n1 n2
p
1 1
p0 (1 p0 )
n1 n2
con percentile dell' % di N (0,1) . Nel nostro caso, volendo effettuare un test con significatività
del 5%, otterremmo
42
0.80 0.6933
1.3802 1.96
1 1
0.7448(1 0.7448)
70 75
per cui dovremmo accettare l'ipotesi H 0 e ritenere che il nuovo farmaco X abbia avuto un effetto
non significativamente differente da quello ottenuto con l' amoxicillina. In effetti, volendo testare se
sia conveniente usare il nuovo farmaco, avremmo fatto meglio ad eseguire un test unilaterale,
impostando l'ipotesi alternativa sul fatto che ci si aspetta che il nuovo farmaco abbia una
percentuale di guariti superiore rispetto all'amoxicillina, i.e. H1 : E p 0 .
0.0345 -0.0054 0.0244 0.0402 0.0625 0.0400 -0.0196 -0.0281 0.0006 0.0695
Ora se il trattamento non ha avuto effetto, vuol dire che mediamente le differenze dei valori
dell'elasticità cutanea è zero; mentre si avranno effetti significativi se la media delle differenze è
significativamente differente da zero. Per cui, se la nostra ipotesi nulla corrisponde all'assenza di
effetto significativo del farmaco, possiamo scrivere
H 0 : E ˆ d 0
H1 : E ˆ d 0
1
http://www.biotivia.cc/attachments/down/Celle%20-%20CLINICAL%20TEST.pdf
43
in quanto per l'ipotesi alternativa dobbiamo considerare che l'effetto del cosmetico deve produrre un
aumento dell'elasticità cutanea. Possiamo quindi disporre un test unilaterale di ipotesi semplice con
un livello di significatività del 5% ; il set critico avrà quindi la seguente forma
ˆ d
ˆ d E ˆ d 2 ˆ ˆ d E ˆ d 2
n
Facciamo ora l'ipotesi di gaussianità dei dati (da verificare eventualmente con un opportuno test); in
questo modo potremo scegliere il percentile 2 come il percentile del 10% di una t-Student a 9
gradi di libertà ottenendo il seguente set critico
0.0336
ˆ d 0 1.833 0.0195
10
Dato che ˆ d 0.0219 è maggiore di 0.0195, dobbiamo rifiutare l'ipotesi nulla e ritenere, con una
confidenza del 95%, che il cosmetico abbia avuto effetto.
Nel caso esaminato, la variabilità dei dati era legata alla presenza di soggetti differenti in uno stesso
gruppo. In altre situazioni i dati variano anche per il fatto che i dati si riferiscono a gruppi differenti
di soggetti. Il caso che segue chiarisce questo aspetto. Per semplicità di notazioni, le medie
calcolate su due gruppi di n1 e n2 dati, saranno indicate con ̂1 e ̂2 anziché ˆ n1 , ˆ n 2 .
Un’azienda produce disinfettante industriale concentrato, in confezioni per le quali dichiara che è
possibile ottenere mediamente 150 litri di disinfettante con una varianza pari a 36 litri2. La
produzione avviene in due stabilimenti separati. Un primo rivenditore analizza un campione casuale
di 225 confezioni, prelevato dal primo stabilimento, e ottiene una media ̂1 di 148 litri di
disinfettante; un secondo rivenditore analizza un campione casuale di144 confezioni, prelevato
dall'altro stabilimento, e ottiene una quantità media ̂2 di disinfettante pari a 151 litri. La differenza
tra queste rilevazioni è significativa oppure è da ritenersi dovuta alla naturale variabilità del
prodotto?
Come sappiamo, la stima di valor medio è centrata, per cui risulta che E[ ˆ1 ] con varianza
2 36 2 36
2ˆ 1 0.16 e E[ ˆ 2 ] con varianza 2ˆ 2 0.25 . Ora possiamo scegliere
n 225 n 144
come statistica del test la differenza tra i valori medi rilevati sui due campioni indipendenti
ˆ d ˆ 2 ˆ1 , per la quale possiamo testare le ipotesi
H 0 : E ˆ d 0
H1 : E ˆ d 0
44
L'ipotesi nulla corrisponde al caso in cui la differenza osservata sia da attribuire al caso, mentre
l'ipotesi alternativa corrisponde al fatto che i due stabilimenti hanno una differenza sistematica nella
produzione del disinfettante. Se è vera H 0 abbiamo che E[ ˆ d ] 0 mentre, indipendentemente da
H 0 , H1 risulta 2d 2ˆ 1 2ˆ 2 0.16 0.25 0.41 . La scelta dell'ipotesi alternativa determina un
set critico bilaterale
ˆ d E[ ˆ d ] ˆ d
d 2 1 2 2
Se possiamo validare un'ipotesi di gaussianità dei dati, possiamo scegliere =1.96 corrispondente
al percentile del 5% di una gaussiana standard. In questo caso si otterrebbe
ˆ d 151 148 3
4.685 1.96
2 1 2 2 0.41 0.41
Si dovrebbe quindi accettare l'ipotesi alternativa e ritenere che ci siano cause sistematiche nel
processo di produzione dei due stabilimenti che determina una differenza significativa nella qualità
del prodotto fornito.
Il più delle volte la varianza dei dati, differentemente dal caso appena esaminato, è incognita.
Questo accade ad esempio nel problema che segue 2.
2
Tratto da: M. Muraro et al. Large Animal Review 2008; 14: 267-272 267.
45
Siamo in presenza ancora di un caso in cui i dati appartengono a due gruppi differenti di soggetti
per cui essi non possono considerarsi appaiati. Si devono confrontare quindi due medie per capire se
la loro differenza sia significativa o dovuta al caso. La varianza dei dati è incognita, ma le varianze
del peso dei bovini sono state stimate dai dati dei due campioni di 89 e 81 unità. Nell'ipotesi (da
verificare con un test ovviamente!) che la varianza dei dati sia costante, e che la differenza tra ˆ n2 ,1 1
e ˆ n22 ,1 sia del tutto casuale, la varianza di ˆ d ˆ 2 ˆ1 è data dalla seguente espressione
n1sn21 n2 sn22 1 1 1 n1 n1
x1,i ˆ1 , sn22
1
x2,i ˆ 2
2 2
d
2
,
n1 n2 2 n1 n2
sn21
n1 i 1 n2 i 1
che viene detta pooled variance. In questo caso, nell'ipotesi di gaussianità dei dati, la statistica del
test di confronto tra medie
H 0 : E ˆ d 0
H1 : E ˆ d 0
è data da
ˆ d
n1sn21 n2 sn22 1 1
n1 n2 2 n1 n2
e segue una distribuzione t-Student a n1 n2 2 gradi di libertà. Per cui il set critico unilaterale di
significatività % sarà dato da
ˆ d
tn1 n2 2,2
n1sn21 n2 sn22
1 1
n1 n2 2 n1 n2
7.9
1.2174 t168,0.10 1.645
6.4891
per cui si accetta l'ipotesi nulla e si conclude che il trattamento con Tulatromicina non ha avuto un
effetto significativamente differente dal trattamento con Tilmicosina.
Nel caso in cui si debba rifiutare l'ipotesi che la varianza dell'insieme dei dati del primo e del
secondo gruppo sia costante, allora si può usare la seguente statistica
46
ˆ d
t gdl ,
ˆ n21 ,1 ˆ n22,1
n1 n2
che seguirà approssimativamente una distribuzione t-Student, nell'ipotesi di gaussianità dei dati, con
gradi di libertà ottenuti dal termine di correzione di Welch- Satterwhaite
2
ˆ n2 ,1 ˆ n2 ,1
1 2
n1 n2
gdl
2 2
ˆ n21 ,1 ˆ n22 ,1
n1 n2
n1 1 n2 1
ovviamente si prende come numero di gradi di libertà il valore intero della precedente espressione.
I test di confronto tra proporzioni e tra medie appena visti, possono applicarsi anche al caso in cui
si debbano confrontare le varianze.
Si consideri a esempio un insieme di dati per cui si ipotizzi una distribuzione gaussiana con media
e varianza 2 . Si estragga un campione casuale di n unità è si verifichi l'ipotesi
H 0 : n2,1 2
H1 : n2,1 2
n
( xi ˆ n )2 (n 1) n2,1 nsn2
i 1
2 2 2
ha distribuzione n21 con n 1 gradi di libertà. Il set critico per il test posto sarà quindi
(n 1) n2,1
n21,
2
dove n21, è il percentile dell' % . Nel caso in cui l'ipotesi alternativa fosse stata H1 : n2,1 2 ,
allora il set critico con significatività dell' % sarebbe stato
(n 1) n2,1
n21,1
2
47
mentre se l'ipotesi alternativa fosse stata H1 : n2,1 2 , allora avremmo avuto il seguente set critico
di livello %
(n 1) n,1
2
(n 1) n,1
2
2
n 1,1 /2 2
n 1, /2
2 2
n2
( x j ˆ n2 )2 (n2 1) n22 ,1
j 1
22 22
è distribuita come una n22 1 . Per cui, se l'ipotesi nulla è vera, la variabile
n21,1
F1, 2
n22 ,1
ha una distribuzione Fisher con 1 n1 1, 2 n2 1 gradi di libertà. Per cui il set critico di livello
% per cui si rifiuta l'ipotesi nulla è
F1, 2 F1, 2 ,
Se l'ipotesi alternativa fosse stata H1 : 12 22 , avremmo scelto come statistica del test il reciproco
della precedente F ' 2 ,1 1/ F1 , 2 ed il set critico sarebbe stato
F ' 2 ,1 F 2 ,1 ,
Infine, se l'ipotesi alternativa fosse stata H1 : 12 22 avremmo ottenuto il seguente set critico
48
F ' ,
2 1
F 2 ,1 , /2 F , 1 2
F1 , 2 , /2
In molti casi pratici l’insieme di dati in esame è costituito da più di due gruppi per i quali è
necessario sapere se hanno tutti la stessa varianza, ovvero almeno due gruppi hanno varianza l’uno
differente dall’altro. Nel primo caso si dice che l’insieme di dati è omoschedastico, nell’altro caso
che è eteroschedastico. Per decidere se un insieme di dati sia omoschedastico si ricorre al solito a
dei test satistici. Come dati di partenza si consideri un insieme di N dati costituito da k gruppi
costituiti da n1 , n2 , , nk unità rispettivamente con medie 1 , 2 , , k e con varianze
12 , 22 , , k2 .
Test di Bartlett. Nel caso in cui l’insieme di dati segua una distribuzione gaussiana si può usare
questo test che prevede le seguenti ipotesi composte
H 0 : 12 22 k2
H 1 : i2 2j per almeno una coppia (i, j )
k
( N k ) ln ˆ 2p (ni 1) ln ˆ n2i ,1
i 1
T
1 k 1 1
1
3(k 1) i 1 ni 1 N k
dove le ˆ n2i ,1 sono le stime corrette delle varianze dei singoli gruppi, mentre
1 k
ˆ 2p ni 1ˆ n2i ,1
N k i 1
è la sample pooled variance, che abbiamo già incontrato nel caso di due soli gruppi. Le due
espressioni differiscono perché nel caso del confronto tra medie, la pooled variance si riferisce
appunto alla varianza della stima di valor medio. La variabile T segue approssimativamente una
distribuzione k21 , per cui il set critico di livello % è dato da
T k21,
Se questo si verifica, l’ipotesi nulla viene rifiutata e l’insieme di dati si ritiene eteroschedastico.
Test di Levene. Questo test è indicato nel caso in cui l’insieme di dati non segua una distribuzione
gaussiana. Sia xi , j il j-esimo dato dell' i-esimo gruppo, e si definiscano le seguenti grandezze
49
ni
1
zi , j xi , j ˆ i , ˆ i
ni
xij
j 1
ni
1
zi
ni
zi, j , media delle zi, j nell ' i esimo gruppo
j 1
1 k
z
N
ni zi , media di tutte le zi, j
i 1
k
ni zi z
2
N k i 1
W
k 1 nj
zi, j zi
k 2
i 1 j 1
W Fk 1,N k ,
per cui se la grandezza W è più grande del percentile dell’ % della Fisher Fk 1, N k , l’ipotesi nulla
va rifiutata, e si deve ritenere l’insieme di dati eteroschedastico.
Prodotti Finanziari
1 2 3 4
61 100 66 86
80 74 52 35
N° in migliaia di 98 85 73 52
Scambi 64 77 69 70
giornalieri 78 84 80 79
73 95 73 43
57 96 62 60
95 62 50 65
78 80 71 58
86 87 84 82
Media 77 84 68 63
Il numero di rilevazioni per ciascuna classe non deve necessariamente coincidere, e le singole
determinazioni possono considerarsi come estrazioni casuali indipendenti di una v.a. X . In
generale quindi avremo ni , i 1, , k , rilevazioni sperimentali; indichiamo con xij la j-esima
rilevazione per la classe i-esima ( i 1, , k ; j 1, , ni ).
Come si vede le medie interclasse ˆ i sono diverse tra loro e diverse dalla media di
popolazione
k ni k ni
1 1
n
xij , n ni , ˆi
ni
xij
i 1 j 1 i 1 j 1
xij ai yij
dove ai modella l’effetto della classe i-esima e yij è una fluttuazione statistica che modelliamo
come una gaussiana con media nulla e varianza 2 costante per tutte le classi; risulta che xij è
modellata come una gaussiana con media i ai e varianza 2 .
A questo punto si vuole testare l’ipotesi composta
H 0 : ai 0 per ogni i
H1 : ai 0 per almeno un i
51
che con semplici passaggi può decomporsi nelle due varianze parziali V e W : la prima rappresenta
la variabilità intraclasse, cioè la variabilità dei dati all’interno di ciascun gruppo di ni termini che è
la stessa indipendentemente dal fatto che l’ipotesi H 0 sia vera o falsa; la seconda fornisce la
variabilità interclasse e, se l’ipotesi H 0 è vera, risulta essere una fluttuazione casuale, altrimenti
porta in conto la variabilità dovuta alle differenze tra le medie dei vari sottogruppi.
Ora se l’ipotesi H 0 è vera, la variabile T / 2 risulta essere distribuita come una 2 con
n 1 gradi di libertà. In base al teorema di Cochran si può quindi dimostrare che V / 2 è distribuita
come una 2 con n k gradi di libertà, mentre W / 2 ha distribuzione 2 con k 1 gradi di
libertà; inoltre V e W sono tra loro indipendenti. Quindi il rapporto
W /(k 1)
F
V /(n k )
ha distribuzione di Fisher con 1 k 1, 2 n k gradi di libertà. Se W è troppo grande
dovremmo rifiutare H 0 ; fissando un livello di significatività del test pari ad , ovvero fissando la
probabilità di commettere l’errore di tipo I rifiutando H 0 quando è vera, dalle tavole della
distribuzione F1 , 2 si ricava il percentile F per cui se
F F
si rifiuta H 0 prendendo la decisione giusta nell’ (1 )% dei casi. Il terst appena anlizzato prende
comunemente il nome di F-test.
L’analisi svolta viene normalmente riportata su una tabella che viene detta appunto tabella
dell’analisi della varianza
somme dei
variazione gradi di libertà devianze statistiche
quadrati
Tra gruppi k-1 W W/(k-1) W /(k 1)
;
Nei gruppi n-k V V/(n-k) V /(n k )
Totale n-1 T z ln F
Somme dei
variazione gradi di libertà devianze statistiche
quadrati
Tra gruppi 3 2620 873.33
F = 4.84;
Nei gruppi 36 6496 183.22
z = 0.79
Totale 39 9116
Se si sceglie 0.05 dalle tavole si ricava F 2.90 ; per cui dato che 4.84>2.90 dobbiamo
rifiutare l’ipotesi che la differenza tra le medie degli scambi giornalieri dei 4 prodotti finanziari sia
dovuta al caso.
Lo stesso tipo di analisi può essere condotta se la misura della grandezza di interesse x è
influenzata da più di un attributo. In riferimento al caso già trattato supponiamo di considerare il
numero di scambi giornalieri di k titoli in h mercati; per cui ora xij( ) denota la -esima rilevazione
del numero di scambi giornalieri del titolo i -esimo nel mercato j -esimo.
xij( ) ai b j ij yij( )
Senza perdita di generalità, per semplificare le notazioni, si assume che ciascuna classe sia
composta dallo stesso numero di elementi, per cui 1 m per ogni i, j . La costante ij modella
l'effetto combinato dei due attributi, e la variabile yij( ) modella al solito la variabilità statistica del
dato e si assume con distribuzione N (0, 2 ) .
Siano ora
1 h m () 1 h m () 1 m ()
ˆi ,.,. xij ,
h m j 1 1
ˆ., j ,. xij ,
k m i 1 1
ˆij xij
m 1
la media dei dati per il valore i-esimo del primo attributo, la media dei dati per il valore j-esimo del
secondo attributo, la media dei dati all'interno di ciascun gruppo individuato dalla generica coppia
di valori i, j del primo e del secondo attributo. La variabilità totale T dei dati può essere questa
volta decomposta nel seguente modo
xij( ) ˆ
k h m k h m k h
h m ˆi ,.,. ˆ k m ˆ., j ,. ˆ
2 2 2 2
xij( ) ˆij
i 1 j 1 1 i 1 j 1 1 i 1 j 1
k h 2
m ˆij ˆi ,.,. ˆ., j ,. ˆ V W1 W2 WI
i 1 j 1
Il primo termine a secondo membro V rappresenta la variabilità statistica dei dati all'interno di
ciascun gruppo ed è indipendente dalla presenza degli effetti degli attributi; esso costituisce il
53
W1 / k 1
F1
V / kh m 1
che risulta avere distribuzione di Fisher con k 1 , kh m 1 gradi di libertà. Fissando al solito il
livello % di significatività del test è possibile rilevare sulle tabelle opportune il relativo percentile
F1, ; se il valore F1 ottenuto dai dati dell'esperimento supera F1, si deve ritenere che l'effetto del
primo attributo introduce una variabilità sistematica nei dati, non attribuibile a cause aleatorie, e
quindi ha senso stratificare i dati in base ai valori del primo attributo. Lo stesso ragionamento vale
per il secondo attributo; si consideri la variabile
W2 / h 1
F2
V / kh m 1
WI / k 1 h 1
FI
V / k h m 1
Nel caso particolare in cui m 1 , per cui è disponibile una sola rilevazione xij della variabile x per
ogni coppia di valori (i, j ) dei due attributi, non è possibile modellare il grado di interazione tra gli
attributi. Per cui si avrà la seguente rappresentazione del dato generico
54
xij ai b j yij
dove, nelle stesse ipotesi del caso con interazione, a i è una costante che tiene conto dell’effetto
dell’attributo “titolo”, b j è una costante che tiene conto dell’effetto dell’attributo “mercato”, e
yij
N 0, 2 . In questa situazione le grandezze
1 h 1 k 1 k h
ˆ i ,. xij ,
h j 1
ˆ ., j xij ,
k i 1
ˆ
hk i 1
xij
j 1
denotano la media degli scambi giornalieri del titolo i -esimo sull’insieme dei mercati, la media
degli scambi giornalieri dell’insieme di titoli nel mercato j -esimo e la media degli scambi
giornalieri di titoli sull’insieme dei mercati, rispettivamente.
La variabilità totale dei dati risulterà quindi ripartita nel seguente modo
xij ˆ xij ˆ i ,. ˆ ., j ˆ
k h k h k h k h
ˆ i ,. ˆ ˆ ., j ˆ
2 2 2 2
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1
xij ˆ i ,. ˆ ., j ˆ
k h k h
h i ,. ˆ k ˆ ., j ˆ
2 2 2
i 1 j 1 i 1 j 1
W1 W2 V
Il primo termine a secondo membro è la variabilità tra i vari titoli, il secondo è la variabilità tra i
mercati, ed il terzo termine è detto comunemente termine di errore. Con ragionamenti analoghi al
caso precedente, a norma del teorema di Cochran, possiamo affermare che i tre termini a secondo
membro sono indipendenti; inoltre W1 2 è distribuita come una 2 con k 1 gradi di libertà,
W2 2 è distribuita come una 2 con h 1 gradi di libertà e V è distribuita come una 2 con
h 1 k 1 gradi di libertà.
A questo punto possiamo testare varie ipotesi; per esempio se vogliamo testare se l’effetto della
variabilità dovuta ai titoli è significativo basta considerare la variabile
W1 / k 1
F1
V / h 1 k 1
che sarà distribuita come una Fisher Fk 1, h1 k 1 . Se invece vogliamo testare per la significatività
dell’effetto legato ai mercati possiamo considerare la variabile
W2 / h 1
F2
V / h 1 k 1
55
adhf primer method Esaminiamo il seguente caso. Tre tipi di fondo per vernici
(primer) sono applicatio su alluminio in due modi: immersione
1 4.0 1 D
2 4.5 1 D (dipping, D), a spruzzo (spraying, S). L'esperimento consiste nel
3 4.3 1 D determinare la forza di adesione della vernice (adhf)
4 5.6 2 D dipendentemente dal fondo e dal metodo utilizzati. In base ai
5 4.9 2 D valori della tabella valutiamo se la forza di adesione risente
6 5.4 2 D
singolarmente del primer e del metodo di applicazione, o risente
7 3.8 3 D
8 3.7 3 D del loro effetto combinato. I dati dell'esperimento sono riportati
9 4.0 3 D nella tabella accanto: si ha un totale di 18 misure: per ogni primer
10 5.4 1 S si hanno tre ripetute per il metodo dipping e tre ripetute per lo
11 4.9 1 S spraying. La forza di aderenza della vernice dipende da due
12 5.6 1 S
13 5.8 2 S
attributi : il "metodo di deposizione del primer", attributo con
14 6.1 2 S k 2 valori "D" e "S"; il "tipo di primer " con h 3 valori "tipo
15 6.3 2 S 1", "tipo 2" e "tipo 3". Gli attributi determinano un totale di
16 5.5 3 S k * h 6 gruppi, ciascuno con m 3 ripetute
17 5.0 3 S
18 5.0 3 S
2 3 3 2 3 3 2 3
9 ˆ i ,.,. ˆ 6 ˆ., j ,. ˆ
2 2 2 2
T xij( ) ˆ xij( ) ˆij
i 1 j 1 1 i 1 j 1 1 i 1 j 1
2 3 2
3 ˆij ˆi ,.,. ˆ., j ,. ˆ V W1 W2 WI
i 1 j 1
56
1 3 3 () 1 3 3 ()
ˆ1,.,. x 4.4667 ,
9 j 1 1 1 j
ˆ 2,.,. x 5.5111
9 j 1 1 2 j
methods
1 2 3 () 1 2 3 () 1 2 3 ()
ˆ.,1,. x 4.7833,
6 i 1 1 i1
ˆ.,2,. x 5.6833
6 i 1 1 i 2
ˆ.,3,. x 4.5
6 i 1 1 i 3
primers
1 3 () 1 3 () 1 3 ()
ˆ11 x 4.2667,
3 1 11
ˆ12 x 5.3,
3 1 12
ˆ13 x 3.8333,
3 1 13
1 3 () 1 3 () 1 3 ()
ˆ 21 x 5.3,
3 1 21
ˆ 22 x 6.0667
3 1 22
ˆ 23 x 5.1667
3 1 23
1 2 3 3 ()
xij 4.9889
18 i 1 j 1 1
Si ottiene
H 0 : a1 a2 0, b1 b2 0, 11 12 21 22 0
la variabile T ha distribuzione 17
2
; il teroema di Cochran assicura quindi che le variabili
2
V ,W 1,W 2,WI sono 2 tra loro indipendenti, con gradi di libertà rispettivamente pari a 12, 1, 2, 2 .
A questo punto calcoliamo le statistiche del test per la significatività dell'attributo "metodo di
deposizione"
W1
F1 59.7027
V /12
dell'attributo "tipo di primer"
W2/ 2
F2 27.8581
V /12
WI / 2
FI 1.4662
V /12
Fissando il livello di significatività del test pari a % 0.05 , dalle tabelle della Fisher otteniamo il
percentile per la F1,12 pari a 4.75, per cui si può ritenere che il metodo di deposizione del fondo
costituisca un attributo che influenza significativamente la forza di aderenza della vernice; dai
57
valori medi calcolati per methods si vede subito che il secondo metodo (spraying) determina una
forza media (sui tre tipi di primer) di aderenza pari a 5.5111 contro 4.4667 del primo metodo
(dipping). Invece il percentile per la F2,12 pari a 3.88, per cui anche l'attributo "tipo di primer"
influenza significativamente la forza di aderenza: dai valori medi calcolati per primers si nota come
il secondo tipo di fondo garantisca una forza di aderenza media (sui due metodi di deposizione) pari
a 5.6833, significativamente più alta rispetto agli altri due tipi di fondo, che hanno prestazioni simili
di 4.7833 (tipo 1) e 4.5 (tipo 3). Questa considerazione comunque andrebbe confortata con una
ulteriore analisi ponendo i dati relativi al tipo1 e tipo 3 in un unico gruppo e verificare la differenza
significativa con il gruppo di dati relativi al tipo 2. Per quanto riguarda l'interazione, dato che il
percentile è lo stesso che per F2, si vede come si debba escludere una sinergia tra metodo di
deposizione del fondo e tipo di fondo.
Per quanto riguarda la significatività dei due attributi singolarmente, avremmo potuto anche
utilizzare due ANOVA ad una via. Ad esempio, per l'attributo "metodo di deposizione", avremmo
raggruppato i dati in due classi: la prima per il valore "dipping" dell'attributo, aggregando i 9 dati in
tabella contrassegnati con "D", relativi ai tre tipi di primer; la seconda classe relativa al valore
"sparying" dell'attributo, aggregando i 9 dati in tabella contrassegnati con "S". In questo caso si
sarebbe ottenuta la seguente ripartizione della variabilità dei dati
2 3 3 2 2 3 3 2 2
T xij( ) ˆ xij( ) ˆ i 9 ˆ i ˆ V W
2
i 1 j 1 1 i 1 j 1 1 i 1
1 3 3 () 1 3 3 ()
1 x
9 j 1 1 1 j
4.4667 1,.,. , 2 x 5.5111 2,.,.
9 j 1 1 2 j
Si ottiene
W
F 13.521
V /16
ha distribuzione Fisher F1,16 il cui percentile del 5% è compreso tra 4.54 e 4.35. Per cui si deve
rifiutare l'ipotesi nulla e ritenere il metodo di deposizione un fattore significativo per la forza di
aderenza della vernice. Inoltre, avendo solo due gruppi, risulta immediatamente che il secondo
metodo, lo spraying, ha le prestazioni migliori, garantendo una forza di adesione media (su tutti i
primer) di 5.5111 contro 4.4667 del metodo dipping. Tale risultato conferma quanto ottenuto
nell'ANOVA a due vie. Sulla scorta di questa osservazione eseguiamo ora un ANOVA ad una via
per l'attributo "tipo di primer". Si ottengono tre classi, ognuna di 6 dati ottenuti considerando per
ogni primer le 3 ripetute contrassegnate con "D" e le 3 contrassegnate con "S". Si ottiene
58
2 3 3 2 2 3 3 2 3
T xij( ) ˆ xij( ) ˆ i 6 ˆ i ˆ V W
2
i 1 j 1 1 i 1 j 1 1 i 1
con
1 2 3 () 1 2 3 1 2 3
1
6 i 1 1
xi1 4.7833 .,1,. , 2 xi(2 ) 5.6833 .,2,. , 3 xi(3 ) 4.5 .,3,.
6 i 1 1 6 i 1 1
Possiamo anche qui notare che W W 2 , mentre V raccoglie i termini V ,W 1,WI dell'ANOVA a due
vie. Osserviamo che il termine di differenza tra gruppi questa volta è più piccolo che nel caso
precedente per l'attributo "metodo di deposizione ", mentre la V è più grande. Infatti risulta
W /2
F2 5.5989
V
15
che comunque è maggiore del percentile del 5% di una Fisher F2,15 3.68 . Per cui anche l'effetto
dell'attributo " tipo di primer" è da ritenersi significativo. Tuttavia, rispetto al caso precedente, ora
ci sono tre gruppi e non è chiaro come scegliere il primer migliore, in quanto il rifiuto dell'ipotesi
nulla dice solo che c'è almeno un gruppo significativamente differente dagli altri. Per cui bisogna
condurre un'analisi ulteriore, come si era peraltro già precisato in occasione dell'analisi ANOVA a 2
vie.
Analizziamo ora il caso di studio togliendo la variabilità dei dati dovuta alle tre ripetute per
ogni gruppo: questo si ottiene sostituendo alle 3 ripetute la loro media ij , i 1, 2 j 1, 2,3 .
Otteniamo quindi uno schema di analisi ANOVA a 2 vie senza interazione
ˆ ij ˆ i,. ˆ ., j ˆ
2 3 2 3 2 3
3 ˆ i,. ˆ 2 ˆ ., j ˆ
2 2 2
T ˆ ij ˆ
2
i 1 j 1 i 1 j 1 i 1 j 1
W1 W2 V
dove
1 3 1 3
ˆ 1,. ˆ 1 j 4.4667 ,
3 j 1
ˆ 2 ,. ˆ 2 j 5.5111
3 j 1
1 2 1 2 1 2
ˆ .,1 i1 4.7833,
2 i 1
ˆ .,2 i2
2 i 1
5.6833,
ˆ .,3 ˆ i3 4.5
2 i 1
Quindi si ottiene
Notiamo subito che la variabilità totale è diminuita rispetto ai casi precedenti in quanto questa è
dovuta solo alle "medie delle misure in ciascun gruppo" ij e non dalle misure xij( ) , come nei casi
precedenti. Nelle stesse ipotesi statistiche dei casi precedenti abbiamo che le variabili
W1 W /2
F1 40.7189, F2 2 19
V /2 V /2
hanno distribuzione di Fisher F1,2 con percentile del 5% pari 18.51, e F2,2 con percentile del
5% pari 19. Per cui, mentre per il primo l'attributo "metodo di deposizione" otteniamo dei risultati
in accordo con quelli delle analisi precedenti, in quanto l'ipotesi nulla deve essere rifiutata, per il
secondo attributo "tipo di primer" la situazione è un pò critica: si ottiene un valore di F2 proprio pari
al percentile F2,2,0.05 19 (in effetti sarebbe F2 19.000000000000142 ). A questo punto siamo
proprio sulla frontiera del set critico, potremmo senz'altro decidere comunque di rifiutare l'ipotesi
nulla; sarebbe comunque più ragionevole ad esempio richiedere l'acquisizione di dati ulteriori. Ma,
indipendentemente dalla decisione che prenderemo, notiamo come l'aver mediato le misure
riducendo la variabilità totale dei dati abbia portato ad una situazione di indecisione. Avremmo
anche potuto avere un risultato per cui, nel caso del secondo attributo, avremmo dovuto accettare
l'ipotesi nulla, ottenendo un'indicazione in netto contrasto con quella delle analisi precedenti.
Questo semplice caso di studio su dati reali ha mostrato che è meglio usare un modello per i
dati in cui i due (o più) attributi vengono considerati contemporaneamente, conviene quindi sempre
rappresentare al meglio tutte le cause di variabilità dei dati.
60
1. ciascun gruppo dell'insieme deve essere un campione di dati casuale, e i dati relativi a
gruppi differenti devono essere indipendenti
2. i gruppi devono avere grosso modo lo stesso numero di dati
3. la scala di variazione dei dati deve essere comparabile tra i diversi gruppi
4. la distribuzione dei dati deve essere gaussiana
5. la varianza deve essere costante
Diciamo subito che l'F-test è robusto rispetto a violazioni delle condizione 4) e 5) se ogni gruppo
ha un numero di dati sufficientemente grande e più o meno uguale tra loro. In caso di numero di dati
basso, le differenze tra le varianze può risultare determinante.
K-W ANOVA. L'algoritmo di Kruskal-Wallis è un test ANOVA non parametrico che si può
applicare tutte le volte che la distribuzione dei dati differisca significativamente dalla gaussiana, pur
rimanendo la stessa per tutta la popolazione, per cui deve sempre valere l'omoschedasticità. Per
meglio illustrare l'algoritmo consideriamo un esempio.
Un'azienda vinicola chiede a degli intenditori di testare tre dei loro vini, indichiamoli per semplicità
A, B e C, con un punteggio da uno a dieci. Ecco quanto ottenuto dopo i vari assaggi (tabella di
sinistra)
3
ni ˆ ri ˆ r
2
i 1
H
1
N N 1
12
dove al solito N è il numero totali di dati. Questa risulta essere distribuita approssimativamente
come una 321 22 (chi-quadro a 2 gradi di libertà ). Il percentile del 5% di tale distribuzione è
pari a 5.991. Per cui il set critico del test di livello 5% è data da
61
H 5.991
Nel caso in esame si ottiene H 9.5591 , per cui si deve rifiutare l'ipotesi nulla e ritenere che i
gruppi abbiano ranghi con medie significativamente differenti; si noti in particolare come i ranghi
corrispondenti al vino A siano più elevati rispetto agli altri due vini, per cui possiamo senz'altro
concludere che il vino A abbia riscosso maggior successo tra gli intenditori.
Il test K-W da buoni risultati se le la distribuzione dei dati ha la stessa forma per tutti i gruppi e le
varianze sono sostanzialmente uguali, già con 5 dati per ogni gruppo. Generalmente si assegna
come regola che la varianza più grande sia non più del doppio della varianza più piccola.
Se tuttavia i dati avessero la stessa distribuzione ma soffrissero di una forte eteroschedasticità, il test
K-W non è affidabile. In caso che la distribuzione sia gaussiana si può ricorrere al seguente test.
Welch ANOVA. Con il solito significato dei simboli, facciamo riferimento ad un insieme di dati con
k gruppi; la distribuzione sia gaussiana ma le varianze dei gruppi differiscano significativamente.
In queste condizioni il valor medio di popolazione si calcoli con la seguente media pesata
k
wi ˆi ni k
ˆ i 1
, wi , w wi
w sn2i i 1
dove al solito le sn2i sono le varianze campionarie di ciascun gruppo. La statistica del test è data
dalla seguente variabile
k
wi ( ˆi ˆ )2
i 1
W k 1
2
2(k 2) 1 wi
k
1 2 1
w
k 1 i 1 ni 1
che risulta essere distribuita come una Fisher Fk 1, con un numero di gradi di libertà dato da
k 2 1
Λ= 2
k
1 wi
3
w
1
i 1 ni 1
come al solito si prende il valore intero più vicino.
62
Come abbiamo visto, l’analisi della varianza permette di testare ipotesi composte nella stima
del valor medio di una popolazione. Nel caso quindi che l’ipotesi H 0 debba essere rifiutata significa
sostanzialmente che l’insieme di dati non è omogeneo statisticamente; quindi se nella stima del
valor medio di insieme il campione di n dati non venga opportunamente stratificato tra le varie
classi dell’insieme, ne risulterebbe una stima affetta da grande variabilità, e quindi poco affidabile.
Questo può essere facilmente compreso se consideriamo il caso in cui gran parte dei dati del
campione cadano in una sola delle classi; questo darebbe luogo ad una stima del valor medio
d’insieme fortemente polarizzata dalle caratteristiche statistiche della classe suddetta.
Nasce quindi l’esigenza di pianificare l’esperimento in modo da raccogliere i dati
distribuendo opportunamente la numerosità del campione tra le varie classi o strati; questa tecnica
prende il nome di stratificazione (o clusterizzazione). La situazione generale è quindi quella di un
insieme di N elementi suddivisi in k strati ognuno con N i unità. Sia i il valor medio di un certo
attributo degli elementi considerati nella classe i-esima, e sia wi Ni / N il peso della classe i-esi-
ma nell’insieme, che supponiamo noto perché, ad esempio, ottenuto da una precedente indagine
sperimentale condotta ad hoc. Come è facile verificare per il valore medio di insieme si ha
k
wi i
i 1
Ora consideriamo ni elementi per ogni strato e stimiamo i con la media campionaria ˆ ni . Come
sappiamo questa è una stima centrata E ˆ ni i e, nel caso realistico di estrazione in blocco
senza reinserzione, con varianza
Ni ni i2
2ˆ
ni Ni 1 ni
i2
2ˆ
n
i ni
dove i2 è la varianza intraclasse dell’attributo considerato, ed è inferiore alla varianza 2 di
popolazione se, ovviamente, la stratificazione è stata eseguita opportunamente! La stima ˆ n della
media di popolazione è quindi data da
k
ˆ n wi ˆ ni
i 1
che è centrata come è facile verificare; inoltre ritenendo che il campione preso da uno strato sia
indipendente da quelli presi dagli altri, la varianza di ˆ n è data da
63
k
2 i
2
i nw camp. indp.
i 1 i
k
2ˆ wi2 2ˆ
n
i 1
ni
k
w2 Ni ni i
2
i
Ni 1 ni
camp. non indp.
i 1
Come si vede la varianza della stima dipende dagli ni , per cui una corretta scelta di essi può
rendere la stima ˆ n più accurata possibile una volta fissato, per motivi di costi o altri motivi di
ordine pratico, la numerosità totale n del campione. Esaminiamo due possibili strategie!
1) Attribuzione proporzionale
1 k
n i 1
wi i2 camp. indp.
ˆ
2
n
k
1 w Ni ni 2 camp. non indp.
n i 1 i Ni 1 i
ed è facile dimostrare che risulta essere minore rispetto a quella ottenibile estraendo un campione
casuale di dimensione n dall’intera popolazione.
2) Attribuzione ottimale
In questo caso si cercano i valori ottimi ni* che rendano minima la varianza 2ˆ della stima,
n
con il vincolo ni n . Mediante la tecnica dei moltiplicatori di Lagrange si ottiene
64
Ni i
n camp. indp.
k
N j j
j 1
*
ni
Ni
Ni i
Ni 1
n camp. non indp.
k Nj
N j
N j 1
j
j 1
In effetti, nella misura in cui N i / N i 1 1, si può usare la stessa attribuzione ottima
k
2
1
wi i camp. indp.
n i 1
ˆ
2
n
2
1 k Ni k w2 2
i i
w i i camp. non indp.
n i 1 Ni 1 i 1 Ni 1
Esempio
2 9
2ˆ 0.009
n n 1000
Tendendo conto delle varie tipologie di dipendenti, si può pensare alla seguente stratificazione
i strato Ni wi i
1 manovali 6.500 0.650 1
2 operai specializzati 2.500 0.250 1.5
3 impiegati 920 0.092 2
4 dirigenti 80 0.008 2.5
totale 10.000 1.00
65
Volendo mantenere la stessa accuratezza della stima ottenuta con il campione casuale si pone
1.6305
0.009
n
da cui si ricava n 190 anziché 1000 come prima, ottenendo quindi un forte risparmio in termini di
numero di rilevamenti da effettuare. L’attribuzione proporzionale sarebbe la seguente
i ni
1 124
2 47
3 17
4 2
totale 190
i n*i
1 98
2 57
3 29
4 6
totale 190
1
2ˆ (0.65)1 (0.25)1.5 (0.092)2 (0.008)2.52 0.00794
n 190
ˆ ni ni*
i ˆ ni ,1 sni
ni* 1
1 4.3 1.2
2 3.5 1.6
3 2.0 2.1
4 1.5 2.3
4
ˆ n wi ˆ ni 0.65 4.3 0.25 3.5 0.092 2 0.008 1.5 3.866
i 1
1
ˆ 2ˆ 0.65 1.2 0.25 1.6 0.092 2.1 0.008 2.32 0.0102
n 190
ˆ ˆ n 0.1010
0.026 2.6%
ˆ n 3.866
X Y
Processo
Y L( X ; ) d
dove è un vettore di parametri che caratterizza la famiglia di modelli; il disturbo agisce in modo
additivo e viene normalmente descritto come una grandezza aleatoria che tiene conto sia degli errori
strumentali connessi alla misura sperimentale della Y , sia dell’errore di modello, cioè dell’errore
che si commette nel rappresentare il legame esatto tra X e Y con la funzione L() che ne cattura la
parte che noi riteniamo più significativa.
Definita quindi la famiglia di modelli ora si deve eseguire un esperimento per determinare il
valore dei parametri incogniti in modo da selezionare il modello più adatto a rappresentare il
processo in analisi. L’esperimento consiste nello scegliere un’opportuna sequenza di N dati delle
variabili indipendenti xi ed applicarla al processo; si rileva sperimentalmente quindi la
corrispondente sequenza yi di N dati della grandezza di misura. A questo punto si può stimare il
parametro incognito elaborando opportunamente i dati
(Y )
La funzione prende il nome di stimatore e viene detta stima del parametro . I metodi di
stima parametrica consistono nello scegliere opportunamente lo stimatore in modo che la stima
ottenuta goda di opportune proprietà. I metodi di stima parametrica si distinguono peraltro dalle
informazioni a priori disponibili sul disturbo additivo d e sull’incognita . In base a queste è infatti
possibile dedurre il cosiddetto modello statistico
p(Y ; )
ovvero la distribuzione dei dati come funzione del parametro incognito . I vari metodi di stima
fanno uso di tale modello statistico sia per dedurre la stima , sia per validare il modello L( X ; )
in base all’analisi del fit error
z Y L( X ; )
Polarizzazione
Il primo requisito che deve possedere una stima è quello di essere centrata (non polarizzata,
unbiased): questo consiste nel fatto che lo stimatore non commette errori sistematici nella
valutazione di , per cui
E (Y ) p(Y ; ) dY
cioè il valor medio della stima coincide con il valore effettivo dell’incognita. Il valor medio
dell’errore di stima e
b( ) E e E
prende il nome di polarizzazione o bias della stima. Per una stima non polarizzata il bias è nullo.
Efficienza
Tuttavia, sebbene l’errore di stima possa avere valor medio nullo, gli errori singolarmente
potrebbero essere molto grandi, sia con segno positivo che con segno negativo in modo da
compensarsi mediamente. Quindi il secondo requisito della stima consiste nel fatto che la
distribuzione dei valori di essa sia il più possibile addensata intorno al valore effettivo o,
equivalentemente che la distribuzione dell’errore di stima sia il più possibile addensata intorno allo
zero. Quindi si vuole che la matrice di correlazione dell’errore di stima
T
Qe E (Y ) (Y ) p(Y ; )dY
T
sia minima. Si noti che per una stima centrata la correlazione dell’errore di stima Qe coincide con la
covarianza Re . Nell’ipotesi che
p(Y ; ) T
1. p(Y ; ) ( gradiente di p(Y ; ) rispetto a ) esista quasi ovunque, cioè
escluso per un insieme di valori isolati di Y ;
2. E p(Y ; )
per la correlazione dell’errore di stima esiste un risultato di carattere generale che prende il nome di
limite inferiore di Cramer Rao
2
db( )
1
d
2
Qe E
d ln p(Y ; ) 2
d
Questa relazione dice che, una volta scelto il modello statistico p(Y ; ) si commette un errore di
stima che necessariamente ha una correlazione non inferiore al valore minimo indicato a secondo
membro. Una stima si dice efficiente se l’errore di stima ha una correlazione pari al valore minimo
possibile dato dal limite di Cramer Rao, cioè se la relazione precedente vale con il segno di
uguaglianza. Una condizione sufficiente affinché ciò si verifichi consiste nel poter esprimere
l’errore di stima nel seguente modo
M ( ) ln p(Y ; )
In tale caso si dimostra che la stima efficiente è anche centrata ed inoltre è una stima di massima
verosimiglianza
Purtroppo non vale il viceversa, cioè in generale non è vero che una stima di massima
verosimiglianza sia efficiente e centrata. Tuttavia sotto ipotesi piuttosto generali si può dimostrare
che la stima di massima verosimiglianza è asintoticamente centrata ed efficiente: cioè all’aumentare
del numero N di dati elaborati la stima di massima verosimiglianza tende ad acquisire le due
proprietà suddette.
Consistenza
Anche questa proprietà è di carattere asintotico, ovvero descrive come si comporta la stima
all’aumentare del numero N di dati elaborati. In particolare, indicando con N la stima ottenuta
dall’elaborazione di N campioni dell’uscita, si dice che la stima sia consistente se
lim N
N
quasi certamente; in altre parole la stima è consistente se con probabilità 1 tende al valore vero del
parametro al tendere di N all’infinito. Altre definizioni di consistenza possono far riferimento ai
momenti dell’errore di stima; quella più usuale è la seguente
2
lim E N 0
N
che, essendo il logaritmo una funzione monotona crescente, ammette la stessa soluzione del
precedente, ma risulta di più agevole soluzione. Infatti consideriamo il caso in cui il modello di
misura sia lineare in
Y L( X ) d
1 1
p(Y ; ) exp Q 1 Y L , Y L
2 N /2
det Q
1/ 2 2
1
ln p(Y ; ) ln 1 Q 1 Y L , Y L
2 N / 2 det Q 1 / 2 2
1
MLE arg min Q 1 Y L , Y L
2
Tutte e sole le soluzioni della precedente equazione saranno stime ottime di massima
verosimiglianza. Per verificare la convessità della funzione obbiettivo, dato che essendo quadratica
risulta essere di classe C 2 , si può verificare se l’hessiano risulti essere una matrice semidefinita
positiva
1 1
2 Q Y L , Y L 0
2
LT Q 1 L
che è subito visto essere una matrice simmetrica e semidefinita positiva. Per cui la funzione
obiettivo è convessa in un insieme convesso, e quindi l’equazione
1 1
Q Y L , Y L LT Q 1 Y L 0
2
1
MLE LT Q 1 L LT Q 1Y
Vediamo se la stima di massima verosimiglianza per un modello lineare con disturbo additivo
gaussiano gode di qualche proprietà. L’errore di stima risulta essere
1
MLE LT Q 1 L LT Q 1Y
dato che
LT Q1L
1
LT Q 1 L
si ottiene
LT Q1Y LT Q1L
1
MLE LT Q 1 L
1
LT Q 1 L LT Q 1 Y L
1
LT Q 1 L ln p(Y ; )
per cui risulta essere verificata la condizione sufficiente in base alla quale possiamo dire che la
stima ottenuta è efficiente; di conseguenza è anche centrata. Il limite inferiore di Cramer Rao è dato
da
1 1
E ln p Y ; ln p Y ; E LT Q 1 Y L Y L Q 1 L
T T
1 1
LT Q 1 E Y L Y L Q 1 L LT Q 1 E dd T Q 1 L
T
1 1
LT Q 1QQ 1 L LT Q 1 L
che è quindi costante ed indipendente da . Questo significa che qualunque altra operazione sui
1
dati produrrebbe un errore di stima con matrice di correlazione non inferiore a LT Q 1 L .
Se il modello fosse stato non lineare
Y L( ) d
con le stesse ipotesi per il disturbo d , la condizione necessaria per la stima di massima
verosimiglianza sarebbe stata
G ( )T Q 1 Y L( ) 0
con G ( ) L( ) / . Si otterrebbe quindi un’equazione non lineare da risolvere; diciamo che
quindi in questo caso si dovrebbe adottare un opportuno algoritmo di ottimizzazione che risolva
numericamente il problema di massima versosimiglianza
L L G
In questo modo il modello di misura approssimato diventerebbe
Y L G d
da cui ponendo Y Y L , si otterrebbe
Y G d
e quindi di nuovo un modello lineare con rumore additivo gaussiano; per questo la stima efficiente è
1
T T
MLE G Q 1G G Q 1Y
1
T 1
G Q G
che risulta essere funzione della stima iniziale . Per la stima di si ha quindi
'
MLE MLE
l’apice sta a ricordare che questa è una stima di che deriva dal modello linearizzato.
Stima dei minimi quadrati
Nel caso che sul disturbo additivo non si abbiano informazioni sufficienti per poterne
ipotizzare la distribuzione ma si possa solo ritenere che sia a media nulla, la stima del parametro
incognito può essere ottenuta minimizzando la norma al quadrato dell’errore di fitting
Come si nota si ottiene un problema analogo al caso precedente con Q pari all’identità. Per cui
sappiamo che se la matrice L ha rango pieno si ottiene un’unica soluzione ottima
1
LSE LT L LT Y
Dato che il disturbo additivo è a media nulla, si può facilmente stabilire che la stima dei minimi
quadrati (least square estimate) è centrata; infatti si ha
1 1
E LSE LT L LT E Y LT L LT L
Tuttavia nulla si può dire circa l’efficienza della stima, anche perché non si dispone di un modello
statistico dei dati.
Ricordando la definizione di prodotto interno euclideo, la funzione obbiettivo ha la seguente
forma
N
Y L , Y L yi li
2 2
Y L
i 1
dove li è la i-esima riga di L . Si vede come se qualche addendo è molto grande rispetto agli altri,
tenderà a polarizzare il valore della stima LSE , che di fatto dovendo minimizzare tutti questi
scarti al quadrato risente maggiormente di quegli scarti di valore maggiore. Per evitare questo
inconveniente si debbono equalizzare gli scarti al quadrato pesandoli opportunamente, ognuno con
un determinato peso, in modo da rendere tutti gli scarti tra loro confrontabili; in luogo della
precedente funzione obbiettivo si considera quindi la seguente
N
Y L P P Y L , Y L pi yi li
2 2
i 1
con P diag pi ed i pesi pi tutti positivi ovviamente. In questo caso la stima dei minimi
quadrati diventa
1
LSE LT PL LT PY
e viene chiamata usualmente stima dei minimi quadrati pesati.
Esempio.
Uno dei problemi più interessanti nell’analisi dei dati sia demografici che finanziari consiste
nella stima di opportuni andamenti in essi presenti; questi rappresentano dipendenze cosiddette
stagionali che denotano un comportamento tipico a lungo termine. Assegnata quindi una sequenza
yk di dati supponiamo il seguente modello di misura
yk mk nk
con
mk m0 m1 k
In definitiva stiamo descrivendo la sequenza di dati come composta da un andamento lineare nel
tempo mk ( è l’intervallo di campionamento ossia l’intervallo di tempo tra due istanti di misura
consecutivi) la cui misura viene corrotta istante per istante da un rumore additivo che possiamo
supporre bianco e a valor medio nullo; si ricorda che la bianchezza consiste nella proprietà per cui
tutti i campioni del rumore sono tra loro incorrelati.
m0
k ( ) yk mk yk [1 k ]
m1
yk [1 k ] yk lk
N
arg min yi li arg min Y L
2 2
i 1
dove si è posto
l1 1
y1 l 1 2
Y , L 2
y N
lN 1 N
Si può vedere facilmente che la matrice L per questo problema ha rango pieno pari a 2, per cui la
soluzione del problema dei minimi quadrati ha un'unica soluzione ottima.
mk m0 m1 k m2 (k ) 2 m p (k ) p
e di conseguenza
m0
m
1
k ( ) yk mk yk [1 k (k ) 2 (k ) ] m2
p
mp
yk [1 k (k ) 2 (k ) p ] yk lk
T
dove stavolta m0 m1 m2 m p . Ora non dobbiamo far altro che risolvere lo stesso
problema di prima, ma con
l1 1 2 p
y1 l 1 2
(2) 2 (2) p
Y ,
L 2
y N
lN 1 N ( N ) 2 ( N ) p
Di nuovo, è facile vedere che la matrice L ha rango pieno pari a p+1, e perciò si ha un’unica
soluzione ottima del problema di minimi quadrati.
y l
2
i i
i 1
dobbiamo fare in modo che, all’aumentare di N, nella sommatoria contino di più i termini più vicini
all’istante corrente k=N e via via si rendano trascurabili i termini lontani. Ciò può essere ottenuto
cambiando l’indice di costo nel seguente modo
y l ,
N i
(0, 1)
2
i i
i 1
Essendo 1 nella sommatoria i termini che corrispondono ad istanti i lontani dall’istante corrente
N sono moltiplicati per N i che diventa sempre più piccolo per i che via via si allontana da N. Tale
tecnica viene detta dei minimi quadrati con fattore di oblio, e permette di stimare il valore del
parametro incognito nell’intervallo immediatamente adiacente all’istante corrente; questo permette
quindi di inseguire le variazioni temporali del parametro incognito, nell’ipotesi che queste siano
piuttosto lente. Più piccolo è e più breve risulta l’intervallo adiacente all’istante corrente che
viene considerato.
Stima Bayesiana
che viene detta stima di massima verosimiglianza non condizionata. Infatti la funzione obbiettivo
cambia rispetto al caso di stima di massima verosimiglianza quando il parametro può assumere
indistintamente un qualunque valore di m : infatti la differenza consiste nel fatto che nel caso
bayesiano i valori di m non sono tutti equiprobabili ma sono assunti con probabilità determinata
dalla distribuzione p( ) . Questo fatto può essere esplicitato ricordando il teorema di Bayes, in base
al quale la distribuzione congiunta p(Y , ) può essere fattorizzata nel seguente modo
dove p(Y | ) è la distribuzione di Y condizionata a , ovvero è la distribuzione dei valori dei dati
Y quando si fissa un generico valore dell’incognita. L’espressione di tale funzione è facilmente
deducibile dal modello di misura
Y L X ; d
Infatti nell’usuale ipotesi che il disturbo additivo abbia distribuzione gaussiana con media nulla e
covarianza Q , fissando un generico valore di , la variabile Y diventa gaussiana con media
L( X ; ) e varianza Q .
Ricorrendo ancora alla trasformazione logaritmica si ottiene
Si vede che rispetto al caso di massima verosimiglianza nella funzione obbiettivo compare il
termine ln p( ) che dà un peso differente ai diversi valori di .
Vediamo l’espressione della stima ottima nel caso importante di modello lineare con rumore
additivo gaussiano, nelle ipotesi aggiuntive che anche l’incognita sia una gaussiana con valor medio
o e matrice di covarianza
1 1
p( ) exp 1 o , o
(2 ) m/2
(det )1/ 2 2
e che sia ovviamente indipendente dal disturbo. Quindi, trascurando i temini costanti, il problema di
stima diventa
1 1
MULE arg min Q 1 Y L , Y L 1 o , o
2 2
Effettuando la stessa analisi svolta nel caso di massima verosimiglianza si può ancora dimostrare
che la funzione obbiettivo risulta essere convessa; infatti l’hessiano è
LT Q 1 L 1
ed è quindi una matrice simmetrica e definita positiva; dall’annullamento del gradiente della
funzione obbiettivo si ottiene quindi la seguente condizione necessaria e sufficiente di ottimo
globale
LT Q 1 Y L 1 o 0
da cui
LT Q 1 L 1 LT Q 1Y 1o
Ora, dato che la matrice 1 è definita positiva, la matrice LT Q 1 L 1 è certamente non
singolare, indipendentemente dal fatto che L sia o meno a rango pieno. Per cui si ottiene l’unica
soluzione ottima
LT Q1Y 1o
1
MULE LT Q 1 L 1
Se il modello di misura è non lineare, sorgono gli stessi problemi visti nel caso della massima
verosimiglianza, per cui in generale è necessario ricorrere al calcolo numerico della soluzione
ottima. Anche in questo caso tuttavia si può ricorrere alla linearizzazione del modello ed ottenere
una soluzione approssimata.
z Y L( X ; )
Tenendo conto che tutti i modelli considerati presentavano il disturbo in forma additiva, si capisce
come il modello identificato L( X ; ) rappresenti bene i dati sperimentali Y se il residuo ha le
stesse caratteristiche ipotizzate per il disturbo additivo.
Come prima verifica potremmo quindi accertarci che il valor medio del residuo sia nullo; ciò
può essere fatto mediante un opportuno test di ipotesi valutando valor medio e deviazione standard
campionaria di z
1 N N
ˆ z
N i 1
( y i l i ( )), ˆ 1
z
N i 1
zi z
2
e ricordando che, per il teorema del limite centrale, se N è abbastanza grande la variabile
standardizzata
z z z
N
z z
può considerarsi una gaussiana standard N(0,1). Considerando quindi un livello di significatività del
test dell’ % si può testare l’ipotesi nulla che E ( z ) 0 se
ˆ z ˆ z
ˆ z
N N
con percentile di una N(0,1) all’ % . Se ˆ z dovesse essere fuori dell’intervallo di confidenza
ˆ z ˆ
N
, z
N
si deve rifiutare l’ipotesi nulla e ritenere quindi che il residuo non sia a
media nulla, denotando un difetto del modello scelto, che quindi andrebbe modificato.
Come seconda verifica si potrebbe testare che il residuo abbia la statistica ipotizzata per il
disturbo additivo: nell’ipotesi che il disturbo additivo sia una sequenza gaussiana con covarianza
Q , si potrebbe testare se anche il residuo possegga tali caratteristiche. Quindi la sequenza
z Q 1 Y Lˆ dovrebbe essere una sequenza gaussiana standard. Il test sul tipo di
distribuzione può essere eseguito con un test di Anderson-Darling.
1 N
( ) z z , 2, 5
N i 1 i i
1 N 2
(0) z
N i 1 i
Il test di bianchezza si basa sul risultato che, se la sequenza zi è bianca allora, per N abbastanza
grande, la grandezza
( )
( ) N
(0)
tende a distribuirsi come una gaussiana standard N(0,1); per cui si fa il solito test con livello % .
LE SERIE STORICHE
30
25
n° di passeggeri * 10
20
15
10
0
Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic Gen Feb Mar Apr
Dai dati di figura potremmo certo riconoscere che il numero dei passeggeri
è in crescita (si nota un trend positivo), denotando tuttavia una certa va-
riabilità (oscillazioni intorno ad una ipotetica linea di tendenza) che si va
via via più accentuando al passare del tempo. Volendo tentare una predizio-
ne del numero di passeggeri nel prossimo Gennaio, potremmo ragionare nel
1
2
30
25
200
n° di passeggeri * 10
20
15
10
0
Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic Gen Feb Mar Apr
30
290
25
200
n° di passeggeri * 10
20
15
120
10
0
Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic Gen Feb Mar Apr
25
200
n° di passeggeri * 10
20
15
120
10
0
Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic Gen Feb Mar Apr
La Fig.4 mostra una curva che insegue bene la variazione dei dati in ogni
4
20 20
15 15
10 10
5 5
0 0
Gen Giu Dic Gen Giu Dic
5 1
0 0
−5 −1
−10 −2
Gen Giu Dic Gen Giu Dic
Quello che resta nella serie di dati oltre al trend ed alla componente sta-
gionale prende il nome di residuo r(t). Questo, eventualmente, può essere
ulteriormente analizzato r(t) = γ(t) + ε(t) in una componente struttura-
ta γ(t) ed una sequenza i.i.d. (independent identically distributed random
variables). Questa sequenza è completamente priva di informazione in quan-
to, essendo tutti i suoi valori indipendenti l’uno dall’altro, non è possibile
prevedere in alcun modo il valore della sequenza in un qualunque punto di
5
Vediamo invece i dati del caso di Fig.6, che rappresentano le rilevazioni spe-
rimentali dell’indice NDVI (Normalized Difference Vegetation Index, indice
della presenza di vegetazione ottenuto dal telerilevamento della riflettanza
spettrale nel visibile, rosso, e nel vicino infrarosso). La componente stagio-
nale (seasonal) ha un’oscillazione di ampiezza costante, ed anche il residuo
varia all’interno di un intervallo pressoché costante di valori. Ne deduciamo
che l’analisi mostrata è di tipo additivo. Tuttavia notiamo che la componente
di trend non è un semplice trend lineare come nell’esempio della Fig.1, ma
si è scelto di rappresentare la tendenza della serie storica su una scala fine
del tempo, e non la tendenza globale riferita a tutto l’intervallo temporale di
misura. In questo modo, descrivendo l’andamento medio della serie su una
scala temporale più locale, si ottiene una curva di trend che segue in maniera
più fedele la dinamica dei dati. E’ da notare inoltre che probabilmente il
6
Figura 6: analisi additiva dei dati del NDVI per una piantaggione di pini nel
sud-est dell’Australia
7
Figura 7: analisi a scale differenti del numero dei combattenti USA deceduti nella
guerra in Indocina dal 1966 al 1971
serie storica
Nel caso invece del modello misto (5) incontrato in alcuni degli esempi
trattati precedentemente si può procedere nel modo seguente. Si calcola il
logaritmo dei dati
Il trend
Il trend τ (t) di una serie storica descrive l’andamento medio della stessa
riferito ad un’opportuna scala temporale. Nella maggior parte dei casi per
trend si intende il trend lineare su tutto l’intervallo di osservazione della
serie. In questo caso la componente ciclica ha valor medio nullo su tutto
l’intervallo di osservazione. Quindi se stimassimo la media campionaria di
c(t) dovremmo ottenere un valore pressoché nullo
10
N
1 X
µ̂c = c(ti ) ' 0
N i=1
serie storica
30
20
10
0
Gen Giu Dic
serie detrendizzata
10
−5
−10
Gen Giu Dic
ottenendo θ̂0 = 3.4320, θ̂1 = 1.6056 per i dati di Fig.8. Ovviamente, nella so-
luzione di questo semplice programma, si sono adottate tutte le tecniche più
volte discusse per eliminare il malcondizionamento del problema. Sottolineia-
mo che in questo caso non ha senso valutare l’R2 del modello identificato in
11
τ (t) = θ0 + θ1 t + θ2 t2 + θ2 t2
serie storica
30
20
10
0
Gen Giu Dic
serie detrendizzata
10
−5
−10
Gen Giu Dic
t, tanto da far preferire il modello del secondo ordine rispetto al trend linea-
re. La complessità del modello polinomiale può essere determinata in modo
sistematico ricorrendo al criterio di Akaike.
Il modello polinomiale con coefficienti costanti, permette quindi di rap-
presentare il trend della serie storica riferito a tutto l’intervallo temporale
di osservazione. Quale modello potremmo scegliere se invece della tendenza
generale della serie volessimo un andamento medio che seguisse al meglio la
dinamica dei dati istante per istante? Questo ad esempio è quello che viene
mostrato nel secondo grafico della Fig.7. In questo caso, nel generico istante
t, l’andamento medio richiesto deve rappresentare la tendenza media dei dati
in un intorno ristretto dell’istante considerato. Come si nota nella Fig.10,
nell’intorno degli istanti scelti il valore del trend globale (linea rossa) è molto
differente dai valori della serie, in quanto esso è funzione dei valori dei dati
su tutto l’intervallo di osservazione. Il trend locale rappresentato dai tratti
di linea verde rappresenta abbastanza bene la tendenza locale dei dati.
Prendendo lo spunto dalla Fig.10, si potrebbe pensare quindi di descrivere
il trend locale con una sequenza di tratti lineari che, istante per istante,
cambino pendenza in modo da adattarsi alla media locale dei dati
13
serie storica
30
25
trend globale
trend locale
20
15
10
0
Gen Giu Dic
15
10
0
t1 tk−m tk
" k #
X 2
(θ0 (tk ), θ1 (tk )) = argmin µk−i y(ti − θ0 (tk ) + θ1 (tk )ti , µ ∈ (0, 1)
i=1
che viene detto problema dei minimi quadrati con pesi esponenziali (Expo-
nential Weighted Least Square Estimate, EWLSE). In questo modo è pos-
sibile ottenere il modello lineare rappresentato dalla linea di colore verde di
Fig.11. Il parametro µ determina quanto è esteso l’intorno dell’istante cor-
rente tk in cui risulta valido il modello locale: come si vede i termini della
sommatoria sono moltiplicati per µk−i con µ positivo e minore di 1, per cui
per i << k cioè per istanti molto distanti da quello corrente, il peso di-
venta veramente piccolo e praticamente cancella il termine corrispondente
(y(ti − θ0 (tk ) + θ1 (tk )ti )2 dalla sommatoria. Per fare un esempio, scegliamo
15
1 0.95 0.9025 0.8574 0.8145 0.7738 0.7351 0.6983 0.6634 0.6302 0.5987...
per cui a distanza di 7 passi dall’istante corrente tk il peso diventa circa 0.7
e via via diminuisce indebolendo l’influenza dei temini corrispondenti della
sommatoria. Per µ = 0.8 si ha
1 0.8 0.64 0.512 0.4096 0.3277 0.2621 0.2097 0.1678 0.1342 0.1074...
ed in questo caso già a 3 passi dall’istante corrente il peso vale circa 0.5,
ottenendo quindi un algoritmo di stima in cui contano solo i dati entro una
finestra di 3 passi dall’istante corrente, a differenza del primo caso in cui la
finestra era circa di 7 passi.
Facciamo ora un passo in più. Supponiamo di aver correttamente de-
terminato il trend locale all’istante tk , e viene prelevato un nuovo dato ad
un istante successivo tk+1 . Per calcolare il trend locale aggiornato al nuovo
istante corrente
e rielaborare daccapo tutti i dati da t1 a tk+1 per ottenere le stime dei para-
metri del modello aggiornate all’istante corrente tk+1 . In altre parole bisogna
di volta in volta rieseguire tutto il calcolo dall’inizio, su un campione di dati
di dimensione via via crescente. Questo può essere evitato mediante un algo-
ritmo ricorsivo di soluzione del programma EWLSE, che calcola la soluzione
del problema all’istante tk+1 in funzione della soluzione al passo precedente
tk . Sia
`(t1 )
θ0 (tk )
θ(tk ) = , `(tk ) = [1 tk ], L(tk ) = ...
θ1 (tk )
`(tk )
16
Si ottiene
S(tk )`(tk+1 )T
G(tk+1 ) = (17)
µ + `(tk+1 )S(tk )`(tk+1 )T
θ̂(tk+1 ) = θ̂(tk ) + G(tk+1 ) y(tk+1 ) − `(tk+1 )θ̂(tk ) (18)
1
S(tk+1 ) = I − G(tk+1 )`(tk+1 ) S(tk ) (19)
µ
L’algoritmo va opportunamente inizializzato. Per questo, a partire da un
30
serie storica
25 trend globale
trend locale
20
15
10
0
Gen Giu tk Dic
Figura 12: trend globale, trend locale del primo ordine τ (t) = θ0 (t) + θ1 (t)t
−1
θ̂(tm ) = S(tm )L(tm )T W (tm )Y (tm ), S(tm ) = L(tm )T W (tm )L(tm )
m−1
µ 0 . . . . . . 0
y(t1 ) 0
µm−2 0 . . . 0
.. . .
Y (tm ) = . , W (tm ) = 0
. . . . ... 0
y(tm ) 0 ... ... µ 0
0 ... ... 0 1
parametri del trend locale secondo le (17), (18) e (19), elaborando solo un
dato alla volta. La Fig.12 mostra l’andamento dei dati, del trend lineare
(globale) e del trend locale del primo ordine secondo l’algoritmo (17)-(19),
con µ = 0.8. Possiamo subito notare un effetto dell’elaborazione ricorsiva
dei dati: il trend locale segue con un certo ritardo i dati. Ciò si verifica
in quanto il modello locale, ad es. nell’istante tk in Fig.12, risente solo dei
dati precedenti a tk e non di quelli futuri. La pendenza del trend locale
cambierà gradualmente man mano che l’istante corrente si inoltra nel tratto
dei dati successivo a tk (di qui il ritardo), e rappresenterà bene la tendenza
locale solo quando la finestra di dati sui cui il modello locale viene stimato
sarà tutta compresa nell’intervallo di tempo a destra di tk . Questo effetto è
tanto più evidente quanto più la memoria dell’algoritmo è grande. In questo
caso la memoria dell’algoritmo dipende dal valore del parametro µ. Per
30
serie storica
25 trend locale, µ=0.95
trend locale, µ=0.8
20
15
10
0
Gen Giu Dic
valori di µ più grandi, l’algoritmo ha una memoria più grande, per cui la
stima dei parametri del modello locale dipende da un numero più esteso di
dati, anche un pò lontani dall’istante corrente. Come si nota dalla Fig.13
(linea magenta) questo determina una curva di trend locale molto regolare
(smooth), ma con un certo ritardo rispetto ai dati. Per valori minori di µ
invece, la memoria dell’algoritmo si accorcia, interessando quindi solo i dati
pi prossimi all’istante corrente. Ne risulta una curva (linea verde) meno
18
regolare, che però segue i dati meglio che nel caso precedente, con un ritardo
inferiore.
Sin qui si sono forniti dei modelli analitici per il trend, sia globale che lo-
cale. In altre parole si sono fornite in forma analitica possibili leggi temporali
che rappresentassero al meglio la tendenza dei dati. Questi modelli hanno la
loro importanza in quanto i loro parametri quantificano alcune caratteristi-
che fondamentali dei dati: ad esempio il parametro θ1 misura la pendenza
della serie, e permette di dire se siamo in un peridodo di trend al rialzo o al
ribasso. Il parametro θ2 misura la convessità della serie, per cui permette di
stabilire se il trend continuerà con il segno attuale, ad esempio permane il
trend al rialzo (θ1 > 0 e θ2 > 0) ovvero ci si avvia verso un trend al ribasso
(θ1 > 0 e θ2 < 0).
Tuttavia, laddove non sia necessaria una descrizione analitica della ten-
denza della serie storica, è possibile ricorrere a metodi che calcolino diretta-
mente i valori di τ (t) su tutto l’intervallo di osservazione dei dati. Uno tra i
più utilizzati è il filtro di Prescott-Hodrick. Secondo questo metodo, vengono
calcolati simultaneamente i valori τ (ti ) su tutto l’intervallo di osservazione
dei dati, risolvendo il seguente programma
" N N −1
#
X 2 X 2
{τ (ti )} = argmin y(ti ) − τ (ti ) + λ τ (ti+1 ) − 2 ∗ τ (ti ) + τ (ti−1 )
i=1 i=2
(20)
Il primo termine dell’indice di costo misura il fit con cui la sequenza τ (ti )
rappresenta bene la sequenza dei dati y(ti ). Il secondo termine è invece un
termine di penalizzazione che misura la derivata seconda della sequenza di
trend (ogni addendo della seconda sommatoria è il quadrato dell’approssima-
zione numerica della derivata seconda di τ (t) nel generico istante ti ). Più λ
è grande e più verranno selezionate sequenze τ (ti ) con derivata seconda con
ampiezza piccola (quindi molto regolari); al limite per λ molto grande la so-
luzione potrebbe assomigliare al trend lineare globale visto precedentemente
(derivata seconda nulla). Per valori di λ più piccoli invece il programma (20)
rende ammissibili sequenze che siano meno regolari, e che quindi possano
seguire al meglio, anche localmente, la dinamica dei dati.
La Fig.14, oltre che mostrare il comportamento annunciato della stima
del trend al variare del parametro λ, mostra anche l’assenza del fenomeno
di ritardo che avevamo osservato nei modelli stimati con il metodo ricorsivo.
Questo però non deve trarre in inganno: l’elaborazione del filtro non è in
tempo reale, perché la stima degli N valori τ (ti ) è ottenuta elaborando tutti
i dati contemporaneamente, per cui essa non può essere prodotta se non
dopo aver acquisito tutti i dati, di fatto con un ritardo massimo pari al
tempo necessario ad acquisire tutti i dati. C’è inoltre da osservare che, se
19
Filtro Prescott−Hodrick
30
25 serie storica
trend, λ=5
trend, λ=500
20 trend, λ=10000
15
10
0
Gen Giu Dic
Figura 14: Stima del trend con il filtro di Prescott-Hodrick con differenti valori
di λ
media mobile
30
serie storica
25 MA, m=2
MA, m=10
20
15
10
0
Gen Giu Dic
Figura 15: Stima del trend con la media mobile per diversi valori di m
(variazioni) con dinamiche molto veloci, si pensi ad esempio al fixing delle va-
lute, per cui l’algoritmo di stima del trend deve raggiungere un compromesso
tra il catturare la tendenza dei dati con una certa fedeltà e senza un ritardo
eccessivo ( il fixing monetario avviene su una scala di secondi) ed il filtrare
gli shock dovuti alla volatilità del mercato. Agendo solo sulla memoria m
dell’algoritmo il più delle volte non si raggiunge un buon compromesso tra
velocià di risposta e filtraggio degli shock. Per questo motivo la media mobi-
le semplice (21)(SMA, simple moving average) viene modificata in modo da
dare più peso al dato corrente
2
τ (ti ) = αy(ti ) + (1 − α)τ (ti−1 ), α= (22)
m+1
Tale algoritmo si chiama media mobile esponenziale (EMA, exponential mo-
ving average); la scelta di α indicata nella (22) garantisce generalmente il
miglior compromesso. Come tutti gli algoritmi ricorsivi, la EMA va inizia-
lizzata, calcolandone un primo campione τ (tm ) come media mobile semplice
21
10
0
Gen Giu Dic
10
0
Gen Giu Dic
Fig.16 si nota come la EMA anticipi la SMA, cioè ha una maggiore velocità
di risposta in quanto si accorge prima dei tratti della serie storica sia con
tendenza al rialzo che che al ribasso. Inoltre al crescere di α rispetto al va-
lore generalmente consigliato si nota come l’algoritmo migliori in termini di
prontezza di risposta.
La componente stagionale
Consideriamo ancora la serie storica di Fig.9. Il grafico in basso mostra
l’andamento della serie di dati una volta che da essa venga sottratto il trend
τ (t). Si ottiene quindi la componente ciclica che denota chiaramente un
comportamento periodico. È quindi logico ritenere che sia possibile analizzare
questa componente ciclica separando la componente stagionale dal residuo
1.5
S(t)
S(t−T/5)
1 S(t−T/2)
0.5
−0.5
−1
−1.5
1 2 3 4 5 6 7 8 9 10 11
time
ed individuare i valori del ritardo per cui tale somiglianza è massima. Tale
somiglianza viene misurata dalla funzione di autocorrelazione
PN −k
c(ti ) ∗ c(ti+k )
φ(k) = qP i=1 qP (25)
N −k 2 N −k 2
i=1 c(ti ) i=1 c(ti+k )
funzione di autocorrelazione
1
0.5
−0.5
−1
0 1 2 3 4 5 6 7 8
delay
ma con segno opposto, come avevamo già osservato nel comportamento della
sinusoide.
Naturalmente le cose sarebbero meno evidenti nel caso di presenza di più
di una componente sinusoidale, per cui consideriamo la seguente componente
ciclica c(t) = sin(2πt/5) + 1.5sin(2πt/2.5) in assenza di residuo.
componente stagionale
−2
1 2 3 4 5 6 7 8 9 10 11
time
funzione di autocorrelazione
1
−1
0 1 2 3 4 5 6 7 8
delay
Con il metodo dei minimi quadrati si ottiene che ogni valore Ŝi è semplice-
mente la media dei campioni di c(t) all’i-esimo istante all’interno di ciascuno
degli N periodi di ampiezza T che la compongono.
5
9 prezzi
trend
4
8
3
7 2
6 1
0
5
−1
4
−2
3 −3
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
time time
0.8
0.6
0.4
0.2
−0.2
−0.4
−0.6
−0.8
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40
delay
Figura 20: serie storica dei prezzi delle banane in Israele (1997-2002): serie dei
prezzi e trend (Filtro di Prescott-Hodrick, λ = 105 ), componente ciclica, funzione
di autocorrelazione della componente ciclica
2
2
1.5
1 1
0.5
0 0
−0.5
−1
−1
−2 −1.5
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
time time
funzione di autocorrelazione
componente residua r(t)
1
0.8
0.6
0.4
0.2
−0.2
−0.4
0 5 10 15 20 25 30 35 40
delay
Figura 21: componente stagionale S(t), componente residua r(t) = c(t) − S(t) e
sua funzione di autocorrelazione
8 8
6 6
4 4
2 2
0 20 40 60 80 0 20 40 60 80
−2 −2
0 20 40 60 80 0 20 40 60 80
Figura 22: analisi del prezzo delle banane: trend, componente stagionale,
componente residua
1.2
8
1
6
0.8
4
0.6
0.4 2
0 2 4 6 8 0 20 40 60 80
polynomial order time (months)
Figura 23: stima del trend del prezzo delle banane con il criterio di Akaike
funzione di covarianza
componente residua r(t)
1
0,5
−0,5
0 20 40 60
9 τ(t)=θ0+θ1t+θ2t2 2
1.5
8
1
7
0.5
6
0
5
−0.5
4 −1
3 −1.5
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
time time
componente residua r(t)= C(t)−S(t)
1.5
0.5
1
0.5
0
0
−0.5
−1
−1.5 −0.5
0 10 20 30 40 50 60 70 80 0 5 10 15 20 25 30 35 40
time delay
Figura 25: serie dei prezzi e trend (polinomio di secondo ordine), componente
stagionale, componente residua e sua funzione di autocorrelazione
La componente residua
Individuati il trend τ (t) e la componente stagionale S(t), il residuo
con la funzione f (·) che non dipende esplicitamente dal tempo. Il termine
r̂(t) = f (r(t − 1), . . . , r(t − m)) prende il nome di predizione ad un passo di
r(t), e quindi (t) è l’errore di predizione r(t) − r̂(t). Ogni trasformazione dei
dati precedenti costituisce una predizione di r(t) cui, dipendentemente dalla
forma di f (·) e dall’ordine m, corrisponderà un errore di predizione diffe-
rente. La predizione migliore si ha quando essa cattura tutta l’informazione
contenuta nei campioni precedenti r(t−1), r(t−2), . . . e determina un errore
(t) privo di informazione. Una sequenza è priva di informazione quando i
suoi campioni sono tutti tra loro indipendenti, per cui nessun insieme di essi
può fornire informazione circa nessun’altro campione. Tali sequenze sono
indicate come sequenze i.i.d (independent identically distributed) o sequenze
di rumore bianco. La predizione ottima è quindi quella per cui l’errore di
predizione (t) è una sequenza i.i.d..
L’espressione della predizione ottima può essere ottenuta in vari modi.
Analizzeremo i modelli che si incontrano più frequentemente in pratica.
Modello AR(n)
Viene detto modello autoregressivo in quanto la predizione è ottenuta come
media pesata dei campioni passati della serie fino ad un ritardo pari ad n,
che definisce l’ordine del modello
Modello ARMA(n,p)
In questo modello si ha una componente autoregressiva di ordine n, come nel
caso precedente, ma l’errore di modello è espresso come una media mobile di
p valori di una sequenza i.i.d.
fenomeno del volatility clustering, tipico delle sequenze dei returns di serie
finanziarie: nella sequenza si individuano sottosequenze (cluster) in cui la
varianza è costante, ma varia molto da cluster a cluster. Questi sono i modelli
ARCH(n) (autoregressive conditionally heteroschedastic)
deve essere accettata per tutti e quattro i valori del ritardo. L’errore quindi
è una sequnza i.i.d. per cui la componente residua r(t) ha una struttura
autoregresiva di ordine 2. La Figura 26 mostra infine tutte le componenti
dell’analisi additiva effettuata.
6 2
4 0
2 −2
0 20 40 60 80 0 20 40 60 80
−1
0
−2 −2
0 20 40 60 80 0 20 40 60 80
Figura 26: serie dei prezzi e trend (polinomio di secondo ordine), componen-
te stagionale, componente residua ed errore del modello AR(2) della componente
residua
Values of the Normal distribution Values of the Normal distribution