Sei sulla pagina 1di 40

LABORATORIO 2 (meccanica e Termodinamica) a.a. 2007/2008 F.Balestra. ( Per cortesia segnalatemi punti non chiari o refusi.

Grazie e buon studio)

Metodo dei Minimi Quadrati . Principio di Massima Verosimiglianza . Test del 2.


density function and distribution function
0.3
0.8

1.0

c 2 0.95H4L = 0.711 and c 2 0.05H4L = 9.488

0.2
0.6

0.4

0.1

0.2

10

12

10

20

30

40

50

- 0.1

9 8 7 6 5 4

Metodo dei Minimi Quadrati e Principio di Massima Verosimiglianza. Proprieta degli stimatori. Dipendenza della matrice di covarianza e del 2 dallerrore sulle y. Test del 2. Ricerca della migliore forma funzionale. Correlazioni tra i coefficienti stimati. Principio di Massima Verosimiglianza. Media pesata. Stima di parametri per la distribuzione di Bernoulli e di Poisson. Stima e proprieta degli stimatori.

Principio di massima verosimiglianza e metodo dei minimi quadrati. Supponiamo di avere n coppie di dati {xi; yi i} Sia y = f( x; a ) una funzione che fornisce un valore y per ogni x. La forma e nota, ma contiene un parametro a ( o piu parametri) che vogliamo stimare. Le misure yi hanno come valore vero y = f( xi;a) e sono disperse rispetto ad y a causa dellerrore i, con distribuzione gaussiana. La probabilita di ottenere un particolare valore di yi per un dato valore di xi e
1 2 i2 e dyi . i 2 La probabilita congiunta di ottenere la serie delle n misure indipendenti {yi} realmente ottenute vale P ( yi ; a ) = P = 1 P( yi ; a ) = (1
n n [ yi f ( xi ; a )]2

dyi

i 2

)e

[ yi f ( xi ; a )]2 2 i2

La funzione densita di probabilita corrispondente,detta a posteriori perche costruita con il campione di dati, e la funzione di verosimiglianza L per il campione di dati. Essa vale

1 2 i2 . L = 1 P( yi ; a ) = (1 )e 1 i 2 Il Principio di Massima Verosimiglianza assume che il valore piu verosimile come stima del parametro a e quello che rende massima la funzione L, ossia rende massima la probabilita di ottenere la serie di dati del campione . Massimizzare L eequivalente a rendere massima la funzione logaritmo l = ln L: n n n [ yi f ( xi ; a )]2 n 1 1 n [ yi f ( xi ; a )]2 l = ln L = ln 1 P ( yi ; a ) = ln[( ) ] ln[ ( 2 ) = i 1 21 2 i2 i2 i 2 1 1
n n

[ yi f ( xi ; a )]2

. Per rendere massima l e sufficiente minimizzare la sommatoria: n 2 [ yi f ( xi ; a )]2 , = 2


1

cioe minimizzare la somma del quadrato degli scarti, pesati, tra le yi e le f(xi;a) predette. Questo metodo e noto come Metoto dei Minimi Quadrati. Il metodo fornisce un mezzo per stimare il parametro a in una funzione f(xi; a) che fornisce i valori veri di y per ogni x. I dati usati sono le {xi} , assunte senza errori, ed i corrispondenti valori {yi} misurati con errore i. Si costruisce, per tutti i punti, la somma del quadrato delle differenze fra i valori misurati e quelli attesi f(xi; a) opportunamente scalate di i. n 2 2 [ yi f ( xi ; a )]2 Questa somma = e detta . Essa e la somma del quadrato di n variabili 2
1

normali standardizzate. Si vuole il valore di a che rende minima questa somma . Se sono note le derivate di f rispetto ad a il problema e di trovare la soluzione: 2 n 1 df ( x ; a ) d i = 0; 2 [ yi f ( xi ; a)] = 0 . 1 1 da da Se le i = sono tutte eguali la soluzione si ha risolvendo la :
2

n df ( xi ; a) d = 0; [ yi f ( xi ; a )] = 0 . 1 da da Se non si conoscono gli errori , la soluzione per a si ottiene dalla stessa relazione usata per le i = =cost.

Il valore stimato di a , indicato con a , sara prossimo al valore vero ma non coincidera con esso. La stima a e funzione delle yi : a = a ( yi ) . Usando la propagazione degli errori, assumendo le yi indipendenti, si ottiene la varianza del valore stimato: n a ^2 = ( ) 2 i2 . a yi 1 Se la f contiene N parametri { a1, a2, , an}, essi si otterranno dalla soluzione di un sistema di N equazioni in N incognite :
n df ( xi ; ai ) d = 0; [ yi f ( xi ; ai )] = 0 ; i = 1 , , N 1 dai dai Il caso della retta , della interpolazione lineare, e il piu comune: y = f(xi; a,b)= a + b x. Supposte valide le condizioni descritte sopra e i = = cost, la probabilita di ottenere un valore yi per un dato xi e data da:
2

P ( yi ; a , b ) =

. 2 La probabilita di ottenere linsieme completo di misure {yi} e il prodotto


1

dyi

[ yi f ( xi ; a )]2 2 2

P = 1 P( yi ; a, b) = (1
n

dyi

2
2
2

)e

[ yi ( a + bx )]2 2
2

=(
1 n

dyi

2
2 2

)n e

[ yi ( a + bx )]2 2 2

La funzione di verosimiglianza e espressa come: 1 )e 2 Il logaritmo di L vale:


L = (1
n
n

[ yi ( a + bx )]2

=(

1 )n e 2
1 )n
1 n

[ yi ( a + bx )]2

l = ln L = ln 1 P( yi ; a, b) = ln[(
1

[ yi f ( xi ; a)]2 ] = n ln( 2 2

1 n [ yi ( a + bxi )]2 2 ) 2 1 2

Il Metodo di Massima Verosimiglianza consiste nel fare lassunto, che la migliore stima di a e b , basata sulle n misure {yi} ottenute, e fornita dai valori degli stessi per cui L o l sono massime, e questo equivale a minimizzare : n [ yi (a + bxi )]2 . 2 = 2
1

(Il metodo e stato trattato in dettaglio nel corso di Lab. 1) Esempio: Vediamo come esempio il caso semplice in cui y e propozionale ad x : y = mx. Questo e un semplice esempio di fit con m come unico parametro incognito. La quantita da minimizzare in funzione di m, e n [ yi mxi ]2 2 = 2
i =1

Differenziando rispetto ad m si ottiene


3

[ y mx ] 2 n = 2 xi i 2 i m i =1 i

Se si assume che tutte le yi abbiano lo stesso errore 2 2 n 2 n = 2 xi [ yi mxi ] = 2 ( xi yi mxi2 ) m i =1 i =1 Per la stima di m questa quantita e zero: n n n 2 n 2 ( xi yi mxi2 ) = 0; ( xi yi mxi2 ); xi yi = m xi2

i =1

i =1
^

i =1

1=1

La stima di m diventa: m =

1=1

i =1 n

xi yi x
2 i

La precisione di questa stima , applicando la propagazione degli errori, risulta


n m ^ = ( )2 2 = ( m yi 1 1 2 n ^

xi

1=1

)2 2 = xi2

1=1

; ^ =
m

xi2

1=1

xi2

Proprieta degli stimatori . Eseguita la misura di due grandezze fisiche (x,y) e riportati i valori (xi,yii) su di un grafico cartesiano, nasce il problema di stabilire quale sia la relazione funzionale, y = f(xi,a) piu adatta per interpolare i dati. Le yi si assumono indipendenti e gaussiane. Il metodo dei minimi quadrati ci permette di determinare una stima dei parametri ma non ci fornisce indicazioni sulla scelta della funzione. Nel caso di una retta, di una relazione lineare : y = a + bx, per valutare i parametri si rende minima la somma

=
2 1

(y i ) 2

i2

=
1

( y i a bxi ) 2

i2

= z i2 .
1

Questo vale sia nel caso che le i siano eguali, sia in quello in cui siano differenti per ciascuna delle yi. N N [ y (a + bx)]2 (y i ) 2 2 = i = Se le i non sono note si stimano con: S y N 2 1 1 N 2 Valutati a e b, nel caso di i = y =costante, si ottengono le loro incertezze attraverso le relazioni :
2 y xi 1 N

=
2 a

N x ( xi )
2 i 1 1

, =
2 b
2

2 N y

N xi2 ( xi ) 2
1 1

Finora la procedura e stata semplicemente una determinazione di parametri. Per le stime, a e b, dei parametri valgono le seguenti proprieta : E[a + b x] = E[a] + x E[b] = A + B x. I valori veri A e B sono stimati da a e b che si suppongono distribuiti normalmente, con varianze 2 si suppone nota. a2 e b2 , attorno ai valori veri A e B. La varianza y
a e b sono detti stimatori corretti di A e B.

a2 = E[(a A)2] = minima. b2 = E[(b B)2] = minima. Gli stimatori a e b sono stimatori efficienti e precisi di A e B. n n n (y i ) 2 ( y i a bxi ) 2 2 = = = z i2 segue la distribuzione 2 con DF = n -2 . 2 2 i i 1 1 1 2 Nel caso di n misure dirette {yi y } della grandezza Y,
il valore medio y =
1 n yi e la migliore stima del valore medio della popolazione da cui il n 1 campione e ottenuto, che si assume come il valore vero della grandezza . n n n ( y i ) 2 ( yi y) 2 2 la variabile : = = = z i2 segue la distribuzione 2 con 2 2
1

y y 1 1 DF = n 1 gradi di liberta. 2 y = E[(yi y )2] = minimo. La media e uno stimatore efficiente o preciso.
E[ y ] = Y. La media e uno stimatore corretto di Y.
Nel caso di n misure dirette {yi i2 } della grandezza ,

la media pesata y =


1
n 1

yi
2 i

1 n

1
2 i

e la migliore stima della grandezza , e la variabile :

2 =
1

( y i ) 2

i2

( yi y) 2

i2

= z i2 segue la distribuzione 2 con DF = n 1 gradi di


1

liberta. 2 = E[(yi y )2] = minimo. y

E[ y ] = Y.

Se la distribuzione dellerrore non e nota la soluzione dei minimi quadrati gode ancora delle proprieta : Le soluzioni sono senza bias , sono corrette; Fra tutte le soluzioni, che sono stime senza bias della grandezza e combinazioni lineari delle misure yi, le soluzioni dei minimi quadrati hanno varianza minima; n n (y i ) 2 ( y i a bxi ) 2 2 = M = , E[M] = n 2. = 2 2
1

TEST del 2 : raccomandazioni per linterpretazione e luso. Prendendo come esempio il caso di andamento lineare, possiamo vedere quanto bene la curva si adatta ai dati. Il test del 2 permette di decidere se una relazione funzionale approssima statisticamente i punti sperimentali, oppure scegliere tra piu relazioni funzionali quella che li approssima meglio. Come primo passo sempre fare e rappresentare il GRAFICO di confronto dei punti misurati con la curva.

Note le i, se le yi sono normali, allora =


2 1

( y i ) 2

i2

=
1

( yi y) 2

i2

= z i2 e una variabile 2
1

con DF = n 2 gradi di liberta. Valutato il 2M , in funzione dei parametri a e b che lo minimizzano, si esegue il test del 2. Se 2 >> n -2 occorre controllare bene lassunto sul quale si basa il calcolo. Nel caso 2 DF =n 2 ,P[ 2DF > 2] > : la funzione e' corretta al livello di significativita di . Se 2 eccede il valore critico del 2, che corrisponde al livello di significativita e DF = n -2 ,si rigetta il risultato al livello di significativita di . Se P[ 2DF > 2] < : Rigetto. Il rigetto puo essere causato da piu ragioni: -da un errore di I specie; -la y = f ( xi,a) non e corretta e non e a applicabile,o perche totalmente sbagliata o qualche parametro di essa, che si e supposto noto, non e corretto. Se 2 << DF = n -2 : o gli errori sono sovrastimati, o i dati sono stati selezionati in modo speciale, o siamo stati fortunati a selezionare valori di yi molto prossimi a quelli attesi. Se il test fallisce , ( sempre fare come primo passo il GRAFICO), perche si trovano modelli migliori, in quanto ci sono evidenti deviazioni sistematiche dai punti della linea retta, si puo assumere una forma non lineare. Si possono nuovamente interpolare i dati, confrontandoli col nuovo modello di regressione ESEMPI
polynomial degree
1

polynomial degree

1.85563 x - 1.44361

2.73046 x - 0.894224

-1

-1

-2 0.0

0.2

0.4

0.6

0.8

1.0

-2 0.0

0.2

0.4

0.6

0.8

1.0

Gli ultimi tre punti non sembrano piu appartenere alla retta.

Il punto centrale devia di piu di 3 dalla retta.

1 2 ? 0 0.6 0.4 0.2 x ? 2.0

polynomial degree
1

2.33807 x - 1.64244

-1

-2 0.0

0.2

0.4

0.6

0.8

1.0

I punti sembrano essere bene interpolati da una parabola

mentre la retta non li interpola (successione di scarti tutti positivi poi tutti negativi, poi nuovamente positivi)
polynomial degree
2

polynomial degree
2

1.77587 x2 + 0.458199 x - 1.5923

2.7596 x2 - 0.279871 x - 1.5157

-1

-1

-2 0.0

0.2

0.4

0.6

0.8

1.0

-2 0.0

0.2

0.4

0.6

0.8

1.0

Gli ultimi tre punti non sembrano piu appartenere alla parabola. Ecco come cambia il fit escludendoli.

polynomial degree

polynomial degree

12.9256 x2 - 14.4205 x + 2.40084

- 8.1193 x3 + 25.7566 x2 - 19.8212 x + 2.86375

-1

-1

-2 0.0

0.2

0.4

0.6

0.8

1.0

-2 0.0

0.2

0.4

0.6

0.8

1.0

Landamento parabolico non interpola sufficientemente bene i dati; quello cubico interpola bene .

polynomial degree

polynomial degree

3.37832 x - 1.42167
2

- 0.27769 x2 + 3.63093 x - 1.45567

-1

-1

-2 0.0

0.2

0.4

0.6

0.8

1.0

-2 0.0

0.2

0.4

0.6

0.8

1.0

Non ci sembrano motivi per rigettare linterpolazione lineare e sceglierne una parabolica(figura di destra).

Se il test fallisce , ma non sembrano esistere modelli migliori, perche non si riscontrano deviazioni sistematiche dalla linea retta, si devono rivedere le assunzioni fatte sugli errori. Essi possono essere basati su stime troppo rozze o supposizioni non corrette, e possono essere sottostimati o sovrastimati. 2 Infatti, riferendoci per semplicita al caso di y = cost., se la y e sottostimata di un fattore F, tutti i termini della matrice degli errori ed il 2
2 y xi 1 N

2 =
1

( y i ) 2
2 y

=
1

( y i a bxi ) 2
2 y

2 = ,a

N x ( xi )
2 i 1 1

, b2 =
2

2 N y

N x ( xi )
2 i 1 1

,
2

sono influenzati. 2 Le varianze a , b2 sono aumentate di F2, mentre il valore del 2 e diminuito di F2.

F2 La matrice degli errori e stata calcolata secondo lerrore sulle y. I valori dei parametri , pero non vengono modificati poiche il punto di minimo del 2 non dipende da y . Al contrario il valore del
minimo del 2 ( che serve per il test) ed i valori della matrice degli errori sono molto influenzati dal valore di y . Vedere esempio A. Solo il test del 2 ( non il valore degli errori sui parametri) indica quando il modello assunto nella regressione , in questo caso una dipendenza lineare, e giustificato. Se y e piccolo , a e b sono piccoli, ma il 2 puo essere grande ed il test fallisce, anche se gli errori sui parametri sono piccoli. E necessario ottenere una attendibile , anche se rozza stima di y per potere effettuare il test del

' ' a = a F ; b = b F ; '2 =

2. Se le y non sono note ( misure fatte con lo stesso strumento, senza sistematici, errore ignoto) il
metodo da solo non permette di decidere quando il modello e giustificato. Rimane il riscontro qualitativo, derivante dallanalisi critica del grafico y = y(xi,a), per la ricerca di deviazioni sistematiche dei punti dalla linea ipotizzata . Se tali deviazioni sembrano esistere , allora occorre costruire altre forme non lineari e confrontarle con i dati. 8

Per stabilire se per una serie di punti e giustificato luso di una interpolazione lineare, come gia visto in piu occasioni, si puo fare uso del coefficiente di correlazione lineare .
Se le y non sono note , il metodo MMQ si puo sempre applicare . Si stimano i parametri a e b
(y i ) 2 . col solito metodo. Gli errori sulle yi si assumono tutti eguali e sono stimati da S = n2 1 2 Gli errori sui parametri si ottengono a partire da S y :
2 y n
2 = Sa 2 Sy xi 1 N

N xi2 ( xi ) 2
1 1

S b2 =

2 Sy N

N xi2 ( xi ) 2
1 1

Il test del 2 pero non si puo effettuare. 2 n n Sy ( y i ) 2 ( y i a bxi ) 2 La variabile per il test vale: 2 = n = = ( 2 ) 2 2 2 y y y 1 1 Se si assumesse y = Sy allora il valore del 2 assume il valore atteso 2 = n - 2 =DF, e non avrebbe piu alcun significato statistico. La variabile per il test si puo scrivere , come appena visto, 2 2 ~ 2 ~ 2 Sy Sy 2 2 = 2. = (n 2) 2 ed il come = n2 y y

La varianza y della popolazione e una caratteristica della dispersione dei dati dalla distribuzione primaria : y = A + B x e non e indicativa della bonta del fit. La Sy stimata, e invece caratteristica sia della dispersione dei dati sia dellaccuratezza del fit. 2 ~ 2 Sy La definizione di = 2 come rapporto della varianza stimata e la varianza della popolazione

rende il come una misura conveniente della bonta del fit. Se la funzione fit fosse una buona approssimazione della funzione vera , allora la varianza stimata
S dovrebbe accordarsi bene con la varianza ed il valore di dovrebbe assumere un valore
2 y 2 y ~ 2

~ 2

prossimo ad 1. Se la funzione fit non e adatta per descrivere i dati, la deviazione sara piu grande e portera a valori di > 1 o >> 1. Valori di < 1 non indicano, necessariamente, un miglioramento del fit, ma la conseguenza del 2 fatto che esiste una incertezza nella determinazione della variabile casuale S y , che fluttua, da campione a campione, seguendo una distribuzione ;di conseguenza il valore del , in prove ripetute, fluttua da esperimento ad esperimento. 2 2 E bene stimare sempre S y e confrontarlo con y (se nota).
2 Se il test fallisce , e si decide di rivalutare gli errori attraverso la S y , anche gli errori sulle stime

~ 2

~ 2

~ 2

~ 2

~ 2

dei parametri devono essere rivalutati.

ESEMPIO A Consideriamo la regressione lineare che fa uso delle stesse misure ma in cui si fanno tre differenti assunzioni circa il loro errori. Si esegue una regressione per una serie di dati , che sono riportati in tabella. t 0.5 11.2 19.3 30.7 51.0 y 5.0 8.0 23.0 36.0 43.0

Si fanno tre differenti assunzioni circa le deviazioni standard delle misure y. a) y = 1; b) y = 8; c) y non nota. I risultati sono riportati nelle figure e tabelle che seguono. Per la regressione si assume la forma: y = a + b t. La matrice di covarianza si esprime come: N N ti 2 ti 2 2 N N a ab y 1 1 ; = N t 2 ( t ) 2 , 2 = i 1 N 2 1 1 ab b ti N 1 ed il valore del 2 come: 2 n n Sy ( y i ) 2 ( yi a bti ) 2 n = = ( 2 ) 2 = 2 2 2 y y y 1 1 Il valore interpolato,Y, per un certo valore di t = T vale: Y = a + b T. 2 2 2 La varianza di Y vale: Y . =a + T 2 b2 + 2T ab Sebbene i parametri a e b non siano influenzati dalle assunzioni , vi e una significativa influenza sulla matrice di covarianza, sul minimo del 2 e sui limiti di confidenza. y = 1. a = 4.35 0.538 b= 0.827 0.00067

0.538383 0.0150125 N 0.0150125 0.00066604

2= 90.42 I limiti di confidenza sono molto piccoli; gli errori sui parametri sono molto piccoli ,tuttavia il valore del 2 e grande cosicche il test fallisce ( DF =3; = 0.01;2c = 11.340) y = 8. a = 4.35 34.45 b= 0.827 0.0427
34.4565 0.960802 N 0.960802 0.0426265 2=1.41 I limiti di confidenza , gli errori sui parametri sono grandi ma il valore del 2 e piccolo il fit sembra ragionevole. y = incognita a = 4.35 16.28
J

B = 0.827 0.0201 16.2861 0.454129 J N 0.454129 0.0201477

10

2 Sy e incognito ed e stimato da s y =

1 N ( yi a bti ) 2 ; Sy = 5.5 N 1 1 I limiti di confidenza sono ragionevoli confrontati con le variazioni dei dati. Il test del 2 non puo essere valutato.

Nelle figure sono riportati, per le tre situazioni, i grafici che confrontano i dati con la retta che meglio li interpola, i valori dei parametri stimati e la matrice di covarianza, i limiti di accettazione e rigetto , fissato = 5% e 1%, per il test 2.

y = 1
40

30 20

10

J
10 20 30 40 50

4.35293 0.538383 0.0150125 NJ N 0.827288 0.0150125 0.00066604

y=8

50 40 30 20 10

10

20

30

40

50

34.4565 0.960802 4.35293 N NJ 0.960802 0.0426265 0.827288

11

y = incognito ; Sy = 5.4

40 30 20 10

J
10 20 30 40 50

4.35293 16.2861 0.454129 NJ N 0.454129 0.0201477 0.827288

0.3

c 2 0.95H3L = 0.352 and c 2 0.05H3L = 7.815


0.3

c 2 0.99H3L = 0.115 and c 2 0.01H3L = 11.345

0.2
0.2

0.1
0.1

- 0.1

- 0.1

Ricerca della migliore forma funzionale. Si supponga di avere 7 coppie di misure , i valori dei quali sono riportati in tabella.

yi 0.5 5.0 4.5 6.0 7.5 7.5 8.5 8.5 xi 2 3 4 5 6 7 8 Gli errori sulle Xi si ritengono trascurabili. Si vuole determinare la migliore forma funzionale che lega le due grandezze. Si prendono in esame due funzioni: A) y = a + bx ; B) y = k ln (x) Col metodo dei minimi quadrati si determinano i valori dei parametri. Nel caso della funzione A) si ottengono: a = 3.25 0.51 , b = 0.714 0.095 Nel caso della funzione B) si ottiene: k = 4.364 0.023. In figura e riportato il confronto tra i dati sperimentali e le due curve best fit. Il test del 2 si puo utilizzare per decidere quale delle due funzioni si adatta meglio ai punti sperimentali. Per la curva A) il valore di ottenuto vale :2M = 6.6 , i gradi di liberta risultano :DF = 7 -2 = 5. 12

= 1.3 . La probabilita di ottenere un valore pari o maggiore di quello DF ottenuto vale P[ 2DF > 2M ] = 0.25. Per la curva B) ) il valore di ottenuto vale :2M = 19 , i gradi di liberta risultano :DF = 7 -1 = 6.
2
0.3

Il valore di ridotto =

M 2

c 2 0.95H6L = 1.635 and c 2 0.05 H6L = 12.592

0.3

c 2 0.95H5L = 1.145 and c 2 0.05H5L = 11.070

0.2

0.2

0.1

0.1

10

15

10

12

14

- 0.1

- 0.1

= 3.1 . La probabilita di ottenere un valore pari o maggiore di quello DF ottenuto vale P[ 2DF > 2M ] = 0.005.
9 8 7 6 5 4

Il valore di 2 ridotto =

Landamento lineare si adatta molto meglio ai dati sperimentali. La coppia di valori (2. ; 5.0 0.5) nel caso dellandamento y = k ln(x) quella che influenza maggiormente il valore del 2M , infatti la discrepanza tra valore misurato y1 =5.0 e valore atteso k ln(2) = 3. pari a 4 deviazioni standard. Se si reputasse , per qualche motivo, di eludere questo valore si otterrebbero i nuovi valori : Per la curva A) a = 2.72 0.69 ; b = 0.79 0.12 il valore di ottenuto vale :2M = 5.7 , i gradi di liberta risultano :DF = 6-2 = 4. = 1.4 . La probabilita di ottenere un valore pari o maggiore di quello DF ottenuto vale P[ 2DF > 2M ] = 0.22. Per la curva B) k = 4.238 0.029 il valore di ottenuto vale :2M = 2.5 , i gradi di liberta risultano :DF = 6 -1 = 5. = 0.5 . La probabilita di ottenere un valore pari o maggiore di DF quello ottenuto vale P[ 2DF > 2M ] = 0.75. La figura mostra i nuovi andamenti. 13 Il valore di 2 ridotto = Il valore di 2 ridotto =

M 2

M 2

9 8 7 6 5

Lesclusione della prima coppia di valori, non cambia in modo apprezzabile i valori dei parametri, ma fa si che questa volta landamento logaritmico sembri piu adatto a descrivere i dati sperimentali. Il rigettare o meno la prima coppia di valori cruciale per interpretare i dati. Occorre cautela ed unanalisi accurata degli eventuali sistematici, e se lanalisi non dovesse risultare decisiva, occorre ripetere la misura. Appendice:determinazione, mediante il MMQ, di k . y = k ln(x): determinazione di k k col metodo dei minimi quadrati. Si suppone yi = = cost n ( y k ln( xi )) 2 2 = i 2
1

2 = 2 ( yi k ln xi ) ln xi = 0 1 k
2 n

( y ln x ) = k
i i 1 1

(ln xi ) 2

k=

y (ln x )
i i

1 n

(ln xi ) 2

La varianza di k si ottiene propagando gli errori sulle yi

k2

2 (ln x j ) 2 n n ln x j 2 k 2 2 ) = n = n j =1 = = ( y j 2 2 2 j =1 1 [ (ln xi ) ] (ln xi ) i =1 i =1


n

(ln x )
i =1 i

k=

y (ln x )
i i

1 n

(ln xi ) 2

(ln x )
i =1 i

14

Esempio. Si interpolino , con il MMQ , N = 20 punti ( xi,yi) - Interpolazione lineare : DF = N- 2 = 20 2 = 18. Sia 2M= 36.3 il valore ottenuto. P[ 218 > 36.3] = 1% - Parabola: DF = N- 3 = 20 3 = 17. Sia 2M= 20.1 il valore ottenuto. P[ 217 > 20.1] > 20% - Cubica: DF = N- 4 = 20 4 = 16. Sia 2M= 17.6 il valore ottenuto. P[ 216 > 17.6] > 20% E improbabile, nel caso della retta, che per fluttuazioni casuali si ottenga un valore di 2M= 36.3: la probabilita P[ 218 > 36.3] dell 1% e moto piccola. La retta e improbabile. H0 e scartata al livello di significativita dell1%. Rigetto altamente significativo. Per la relazione parabolica la P[ 216 > 17.6] > 20% e elevata, in diversi campionamenti una volta su 5 possiamo trovare un valore grande come quello ottenuto. Se rigettiamo lipotesi di accordo incorriamo in un errore di I specie con una probabilita del 20 %. Non abbiamo motivo di dubitare, al livello di fiducia del 5 %, dellaccordo tra parabola e dati. Le fluttuazioni sono dovute al caso. Non ce giustificazione per la relazione cubica.

Errori su x non trascurabili: ancora qualche raccomandazione. Nel MMQ gli errori sulle ordinate sono assunti nulli, e tutta la incertezza e associata alla variabile dipendente y. Questo equivale ad assumere che la precisione delle x e considerevolmente piu alta di quella sulle y. Questa condizione puo essere considerata valida solo se le incertezze della yi, che possono essere indotte da variazioni della xi prodotte da errori casuali nella misura della xi stessa, sono molto piu piccole delle incertezze della yi stessa. Questo e equivalente , in prima approssimazione, alla richiesta, che per ogni punto misurato: dy x | |<< y dove dy/dx e la pendenza della curva y = y(x). dx Se le incertezze indotte dalla x non sono trascurabili, la procedura di fit sara ancora dy sufficientemente accurata se stimiamo il contributo yI = x | | , e combiniamo, in quadratura, dx questo contributo con quello diretto yD , che e lincertezza di misura di y:
2 2 2 y = yI + yD Con questa assunzione, lincertezza nei dati si associa solo alla variabile y dipendente, mentre le corrispondenti fluttuazioni possono avere origine sia dallincertezza sulle x sia da quella sulle y. In quei casi dove lincertezza nella determinazione della quantita indipendente sono considerevolmente piu grandi di quelle sulla quantita dipendente, e piu opportuno scambiare i ruoli delle due quantita.

15

FIT POLINOMIO DI ORDINE m. y = a0 + a1 x + a2 x 2 + ... + am x m Per lesecuzione del calcolo degli elementi delle matrici e opportuno usare un metodo che semplifica la procedura e la riconduce a operazioni di prodotto di matrici, inversione e trasposizione di matrici. 1 K 1 1 x1 x2 K xn xi: i=1,,n valori variabile x; m=grado del polinomio H = M M M m m m x x L x n 2 1
1 x1 1 x 2 T H = M M 1 x n 1 2 1 0 C = M 0 K x1m m K x2 M m L xn

matrice trasposta

0 1
2 2

0 1 2 n

i2: varianza del valore yi; i=1,,n

D = H C H T

D 1 = ( H C H T )

16

y1 y Inoltre, indicando con: Y = 2 e con: B = H C Y M y n


A= D B A = ( H C H T ) 1 ( H C Y )
1

si ottiene:

a0 a A= 1 M a m

Esempio: yi = a0 + a1 x + a2 x 2 ; ( xi , yi i ) ; i=1,,n

1 H = x1 x2 1

x2 2 x2

1 x1 L 1 1 x 2 T L xn H = 2 M M L xn 1 x n

x12 2 x2 C = M 2 xn

12

0 1
2 2

0 M 0

0 y1 0 y2 = Y M M y 1 2 n n

ESEMPI di interpolazione degli stessi dati con polinomi di ordine successivo.

17

T@sD 2.3 2.2 2.1 2

PRIMA PARABOLA ToHdL

T@sD 2.1 2.08 2.06 2.04 2.02

400

SECONDA PARABOLA To'HdL

600

800

1000

1200

d@mm D

400 1.98

600

800

1000

1200

d@mmD

18

T@ sD 2.3

PRIMA CUBICA ToHdL

2.2

2.1 d@mm D

400
T @sD 2.3

600

800

1000

1200

SECONDA CUBICA To'HdL

2.2

2.1 d@mmD

400

600

800

1000

1200

19

T@s D 2.3

PRIMA QUARTICA ToHdL

2.2

2.1

2 d @mm D

T@sD 2.15

SECONDA QUARTICA To'HdL


400 600 800

1000

1200

1400

2.1

2.05

2 d@mmD

400

600

800

1000

1200

1400

20

T@sD

CURVA DI QUINTO GRADO To

2.6

2.4

2.2

2 0 400 600 800 1000 1200 1400

d@ mmD

21

TEST 2:Accordo tra una distribuzione teorica ed una sperimentale. Con il test normale e di Student, abbiamo costruito dei test di ipotesi che specificano i valori di uno o piu parametri della popolazione. Essi si possono indicare come test parametrici. La procedura consiste nel rigetto o accettazione di una ipotesi sulla base sulla base di un singolo numero determinato dal campione. Unaltra classe di test confronta la funzione di distribuzione del campione direttamente con la distribuzione della popolazione ; questultima puo essere basata su alcune ipotesi. Si vuole stabilire se vi e accordo tra una distribuzione teorica ed una sperimentale, se listogramma delle frequenze sperimentali e compatibile con una distribuzione limite attesa , ottenibile solo nel caso di un numero infinito di misurazioni. Negli esempi in figura sono riportati i casi in cui la distribuzione limite attesa sia gaussiana, uniforme ed esponenziale. In tutti e tre i casi ci si aspetta che allaumentare del numero di prove , allaumentare della grandezza del campione, la distribuzione sperimentale approssimi sempre meglio quella attesa. Sono mostrate le fluttuazioni statistiche possibili in campioni di grandezza N=100, e come esse diminuiscano allaumentare della grandezza del campione N=1000 e N=100000 . Se si dispone di campioni di grandezza finita ad esempio N = 100, come si puo stabilire se le fluttuazioni tra campione e campione e tra istogramma e distribuzione limite ipotizzata siano solo casuali?. Il test del 2 puo essere utilizzato per rispondere alla domanda.

GAUSSIANA
100 values

100 values

-4

-2

-4

-2

100 000 values


1000 values

-4

-2

-4

-2

22

UNIFORME
100 values

100 values

0.2

0.4

0.6

0.8

0.2

0.4

0.6

0.8

1000 values
100 000 values

0.2

0.4

0.6

0.8

0.2

0.4

0.6

0.8

ESPONENZIALE
100 values

100 values

1000 values

100 000 values

Si abbia una variabile casuale x. Si disponga di n dati sperimentali xi. Si divida lintervallo delle eventualita di x in k classi tra loro mutuamente esclusive e di ampiezza x. Sia pi la probabilita che un valore di x cada nella classe i-esima. Si indichino con Oi le frequenze sperimentali osservate,ossia il numero di volte che si sono presentati i valori di x in tale classe (intervallo). Se Oi rappresenta la frequenza assoluta in quella 23

classe, i = Oi/n rappresenta la frequenza relativa. Si costruisca listogramma delle frequenze sperimentali. Si indichino con Ei le frequenze assolute teoriche attese : Ei = n pi. La frequenza relativa teorica attesa coincide con pi . La

Oi = n ; pi = 1
1 1

Se le variabile x e discreta Ej = n pj Se la variabile x e continua e f(x) e la funzione densita di probabilita, le probabilita per valori di x di appartenere alla classe j sono: p j =
xj + x xj

f ( x)dx f ( x* j ) x

dove f ( x* j ) e calcolato nel valore centrale della classe j. Il numero atteso di valori nella classe j
vale : Ej = n pj. La distribuzione congiunta delle frequenze in prove ripetute ed indipendenti e multinomiale: n! P(O1 , O2 ,..., Ok ) = ( P1 ) O1 ( P2 ) O2 ...( Pk ) Ok . O1!O2 !,..., Ok ! Le deviazioni standard valgono : i = npi qi , e se: pi <<1 allora i = npi = Ei . In ogni classe la distribuzione delle frequenze Oi si puo assumere segua la distribuzione di Poisson di valore medio Ei e varianza i2 = Ei . Si usano le frequenze assolute Ei come frequenze vere , come norma, in ogni classe. La quantita ( Oi Ei)2 si puo ragionevolmente assumere come una misura della deviazione delle frequenze teoriche Ei dalle sperimentali Oi. Si debbono confrontare tra di loro le deviazioni dalla norma delle varie classi, ed e necessario normalizzare tra di loro gli scarti. (O Ei ) 2 Consideriamo come scala, come misura di ogni deviazione il rapporto i . Ei Allora il valore ' 2 = (Oi Ei ) 2 , lo possiamo considerare come una misura della deviazione Ei 1 totale. Sostituendo e sviluppando il quadrato si ottiene k k k k k O 2 + Ei2 2Oi Ei O2 k O2 (Oi Ei ) 2 '2 = = i = i + Ei 2 Oi = i n . Ei Ei 1 1 1 Ei 1 1 1 Ei
k

Se consideriamo le frequenze assolute vale inoltre la relazione:

E = O
i
1 1

=n.

La variabile ' 2 e distribuita asintoticamente come una variabile 2 con DF = (k 1 )gradi di liberta. Infatti , a causa del vincolo:

Ei = Oi = n , solamente (k 1 ) variabili Oi sono


1 1

realmente indipendenti. Se non si stimano parametri della distribuzione teorica ipotizzata f(x) i gradi di liberta restano ( k-1). Se si devono stimare h parametri della distribuzione , i gradi di liberta si riducono di numero : DF = k 1 h, poiche si impongono (h + 1) vincoli sui dati. Affinche la distribuzione ' 2 sia approssimata da quella 2 assume importanza il valore della frequenza assoluta attesa Ei in ogni classe. Esse debbono essere in ogni classe : Ei = n pi > 5. Questo potra venire realizzato con opportuni raggruppamenti di classi.
24

Se si assume che la variabile i-ma si comporti approssimativamente come una variabile di Poisson (O Ei ) 2 di valore medio = Ei e varianza 2 = Ei allora il rapporto i rappresenta il quadrato di Ei una variabile standardizzata di Poisson. Per > 5 una variabile di Poisson puo gia essere ben k (Oi Ei ) 2 2 approssimata da una variabile gaussiana, e la sommatoria: = DF = zi2 , risulta la Ei 1

somma del quadrato di k variabili normali centrate e ridotte , ossia una variabile 2 con DF = ( k-1-h) gradi di liberta. Calcolato il valore '2 per applicare il test del 2 si deve decidere prima sul valore del livello di
2 fiducia e in base a questo si determinano i limiti della regione critica tale che 2 2 P ( DF > ) = = 2 f DF ( 2 )d 2 (Uso tabelle).

Le successive decisioni sono fissate avendo scelto la regione di accettabilita dellipotesi H0. 2 2 2 Se il valore M calcolato cade al di fuori della regione di fiducia ( M ), nella zona di rigetto, > allora la distribuzione teorica non si adatta bene ai nostri dati al livello di fiducia di . c 2 0.95H4L = 0.711 and c 2 0.05H4L = 9.488 0.3

0.2

0.1

10

12

- 0.1
Considerazioni

La distribuzione limite teorica (Ei) ci dice quanti eventi di un certo tipo sono attesi in una certa classe quando il numero delle prove n e molto grande (n ). Ei = n pi: numero medio di conteggi attesi nella classe i. In pratica, se ripetessimo la prova molte volte (se ricavassimo molti campioni di grandezza n) il numero Oi osservato di eventi in ogni classe fluttuerebbe da una prova allaltra: Oi segue
25

approssimativamente una distribuzione di Poisson. I diversi valori Oi dovrebbero avere valori medi =Ei e dovrebbero fluttuare intorno ad Ei con =Ei (errore statistico). Cosi i numeri da confrontare sono le deviazioni (Oi - Ei) e =Ei. Pertanto la quantita: (Oi Ei ) 2 Ei per alcuni dei k intervalli potra essere >>1, per altri <<1, in media 1.

2 2 2

(Oi Ei ) 2 e indice dellaccordo: = Ei 1 = 0: accordo perfetto (molto improbabile); D.F.: accordo; >> D.F.: vi e il sospetto che la misura si discosti dal valore atteso.
k

(Oi Ei ) 2 e la variabile standardizzata al quadrato. Gli intervalli dovrebbero essere scelti in modo Ei che il conteggio atteso Ei in una classe sia ragionevolmente grande (>5). Se i numeri in gioco sono ragionevolmente grandi la distribuzione di Poisson e ben rappresentata dalla distribuzione normale, quindi i numeri Oi possono essere trattati come fossero variabili casuali continue, distribuiti attorno al valore medio Ei secondo la gaussiana, anche se nei problemi considerati Oi e una variabile discreta distribuita secondo Poisson. Allora '2 = (variabile normale standardizzata)2 puo essere pensata come una variabile 2 e seguire la fDF(2) distribuzione 2 con gradi di liberta DF=k-h-1 (nel caso di una gaussiana in cui sono stimati 2 parametri e , occorre che k4) La condizione per cui Oi segua Poisson e: pi<<1. Bisogna quindi impostare un numero opportuno di classi perche essa sia verificata. Occorre sottolineare, nel caso di una variabile continua, che il confronto tra le frequenze sperimentali, variabili discrete, e le frequenze teoriche, variabili continue, e tanto piu attendibile quanto piu n e grande e lampiezza della classe x e piccola. (fare riferimento anche agli esempi gia trattati in Lab. 1)
i =1 k

26

TEST 2 : Esempio per una distribuzione di Poisson Rutherford e Geiger in una celebre esperienza studiarono le emissioni di particelle a da un preparato radioattivo . Divisero il tempo in N = 2608 intervalli uguali aventi la durata di t = 7.5 s ciascuno, e misurarono il numero Xi di particelle emesse in ogni intervallo. Ottennero i risultati dalle prime due colonne della Tab 1. dove: Oi il numero di intervalli in cui furono emesse Xi particelle. Ei: rappresenta il numero di intervalli in cui ci si aspetta siano emesse Xi particelle se la distribuzione e quella di Poisson con valore medio = x Xi Oi 0 57 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 Ei i P(Xi) (Oi -Ei)2/E 0,021 0.081 0.156 0.201 0.194 0.151 0.097 0.054 0.026 0.011 0.11 0.298 1.52 0.0 1.1 0.55 1.5 0.01 7.60 0.14

600 500 400 300 200 100 0 0 1 2 3 4 5 6 7 8 9 10 Serie1 Serie2

54 0,022 211 0.078 407 0.147 525 0.201 508 0.204 394 0.156 254 0.105 140 0.533 68 0.017 29 0.010

La figura riporta landamento delle frequenze Oi ed Ei Laccordo e buono. Un criterio per valutare laccordo e il test del 2 TEST 2 . Ipotesi nulla H0 : la distribuzione e poissoniana. Stimiamo i valori attesi Ei= P(Xi)N secondo tale ipotesi. = x=

xi Oi O
0 0 10 i

10

=3.87 ; S 2 =

10

(xi x) N 1

= 3.63.

La teoria richiede s2 = : laccordo e buono xi e 3.87 xi e 3.87 i = Oi / N ; P ( xi ) = = xi ! xi ! Ei = N P(Xi) ; N= Oi = 2608 ( 1 vincolo). Stimato il parametro ( secondo vincolo) . Numero classi = 11. I valori di P(Xi) e di Ei sono indicati in tabella. Indicare gli errori statistici sullistogramma delle frequenze. Il valore del 2M = (Oi-Ei)2/Ei = 11.3. I gradi di libertasono: DF=(11-2)=9. Il valore di 2M ridotto = 2M / DF = 1. 2 P(2DF=9 2M) = 29%. Lipotesi di distribuzione poissoniana e accettata al livello di significativita del 29%. 27

I valori di 2 critici per D.F.= 9 sono , fissato un livello di fiducia del 5%, :limite a sinistra=3.33 limite destro= 16.92. Il valore di 2M = 11.3 cade entro tali limiti. Lipotesi Ho si ritiene accettata.

Esempio Si ottenga un campione di n = 120 lanci di un dado, che si suppone, non truccato. Nel caso di un dado non truccato, le probabilita che si presentino le facce 1,2,3,4,5,6 sono tutte eguali: p1=p2=p3=p4=p5=p6=1/6 . Le corrispondenti frequenze assolute attese Ei sono: np1 = np2 = = np6= 120 (1/6) = 20. Le frequenze realmente osservate Oi potranno essere diverse. i Oi Ei = n pi Oi - Ei (Oi-Ei)2 1 22 20 2 4 2 11 20 -9 81 3 10 20 -10 100 4 17 20 -3 9 5 35 20 15 225 6 25 20 5 25 Si vuole controllare laccordo tra landamento delle frequenze osservate Oi e landamento della distribuzione di quelle teoriche attese, che si postula sia costante e pari a Ei = 20. Se laccordo non fosse buono, lipotesi di dado non truccato potrebbe non essere vera. k k (Oi npi ) 2 (Oi Ei ) 2 '2 Si costruisce la variabile = . = npi Ei 1 1 (Oi npi ) 2 = zi si puo supporre In ogni classe il valore atteso Ei = n pi e Ei > 5 , e la variabile npi (Oi npi ) 2 segue una distribuzione una variabile normale centrata e ridotta. La variabile = npi 1 2 con DF = k -1 gradi di liberta. Le probabilita pi = 1/6 si suppongono note, e quindi non si
'2 k

debbono stimare parametri . Esiste un vincolo, poiche

O
1

= n , e le variabili realmente

indipendenti non sono k ma (k -1). In questo caso il numero di variabili e k =6 e DF = 6 -1 = 5. 6 6 (Oi Ei ) 2 (Oi 20) 2 444 2 = = = = 22.2 Il valore di 2M vale M 20 20 Ei 1 1 Se si fissa un livello di fiducia = 5% , per un valore DF =5 , il valore critico risulta 2c = 11.07. Il valore di 2M osservato supera il valore critico al livello di significativita del 5 %. Si scarta lipotesi che le probabilita siano eguali e pari a pi = 1/6, e che Ei =n pi = 20. Le frequenze osservate differiscono in maniera significativa da quelle attese e si rigetta lipotesi che ci sia accordo tra i valori di frequenza misurati e la forma ipotizzata , che prevede Ei = npi = 20. La discrepanza tra valori osservati e quelli attesi non puo essere imputata solamente a fluttuazioni casuali , lipotesi che il dado non sia truccato viene rigettata al livello di significativita del 5%. Se = 1% e DF = 5 il valore di 2c risulta 2c = 15. Lipotesi che il dado non sia truccato puo venire rigettata anche al livello di significativita del 1%. Il rigetto e altamente significativo, si puo commettere un errore di I tipo con probabilita inferiore all 1%. 28

0.3

c 2 0.95H5L = 1.145 and c 2 0.05H5L = 11.070

0.3

c 2 0.99H5L = 0.554 and c 2 0.01H5L = 15.086

0.2

0.2

0.1

0.1

10

12

14

10

12

14

- 0.1

- 0.1

Appendice 2:Esempio del significato delle correlazioni tra i coefficienti stimati col MMQ.

2.05 2.025

-1

-0.5 1.975 1.95 1.925

0.5

Fig 1:andamento del periodo attorno al coltello O in funzione del tempo. I punti sono interpolati, previa traslazione dellasse delle ascisse nel baricentro dei valori di , con una parabola (vedi programma di Mathematica)

2.02

-1

-0.5 1.98

0.5

1.96

1.94

Fig2:andamento del periodo attorno al coltello O1 in funzione del tempo. I punti sono interpolati, previa traslazione dellasse delle ascisse nel baricentro dei valori di , con una parabola (vedi programma di Mathematica)

29

2.05 2.025

-1

-0.5 1.975 1.95 1.925

0.5

Fig 3: calcolo del valore del periodo in corrispondenza dellintersezione delle due parabole
2.02

-1

-0.5 1.98 1.96 1.94 1.92 1.9

0.5

scatter 0.02

ab 0.12

scatter

ac

0.015 0.11 0.01 0.005 1.895 1.905 scatter 0.12 0.11 bc 1.91 1.915 1.895 0.09 1.905 1.91 1.915

0.005 0.09

0.01

0.015

0.02

30

60 50 40 30 20 10

1.895
50 40 30 20 10

1.9

1.905

1.91

1.915

0.005

0.01

0.015

0.02

60

40

20

Fig 4: correlazione tra i coefficienti dei parametri di una parabola T=A+ Bd+Cd2 ottenuti col metodo dei minimi quadrati. La figura riporta il coefficiente di correlazione (covarianza) tra i parametri A-B, A-C, B-C. Come si nota i coefficienti di correlazione A-B e B-C sono fra di loro scorrelati, infatti il diagramma mostra un coefficiente di correlazione prossimo a 0 . I coefficienti A e C sono invece correlati come mostrato dal diagramma che indica una correlazione diversa da 0 e negativa. La correlazione pari a 0 tra i coefficienti A e B e tra i coefficienti B e C ottenuta grazie alla traslazione dellasse delle ascisse nel baricentro delle di. Presa la serie di punti T(di ) i e interpolandoli si ottiene una parabola di coefficienti Ai, Bi, Ci. Facendo variare ogni valore di entro lerrore i secondo, una distribuzione gaussiana, si ottiene unaltra serie di dati che interpolati forniscono altri coefficienti Ai, Bi, Ci. Il procedimento si ripete N volte ottenendo una serie del valore degli stessi con i=1N. Negli istogrammi sono riportati le distribuzioni ottenute dei valori dei coefficienti A, B ,C. I diagrammi riportati sopra si ottengono mettendo in correlazione i vari coefficienti ottenuti.

0.09

0.1

0.11

0.12

31

Rapporto di verosimiglianza. Principio di massima verosimiglianza.

Si supponga che f(x, ) sia una funzione densita di probabilita caratterizzata da k parametri (1, 2, , n). Sia x1, x2, , xn un provino ottenuto da n misurazioni di una data grandezza fisica, il cui comportamento e assimilabile a quello della variabile casuale x. Lespressione dPj = f ( x j , )dx j e la probabilita di ottenere il valore x compreso tra xj e xj+dxj. Se gli n risultati xj si suppongono indipendenti, allora la probabilita che x1 sia compreso tra x1 e x1+dx1, x2 tra x2 e x2+dx2, , e data dal valore della probabilita congiunta: dP = f ( x j , )dx j
j =1 n

funzione di k parametri
n

Lespressione produttoria: L = f ( x j , ) e detta funzione di verosimiglianza. Essa non deve


j =1

essere identificata con una funzione densita di probabilita in senso stretto, anche se ne ha le caratteristiche. Il termine verosimiglianza indica che essa ha il significato di una funzione densita di probabilita non a priori ma a posteriori, essendo definita sul provino di dati a disposizione. Si supponga, per semplicita, che la popolazione sia caratterizzata da un solo parametro che puo assumere al piu due valori 1 e 2, distinti tra loro. Si puo costruire il rapporto:
Q=

f (x , )
j 1

f (x , )
j 2 j =1

j =1 n

rapporto di verosimiglianza

Esempio: =parita di uno stato; 1=dispari; 2=pari Il risultato del processo di campionamento puo indicare che linsieme col parametro =1 e Q volte piu probabile dellinsieme allorche =2. Esempio: viene lanciata una moneta asimmetrica. 5 lanci: 1 volta T; 4 volte C Tre ipotesi: A PT=1/3; PC=2/3 B PT=2/3; PC=1/3 C PT=1/2; PC=1/2 A seguito dei risultati dellesperimento, la funzione di verosimiglianza ha valore: 1 2 ipotesi A L A = 3 3 21 ipotesi B LB = 3 3
4

11 ipotesi C LC = 22 e dunque i rapporti di verosimiglianza risultano: Q AB = LA LB = 8 Q AC = LA LC = 2.1 QBC = LB LC = 1.8 La verosimiglianza dellipotesi A e la piu alta fra tutte; e molto probabile che la moneta appartenga alla classe A piuttosto che alla classe B o C. Esempio: 1=0.4 e 2=0.2 rappresentino la proporzione di individui di gruppo sanguigno Rh- in due diverse popolazioni. Si considerino le popolazioni bernoulliane e si osservi un campione di 20 individui: x=6 soggetti presentano questa caratteristica. 32

Ipotesi 1 il campione proviene dalla popolazione 1 x L( x, 1 ) = 1 (1 1 ) n x = 0.4 6 0.614 = 0.0000032 Ipotesi 2 il campione proviene dalla popolazione 2 x L( x, 2 ) = 2 (1 2 ) n x = 0.2 6 0.814 = 0.0000028 L ( x, 2 ) = 0.875 Q= L ( x, 1 ) La verosimiglianza dellipotesi riferita alla popolazione 2=0.2 e del 12.5% piu bassa.

La funzione di verosimiglianza e di massima verosimiglianza. Stima di parametri.

La funzione di verosimiglianza L = f ( x j , ) considerata come funzione di puo presentare uno


j =1

o piu massimi. 1) Un solo massimo 1 con simmetria attorno a 1: in tal caso


2 1 e la miglior stima di e la 1 puo essere presa come errore sulla stima di 1. 2) Un solo massimo 1 con asimmetria attorno a 1: in tal caso
2 1 e la miglior stima di ma la 1 e poco significativa. Presentare L() e 1. 3) Piu massimi: e preferibile scegliere il che corrisponde al massimo dei massimi di L(). Riportare L().

Determinazione del massimo

La ricerca del massimo di L() viene fatta risolvendo lequazione:


n

dL( ) =0 d

E preferibile dapprima calcolare: l = ln L = ln f ( x j , ) e poi farne la derivata. La posizione dei


j =1

massimi di L() e di ln L() e la stessa. Se si considera un solo parametro , si puo risolvere lequazione: n dl d ln L n d f' n l'= = = ln f ( x j , ) = = ( x j , ) d d j =1 d j =1 f j =1 Se i paramtri sono k, si dovra risolvere il sistema di equazioni: dl = 0 con i=1,2,,k di
Stima dellerrore Se il numero delle osservabili e grande, L tende ad una gaussiana, almeno in prossimita del massimo, e l tende ad una funzione parabolica nella regione in cui la sua derivata si annulla. La miglior stima del parametro e il valore 0 che rende massime sia L che l. La precisione con cui si determina 0 e determinata dalla condizione: 2 l (0 ) = lmax 1 che e equivalente alla: ( ) = 2 ( L) 2 33

2l Infatti, nel caso in cui L e circa gaussiana, si ha: ( L) = 2 0 Nel caso piu generale di piu parametri , i valori di essi si ottengono risolvendo il sistema: dl = 0 i di Se L e gaussiana: 2 1 2 2l 2 H ij = Eij = (H 1 )ij Eij = i j O 2 k

1 / 2

Stima di e media pesata

La misura di una grandezza fisica ha un comportamento assimilabile a quello di una variabile casuale normale con madia . La generica misura xj abbia varianza sj2. La probabilita a posteriori di ottenere un valore di x compreso tra xj e xj+dxj e data da:
f ( x j , )dx j = Se le misure sono n, allora: 1 e 2 s j
1 e 2 s j
x j 2s2 j

)2

dx j

L=
j =1

x j 2s2 j

)2

2 1 1 n (x j ) n l = ln L = + ln 2 sj 2 j =1 2 s j j =1

Se vogliamo stimare , dobbiamo risolvere lequazione: xj dl 1 n ( x j ) 1 l'= = 2 = 0 2 2 = 0 2 d 2 j =1 s j sj sj

xj
2 j

1 s2 j

valore medio delle misure, ciascuna pesata sullinverso dellerrore al quadrato 1 xi = x n


2l = 2
1 / 2

Se le sj sono tutte uguali: = Errore su :

1 2l = 2 2 sj

1
2 j

Media pesata: esempio.

34

Supponiamo di misurare la tensione di una cella fotovoltaica. n1 = 40 misure V1 = 1.021 V sV1 = 0.010 V Prendiamo piu confidenza e impariamo a migliorare lo strumento usandolo meglio, miglioriamo la precisione intrinseca dellapparato (sv) di 2.5 volte: n2 = 10 misure V2 = 1.019 V sV2 = 0.004 V 0.01 0.004 = 0 . 0016 V = = 0.0013 V V 1 2 40 10 Il confronto mostra che il fatto di fare piu misure decresce lerrore come 1 / n , ma questo non e cosi importante come migliorare decisamente la precisione dellapparato. Combiniamo le due serie di misure: V 40 10 i2 (0.01) 2 (1.021) + (0.004) 2 (1.019) i V = = = 0.39(1.021) + 0.61(1.019) = 1.0196 V 1 40 10 + 2 (0.01) 2 (0.004) 2 i

V =

V =

1 1
2 V
1

1
2 V
2

= 0.0010 V

Sebbene vi siano 40 misure nella prima serie e solo 10 nella seconda, nella valutazione della media il risultato della seconda serie pesa circa il doppio perche il suo errore e 2.5 volte minore.

Stima di 2(noto )

Sia noto e incognita 2 (con le sj tutte uguali).


f ( x, , ) =
n

1 e 2

( x )2 2 2

i 1 2 2 L = f ( xi , , ) = e i =1 2 n 1 l = ln L = ln(2 2 ) ( xi ) 2 2 2 2 l n 2 1 l'= = + ( xi ) 2 2 2 2 2 2 2 2( ) 2 Per determinare si deve porre: l=0 n ( xi ) 2 = 0 2 = ( xi ) 2 + n 2 2 2( 2 ) 2

( x )2

Errore su 2:
1 2 = 2l ( 2 ) 2 2 2 =

35

( xi ) 2 n 2l 2 = + 2 3 2 2 2 2 ) ) ( ) 2( 2 (

2 = La l va calcolata per 2 =

: n 2l 2 2 n n n + 6 = 4 4 ( 2 ) 2 = 2 2 2 2
4 2 )= Var ( n
2

(x

)2

Quindi:
2 = 2 2 n

N.B.: se non conosciamo e lo stimiamo con x allora 2 e stimato da s 2 = quindi s22 = 2 4 (n 1)

1 ( xi x ) 2 e n 1

Distribuzione di Bernoulli: stima di p

Un evento a di probabilita incognita p si e presentato x volte in n prove. Qual e il valore piu probabile di p? Vogliamo fare una stime di p. n x n x Distribuzione di Bernoulli: la probabilita di ottenere x successi in n prove e pari a x p (1 p ) Scegliamo una funzione di verosimiglianza: n x x! n x x n x L ( x, p ) = x p (1 p ) = n!(n x)! p (1 p ) che va intesa come una funzione della sola p (il nostro parametro). n l = ln L = x ln p + (n x) ln(1 p) + ln x Per stimare p occorre risolvere: l=0 dl x n x x xp np + xp x l'= = 0 x np = 0 p = = =0 dp p 1 p p(1 p) n x Pertanto la frequenza relativa = e la stima di massima verosimiglianza del parametro p della n distribuzione binomiale. Per n si ha: p (stima consistente) E()=p (stima corretta) Se ripetiamo la serie di n prove r volte, ottenendo r valori {x1, x2, , xr}, allora: r n xi n xi L( xi , p) = x p (1 p) i =1 i r r r n l = ln L = xi ln p + ln(1 p) (n xi ) + ln x i =1 i =1 i =1 i 1 dl 1 = xi l'= (n xi ) = 0 1 p dp p xi = 1 xi = 1 = p= n r i nr r 36

(frequenza relativa media)


Distribuzione di Poisson: stima di

Sia il parametro stimatore del valore medio della distribuzione di Poisson: x e f ( x, ) = x! In n prove otteniamo { x1, x2, , xn}, con i = xi e xi = N . La funzione di verosimiglianza per il dato campione e: n xi e L= xi ! i =1 l'=

l = ln L = {xi ln ln ( xi !) }

dl x 1 = i 1 = xi n d La stima di verosimiglianza di si ottiene risolvendo: l=0 1 n xi = x = = xi n x 2 x e uno stimatore corretto e ha varianza minima: x = n 1 1 = 1 =x x2 = = 2 nx n l" x ( xi )/ x x2 Quindi la stima di massima verosimiglianza del valore medio di una variabile di Poisson e data da: =x = x n x n = 1 = 1 = 1 = x xn xi N

=x = x In una sola prova: i i

2 = xi

Se gli intervalli di tempo ti in cui si effettuano i conteggi xi non sono uguali: (ti ) xi e ti xi N 1 P ( xi ) = = = = xi ! ti T N

37

Stima. Stimatori e loro proprieta

Uno degli scopi della statistica inferenziale e quello di ottenere informazioni circa i parametri della popolazione, che devono essere considerati fissi, a partire dai valori determinati in base al campione, che sono invece variabili casuali. I parametri, infatti, quali e , sono delle costanti numeriche, mentre i corrispondenti stimatori x e s sono variabili casuali che seguono una distribuzione di probabilita. Il fine e quello di ottenere dai valori campionari indicazioni quanto piu precise possibile circa il valore vero delle quantita ignote, stime quanto piu possibile vicine ai parametri cercati. La metodologia adatta a raggiungere questo scopo costituisce una procedura che viene detta stima; si parla di stima puntuale quando fornisce un singolo valore del parametro in studio, oppure di stima per intervallo se consente di costruire un intervallo (fornisce due numeri) entro cui si puo supporre che il parametro sia compreso. La stima dei parametri di una popolazione consiste nel determinare uno stimatore, ossia una funzione t(x1, x2, , xN) delle N determinazioni sperimentali xi della grandezza x che costituiscono il campione, che fornisce un valore approssimato del parametro. Nel caso della media, ad xi . Il valore di uno stimatore per un dato campione e detto esempio, la funzione t vale: x = N stima. Uno stimatore e una funzione di variabili casuali e, pertanto, una variabile casuale esso stesso; si puo parlare di valore medio e varianza di uno stimatore riferendoci alla popolazione dei possibili valori della stima in corrispondenza di tutti i possibili campioni. Per derivare uno stimatore puntuale, i criteri di stima piu usati sono: il metodo di massima verosimiglianza e il metodo dei minimi quadrati.
Proprieta degli stimatori

Ad uno stimatore si possono associare diverse caratteristiche che ne individuano la bonta. Un buon stimatore deve essere: - consistente - corretto - efficiente Indichiamo con a la quantita da stimare e con lo stimatore. Ad es.: a; = x Lapplicazione di uno stimatore al campione di dati di N misure porta alla stima di a. Questa potra variare dal valore vero, a causa di fluttuazioni statistiche del campione. Pero se le misure sono indipendenti e non ci sono errori sistematici, per la legge dei grandi numeri questi effetti diventano sempre piu piccoli per N . Sembra ragionevole richiedere che per un buon stimatore la differenza fra stima e valore vero 0 per N . Uno stimatore e consistente quando converge (in probabilita) al valore vero del parametro: lim = a
N

P(=a) 1: a mano a mano che la dimensione del campione aumenta, la stima ottenuta tende al valore vero. Condizione sufficiente e che la varianza dello stimatore 0 per N . Esempio: la media x e uno stimatore consistente, infatti: 2 2 x 1 =1 lim P( x < ) lim 1 = lim N N N n 38

(disuguaglianza di Cebycev) La media, il valore medio di un campione, converge in probabilita alla media della popolazione: P x Per N finito non possiamo sperare che per un particolare campione di dati abbia lo stesso valore di a; puo essere piu grande o piu piccolo. Possiamo richiedere che la probabilita di sovrastima bilanci quella di sottostima e in media coincida con il valore vero. Lo stimatore e corretto, cioe non distorto, senza bias se: E[]=a ovvero se mediamente coincide con il valore vero di a. Esempio: la media x e uno stimatore corretto, poiche: E(x) = (la media di tutte le medie campionarie e uguale a ) Il valore di dipende dal campione, per cui variera da campione a campione. Se la stima deve essere una buona misura del valore vero a, la dispersione dei suoi possibili valori deve essere la piu piccola possibile. Uno stimatore e detto efficiente quando ha una piccola dispersione misurata dalla 2 (piccola varianza). Se 1 e 2 sono ambedue stimatori non distanti di a, ma vale 12< 22, e da considerarsi preferibile 1 che viene definito piu efficiente o piu preciso. Esempio: ; m=mediana E[m] = N 2 2 m >x il valore medio e piu efficiente di m
Approfondimento E possibile dimostrare che per ogni stimatore di a esiste un limite inferiore della varianza dello stimatore 2 e quindi un limite superiore per la sua efficienza (teorema di Cramer-Rao). Per uno stimatore corretto non distorto: 1 2 a = k (a) ln L 2 E a dove L e la funzione di verosimiglianza: L( x1 , x2 ,..., xn ) = P ( x1 , a ) P ( x2 , a )...P ( xn , a ) = P ( xi , a ) Il teorema puo essere anche riscritto come:
2 a

E[ x ] = x =

1 2 ln L E 2 a

2 2 2 2 Nota su: x , x , sx , sx Supponiamo che siano ottenute da un campione di n {x1} normali. s 1 sx = sx = x ( xi x ) 2 n 1 n x s sx 1 s s 2(n 1) 2(n 1) 2(n 1)

39

Si voglia misurare . A livello di progetto si voglia valutare quante misure occorrono per ottenere una data precisione di . Se si vuole raggiungere un errore di circa il 10%; se prevediamo n=50 misure di xi: s 1 = = 10% s 2(50 1) se =6 e una ragionevole assunzione: 6 0.6 s 2(50 1) sx A livello di analisi, se non conosciamo ma vogliamo stimarla: s x 2(n 1) s x = 6 n = 50 s x = 0.6 s x = 6.0 0.6 Vi e differenza tra un errore ottenuto dal campione in questo modo e una conoscenza a priori di x (s per n ). Vi e differenza tra i due risultati: 0.2 = 0.1 1) = 10.0 0.1 dove x = 0.2 e noto, n=4 misure, x = 10.0 e x = x = 2 n 2) = 10.0 0.1 dove x non e noto e viene stimato sui 4 valori {xi}: s 1 0.2 2 sx = ( xi x ) 2 = 0.2 sx = x = = 0.1 x = 10.0 2 n 1 n Tale differenza e importante per piccoli n (piccoli campioni): x x = x s x richiede luso di Student t = sx Per grandi campioni (n grande) la stima di migliora e la differenza e meno importante: x x = x x richiede z =

40

Potrebbero piacerti anche