Sei sulla pagina 1di 47

Verifica di ipotesi

• Possibili problemi:
• Le osservazioni sono Gaussiane?
• Ammesso che le osservazioni siano
Gaussiane qual è il valor medio e la
varianza?

Metodi
• Calcolo della probabilità vs inferenza
statistica
• Approccio deduttivo e inferenziale
• Entrambi di interesse
• Calcolo della probabilità è strumento di base
per la statistica

Fondamenti
• Individuare una statistica (un modo per
selezionare e combinare le osservazioni) che
ci informi rispetto alla migliore
approssimazione
• Migliore?
• Quali criteri?
• Tipici: correttezza, minima varianza,
robustezza, complessità computazionale

Verifica di ipotesi
• Un esempio: si deve scrivere una procedura
per accettare/rifiutare un lotto di materie
prime ricevute da fornitore esterno
• Tre possibilità:
• Verificare tutti i prodotti
• Non verificare alcun prodotto
• Verificare un campione di prodotti del lotto
• Quali implicazioni?

Rischi
• Rischio del produttore: rifiutare prodotti
conformi
• Rischio del consumatore: accettare prodotti
non conformi
• Es.: sono acquistati BJT con il requisito:
guadagno medio di corrente = 100
• il guadagno di ogni BJT è v.a.

Verifica di ipotesi
• Insieme delle ipotesi

• H0: ipotesi nulla, H1: ipotesi alternativa


• Si decide in base a una regola di decisione
• Suggerimenti?
• Stimatore della media
• Se fornisce valori superiore a una certa soglia
si accetta l’ipotesi nulla H0, altrimenti si rifiuta
l’ipotesi nulla 6

is the true and holding hypothesis, one can erroneously decide to


reject it, comitting a type–I error. In the case in which the holding
Errori
hypothesis is H1 , one can erroneously decide to accept H0, doing
a type–II error. The probabilities of both events are often named α
and β, respectively. Both probabilities will decrease if the number
• Rischi
of del
tested BJT’s produttore e consumatore
increases:
!
α = Pr{type–I error} = Pr{reject H0 |H0 is true} (2.3)
!
β = Pr{type-II error} = Pr{accept H0 |H0 is false} (2.4)

define
1 −1
N!
• si definisce !
θ̂ =
N n=0
xn . (2.5)

Then, under the hypothesis of statistical independence of observa-


tions, we have that θ̂ Gaussian distirbuted with mean value θ di x
and variance σ 2/N . That is,
• abbiamo 1
(θ̂−θ)2
− σ2
fθ̂ (θ̂; θ) = √ e 2
N (2.6)
√σ 2π
N

Thus if S is the discrimination threshold 7


Osserviamo

8
Risultati
Se S rappresenta la soglia

• ovvero il quantile di livello alfa di una normale


standard

9
Progetto della verifica
• Risolvendo per la soglia:

• Similmente:

10

Progetto della verifica


• Insieme delle ipotesi
• Statistica
• Regione di accettazione/rifiuto
• Regola di decisione

• Se H0 è rifiutata, la verifica è significativa

11

Parametri
• Risultati dipendono da , , ,
• Per N fissato, quando cresce decresce e
viceversa
• Se N decresce e decrescono
• E’ ragionevole/possibile aumentare N
arbitrariamente?

12

2 .2 .1 The operating characteristic curve


2 .2 .1 The operating characteristic curve
The operating characteristic curve provides the behavior of the
The operating characteristic curve provides the behavior of the
La curva operativa caratteristica
type–II probability error as a function of the parameter that is in-
type–II probability error as a function of the parameter that is in-
vestigated throughthethehypothesis
hypothesistest
test when is true. In this
vestigated through when H1 H
is1 true. In this
case:
case:
   
−θ̂θ−
 θ̂ θ1 S −Sθ1− θ1
!! " "  
S|H1 1 isistrue
true= = is true
  
1
β(θ
β(θ11)) =
= Pr
Pr θ̂θ̂>>S|H − Pr σ
1 Pr σ ≤ ≤σ |H1 |His1 true

1− √ σ

  √ √  
N N N
 
N
 
0 0−−θ1θ1
θθ
= 11 −
− Φ √σ σ
Φ  + z 
, ,
+αzα  (2.12)(2.12)

NN

where Φ(·)
where Φ(·) represents
representsthe
thePDF
PDFofof
a zero–mean unity
a zero–mean variance
unity Gaus-
variance Gaus-
sian rv.
sian rv.
Expression (2.12) shows that:
Expression (2.12) shows that:
• when N increases, β(·) decreases;
• when N increases, β(·) decreases;

Hypothesis testing 23
Hypothesis testing 23

13
Tipi di verifiche
• Molte possibilità, quali implicazioni?

• Verifica di ipotesi statistiche a una/due code

14

Verifica a due code

15
Regola di decisione
• Due soglie:

• prob. di errore di tipo I

• Si ottiene:

16

Curva operativa caratteristica


• OCC:

• quindi

• dove: = ✓0 ✓1
17

Varianza incognita
• Dist. Gaussiana,

• Stima della deviazione standard:

18

Tabella 2.3: Quantili della distribuzione t–Student.


0.990 6.96 4.54 3.36 3.00 2.82 2.76 2.65 2.60 2.53 2.49
Tabella 2.3: Quantili della distribuzione t–Student.

Varianza incognita
0.995 9.92 5.84 4.03 3.50 3.25 3.17 3.01 2.95 2.85 2.79
Under H0, this is a t–Student rv having N − 1 degree
The statisticsTabella
can be2.3: Under
Thus, by
Quantili
defined asH 0 , this
imposing
della
in is aat–Student
given
distribuzione
the rv having
value
t–Student.
following: of α theN − 1 degre
leftmost thr
progetto della verifica di ipotesi
atistics can be defined as in Thus, by imposing a given value of α the leftmost thr
the following:

The statistics can be defined as in the following:


• Statistica:

" θ̂ − θ 0 α 
 θ̂ − θ 0


(2.29)
 
θ̂ − θ t = σ̂ α = Pr 
θ̂ −
σ̂ θ 0
≤ S 1 |H 0 true ,

" 2 = Pr √(2.29)

0 √
t = σ̂ ≤ S |H true ,
 

N N
σ̂ 1 0
√ 2  √

N


N " θ̂ − θ0
t = σ̂ (2.29)

N
that is Srv
Under H0, this is a t–Student tα/2,N −1N, the
1 =having degrees ofquantile
− 1 α/2–level freedom. of a t–Stu
r H0, Thus,
this isby
a t–Student
imposing rv that with
having
tion
a given is SN1 N
value =of−
− αdegrees
1tα/2,N
df’s.
1 the , Similarly,
the
of α/2–level
freedom.
−1leftmost quantile
threshold S1 is: of a t–Stu
by imposing a given value of tion withleftmost
α the N − 1 df’s. Similarly,
threshold S1 is:
• SeH0H
Under 0 èisvera,
, this t è rv
a t–Student una Student-t
having N − 1 degrees con N-1 gradi
of freedom.
Thus,dibylibertà:
imposing a given
 α
 value of α the leftmost
 θ̂ − θ

α
 threshold S1 is:



θ̂ − θ


0

 0 
(2.30)
 
≤ |H = Pr > S |H true .

α 
θ̂ − θ= Pr σ̂ S1 α0 true  ,
θ̂ −
σ̂ θ 0 2 0 
2 0 2

 √  √
 
= Pr  σ̂ ≤ S 1 |H0N true , = Pr (2.30) > S |H true .
 

 
N
σ̂ 2 0
2  √   2 
 √
N


αN  θ̂ − θ
 
0

= Pr  σ̂ ≤ S1 |H0 true , (2.30)
2  √
N

As a consequence
that is S1 = tα/2,N −1, the α/2–level quantile S2 =oft1−α/2,N
a t–Student−1. distribu-
S1 =tion
tα/2,N −1 , N
with the−α/2–level As a consequence
quantile
1 df’s. Similarly, S2 = t1−α/2,N
of a t–Student distribu- −1.
with N − 1 df’s. Similarly, 19

Teoria della rivelazione/detezione


• VI usata per affrontare i problemi:
• Noto l’andamento nel tempo di un segnale,
verificare se sia presente o meno nei dati
• Verificare se il valor medio di un segnale stia
cambiando
• Verificare se vi sia qualcuno che si muove in
una scena di un video in base al numero
medio del valore dei pixel che cambiano da
un frame all’altro

20

Teorema di Neyman Person


• Es. osserviamo un campione generato da
una fra due possibili PDF: Gaussiana a
media nulla o media pari a 1, con dev. std
pari a 1

ℋ0 : μ = 0
0.4

0.35

ℋ1 : μ = 1
0.3

0.25

0.2

Scegliamo in base al valore delle due PDF nel punto x[0]


0.15

0.1

0.05

0
-4 -3 -2 -1 0 1 2 3 4

21
• Ovvero calcoliamo

( 2 )
2
1 x[0]
ℋ0 : fx(x[0] | μ = 0) = exp −

( )
2
1 (x[0] − 1)
ℋ1 : fx(x[0] | μ = 1) = exp −
2π 2
e scegliamo H_1 se (ad esempio)
• fx(x[0] | μ = 1) > fx(x[0] | μ = 0)
• ovvero
22

fx(x[0] | μ = 1)
• f (x[0] | μ = 0) > 1
x

( )
2
1 (x[0] − 1)
exp − 2

>1
exp (− )
1 (x[0])2

2π 2

( )
(x[0] − 1)2 − x[0]2
exp − >1
2
23

2 2
• x[0] − (x[0] − 1) > 0
• 2x[0] − 1 > 0
• x[0] > 0.5

• Se il valore misurato eccede 0.5 si sceglie


H_1 e viceversa.
• Il rapporto fra le due PDF si chiama likelihood
ratio e il confronto con una soglia il likelihood
ratio test (LRT)
24

Teorema di Neyman-Pearson
• Considerato un vettore X di v.a. continue, la
regola di decisione che massimizza la
probabilità di rivelazione per prob. di falso
allarme = α è
•x ∈ A1 (rifiuto H_0, decido per H_1) se
fX∣H1(x)
L(x) = ≥ γ
• fX∣H0(x)
•x ∈ A0 (accetto H_0)
• con γ | ∫L(x)>γ fX|H0dx = α 25

Esempio segnale in rumore

• NP può essere usato quando si conoscono le


funzioni di verosimiglianza
• Caso pratico: segnale noto in rumore WGN
• ℋ1 : x[n] = s[n] + w[n]
• ℋ0 : x[n] = w[n]

26

Funzioni di verosimiglianza
• Verosimiglianze

( )
(x[n] − s[n])2
f (x ∣ ℋ1) =
N−1 1
∏n=0 exp −
2πσ 2 2σ 2

( )
(x[n])2
f (x ∣ ℋ0) =
N−1 1
∏n=0 exp −
2πσ 2 2σ 2

• Statistica

[ 2σ ]
f(x ∣ ℋ1)
( ∑n=0 (x[n] ∑n=0 (x[n])2)
1 N−1 2 N−1
= exp − 2 − s[n]) − >γ
f(x ∣ ℋ0)

27
NP su segnale noto
• applico logaritmo

( n=0 ∑n=0 (x[n]) )


1 N−1 2 N−1 2
• − 2 ∑ (x[n] − s[n]) − > ln γ

• Si semplifica
1 N−1 1 N−1 2
• σ2 ∑n=0 x[n]s[n] − ∑n=0 (s[n]) > ln γ
2σ 2
• Siccome la sequenza è nota:
N−1 2 1 N−1 2
∑n=0 x[n]s[n] > σ ln γ + 2
∑n=0 (s[n])
• ovvero:
N−1
• ∑n=0 x[n]s[n] > γ′

28

Esempio con costante


• valore DC noto:
N−1 N−1
• ∑n=0 x[n]A > γ′ ⇒ A ∑n=0 x[n] > γ′
• equivalentemente:
• x̄ > γ
• Esempio: rivelatore di prossimità con sensori


29

Esempio con sinusoide


• Il rivelatore per un segnale sinusoidale
• ∑n=0 x[n]A cos (2πf0n + ϕ) > γ′ ⇒ A ∑n=0 x[n]cos (2πf0n + ϕ) > γ′
N−1 N−1

• Dividiamo per A
• ∑n=0 x[n]cos (2πf0n + ϕ) > γ
N−1

• Ovvero verifichiamo la correlazione con la


sinusoide
• Applicazioni: radar, sonar, spettroscopia,
sismologia, rivelazione di CW generate da
pulsar in astronomia

30

simulazione con Julia


using Plots
using Distributions
N=1000;
mu=0;
sigma=0.5;
d = Normal(mu,sigma)
u = rand(d, 1, 5*N)
M=5*N
A=1
phi = 0.1234;
lambda = 0.1533
#s = Array{Float64,2}(undef, 1, N)
s0 = cos.(2*pi*lambda.*(N/4:3/4*N-1)'.+phi)
s = A*s0;
#s1=cos.(2*pi*lambda.*(1:N-1)'.+phi)
x=[u[1:1250]' s+u[251:750]' u[751:M]']
s0L=length(s0)
p1=plot(x[1:3000])
ss = Array{Float64,2}(undef, 1, 3*N)
for i=1:3*N-s0L-1
ss[i+s0L-1]=sum(x[i:i+s0L-1].*s0[1:500])
end
p2=plot(s0L-1:3000,ss[s0L-1:3000],xlims=(1,3000))
plot(p1, p2,layout=(2,1))
31
se spike?
quali prestazioni per un rivelatore
a soglia?

32

Sfide …
• Si può determinare se una lavatrice sta centrifugando
con un accelerometro (es. con smartphone)?
• Si può anche tramite un microfono?
• Si riesce a determinare se il motore è acceso o spento
o il numero dei giri del motore di un’auto da misure
microfoniche interne all’abitacolo?
• Si riesce a fare la rivelazione dello stato di accensione
di un phon?
• Si riesce a determinare lo stato di salute di un
cuscinetto a sfera?

33

Valore-p
• se il test è significativo nulla è detto sulla
fiducia nei risultati
• p-value è il più piccolo livello di significatività
che porta al rifiuto di H0
• oppure: valore di significatività osservato
• minore è il valore-p, maggiore è la fiducia che
riponiamo nel risultato
• riportato spesso per lasciare all’utilizzatore
l’interpretazione del risultato

34

Esercizio
Quando una fabbrica di pacemaker funziona
normalmente (ipotesi nulla Ho), un pacemaker
selezionato a caso fallisce un "drop test" con probabilità
−4
q0 = 10 . Ogni giorno, un ispe ore testa a caso i
pacemaker. Proge are una veri ca di ipotesi con livello
di signi ca vità α = 0.01. Si no che il test di caduta
dei pacemaker è esiziale perché i pacemaker che
vengono testa devono essere scarta . Quindi il test di
signi ca vità dovrebbe cercare di ridurre al minimo il
numero di pacemaker so opos a prova.

35
fi
fi
ti
ti
ti
tt
tt
fi
ti
ti
tt
ti

Soluzione
Per so oporre a prova solo un piccolo numero di
pacemaker, tes amo n pacemaker e ri u amo
l'ipotesi nulla se qualche pacemaker fallisce il
test. Inoltre, scegliamo il più piccolo n tale da
soddisfare il livello di signi ca vità richiesto dal
test. Se H_0 è vera il numero di pacemaker che
falliscono il test è X, una variabile casuale
−4
binomiale (n, q0 = 10 ). Il livello di signi ca vità
del test è
N
α = P(X > 0 | H0) = 1 − P(X = 0 | H0) = 1 − (1 − q0)

36
tt
ti
fi
ti
fi
fi
ti
ti
Soluzione
Imponendo α = 0.01 si ha che

ln(1 − α)
n= ln(1 − q0)
= 100.5

37

Esercizio
Quando un impianto di fabbricazione di IC funziona normalmente, la
durata di vita di un microchip fa o funzionare alla temperatura T,
misurata in gradi Celsius, è data da una variabile casuale esponenziale X
con valore a eso E(X) = 1/λ = (200/T )2 (in anni). Occasionalmente,
l'impianto di fabbricazione dei IC ha problemi di contaminazione e i chip
tendono a guastarsi molto più rapidamente. Per veri care l’occorrenza di
un problema di contaminazione, ogni giorno m chip sono so opos a un
test di un giorno a T = 100 °C. Sulla base del numero N di chip che
falliscono in un giorno, proge are un test di signi ca vità per l'ipotesi
nulla H_0 che l'impianto funzioni normalmente
Quan IC devono essere testa a nché il livello di signi ca vità sia
α = 0.01?
Se aumen amo la temperatura del test, il numero di IC da testare
aumenta o diminuisce?

38
ti
ti
tt

tt
ti
tt
ffi

fi
fi
ti
fi
ti
tt
ti
Soluzione
Un test ragionevole ri uterebbe l'ipotesi nulla che l'impianto
s a funzionando normalmente se uno o più IC falliscono il
test di un giorno. Esa amente quan chip dovrebbero
essere testa e quan fallimen N sono necessari per
ri utare l'ipotesi nulla dipende dal livello di signi ca vità del
test.
(a) Se H_0 è vera la durata di un IC è X, una variabile casuale
2
esponenziale λ = (T/200) . La probabilità p che un chip
superi il test di un giorno è

( 365 )
1 λ
− 365
p=P X≥ =e

Se si eseguono m test in un giorno:



m − 365
α = P(N > 0 | H0) = 1 − P(N = 0 | H0) = 1 − p = 1 − e
39
ti
fi

ti
ti
tt
fi

ti

ti
fi
ti
Soluzione
1
Alla temp. T = 100 °C, λ = 4
e α = 0.01 se

365 ln(0.99) 3.67


m=− λ
= λ
= 14.74

2
Aumentando T si alza il tasso di guasto λ = (T/200) e
3.67
quindi si abbassa m = λ . In sostanza, aumentando la
temperatura si fa un test più di cile da superare e
quindi si richiede un minor numero di chip da testare
per lo stesso livello di signi ca vità.

40
fi
ti
ffi

Probability plot
• Verifica di ipotesi non parametrica
• Determinare la PDF delle osservazioni
• Basata sul grafico quantile-quantile
• Esempio con quantili di una Gaussiana

• se grafico y=zp con x=zp ottengo la funzione


identità

41

Grafico di probabilità Gaussiano


• Cosa succede se su uno dei due assi grafico
una stima di zp?
• Il grafico è una linea retta solo se le oss.
seguono la PDF usata per ricavare i quantili
teorici (es. Gaussiani)
• Come si stimano i quantili dai dati?

• statistica ordinata

42

Grafico di probabilità Gaussiano


• Per ogni quantile il livello associato è:

• Il quantile teorico è:
• Procedura:
• raccogli N-campioni
• ordina i dati
• associa a ogni dato:
−1
• ottieni un vettore di coppie di valori,(x(i), Φ (pi))
• grafica il vettore come coordinate in un grafico
Cartesiano
43

Un esempio
• osservazioni approssimativamente Gaussiane

44
Carta Gaussiana
• Valutazione di 1
(pi ) richiede risorse di
calcolo
• Possibile usare carta con un asse pre-
distorto che esegua graficamente il calcolo
richiesto x(i) , pi

• Stesso grafico, stessi risultati


45

Altre PDF
• Stesso approccio per altre PDF: Gaussiane con media e
varianza arbitrarie, esponenziale, uniforme, ...

• Es. esponenziale: carta di probabilità diversa


• Stessa procedura, devo conoscere solo x(i) , pi

46

Esercizio
Si usi il grafico di probabilità Gaussiano per determinare se le due sequenze siano il risultato di
osservazioni di v.a. Gaussiane

a) 0.5377 1.8339 -2.2588 0.8622 0.3188 -1.3077 -0.4336 0.3426 3.5784 2.7694

b) 4.3473 3.1225 0.5910 12.5195 9.4380 5.3337 1.2964 0.9371 1.3028 2.3894
1.8099 3.6489 0.8844 4.9987 1.1272

47

Potrebbero piacerti anche