Sei sulla pagina 1di 38

INTERVALLI)DI)CONFIDENZA)

Uno$ stimatore) per) intervallo$ per$ un$ parametro$ di$ una$ popolazione$ è$ una$ funzione$ delle$ variabili$
campionarie.$Esso$determina$gli$estremi$di$un$intervallo$di$valori$che$verosimilmente$contiene$il$parametro.$

La$stima$corrispondente$viene$chiamata$stima)per)intervallo.$

“Sia$$θ$un$parametro$non$noto$di$una$popolazione.$Si$ottiene$uno$stimatore$per$intervallo$di$livello$1?α$per$
θ$se,$sulla$base$delle$informazioni$campionarie,$si$possono$determinare$2$variabili$aleatorie$A$e$B$tali$che$

P(A<$θ$<$B)$=$1?$α$$$$dove$α$è$il$livello$di$confidenza$dell’int$

Se$ a$ e$ b$ sono$ i$ valori$ osservati$ in$ corrispondenza$ al$ campione$ considerato$ l’intervallo$ viene$ definito$
intervallo$di$confidenza$di$livello$(1?$α)100%$

INTERPRETAZIONE)FREQUENTISTA.$Se$si$estrae$in$modo$ripetuto$e$indipendente$un$numero$molto$elevato$
di$campioni$di$dimensione$n,$il$valore$vero$di$θ$sarà$contenuto$nel$(1?$α)100%$degli$intervallo$determinati$in$
questo$modo.$

Quindi,$campione$$!$intervallo$di$confidenza$(a;b)$di$livello$1?$α$$!$$l’(1?$α)100%$degli$intervalli$contiene$θ$

Ora$si$vanno$a$considerare$diversi$casi$con$popolazioni$con$caratteristiche$diverse,$in$cui$si$fa$inferenza$su$
un$parametro$non$noto$della$popolazione$attraverso$gli$intervalli$di$confidenza.$

CASO)A.)POPOLAZIONE)NORMALE,)VARIANZA)NOTA)! )int)di)conf)per)μ)della)pop)non)nota)
Sappiamo$che$se$$$$$$$X~N(μ;σ²)$$$

!!!
Allora$$$$$$$$$$$$$$$$$$$$$$$$$$$X"~$N(μ;σ$X"²)$$$$$e$quindi$Z=$
!/ !
$∼$N(0;1)$

Assegnato$un$$α,$per$definizione$

1?$α$=$P(?z$α/2$<$Z$<$z$α/2)$

1"#α#=#P(x̄#"#z#α/2!!/ !#<#μ#<#x̄#+#z#α/2!!/ !)#

INT)CONF)(X"#±)z)α/2!! !)))

cioè$stima$puntuale$±$margine$d’errore,$dove$z$α/2$$$!"##$%&!!"!!""#$!%#&#'à!!!!!/ !!!"#!!""#"!!"!X"$

NB!$Ampiezza$intervallo$ω$=$2ME.$Inoltre$ME$dipende$in$modo$inverso$da$n$(n↑$stima$migliore);$in$
modo$diretto$da$σ$(n↑$errore$stima↑);$in$modo$diretto$da$1?α$(maggiore$int$=$maggiore$sicurezza$
che$contenga$μ)$

$
CASO)B.)POPOLAZIONE)MORMALE,)VAR)NON)NOTA))! ))int)conf)per)μ)non)nota)
Come$prima$$X"~
$N( μ;σ$X"²)$$$$$ma$nessuno$dei$2$noto$

La$normale$standard$non$va$più$bene$con$2$variabili$aleatorie.$

Ho$una$nuova$distribuzione$che$si$chiama$T)di)Student.$

!!!
T$=$ $∼t(n?1)$
! !

Dove$s$è$uno$stimatore$di$σ$e$n?1$sono$i$gradi$di$libertà.$

“Si$ consideri$ un$ campione$ casuale$ di$ n$ osservazioni$ astratto$ da$ una$ popolazione$ normale$ con$ media$ μ.$
Siano$X"$e$S$rispettivamente$la$media$e$varianza$campionaria,$la$variabile$

!!!
T$=$!/ !$

Segue$la$distribuzione$t$di$Student$con$(n?1)$gradi$di$libertà”.$

OSSERVAZIONI)
_$Famigli$di$distribuzioni$con$diversi$gradi$di$libertà$(ν)$
_$Funzione$di$densità$campanulare$con$media$0$(simile$a$Z)$
_$A$differenza$della$Z$ha$variabilità$maggiore$(maggiore$incertezza$in$quanto$ora$σ$è$aleatoria$e$s$stimatore$
puntuale).$Infatti$graficamente$le$cose$sono$più$alte.$
_$t$dipende$da$n?1.$Se$n↑$t??>N$
$
$
$

Quindi,$assegnato$un$α,$su$un$campione$di$dimensione$n$

1?α$=$P($?tn?1;α/2$<$T$<$tn?1;α/2$)$

1"#α#=#P(x̄#"#tn"1;α/2##!/ !#<#μ#<#x̄#+#tn"1;α/2#!/ !)#

)
INT)CONF)(X"#± )tn=1;α/2))!/ !))

tn=1;α/2) ) si$trova$sulla$tavola$alla$riga$n?1$colonna$=$α.$Si$chiama$fattore$di$affidabilità$ed$è$quel$valore$tale$
per$cui$

P(Tn?1$>$tn?1;α/2$$)$=$α/2$

CASO)C.)POPOLAZIONE)BERNOULLIANA)! )inferenza)su)p)non)nota)
Sappiamo$che$X∼Ber(p).$Inoltre,$per$n$grande$tale$che$np(1?p)>9$allora$la$variabile$aleatoria$

!⌃!!
Z$=$ ∼N(0;1)$
! !!! /!

Po
ihc'éu
t t vaai p
'n'n
oè' n
' to,od
'b
oibm
a 'oo
s tsti iulr 'oo
c'nn
u'ats m
i 'a ̂po
't n
eneo
d $

!⌃!!
Z$=$ ∼N(0;1)$
!̂ !!!̂ /!

Pertanto$possiamo$dire$che$

!⌃!!
1?α$=$P((?z$α/2$<$ $<$z$α/2)$
!̂ !!!̂ /!

IN
T $CO
NF$ (p ̂$ ±$z$ α/2)) !̂ ! − !̂ /!))

CASO)D.)POPOLAZIONE)QUALUNQUE,)VAR)NON)NOTA)(n)grande))! )int)conf)per)μ)non)nota)
Per$ n$ grande$ si$ intende$ almeno$ >50,$ in$ modo$ da$ poter$ approssimare$ alla$ normale$ standard$ grazie$ al$
teorema$del$limite$centrale$

Poiché$anche$σ$non$è$nota$dobbiamo$sostituire$con$s$(l’intervallo$di$confidenza$è$approssimativamente$1?α)$

!!!
Z=$ $∼$N(0;1)$
!/ !

INT)CONF$(X"#±)z)α/2!!/ !)$

$
Determinazione)dell’ampiezza)campionaria)(cap)9.5))

Nella$pratica$delle$ricerche$statistiche,$le$aziende$si$trovano$davanti$a$un$trade$off$nella$scelta$dell’ampiezza$
campionaria;$infatti$una$maggiore$ampiezza$comporta$costi$maggiori$ma$anche$una$precizione$maggiore.$

Pertanto$occorre$fissare$un$certo$livello$di$precisione.$Da$questo$ricaviamo$l’ampiezza$n$del$campione$che$
garantisce$lo$stesso$livello.$

CASO)A.)

Sappiamo$che$il$ME$è$ z) α/2!!/ !.$Immaginiamo$di$fissarlo$a$una$valore$messimo$ME*$che$il$mio$margine$


d’errore$non$deve$superare.$Da$questo$ricavo$n*.$

Se$voglio$che$z)α/2!!/ ! ∗)≤)ME*))allora$sarà$

!!!/! !!²
n*$≥$
!"²∗
)

Ovviamente$approssimato$all’interno$successivo$

CASO)C.)

Fisso$anche$qui$un$ME*$≥$ z) α/2) ) !̂ ! − !̂ /!.)Tu t tavia'in'qu


esto
'ca so'n'è 'c o
nten
uto'an
ch
e'i n
'p
̂ ."In"questo"
cas%oav u
lo
t i% %lac o
sp
% geigro%eams m
i zi azd
n%oo
l s% atd
nra%dreo
r ,r o
% saiq
% aud
n%ôp0
=5,. $

ME*$≤$z)α/2)) !, ! ! − !, ! /!*)

!!!/! !,!"
n*)≥)
!"²∗
)

IMP:$Con$questa$disequazione$io$trovo$il$minimo$valore$di$n$per$raggiungere$una$precisione$della$stima$pari$
a$ME$(il$max$ammesso).$

$
CASO)E.) 2) POPOLAZIONI) NORMALI,) CAMPIONI) DIPENDENTI) ! ) Int) conf) sulla) differenza) tra) le) medie)
campionarie)

Le$2$popolazioni$hanno$una$distribuzione$congiunta$normale$bivariata$(graficamente$è$una$campana$in$3D)$

Inoltre$ i$ campioni$ considerati$ sono$ DIPENDENTI,$ il$ ché$ vuol$ dire$ che$ i$ valori$ sono$ legati$ tra$ loro.$ Possono$
essere$appaiati$oppure$derivare$dalla$stessa$unità$statistica$osservata$2$volte.$

“Si$ consideri$ un$ campione$ casuale$ di$ n$ coppie$ di$ osservazioni$ dipendenti$ estratte$ da$ 2$ popolazioni$ con$
distribuzione$congiunta$normale,$rispettivamente$con$medie$μx$e$μy.$

$Indichiamo$con$x1,…xn$ le$osservazioni$che$provengono$dalla$prima$popolazione$e$con$y1,…yn$le$osservazioni$
provenienti$dalla$seconda$popolazione.$

$In
dci ihm
a*oo
c*n+d e* s* d#la#media#e#lo#scarto#quadratico#medio#campionario#delle#n#differenze#di#=#xi#"#yi##

Poiché$la$popolazione#di#tutte#le#differenze#possibili#è#distribuita#normalmente,$un$intervallo$di$confidenza$
per$la$differenza$delle$medie$(μd=μx$–$μy)$a$livello$(1?α)100%$è$dato$da$

d"$?$tn"1;α/2##!ᵈ/ !#<$μd$<$d"$+$tn"1;α/2##!ᵈ/ !##

(!!−!̅)²
dove$sᵈ$= $è$la$varianza$delle$differenze”$
!!!

Ricapitoliamo,$per$ogni$coppia$di$osservazioni$iesime$calcolo:$$di$=$xi$?$yi$

!
Da$qui$voglio$fare$un$stima$delle$differenza$tra$μx$e$μy$con$un$d"#=1
/n
# !!! d$

Pertanto$la$media$delle$differenze$sarà$contenuta$in$un$intervallo$di$confidenza$individuabile$sulla$
distribuzione$t$di$Student$(μ$e$σ$non$noti).$

A$seconda$del$segno$positivo/negativo$dell’intervallo$possiamo$fare$conclusioni$sulla$relazione$da$x$
e$y$(ad$esempio$tra$un$pre?qualcosa$e$un$post?qualcosa)$

CASO) F.) 2) POPOLAZIONI) NORMALI,) CAMPIONI) INDIPENDENTI,) VAR) NOTE) !) Int) conf) sulla)
differenza)tra)le)medie)non)note)

Ho$pertanto,$2$popolazioni$X$e$Y$tali$che$

X∼N(μx;σx²)$$$$$$Y∼N(μY;σY²)$$$$$$$

Voglio$stimare$la$differenza$tra$le$medie$non$note$(μx?$μy).$Estraggo$dalle$popolazioni$2$campioni$
indipendenti)(x1…n)$(y1…n)$

$
Per$stimare$la$differenza$si$utilizza$(X
# $R!Y")$nuova)variabile)aleatoria$dove$
! !
X"#= !(!)$e"Y$" =" !(!)$
! !

Pertanto,$essendo$X$e$Y$popolazioni$normali$possiamo$dire$che$

X"∼N(μx;σx²/nx)""""Y$ ∼N(μY;σY²/ny)$$$$$$$

Della$nuova$variabile$aleatoria$possiamo$dire$che$

_$E(X#$?!Y")$=$E(X")"–!E(Y$) &= μx?$μy$$(perché$non$distorti)$

_$VAR(X"#?!Y")"="VA
R(X )) "+ "VA
R(Y))"(p
erch
é "i "c amp
io
i" son
n o"i n
dipend
ent i) $

Quindi$la$variabile$aleatoria$si$distribuisce$in$un$modo$normale$(combinando$linearmente$variabili$aleatorie$
normali$di$ottiene$una$normale),$e$può$essere$standardizzata$

X"#?!Y"$∼$N(μx?$μy$$;$σx²/nx$+$σY²/ny$)$

X−!Y −!(!! !!!! )


Z$=$ $
!
!!
! ! !!
!! !!

Quindi,$come$per$ogni$distribuzione$normale,$l’intervallo$di$confidenza$di$livello$1?α$sarà$

!!² !!² !!² !!²


1?α$=$P((X"#?!Y")$ ?$z)α/2 + $<$μx?$μy$$<$(X#$?!Y")$+$ z)α/2 + $)$
!! !! !! !!

CASO)G.) 2) POPOLAZIONI) NORMALI,) CAMPIONI) INDIP,) VAR) NON) NOTE) MA) UGUALI) ! ) Int) conf) sulla)
differenza)tra)le)medie)μxR)μy))non)note)

Assumiamo$che$σx²$=$σy²$=$σ²$

Dal$caso$F$sostituisco$e$ottengo$come$intervallo$di$confidenza$

! !
# $?!Y")$±$ z)α/)2! σ#
(X + )#
!! !!

Attenzione!#σ#non#noto,#va#sostituito#con#una#sua#stima#s.#In#particolare#uso#lo#stimatore#Sp²#chiamato#
“pulled”#che#stima#la#varianza#comune#facendo#la#media#ponderata#tra#Sx##e$SY$

Varianza$campionaria$ponderata$SP2$

!! !! !!! ! !! !! !!!
Sp2$=$ $
!! !!! !!
$

Avendo$la$varianza$campionaria,$si$userà$la$t$di$Student.$Si$ha$quindi$

X−!Y −!(!!!!!!)
T$=$
! !
$∼$t(nx$+$ny$–$2)$
!" !
!! !!

! !
IN
TC
$N
O$F ( *X $ R!Y"$) ±)tnx+nyR2;α/2)!" + ))
!! !!

Dove$tnx+ny?2;α/2$è$il$valore$tale$che$$

P(Tnx+ny?2;α/2$>$tnx+ny?2;α/2)$=$α/2$

TEST)DELLE)IPOTESI)
Per$effettuare$un$test$dobbiamo$fare$un’ipotesi$su$alcune$congetture$riguardo$parametri$della$popolazione$
non$noti.$È$un$tipo$di$inferenza$complementare$ai$metodi$già$visti.$

Si$parte$da$un$campione$e$si$vuole$capire$se$il$risultato$da$esso$ottenuto$(la$statistica$del$parametro$non$
noto)$rende$la$nostra$congettura$iniziale$ragionevole$oppure$no.$

Per$prima$cosa$bisogna$quindi$fare$un’ipotesi$sul$parametro$non$noto,$che$può$essere$μ$σ$p$d…$

Si$fanno$2$ipotesi,$dove$una$è$la$negazione$dell’altra.$Per$esempio$

H0$:$$μ$≤$20$$$$H1$:$$μ$>$20$dove$$$H0)R>)IPOTESI)NULLA)))H1)R>)IPOTESI)ALTERNATIVA$

NB!$ Il$ test$ che$ facciamo$ serve$ per$ capire$ se$ possiamo$ rifiutare$ o$ no$ H0.$ Quindi$ se$ abbiamo$ abbastanza$
elementi$per$poter$rifiutare$H0$lo$facciamo$in$favore$di$H1;$mentre$se$non$possiamo$rifiutare$H0$non$significa$
tuttavia$che$H0$ sia$corretta.$Noi$infatti$facciamo$delle$considerazioni,$ma$non$conoscendo$i$parametri$della$
popolazioni$non$potremmo$mai$dire$quale$delle$2$sia$effettivamente$vera.$Spesso$la$procedura$di$verifica$
non$è$abbastanza$potente$per$rifiutare$anche$se$non$è$vera.$

CRITERI$

1.$H0$e$H1$non$devono$includere$valori$comuni$per$il$parametro.$

2.$Di$solito$(quasi$sempre)$devono$includere$tutti$i$possibili$valori$dei$parametri.$(NO:$μ$≥$20$/$μ$<$10)$

3.$Il$segno$dell’uguale$è$SEMPRE$incluso$in$H0.$
TERMINOLOGIA)

_# Ipotesi# nulla:$ ipotesi$ che$ viene$ considerata$ vera$ a$ meno$ di$ ottenere$ prove$ evidenti$ della$ validità$ el$ suo$
contrario$

_#Ipotesi#alternativa$:$ipotesi$contro$la$quale$viene$verificata$l’ipotesi$nulla$e$che$viene$considerata$vera$se$
l’ipotesi$nulla$è$considerata$falsa.$

_#Ipotesi#semplice$:$Ipotesi$che$specifica$un$singolo$valore$per$il$parametro$della$popolazione$considerato.$

_#Ipotesi#complessa$:$ipotesi$che$specifica$uno$o$più$intervalli$di$valori$per$il$parametro$della$popolazione$
considerato$

_#Ipotesi#alternativa#unilaterale$:$ipotesi$alternativa$che$considera$tutti$i$possibili$valori$del$parametro$della$
popolazione$a$destra$o$a$sinistra$(maggiori$o$minori)$rispetto$a$quelli$specificati$dall’ipotesi$nulla.$

_#Ipotesi#alternativa#bilaterale$:$ipotesi$alternativa$che$considera$tutti$i$possibili$valori$del$parametro$della$
popolazione$diversi$dal$valore$specificato$dall’ipotesi$nulla$semplice.$

Il$processo$decisionale$usa$un$Statistica$Test$costruita$a$partire$dagli$stimatori$puntuali$del$parametro.$La$
statistica$ test$ ha$ una$ distribuzione$ campionaria$ nota,$ grazie$ a$ questo$ possiamo$ riconoscere$ su$ tale$
distribuzione$dei$valori$che$ci$portano$a$rifiutare$H0.$

Esempio$

H0$:$$μ$≤$20$$$$H1$:$$μ$>$20$

X"#=2
7,5#r is u
lta to#nella#direzion
e#di# H 1,$ ma$ considerando$ il$ margine$ d’errore$ è$ sufficientemente$ nella$

direzione$ di$ H1$ per$ poter$ rifiutare$ H0?$ Ci$ facciamo$ questa$ domanda$ perché$ sicuramente$ la$ media$ di$ un$
campione$si$discosterà$da$μ.$Ma$fino$a$che$punto$dovrà$discostarsi$per$reputare$cmq$H0$non$da$rifiutare?$

Per$decidere$questo$limite$nel$nostro$processo$decisionale$doppiamo$introdurre$i$concetti$di$errori.$

Decisione$su$H0$/$Stato$di$natura$ H0$VERA$ H0$FALSA$

RIFIUTO$ Errore$di$I$tipo$(α)$ Decisione$corretta$(1?β)$

NON$RIFIUTO$ Decisione$corretta$(1?α)$ Errore$di$II$tipo$(β)$

Noi$non$sappiamo$mai$in$quale$siamo,$possiamo$solo$fare$calcoli$probabilistici.$Purtroppo$le$probabilità$di$
errore$(α$e$β)$sono$legate$in$modo$inverso,$pertanto$è$impossibile$minimizzare$entrambe.$

1?β$ =$ POTENZA# DEL# TEST$ =$ P(rifiuto$ H₀$ /$ H₀$ falsa).$ È$ la$ quantità$ che$ cerchiamo$ di$ massimizzare.$ Quindi$
fissiamo$ un$ livello$ di$ α$ (possiamo$ interpretarlo$ come$ la$ nostra$ avversione$ al$ rischio)$ e$ cerchiamo$ di$
minimizzare$β.$

$
_# Regola# di# decisione$ :$ in$ base$ alla$ sua$ formulazione$ di$ rifiuta$ o$ non$ si$ rifiuta$ l’ipotesi$ nulla$ sulla$ base$
dell’evidenza$campionaria.$

_#Errore#di#primo#tipo$:$errore$commesso$quando$di$rifiuta$un’ipotesi$nulla$vera$(rifiuto$H₀$/$H₀$vera)$

_#Errore#di#secondo#tipo$:$errore$commesso$quando$non$si$rifiuta$un’ipotesi$non$vera$(non$rif$H₀$/$H₀$falsa)$

_# Livello# di# significatività$ :$ probabilità$ di$ rifiutare$ un’ipotesi$ nulla$ quando$ è$ vera.$ Livello$ affidato$ al$ test$
(fissato)$in$termini$spesso$percentuali.$

_#Potenza$:$probabilità$di$rifiutare$un’ipotesi$nulla$quando$è$falsa.$

PRINCIPI$DI$SCELTA$DI$H₀$

Se$analizziamo$singoli$esempi$notiamo$che$i$2$errori$non$hanno$lo$stesso$livello$di$gravità.$Spesso$il$primo$è$
associato$a$una$perdita$(esempi$economici),$mentre$il$secondo$a$un$mancato$guadagno.$

1.$ Si$ sceglie$ come$ H₀$ l’ipotesi$ che$ da$ origine$ a$ un$ errore$ di$ I$ tipo$ più$ grave.$ È$ quella$ che$ deve$ essere$
considerata$vera$a$meno$che$i$dati$contengano$una$forte$evidenza$empirica$per$rifiutarla.$

2.$Si$sceglie$come$H₀$lo$status$quo.$O$piò$in$generale$l’ipotesi$che$si$vorrebbe$rifiutare.$

Per$aiutarci$in$un$esercizio,$di$solito$se$non$siamo$nel$caso$bilaterale$(dove$sarà$sempre$H₀:$μ=μ₀$H₁$:$μ≠$μ₀)$
capiamo$H₀$perché$di$solito$la$statistica$campionaria$va$nella$direzione$di$H₁$(non$sempre$pero)$

Ora$reintroduciamo$gli$stessi$casi$degli$intervalli$di$confidenza,$con$la$differenza$che$per$ognuno$studieremo$
2$sottocasi$a$seconda$dell’impostazione$delle$ipotesi.$Tale$classificazione$andrà$fatta$per$ogni$esercizio.$

.)CASO)A.)Test)sulla)media)non)nota)di)una)popolazione)normale)con)varianza)nota.)

I. H₀:)μ)=)μ₀))))))))))))H₁):)μ)>)μ₀)))$$$$$$$$$$$$$$$$(vedremo$poi$che$vale$anche$con$≤$invece$di$=)$

NB!$Quando$usiamo$l’espressione$“SOTTO$H₀”$vuol$dire$che$stiamo$assumendo$H₀$vera.$

Quindi,$sotto!H₀"po
s siamo
'd
i re 'c h
e'X.' ∼$N(μ₀$;$σ²/n).$$

In$poche$parole$grazie$ad$H₀$possiamo$sostituire$μ$con$μ₀.$Quindi$

!"!!!!₀
Z$=$ $∼$N(0;1)$
!/√!

RIFIUTO'H₀!QU
ANDO
' X
) >' !₀$quindi$quando$Z>zα$dove$

α$=$P(Z>zα$/$H₀$vera)$

α"="P(X$% >% μ₀$+$zα$σ/√n)$


La$ quantità$ evidenziata$ è$ la$ soglia$ (VALORE$ CRITICO)$ dettata% dalla% fissazione% di% α" per$cu
i $s e$ il$mio$X-$ è$
maggiore,$io$ho$motivo$di$rifiutare$H₀,$sennò$no.$Quindi,$a$seconda$del$valore$di$α$io$sarò$portata$a$rifiutare$
con$più$o$meno$probabilità.$In$particolare,$se$α↓$zα$↑$e$quindi$rifiuto$meno$facilmente.$

I$ valori$ a$ destra$ della$ soglia$ costituiscono$ la$ Regione$ di$ Rifiuto,$ mentre$ i$ valori$ a$ sinistra$ la$ Regione$ di$
Accettazione.$

Un$altro$modo$per$decidere$se$rifiutare$è$l’utilizzo$del$P?VALUE$(o$livello$di$significatività$osservato)$

PRvalue$=$probabilità$di$osservare$un$valore$della$statistica$test$uguale$o$più$estremo,$nella$direzione$di$H₁,$
rispetto$a$quello$osservato$assumendo$H₀$vera.!In#questo#caso,#P?VA L $=$P($ X
) $≥$x̅$/$ H ₀$vera)$

In$poche$parole$è$la$stessa$cosa$a$livello$grafico.$RIFIUTO$H₀$QUANDO$P?Value$<$α$(SEMPRE).$

In# questo# caso,# in# P?valu


e&è &l ’area&a&d
est ra&del&valo
re& ind
i vid
uato
&d
a &X1&sul a&d
ist rib
uzio
ne& d
e la&n
ormal e,&
mentre$α$è$l’area$a$destra$del$valore$μ₀$+$zα$σ/√n$(rispettivamente$Z$e$zα$sulla"standardizzata)."Quindi"dire"
che$per$rifiutare$H₀""il#P?val$deve$essere$minore$di$α"è"l"ats seasc" so"aidd " ri"eh
c "e/X>"" μ₀$+$zα$σ/√n.$

NB$il$P?value$non$è$sempre$a$destra,$bisogna$fare$attenzione$ai$sottocasi!$La$cosa$importante$da$capire$è$
che$va$nella$direzione$di$H₁.$Quind
i %i n
%q
uesto%cas o
% è%a%d
est ra%di% X
0 %ma%n
el% secon
do% soto
caso
% sa rà%a%s in
str a,%
mentre$nel$terzo$sarà$diviso$in$2.$

II. H₀:)μ)≥)μ₀))))))))))))H₁):)μ)<)μ₀)))$$)

Simmetricamente$a$quanto$dimostrato$prima$rifiutiamo$H₀$quando:$$

∗ X"#< μ₀$?$zα$σ/√n$
!"!!!!₀
∗ $$<$?$zα$
!/√!
∗ Pval%<%α"(d
ove &pval&è& l’ area&a&s inistra&d
i &x ̅) $
$
III. H₀:)μ)=)μ₀))))))))))))H₁):)μ)≠)μ₀)))$$)

Ora$abbiamo$2$regioni$di$rifiuto$(IPOTESI$BILATERALE)$,"sia"sufficientemente"a"sinistra"sia"sufficientemente"a"
destr a'd
i 'x ̅.'Qu
in
di' n
i vece$di$α$ora$consideriamo$α/2.$Pertanto$rifiuto$se$

∗ X"#< μ₀$?$zα/2$σ/√n!o"X$" >" μ₀$+$zα/2$σ/√n$


|!"!!!!₀|
∗ $$>$zα/2$
!/√!
∣!"!!!!₀∣
∗ Pval$<$α$(NB:$Pval$=$2P(Z$≥$
!/√!
$ /$H₀$vera)$dato$che$ora$ci$sono$2$regioni$di$rifiuto$e$che$ognuna$
deve$essere$minore$di$α/2)$

$
.)CASO)B.)Test)sulla)media)non)nota)di)una)popolazione)normale)con)varianza)NON)nota.)

Come$prima$solo$che$sotto$H₀:$μ=μ₀$$assumo$che$

!"!!!!₀
T$=$ $∼$t(n?1)$
!/√!

I. H₀:)μ)≤)μ₀))))))))))))H₁):)μ)>)μ₀)))$$$

Rifiuto$H₀$se$

∗ x̅#> μ₀$+$tn?1,α$
!!!₀
∗ $>$tn?1,α$
!/√!
∗ P?val$<$α$
II. H₀:)μ)≥)μ₀))))))))))))H₁):)μ)<)μ₀)))$$)

Rifiuto$H₀$se$

∗ x̅#< μ₀$?$tn?1,α$
!!!₀
∗ $<$?tn?1,α$
!/√!
∗ P?val$<$α$
III. H₀:)μ)=)μ₀))))))))))))H₁):)μ)≠)μ₀)))$$)

Rifiuto$H₀$se$

∗ x̅#> μ₀$+$tn?1,α/2$oppure$$$$!!x̅#< μ₀$?$tn?1,α/2$


|!!!₀|
∗ $>$tn?1,α/2$
!/√!
∗ P?val$<$α$

Ovviamente$ per$ tutti$ questi$ calcoli$ l’unica$ differenza$ rispetto$ al$ caso$ A$ è$ che$ invece$ di$ avere$ σ$ della$
popolazione$abbiamo$s$del$campione.$

$$$$$$$$$$$

$
.)CASO)C.)Test)sulla)p)non)nota)di)una)pop)Bernoulliana)con)n)abbastanza)grande)(np(1Rp)>9).)
Come$sappiamo$Pˆ$=$1/n$Ʃxi$=$x(successi)$/$n$
E$per$il$teorema$centrale$del$limite$
!ˆ!!
Z$=$ $∼$N(0;1)$
!(!!!)
!

I. H₀:)p)≤)p₀))))))))))))H₁):)p)>)p₀)))$$$
p₀$è$il$valore$da$testare$e$sotto$H₀$sostituiamo$p$con$p₀$
Quindi$la$distribuzione$di$Pˆ$sotto$H₀$
!ˆ!!₀
$∼#N(0;1)$
!₀(1Ap₀)
!
Quindi$rifiuto$H₀$se$

!₀(1Ap₀)
∗ pˆ$>$p₀$+$zα$ $
!
!ˆ!!₀
∗ $>$zα$
!₀(1Ap₀)
!
∣!ˆ!!₀∣
∗ Pvalue$<$α$(Pval$=$P($Z$≥$ $|$H₀$vera))$
!₀(1Ap₀)
!
$
II. H₀:)p)≥)p₀))))))))))))H₁):)p)<)p₀)))$$$

Rifiuto$H₀$se$

!₀(1Ap₀)
∗ pˆ$<$p₀$?$zα$ $
!
!ˆ!!₀
∗ $<$?$zα$
!₀(1Ap₀)
!
∣!ˆ!!₀∣
∗ Pvalue$<$α$(Pval$=$P($Z$≤$ $|$H₀$vera))$
!₀(1Ap₀)
!

III. H₀:)p)=)p₀))))))))))))H₁):)p)≠)p₀)))$$$

Rifiuto$H₀$se$

!₀(1Ap₀)
∗ |pˆ$?$p₀|>$$zα/2$ $
!
|!ˆ!!₀|
∗ Pvalue$<$α$(Pval$=$2P($Z$≥$ $|$H₀$vera))$
!₀(1Ap₀)
!

$
CASO)D.)Test)su)μ)di)una)popolazione)qualsiasi)abbastanza)grande)(n>50))
Anche$ se$ la$ varianza$ non$ è$ nota$ si$ può$ approssimare$ per$ il$ teorema$ centrale$ del$ limite$ a$ una$ normale.$
(come$caso$B,$solo$che$invece$della$t$ho$la$z$in$quando$la$t$di$Student,$al$crescere$di$n,$la$approssima)$
$
I. H₀:)μ)≤)μ₀))))))))))))H₁):)μ)>)μ₀)))$$$

Rifiuto$H₀$se$

∗ x̅#> μ₀$+$zα$
!!!₀
∗ $>$zα$
!/√!
∗ P?val$<$α$
$
II. H₀:)μ)≥)μ₀))))))))))))H₁):)μ)<)μ₀)))$$)

Rifiuto$H₀$se$
∗ x̅#< μ₀$?$zα$
!!!₀
∗ $<$?zα$
!/√!
∗ P?val$<$α$
$
III. H₀:)μ)=)μ₀))))))))))))H₁):)μ)≠)μ₀)))$$)

Rifiuto$H₀$se$

∗ x̅#> μ₀$+$zα/2$oppure$$$$!!x̅#< μ₀$?$zα/2$


|!!!₀|
∗ $>$zα/2$
!/√!
∗ P?val$<$α$

$
Calcolo)di)β)e)Potenza)del)Test)
$
Finora$ abbiamo$ presentato$ dei$ test$ di$ significatività$ α,$ dove$ a$ seconda$ dei$ valori$ rifiutavamo$ o$ meno$ H₀.$
Quando$rifiutiamo$significa$che$c’è$una$forte$evidenza$empirica$a$favore$dell’ipotesi$alternativa,$mentre$se$
non$rifiutiamo$significa$che$non$abbiamo$abbastanza$dati$per$poterlo$fare.$
$Se$non$rifiutiamo$H₀$il$motivo$può$essere$che:$
_$è$vera$
_$abbiamo$commesso$un$errore$del$II$tipo$(non$rif$H₀/H₀$falsa)$
$
Per$ calcolare$ β$ dobbiamo$ partire$ quindi$ dal$ presupposto$ che$ H₀$ sia$ falsa$ (come$ facevamo$ prima$ quando$
assumevamo$che$fosse$vera)$
$
" Poniamoci$in$un$caso$semplice,$come$il$I$sottocaso$del$caso$A:$pop$normale,$test$sulla$media,$var$
nota.$
H₀):))μ)=)μ₀)))))vs)))))H₁):)μ)>)μ₀)
)
$Come% sep mre%r if iuto%s e%% %x̅% >% μ₀$+$zα$σ/√n$$$(regola$di$decisione)$
$
Si$determini$ora,$per$un$qualunque$dei$valori$della$media$della$popolazione$definiti$dall’ipotesi$alternativa$
H₁,$la$probabilità$che$la$media$campionaria$appartenga$alla$regione$di$accettazione$(=prob$errore$II$tipo)$
$
β)=)P()NON)rifiuto)H₀)|)H₀)falsa))
Poiché$H₁$è$complessa$devo$scegliere$un$solo$valore$μ*$tale$per$cui$H₁$è$vera$(in$questo$caso$μ*$>$μ₀)$
$
β"="P(#X % # ∈$regione$accettaz$|$μ$=$μ*)$
!!!=""P ("x ̅" ≤$μ₀$+$$zα$$σ/√n$|$μ$=$μ*)$$$$$$$#!!gu a rdo' la 'distribu
zione'di' X
1 'so
t to'l ’ip 'd i 'H ₁$vera$
$
Rivediamo$cosa$abbiamo$fatto:$$
_$siamo$partiti$dalla$definizione$di$β$
_$per$trovare$β$dobbiamo$partire$dall’ipotesi$che$H₀$sia$falsa$
_$ per$ metterci$ nella$ condizione,$ abbiamo$ impostato$ un$ qualunque$ valore$ di$ μ$ =$ μ*$ che$ rende$ vera$ H₁$ (in$
questo$caso$è$maggiore$di$μ₀)$
_" dire" che" “non" rifiuto" H₀”! è"cm o"e id er c" ehl""aim"a̅xa" praitn e"ela alr" geo id "en"i ca ec t zao
i en(" es n"òal "
rifiuterei)$
_$scrivo$“data$μ$=$μ*”$perché$ho$assunto$cosi,$infatti$è$la$stessa$cosa$che$scrivere$“H₀$falsa”$o$“H₁$vera”$
_"l a"regione"d i "ac et tazio
ne"cor is p on
de"alla"r egion
e "per"cu
i "x̅" si"t rova " a$ sinistra$ del$ nostro$ valore$ soglia$
(quando$era$a$destra$IN$QUESTO$SOTTOCASO,$rifiutavamo)$
$
Quindi$come$abbiamo$fatto$nei$vari$casi,$scriviamo$la$DISR TB I ZUOIEND , ,I .Xp , re ,òuqse atv,los,attoo
tH
, ₁$
$

X")∼)N(μ*);) ! ))

$
Abbiamo$quindi$una$normale,$che$ha$come$valore$medio$μ*$e$che$il$corrispondenza$del$punto$μ₀$+$$zα$$σ/√n$
l’area$a$sinistra$di$tale$punto$è$la$probabilità$di$β.$Rispettivamente$a$destra$la$probabilità$di$1?β$
$
Considerazioni:#
Più$ μ*$ si$ avvicina$ a$ μ₀$ più$ β↑$ (consideriamo$ che$ μ₀$ e$ il$ relativo$ valore$ soglia$ rimangono$ fissi,$ se$ la$
Gaussiana$ di$ sposta$ a$ sinistra$ –$ perché$ in$ questo$ caso$ μ*>μ₀$ ?$ l’area$ a$ sinistra$ del$ valore$ soglia$ sarà$
maggiore)$
$Vale$ovviamente$il$contrario.$
POTENZA)DEL)TEST))
1?β$=$1$–$P$(NON$rifiuto$H₀$|$H₀$falsa)$
=$P$($rifiuto$H₀$|$H₀$falsa)$
="P"( "x̅" <" μ₀$+zα$$σ/√n$|$μ$=$μ*)$
!!!∗ !₀+!∝ !σ/√n$–!!*
=$(stand)$=$P($ $>$ ! )$
!/√!
!
!₀+!! !σ/√n$–!!*
=$1$?$P(Z$≤$ ! )$$$FUNZIONE$DI$RIPARTIZIONE$DELLA$NORMALE$STD$(Φ)$
!
$
!∗!!₀
1?β$=$1$–$Φ(?$ $+zα)$FUNZIONE$DI$POTENZA$DI$UN$TEST$(di$μ*)$
!/√!
Posso$chiamare$μ*?μ₀$=$Δ$

$
$
Considerazioni#
1.$1?β↑$se$μ*$si$allontana$da$μ₀$(Δ↑)$
2.$se$α↓$β↑$(1?β↓)$
3.$se$σ↑$(1?β↓)$?>$aumenta$la$possibilità$di$sbagliarsi$
4?$se$n↓$(1?β↑)$
$
Gli$ stessi$ ragionamenti$ fatti$ sopra$ di$ possono$ fare$ per$ ogni$ caso$ e$ sottocaso$ analizzati$ partendo$ dalle$
definizioni$di$β$e$1?β.$
$
$
$
$
$
$
$
$
$
CASO)E.)Verifica)di)ipotesi)sulla)differenza)tra)le)medie)di)2)pop)normali)(CAMPIONI)DIPENDENTI).)
Ipotizziamo$ di$ aver$ estratto$ un$ campione$ casuale$ di$ n$ coppie$ di$ osservazioni$ dipendenti$ estratte$ da$ 2$
popolazioni$congiuntamente$normali$con$medie$μx$e$μy.$
di$=$xi$?$yi$
Nel$ nostro$ test$ imponiamo$ un$ valore$ di$ d₀$ che$ è$ la$ differenza$ tra$ le$ medie$ e$ vogliamo$ capire$ se$ questo$
valore$può$ragionevolmente$rappresentare$il$parametro$ricercato$o$no.$
Ricordiamo$ inoltre$ che$ la$ varianza$ di$ d$ non$ è$ nota$ (ricordiamo$ che$ nel$ caso$ dei$ campioni$ dipendenti$ la$
varianza$è$minore$rispetto$al$caso$dei$campioni$indipendenti)$
$$
I. H₀:)μx)–)μy)=)d₀)(opp)≤)))))))))))))H₁):)μx)–)μy)>)d₀)

Rifiuto$H₀$se$

!!!!₀
∗ )>$tn?1,α)
!(!)/√!
∗ Pvalue$<$α)
II. H₀:)μx)–)μy)≥)d₀)))))))))))))H₁):)μx)–)μy)<)d₀)

Rifiuto$H₀$se$

!!!!₀
∗ !(!)/√!
)<$?$tn?1,α)
∗ Pvalue$<$α)
III. H₀:)μx)–)μy)=)d₀)))))))))))))H₁):)μx)–)μy)≠)d₀)

Rifiuto$H₀$se$

|!!!!₀|
∗ !(!)/√!
)>$$tn?1,α/2)
∗ Pvalue$<$α)

$
CASO) F.) Verifica) di) ipotesi) sulla) differenza) tra) le) medie) di) 2) pop) normali,) varianze) note) (CAMP)
INDIPENDENTI))

Si$ prenda$ una$ prima$ popolazione$ di$ media$ μx$ e$ varianza$ σx²$ e$ da$ questa$ si$ estragga$ un$ campione$ di$
ampiezza$nx$.$Si$prenda$una$seconda$popolazione$di$media$μy$e$varianza$σy²$e$si$estragga$un$altro$campione$
casuale$di$ampiezza$ny.$

Ab
bia m
o'dimo
s trat o
'ch e' se'X0' e'Y0's o no$le$medie$campionarie$delle$2$pop,$la$variabile$aleatoria$

X−!Y −!(!! !!!! )


Z$=$ $∼$N(0;1)$
!
!!
! ! !!
!! !!

Possiamo$assumere$quindi$questa$come$statistica$test$per$la$regole$di$decisione$(in$quanto$le$varianze$sono$
note)$

I. H₀:)μx)–)μy)=)d₀)(opp)≤)))))))))))))H₁):)μx)–)μy)>)d₀)

Rifiuto$H₀$se$$

X−!Y −!(!! !!!! )


∗ >$zα)
!
!!
! ! !!
!! !!

∗ Pvalue$<$α)
II. H₀:)μx)–)μy)≥)d₀)))))))))))))H₁):)μx)–)μy)<)d₀)

Rifiuto$H₀$se$

X−!Y −!(!! !!!! )


∗ <$?$zα)
!
!!
! ! !!
!! !!

∗ Pvalue$<$α)
III. H₀:)μx)–)μy)=)d₀)))))))))))))H₁):)μx)–)μy)≠)d₀)

Rifiuto$H₀$se$

| !!! !!(!"!!!")|
∗ !"² !"²
$>$zα/2)
!
!" !"

∗ Pvalue$<$α)

Se$l’ampiezza$dei$campioni$è$abbastanza$grande$(n>50)$anche$le$varianze$campionarie$approssimano$bene$
il$ risultato.$ Inoltre$ grazie$ al$ teorema$ centrale$ del$ limite$ si$ possono$ ottenere$ in$ questo$ modo$ buone$
approssimazioni$ anche$ se$ le$ popolazioni$ non$ sono$ distribuite$ normalmente$ (come$ caso$ D$ ma$ sulle$
differenze)$

$
$

CASO)G.)Verifica)delle)ipotesi)sulla)differenza)tra)le)medie)di)2)pop)normali)con)var)non)note)ma)uguali)
(CAMPIONI)INDIPENDENTI))

Essendo$ la$ varianza$ non$ nota,$ per$ calcolare$ una$ stima$ si$ utilizza$ la$ media$ ponderata$ delle$ varianze$
campionarie$osservate$sx²$e$sy²$

!! !! !!! ! !! !! !!!
Sp2$=$ !! !!! !!
$

IV. H₀:)μx)–)μy)=)d₀)(opp)≤)))))))))))))H₁):)μx)–)μy)>)d₀)

Rifiuto$H₀$se$

!!! !!(!"!!!")
∗ >$tnx+ny?2,α)
! !
!! !
!" !"

∗ Pvalue$<$α)
V. H₀:)μx)–)μy)≥)d₀)))))))))))))H₁):)μx)–)μy)<)d₀)

Rifiuto$H₀$se$

!!! !!(!"!!!")
∗ ! !
!<$?$tnx+ny?2,α)
!! !
!" !"

∗ Pvalue$<$α)
VI. H₀:)μx)–)μy)=)d₀)))))))))))))H₁):)μx)–)μy)≠)d₀)

Rifiuto$H₀$se$

| !!! !!(!"!!!")|
∗ ! !
$>$tnx+ny?2,α/2)
!! !
!" !"

∗ Pvalue$<$α)

) )

NB)Tutti$i$casi$visti$erano$test$per$un$dato$livello$di$significatività$α.$Ognuno$possiamo$leggerlo$così$$

“per$verificare$un’ipotesi$nulla$contro$l’ipotesi$alternativa$la$regola$di$decisione$è:$si$rifiuta$H₀$se…”$

CONSIDERAZIONI#FINALI#

Ricordiamo$che:$rifiuto$?>$prova$empirica$sul$dato$testato,$ma$non$rifiuto$?>$no$prova$empirica.$

Non$ bisogna$ guardare$ i$ dati$ per$ formulare$ l’ipotesi$ nulla$ ma$ fare$ il$ contrario$ (prima$ le$ condizioni$ e$ poi$ il$
test)$proprio$per$rifarci$al$concetto$di$evidenza$empirica.$Ad$esempio$non$di$decide$il$livello$di$significatività$
dopo$aver$calcolato$il$pvalue$perché$non$potremmo$interpretare$il$nostro$risultato$in$termini$probabilistici.$

$
$

TEST)SULLA)BONTA’)DI)ADATTAMENTO)
Stiamo$parlando$di$test$non$su$parametri,$ma$sui$dati$quando$l’assunzione$di$normalità$della$distribuzione$
non$può$essere$formulata.$

Immaginiamo$un’indagine$commerciale$con$diverse$variabili$categoriche$e$le$relative$frequenze$osservate$
(sulla$preferenza$per$alcune$marche$per$esempio).$Ecco,$noi$ci$chiediamo$se$è$ragionevole$affermare$che$la$
distribuzione$delle$frequenze$possa$approssimare$una$qualche$distribuzione$nota.$

H₀$:$le$preferenze$seguono$la$distribuzione$

H₁$:$le$preferenze$non$seguono$la$distribuzione$

Come$per$ogni$test$per$le$ipotesi$fatto$cerchiamo$la$distribuzione$sotto$H₀,$cioè$ASSUMIAMO$H₀$VERA.$

Vengono$quindi$assegnate,$per$ogni$modalità$della$variabile$categorica$una$frequenza$parziale$in$linea$con$
la$distribuzione$voluta$da$H₀.$Per$esempio$se$la$distribuzione$fosse$UNIFORME,$ogni$pi$=$1/k$dove$k$sono$le$
modalità$della$variabile$categorica.$

DISTINZIONE#IMPORTANTE:#

Chiamiamo$Oi$la$FREQUENZA)OSSERVATA$per$la$iesima$modalità$

Chiamiamo$ Ei$ la$ FREQUENZA) ATTESA,$ ossia$ quella$ che$ ci$ saremmo$ aspettati$ se$ la$ frequenza$ avesse$
rispettato$perfettamente$la$distribuzione$voluta$da$H₀.$Pertanto$Ei)=)npi)(NB$in$un$esercizio$pi$può$essere$
anche$solamente$una$percentuale$secondo$una$teoria$che$noi$dobbiamo$verificare,$non$per$forza$
riferita$a$una$distribuzione!)$

Costruiamo$adesso$un$INDICE,$che$sarà$la$nostra$STATISTICA$TEST$che$ci$aiuta$a$capire$quando$rifiutare$H₀.$

! (!"!!")²
= !!! ≥$0
!"

L’indice$chi?quadrato$è$una$misura$della$distanza$delle$osservazioni$dalle$frequenze$attese;$in$poche$parole,$
se$X²$aumenta,$aumenta$anche$la$probabilità$di$dover$rifiutare$H₀.$

TEST$SULLA$BONTA’$DI$ADATTAMENTO.$Abbiamo$visto$che$l’indice$X²$è$un$STIMATORE$della$distanza,$ma$
come$ si$ distribuisce$ assumendo$ H₀$ vera?$ (infatti$ per$ ogni$ stimatore$ in$ un$ test$ cerchiamo$ la$ sua$
distribuzione$sotto$H₀)$

Possiamo$affermare$che$per$un$campione$abbastanza$grande$(Ei$≥5$∀i)$allora$

∼# (kA1)#

È$una$nuova$distribuzione$con$k?1$gradi$di$libertà$(meno$1$in$quanto$ne$perdo$uno$perché$!p=1).$Quindi$
dobbiamo$ cercare$ i$ valori$ in$ una$ tabella$ apposita.$ Ma$ quali?$ Dato$ un$ livello$ di$ significatività$ α,$ trovo$ un$
valore$soglia$di$X²$tale$che$rifiuto$H₀$se$

! (!"!!")²
=$ !!! $>$ k?1,α$$$$$$$$$$$$$dove$P( k?1$>$ k?1,α)$=$α$
!"
TEST)DI)INDIPENDENZA)
Nel$ caso$ in$ cui$ raccogliamo$ dei$ dati$ non$ sono$ per$ una$ variabile,$ ma$ per$ 2$ (ad$ esempio$ distinguiamo$ tra$
maschi$ e$ femmine)$ con$ questo$ test$ posso$ capire$ se$ esiste$ un$ tipo$ di$ relazione$ tra$ le$ variabili$ NELLA$
POPOLAZIONE$ (non$ solo$ nel$ campione,$ come$ facevamo$ prima$ con$ le$ tabelle$ di$ contingenza,$ perché$
l’obiettivo$del$test$è$fare$inferenza).$

Formuliamo$le$nuove$ipotesi:$
H₀:$le$variabili$sono$indipendenti$
H₁:$le$variabili$sono$dipendenti$
Come$ prima$ avremo$ quindi$ 2$ tabelle:$ quella$ delle$ frequenze$ osservate$ e$ quella$ delle$ frequenze$ attese$
ASSUMENDO$COME$VERA$L’IPOTESA$H₀.$
A/B$ 1$ 2$ ..$ C$ Ri)totale)
1$ O11$ $ $ O1c$ R1$
2$ $ $ $ $ R 2$
..$ $ $ $ $ $
R$ Or1$ $ $ Orc$ R r$
Cj)totale) C 1$ C 2$ $ C c$ N)
$

Cj$e$Ri$sono$rispettivamente$i$totali$di$colonna$e$di$riga.$

Sappiamo$che$se$le$variabili$sono$indipendenti,$le$frequenze$subordinate$sono$il$prodotto$di$quelle$relative.$
Quindi$quelle$attese$sotto$H₀$saranno:$

!"!!"
Eij$=$ $
!

Ecco$ che$ posso$ costruire$ la$ seconda$ tabella,$ con$ stesse$ frequenze$ marginali$ e$ diverse$ congiunte$ (questa$
volta$ sono$ attese).$ Come$ per$ il$ test$ sulla$ bontà$ di$ adattamento$ posso$ calcolarne$ la$ distanza$ per$ ricavare$
l’indice$chi?quadrato,$che$questa$volta$di$calcola$

! ! (!!" !!!" )²
=$ !!! !!! !
$≥$0$
!"

L’indice$ci$da$una$misura$maggiore$di$zero$sulla$forza$dell’associazione$tra$le$2$variabili.$Se$è$uguale$a$zero,$
le$2$variabili$sono$perfettamente$indipendenti.$

Ma$quanto$deve$essere$grande$ $per$poter$affermare$una$qualche$associazione$e$quindi$rifiutare$H₀?$

Se$ il$ campione$ è$ abbastanza$ grande$ (ovvero$ de$ meno$ del$ 20%$ delle$ celle$ ha$ una$ frequenza$ attesa$ Eij$ <5)$

allora$possiamo$affermare$che$lo$stimatore$ $segue$una$distribuzione$sotto$H₀$

∼ ((rA1)(cA1))#

Dove$il$prodotto$(r?1)(c?1)$sono$i$gradi$di$libertà.$Quindi,$dato$un$livello$di$significatività$α,$rifiutiamo$H₀$se$

$>$ (r?1)(c?1),α$
$

TEST)SULL’ASSENZA)DI)CORRELAZIONE)LINEARE)
Per$ricercare$una$qualche$correlazione$lineare$tra$2$variabili$si$parte$dal$COEFF$di$CORRELAZIONE$LINEARIE$
(CAMPIONARIO)$

!!"
rxy$= $(compreso$tra$?1$e$1)$
!! !!

! !
dove$sxy$=$ $ !!! !" − ! (!" − !)$
!!!

Questo$ coefficiente$ ci$ aiuta$ a$ capire$ l’intensità$ dell’associazione$ lineare.$ Introduciamo$ quindi$ su$ questo$
delle$ipotesi$(NON$sul$coefficiente$campionario$ma$della$popolazione!!!)$

I. H₀:$ρ$≤$0$$$$$H₁$:$ρ$>$0$
II. H₀:$ρ$≥$0$$$$$H₁$:$ρ$<$0$
III. H₀:$ρ$=$0$$$$$H₁$:$ρ$≠$0$

In$ questo$ caso$ abbiamo$ impostato$ ρ₀=0$ perché$ è$ quello$ più$ importante,$ infatti$ voglio$ testare$
l’indipendenza$per$rifiutarla$in$favore$di$una$qualche$relazione$lineare.$

Trovate$le$ipotesi$su$ρ,$assumendo$H₀$vera,$qual$è$la$distribuzione$di$R$campionaria$(aleatoria)?$

Si$ può$ dimostrare$ che,$ quando$ l’ipotesi$ nulla$ è$ vera$ e$ le$ 2$ variabili$ aleatorie$ seguono$ una$ distribuzione$
normale$bidimensionale,$la$funzione$campionaria$

!! !!!
T$=$ $=$statistica$test$∼$t(n?2)$
!!!²

Pertanto$ rifiuto$ H₀$ sempre$ nello$ stesso$ modo,$ imponendo$ a$ seconda$ dei$ sottocasi$ la$ statistica$ test$
maggiore$di$tn?1,α$oppure$minore$di$–tn?1,α$

NB$Se$n$abbastanza$grande$e$α$=$5%$posso$rifiutare$H₀$(ρ=0)$se$

|r|$=$2/√!$

$
$

MODELLO)DI)REGRESSIONE)LINEARE)SEMPLICE)
_$ Serve$ per$ misurare/descrivere$ in$ che$ modo$ una$ variabile$ X$ influenza$ una$ seconda$ variabile$ Y$ (la$
proporzione$tra$una$variazione$e$di$X$e$la$variazione$di$Y)$

_$Serve$per$calcolare$delle$previsioni$circa$la$variabile$d’interesse$Y$

Con$il$modello$di$regressione$abbiamo$già$visto$i$diagrammi$di$dispersione,$il$coefficiente$di$correlazione$e$
la$retta$di$regressione$semplice$come$STRUMENTI$DESCRITTIVI.$Ora$però$guarderemo$l’INFERENZA$(cioè$dal$
modello$di$regressione$sul$campione$ricaviamo$informazioni$sulla$popolazione)$

La$retta$di$regressione$rappresenta$il$miglior$modello$lineare$per$prevedere$l’andamento$di$Y$in$base$a$X.$
Tuttavia$gli$strumenti$descrittivi$non$possono$provare$relazioni$di$causa$effetto$ma$solo$fornire$un$evidenza$
empirica.$

MODELLO#DI#REGRESSIONE$:$Modello$per$la$media$di$Y$per$ogni$fissato$valore$di$X.$$

Nella$ realtà$ molte$ altre$ variabili$ influenzano$ Y$ oltre$ a$ X,$ nel$ modello$ di$ regressione$ lineare$ semplice$ i$
contributi$di$questi$fattori$vengono$sintetizzati$in$una$COMPONENTE)DI)ERRORE)(ε).$Tale$errore$aleatorio$
rappresenta$la$percentuale$di$variazione$di$Y$che$il$modello$non$riesce$a$spiegare.$

In$ipotesi$di$funzione$lineare,$il$modello)della)popolazione$sarà$

yi$=β₀+β₁xi+εi$

dove$ β₀$ e$ β₁$ rappresentano$ i$ coefficienti$ del$ modello$ della$ popolazione$ e$ $ εi$ la$ componente$ aleatoria$ di$
errore.$

Poiché$assumiamo$che$εi$si$distribuisca$normalmente$con$media$0$e$varianza$σ²$possiamo$dire$che$per$ogni$
valore$di$X,$il$VALORE$MEDIO$DI$Y$è$rappresentato$dall’equazione$

Y$=$β₀+β₁x$

Il$modello$di$regressione$infatti$fornisce$il$VALORE$ATTESO$della$variabile$aleatoria$Y$quando$X$assume$un$
particolare$valore.$Possiamo$quindi$riscrivere$l’espressione$come$

COMPONENTE$SCRUTTURALE$!$$$E$(Y/X=x)$=$β₀+β₁x$

NB!$La$parola$regressione$significa$proprio$MEDIA$(parola$chiave).$È$quindi$un$modello$per$la$MEDIA$DI$Y$
dato$X.$$Questa$media$è$rappresentata$dalla$retta$di$regressione.$

Per$capire,$quando$x=xᵢ$non$è$vero$che$y=yᵢ$(punto$appartenente$alla$retta),$ma$di$tutte$le$osservazioni$per$
cui$x=xᵢ$in$MEDIA$sarà$y=yᵢ.$La$distanza$verticale$tra$la$yᵢ$osservata$e$la$yᵢ$sulla$retta$(che$chiameremo$yᵢˆ)$è$
proprio$il$nostro$εᵢ$

$
$

Passiamo$ora$dalla$popolazione$al$campione.$

Modello)del)campione$?>$essendo$che$estraiamo$solo$alcune$osservazioni,$avremo$un$nuovo$MODELLO#DI#
REGRESSIONE#STIMATO$dato$dall’equazione$

yᵢ$=$b₀+b₁xᵢ+eᵢ$

dove$ b₀$ e$ b₁$ sono$ le$ STIME$ DEI$ COEFFICIENTI$ e$ eᵢ$ è$ la$ differenza$ tra$ il$ valore$ osservato$ di$ Y$ e$ il$ valore$
previsto$sulla$retta$di$regressione$stimata$determinato$da$

yᵢˆ$=$b₀+b₁xᵢ$

eᵢ$ è$ quindi$ il$ RESIDUO$ STIMATO$ che$ non$ è$ l’errore$ del$ modello$ ε$ ma$ la$ combinazione$ dell’errore$ del$
modello$e$degli$errori$nella$stima$dei$coefficienti$e$quindi$degli$errori$della$STIMA$del$valore$previsto.$

eᵢ$=$yᵢ$?$yᵢˆ$=$yᵢ$?$(b₀+b₁xᵢ)$

Stima)Dei)Coefficienti)Con)Il)Metodo)Dei)Minimi)Quadrati)
Definiamo$ una$ funzione$ dei$ coefficienti$ b₀$ e$ b₁$ che$ rappresenta$ la$ somma$ dei$ quadrati$ di$ tutti$ gli$ errori;$
questa$ viene$ chiamata$ SSE$ (sum$ squared$ errors).$ Gli$ stimatori$ dei$ coefficienti$ sono$ scelti$ in$ modo$ da$
minimizzare$questa$somma.$

Quindi$i$coefficienti$dell’equazione$$

yᵢˆ$=$b₀+b₁xᵢ$

sono$scelti$in$modo$che$quantità$
! ! !
SSE$=$ !!! !ᵢ²$=$ !!!(!ᵢ − !ᵢˆ)²$=$ !!!(!ᵢ − !₀ − !₁!ᵢ)²$

SIA$MINIMA.$Per$far$ciò$si$usa$il$calcolo$della$derivata$parziale$prima$rispetto$a$b₀$poi$a$b₁$,$le$si$eguaglia$a$0$
e$si$risolve$il$sistema.$

$
Si$ottiene$quindi$

!
!ₓᵧ !ᵢ!! (!ᵢ!!) !
" $Stimatore$per$β₁$$$$$$$b₁$=$ $=$ !!!
$=$rxy$!! $
!ₓ² (!ᵢ!!)² !

Si$può$dimostrare$che$possiamo$anche$scriverlo$come$

(!ᵢ−!)
b₁$=$ !
!!!
(!ᵢ−!)²
!ᵢ$

dimostrando$che$il$coefficiente$è$funzione$lineare$di$yᵢ.$(RIVEDERE$FORMULE$ABBREVIATE$PER$CALCOLO)$

" !Stimatore)per)β₀""""b₀"="y̅#?!b₁x̅$
Se$sostituiamo$il$valore$di$b₀$nell’equazione$della$retta$(y=b₀?b₁x)#p os ia m
o#dim
o
s tr ar e#che#p
e r# x=x̅#
risu
l ta (semp
r e(y=y̅ (e (c h
e(qu
in
di( la(retta(passa (s em
p
r e( p
er( i( p
un
ti(m
ed
i( $

$INTERPRETAZIONE$$

b₁$?>$variazione$MEDIA$di$Y$in$corrispondenza$di$un$incremento$unitario$di$X$

b₀$?>$valore$MEDIO$di$y$in$corrispondenza$di$un$valore$di$x=0$

Inoltre$poiché$questi$stimatori$occorrono$per$fare$inferenza$sulla$popolazione$si$può$dimostrare$che$sono$
non$distorti$e$a$varianza$minima.$

Ipotesi)Standard)per)il)Modello)di)Regr.Lin.Semplice)
1. Le$ Y$ sono$ funzioni$ lineari$ delle$ X$ e$ di$ una$ componente$ aleatoria$ di$ errore.$ Ossia$ di$ assume$ che$ i$
diversi$valori$attesi$di$Y$fissati$i$valori$di$X$prendano$la$forma$di$una$retta$di$equazione$
yᵢ$=$β₀$+$β₁xᵢ$+$εᵢ$$$con$i=1…n$
2. Si$ assume$ che$ le$ xᵢ$ siano$ costanti$ o$ realizzazioni$ di$ una$ variabile$ aleatoria$ X,$ non$ correlata$ con$ le$
componenti$aleatorie$di$errore$εᵢ.$Nell’ultimo$caso$l’inferenza$è$svolta$condizionatamente$ai$valori$
osservati$di$X.$
3. Gli$errori$aleatori$sono$variabili$aleatorie$con$media$0$e$varianza$σ²$costante$per$ogni$i$
E(ε)$=0$$$E$(ε²)$=$σ²$
4. Gli$errori$aleatori$non$sono$correlati$tra$loro$e$quindi$
COV$(εᵢ;εJ)$=$E$(εᵢ;εJ)$=$0$
$
$
$
$
$
$
$
$
ANALISI)DELLA)VARIABILITA’)DI)Y)E)COMPOSIZIONE)
Abbiamo$analizzato$attraverso$il$modello$di$regressione$un$tentativo$di$spiegare$la$variazioni$della$variabile$
dipendente$al$variare$di$X.$

Nel$modello$abbiamo$potuto$vedere$2$tipi$di$scarto:$

_$yᵢRy̅$scarto$della$singola$osservazione$dalla$media$

_$yᵢˆRy̅$scarto$del$singolo$valore$PREVISTO$dalla$media$

_$yᵢRyᵢˆ$scarto$della$singola$osservazione$dal$corrispondente$valore$previsto$(eᵢ)$

Da$questa$analisi$ricaviamo$un’equazione$che$è$sempre$vera:$

yᵢ!?!y̅#=(y ᵢˆ$?!y̅)$+$(y ᵢ$?$yᵢˆ)$

Se$eleviamo$al$quadrato$e$introduciamo$la$sommatoria$(ossia$guardiamo$tutte$le$n$osservazioni)$ottengo$

!(yᵢ?y̅)²$=$!(yᵢˆ?y̅)²$+$!(yᵢ?yᵢˆ)²$$!$$SST$=$SSR$+$SSE$
Questa$dimostra$la$scomposizione$di$quella$che$è$la$DEVIANZA$di)Y)o)SST$(Sum$of$Squared$TOTAL)$ossia$la$
variabilità$totale$delle$osservazioni$yᵢ.$Facciamo$questo$perché$vogliamo$dimostrare$come$la$variabilità$sia$
minore$grazie$alla$retta$di$regressione,$rispetto$alla$variabilità$totale.$(Infatti$SSR<SST)$

SSR$=$!$(yᵢˆ!?!y̅)²$=$b₁²$!$(xᵢ!?!x̅)²$

È$la$somma$dei$quadrati$della$regressione$(è$quello$che$voglio$massimizzare)$,$è$quella$parte$della$variabilità$
spiegata$dal$modello$di$regressione.$Inoltre$dipende$da$b₁$e$dalla$dispersione$di$X$(è$preferibile$quindi$una$
maggiore$dispersione).$

SSE$=$!$(yᵢ$?$yᵢˆ)²$=$!eᵢ²$=$!(yᵢ$?$(b₀$+$b₁xᵢ))²$

È$la$somma$dei$quadrati$degli$errori$(quello$che$voglio$minimizzare),$è$la$parte$di$informazioni$che$il$mio$
modello$non$spiega.$

Ricapitolando,$ per$ una$ dato$ insieme$ di$ osservazioni$ della$ variabili$ Y,$ la$ quantità$ SST$ è$ fissa$ poiché$
rappresenta$ la$ variabilità$ complessiva$ delle$ osservazioni$ dalla$ loro$ media.$ Quindi,$ un$ migliore$ modello$ ha$
una$componente$SSR$più$alta$e$una$SSE$minima.$
COEFFICIENTE)DI)DETERMINAZIONE)R²)

È$definito$come$il$rapporto$tra$SSR$e$SST$e$fornisce$una$misura$descrittiva$della$proporzione$di$variabilità$
totale$di$Y$spiegata$dal$modello$di$regressione.$È$un$numero$compreso$tra$0$e$1$e$in$qualche$modo$descrive$
la$BONTA’$del$modello.$

!!" !!"
R²$=$
!!"
$=$1$?$!!" $

È$importante$non$generalizzare$le$interpretazione;$un$alto$R²$può$derivare$sia$da$un$basso$SSE,$sia$da$un$
alto$SST$$che$da$entrambi.$Quindi,$per$le$stesse$osservazioni$yᵢ$si$possono$confrontare$2$modelli$in$base$al$
loro$R²$ma$NON$tra$modelli$diversi.$Lo$vedremo$poi$bene$con$R²$aggiustato.$

Inoltre$vale$

R²$=$r²$(r$coeff$di$correlazione$campionario)$

Infine,$possiamo$usare$SSE$per$STIMARE)LA)VARIANZA)DEL)MODELLO$(o$varianza$dell’errore,$o$dei$residui)$

!!"
σ²$=$se²$=$ $
!!!

Il$numero$dei$gradi$di$libertà$è$dovuto$al$fatto$che$per$calcolare$s²$vengono$utilizzati$i$2$parametri$stimati.$

INFERENZA)STATISTICA)SUL)MODELLO)
Per$fare$inferenza,$similmente$a$quanto$fatto$nei$casi$precedenti$con$media,$proporzione$e$differenze$nelle$
popolazioni,$dobbiamo$

.$dare$la$definizione$degli$STIMATORI$della$varianza$e$dei$coefficienti$b₀$e$b₁$

.$trovarne$le$rispettive$STIME$($e$distribuzioni)$

.$verificare$ipotesi$e$ricercare$intervalli$di$confidenza$

Prima$di$fare$tutto$ciò,$dobbiamo$introdurre$una$quinta$ipotesi$alle$4$standard,$e$cioè$

5. εᵢ∼N(0;σ²))
yᵢ∼N(β₀+β₁xᵢ;)σ²))

a)$lo$stimatore$del$coefficiente$angolare$β₁$B₁$lo$abbiamo$già$trovato$ed$è$

!
!!! !ᵢ!! (!ᵢ!!)
b₁$=$sxy$/$sx²$=$ $
(!ᵢ!!)²

dove$ abbiamo$ anche$ visto$ essere$ una$ funzione$ lineare$ di$ yᵢ.$ Questo$ stimatore,$ essendo$ non$ distorto,$ ha$
valore$atteso$β₁$e$varianza$

!² !²
σb1²$=$ $=$ $
!(!ᵢ!!)² !!! !ₓ²
Quindi$

!₁Aβ₁
B₁$∼$N(β₁;$

!!! !ₓ²
)$$$e$$$ ! $
∼N(0;1)$
!!!!!ₓ

!₁Aβ₁
Se$σ$non$noto,$ !ₑ $
∼$t$(n?2)$
!!!!!ₓ

Si$ osservi$ come$ la$ varianza$ stimata$ dipenda$ in$ modo$ positivo$ dalla$ distanza$ dei$ punti$ dalla$ retta$ di$
regressione$(sₑ²)$e$in$modo$indiretto$dalla$distanza$dei$valori$xᵢ$dalla$media$(dispersione$maggiore,$stima$del$
modello$migliore,$come$per$R²)$

b)$lo$stimatore$dell’intercetta$β₀$ B₀$ è$anch’esso$combinazione$lineare$delle$variabili$aleatorie$yᵢ$e,$essendo$


non$distorto,$ha$valore$atteso$β₀$e$varianza$

! !̅²
sb₀²$=$ + $se²$
! !!! !ₓ²

e$si$distribuisce$normalmente.$

c)$TEST)DELLE)IPOTESI)SU)B₁)

La$prima$situazione$che$gli$analisti$vogliono$verificare$è$se$esista$o$meno$una$relazione$lineare$e$quindi$se$B₁$
è$diverso$da$0$(in$questo$caso$non$esiste$una$relazione$tra$le$variabili$e$i$valori$previsti$coincidono$con$la$
loro$media).$NB$Qua$scriviamo$i$test$con$β*=0$(è$quello$che$fanno$anche$i$pacchetti$applicativi)$,$ma$vale$
per$qualunque$altro$valore$assegnato.$

I. H₀:$β₁≤$0$$$$vs$$$$H₁:$β₁$>$0$
Rfiuto$H₀$se$$
!₁Aβ₁*
t$=$
!(!!)
$>$tn?2,α$

dove$t$è$la$statistica$test$che$uso$anche$per$tutti$gli$altri$(ovviamente$vale$anche$sempre$pvalue<α)$

II. H₀:$β₁≥$0$$$$vs$$$$H₁:$β₁$<$0$
Rfiuto$H₀$se$$
!₁Aβ₁*
t$=$
!(!!)
$<$?tn?2,α$
III. H₀:$β₁=$0$$$$vs$$$$H₁:$β₁$≠$0$
Rfiuto$H₀$se$$
|!₁Aβ₁*|
t$=$ $>$tn?2,α/2$
!(!!)

$
FORMALMENTE$

“Siano$ β₁$ il$ coefficiente$ angolare$ della$ retta$ di$ regressione$ e$ b₁$ la$ corrispondente$ stima$ ottenuta$ con$ il$
metodo$dei$minimi$quadrati$da$un$campione$di$n$coppie$di$osservazioni.$Se$valgono$le$ipotesi$standard$per$
il$modello$di$regressione$e$si$può$anche$assumente$che$gli$errori$siano$distribuiti$normalmente,$la$variabili$
aleatoria$

!₁Aβ₁*
t$=$
!(!!)
$∼$t(n?2)$

è$distribuita$secondo$la$variabile$t$di$Student$con$n?2$gradi$di$libertà.$Inoltre$il$teorema$del$limite$centrale$ci$
permette$ di$ concludere$ che$ il$ risultato$ è$ approssimativamente$ valido$ per$ un$ insieme$ molto$ ampio$ di$
distribuzioni$non$normali$per$gli$εᵢ$e$con$campioni$di$ampiezza$n$abbastanza$elevata.”$

d)$INTERVALLI)DI)CONFIDENZA)DI)LIVELLO)1=α)PER)B₁)

Come$sempre$sarà:$STIMA$PUNTARE$±$ME$

!ₑ
(b₁$±$tn?2,α/2$$sb₁)$dove$ricordiamo$sb₁$=$ $
!!!!!ₓ

$
e)$TEST)SU)β₁)CON)LA)DISTRIBUZIONE)F)

Esiste$un$metodo$alternativo$per$verificare$l’ipotesi$che$β₁$sia$uguale$a$0.$

Introduciamo$la$distribuzione$F$come$distribuzione$del$rapporto$tra$2$stime$indipendenti$della$varianza.$

H₀:$β₁=0$$$$$$$H₁:$β₁≠0$

Assumendo$H₀$vera,$la$statistica$test$

!"# !!" !²
F$=$ $=$ $=$ !!!! ∼$F(1;n?2)$
!"# !ₑ²
!!!

La$ regola$ di$ decisione$ è:$ rifiuto$ H₀$ quanso$ F$ abb$ grande$ (SSR$ alto,$o$ R²$ alto,$ il$ modello$ spiega$ gran$ parte$
delle$informazioni)$e$quindi$

F$≥$F1,n?2,α$$

Si$può$anche$dimostrare$che$per$ogni$analisi$di$regressione$semplice,$per$la$statistica$test$F$vale$

F(1;n?2)$=$t²(n?2)$

)
IL)COEFFICIENTE)β)COME)MISURA)DEL)RISCHIO)FINANZIARIO)

Il$coefficiente$può$essere$utile$per$capire$come$un$andamento$di$un$indice$come$S&P500$abbia$affetto$sulle$
singole$imprese.$

Il$ coefficiente$ Beta$ per$ un$ particolare$ titolo$ è$ il$ coefficiente$ di$ regressione$ della$ retta$ ottenuta$ quando$ si$
vogliono$ spiegare$ il$ rendimenti$ di$ tale$ titolo$ in$ funzione$ del$ rendimento$ del$ mercato,$ misurato$ con$ un$
indice$ più$ generale.$ Questo$ coefficiente$ indica$ quanti$ siano$ reattivi$ i$ rendimenti$ di$ un$ particolare$ titolo$
rispetto$ai$rendimenti$complessivi$di$mercato.$

È$genericamente$positivo.$Se$uguale$a$1$segue$fedelmente$il$mercato,$sennò$può$essere$“aggressivo”$(>1)$o$
“difensivo”$(<1).$

Y(rendim$richiesto)$=$β₀(rend$privo$rischio)$+$β₁(rendim$mkt$–$rend$privo$rischio)$

Quanto$più$Beta$elevato,$tanto$lo$sarà$il$rischio,$e$quindi$il$rendimento$richiesto$per$quel$particolare$titolo.$

PREVISIONI)
Immaginiamo$di$scegliere$un$valore$xn+1$non$osservato$nei$campione$e$in$base$al$nostro$modello$trovare$il$
valore$della$variabile$dipendente.$

Sono$possibili$2$tipi$di$previsione$

_$previsione$del$valore$INDIVIDUALE$Yn+1$dato$da$$

Yn+1$=$β₀+β₁xn+1$+εn+1$

_$previsione$del$VALORE$ATTESO$condizionato,$cioè$della$media$della$variabile$dipendente$dato$un$fissato$
xn+1$

E(Yn+1$|$x=xn+1)$=$$β₀+β₁xn+1$

In$base$alle$ipotesi$assunte$per$il$modello,$entrambe$le$previsioni$determinano$la$stessa$STIMA$PUNTUALE,$
in$quanto$la$stima$di$ε$è$il$suo$valore$medio$e$quindi$0.$Quindi$risulta$

yˆn+1$=$b₀+b₁xn+1$

Attenzione$ perché$ invece$ le$ stime$ delle$ varianze$ non$ sono$ le$ stesse$ per$ i$ 2$ tipi$ di$ previsioni!$ E$ quindi$ la$
misura$degli$intervalli$di$confidenza$per$esempio$saranno$diversi.$

! !!!! !! !
σ²(E…)$=! + !²$
! ! !ᵢ!! !

dove$$la$xn+1$$è$fissata$e$σ²$è$la$varianza$degli$errori,$che$se$non$nota$va$sostituita$con$sₑ².$Possiamo$vedere$
che$la$la$varianza$dipende$in$modo$positivo$dalla$distanza$tra$la$media$e$il$valore$fissato$(più$ci$allontaniamo$
dal$range$maggiore$è$l’incertezza$della$previsione).$

$
La$varianza$del$valore$individuale$è$maggiore$in$quanto$oltre$alla$varianza$della$media$bisogna$considerare$
anche$l’incertezza$dell’errore.$Sarà$quindi$

! !!!! !! !
σ²yn+1$=$σ²(E…)$+$σ²$=$! 1+!+ !²$
! !ᵢ!! !

Queste$previsioni$dipendono$da$

.$n,$in$modo$inverso$

.$σ²$in$modo$diretto$

.$(xn+1!?!x̅)²$in$modo$diretto$

.$!(xᵢ!?!x̅)²$in$modo$inverso$(range$maggiore,$minore$incertezza$della$previsione)$

INTERVALLO$DI$CONFIDENZA$PER$LA$PREVISIONE$DEL$VALORE$INDIVIDUALE$

1 (!!!! − !)²
!ˆ!!! ± ! !!!!,∝/! 1+ + !!! $
! (!ᵢ − !)²

INTERVALLO$DI$CONFIDENZA$PER$LA$PREVISIONE$DEL$VALORE$MEDIO$

1 (!!!! − !)²
!ˆ!!! ± ! !!!!,∝/! + !!! $
! (!ᵢ − !)²

Dove$yˆn+1$=$b₀+b₁xn+1$

ANALISI)GRAFICA)
Per$l’individuazione$di$osservazioni$estreme$(diagramma$di$dispersione).$

Vi$possono$essere$2$tipi$di$osservazioni$estreme$

_$quelle$caratterizzate$da$un’ascissa$che$si$discosta$notevolmente$dal$range$delle$altre$osservazioni.$Esse$si$
riconoscono$grazie$a$un$termine$di$fondamentale$importanza$chiamato$LEVERAGE$(effetto?leva)$

! (!ᵢ!!)²
hᵢ$=$ + $
! (!ᵢ!!)²

Questo$ termine$ influenza$ la$ varianza$ della$ previsione$ del$ valore$ di$ y.$ Più$ aumenta$ la$ distanza$ dal$ valore$
medio,$più$variabile$è$il$valore$che$assume$yˆ$e$quindi$questo$avrà$un$intervallo$di$confidenza$più$ampio.$

Inoltre$un’osservazione$viene$comunemente$considerata$estrema$(a$ELEVATO$LEVERAGE)$quando$

!!
hᵢ$=$ $dove$p$è$il$numero$dei$coefficienti$del$modello$e$p/n$la$media$leverage$
!
$

_$quelle$caratterizzate$da$un$elevato$residuo$e$quindi$che$si$discosta$notevolmente$da$yˆ.$Questi$si$dicono$
OUTLIER$e$vengono$comunemente$identificati$con$il$calcolo$dei$RESIDUI$STANDARDIZZATI.$
!ᵢ
Eis$=$ $
!ₑ! !!!ᵢ

Le$osservazioni$vengono$considerate$outlier$quando$|eis|>2$

MODELLO)DI)REGRESSIONE)LINEARE)MULTIPLA)
Introduciamo$ ora$ un$ modello$ dove$ non$ è$ solo$una$ variabile$ esogena$ a$ influenzare$ la$ previsione$ media$ di$
quella$di$quello$endogena,$bensì$sono$molteplici.$Il$modello$per$la$popolazione$prende$la$forma$

yᵢ=$β₀+β₁x₁ᵢ+β2x2ᵢ+….+βkxkᵢ$+$εᵢ$

Dove$$

_$ le$ diverse$ βj$ sono$ in$ coefficienti$ delle$ variabili$ indipendenti$ Xj$ e$ indicano$ l’effetto$ di$ ciascuna$ variabile$
indipendente,$fissate$le$altre$variabili$indipendenti,$sulla$determinazione$del$variabile$dipendente$Y.$Sono$
quindi$i$PARAMETRI$del$modello$di$regressione$lineare$e$ognuno$rappresenta$la$variazione$di$Y$derivante$da$
un$incremento$unitario$della$variabile$X$tenendo$costanti$le$altre$(infatti$sono$detti$anche$effetti$marginali).$$

_$εᵢ$come$sempre$include$quella$parte$di$informazioni$non$incluse$nel$modello$(errore$aleatorio$sempre$con$
media$0$e$varianza$σ²,$inoltre$continuiamo$ad$assumere$che$siano$indipendenti$tra$loro$e$dalle$X)$$

_$La$parte$strutturale$=$β₀+β₁x₁ᵢ+β2x2ᵢ+….+βkxkᵢ$=$E(Yᵢ|X₁ᵢ,X2ᵢ,…XKI)$$
è$sempre$la$media$di$Y$dati$tutti$i$valori$delle$X.$
$
$
$
Inoltre$nel$modello$di$regressione$lineare$multipla$occorre$introdurre$un’ULTERIORE)IPOTESI)(oltre$a$quelle$
standard$che$continuano$a$valere)$

5. Non$è$possibile$trovare$una$combinazione$di$numeri$non$nulli$c₀.c₁…ck$per$cui$valga$
c₀+c₁x₁ᵢ+…..ckxki$=$0$$$∀! = 1 … !$
Ciò$implica$la$necessità$che$non$ci$sia$una$relazione$lineare$perfetta$tra$le$variabili$X.$Infatti,$se$una$
o$ più$ variabili$ indipendenti$ sono$ legate$ da$ una$ relazione$ lineare,$ è$ difficile$ stabilire$ l’effetto$
individuale$di$ciascuna$variabile$su$quella$dipendente$

STIMA)DEI)COEFFICIENTI)E)MODELLO)NEL)CAMPIONE)
Per$ poter$ fare$ inferenza$ sui$ parametri$ non$ noti$ del$ modello$ ci$ calcoliamo$ come$ sempre$ le$ STIME$ dei$
coefficienti$e$dei$residui$con$il$metodo$dei$minimi$quadrati.$Così$facendo$otteniamo$il$modello$

yᵢˆ=b₀+b₁x₁ᵢ+b2x2i$….$+$eᵢ$

eᵢ$(=yᵢ?yᵢˆ)$rappresenta$altre$variabile$non$comprese$nel$modello$di$regressione$che$spiegano$l’andamento$
di$y.$Utilizzando$in$minimi$quadrati$si$procede$sempre$$minimizzare$la$somma$dei$quadrati$degli$scarti$della$
Y$rispetto$ad$una$funzione$lineare$delle$variabili$indipendenti.$(SSE$minimo,$nel$caso$di$2$variabili,$si$tratta$
del$piano$che$meglio$rappresenta$l’insieme$dei$valori$assunti$dalla$y)$

Rispetto$al$modello$di$regressione$lineare$semplice$le$stime$sono$rese$più$complesse$dalle$relazioni$tra$le$
variabili$indipendenti$X$che$si$manifestano$contemporaneamente$alle$relazione$tra$le$stesse$e$la$variabile$
dipendente$Y.$

Se$ pertanto$ esiste$ una$ forte$ correlazione$ tra$ 2$ variabili$ esplicative,$ i$ coefficienti$ di$ regressione$ stimati$
risulteranno$meno$affidabili.$

Ponendoci$nel$caso$di$dover$considerare$un$modello$con$sole$2$variabili$otteniamo$

!! (!!!! !!!!!! !!!! )


b₁$=$ ! $
!!! (!!!!!!! )

!! (!!!! !!!!!! !!!! )


b2=$ ! $
!!! (!!!!!!! )

b₀!="y̅ ?b₁x̅₁?b2x̅2$

ricordiamo$che$

rx1y$=$coefficiente$di$correlazione$campionario$tra$X₁$e$Y$

rx2y$=$coefficiente$di$correlazione$campionario$tra$X2$e$Y$

rx1x2$=$coefficiente$di$correlazione$campionaria$tra$X₁$e$X₂$

sx$=$deviazione$standard$campionaria$di$X₁$

sy$=$deviazione$standard$campionaria$di$Y$
Possiamo$notare$che$i$coefficienti$non$sono$solo$influenzati$dalla$correlazione$tra$la$propria$variabile$e$la$Y$
ma$anche$da$tutte$le$altre$correlazioni.$(NB$se$rxx=1$è$violata$l’ipotesi$5!)$

Nel$ caso$ più$ semplice$ rxx=0$ (no$ correlazione)$ i$ coefficienti$ assumono$ la$ stessa$ forma$ del$ modello$ di$
regressione$semplice.$
!! !!
b1$=rx1y$ $$$$e$$b2=$$rx2y$ $
!!! !!!

Possiamo$ notare$ l’andamento$ della$ relazioni$ tra$ 2$ variabili$ grazie$ al$ MATRIX$ PLOT$ che$ individua$ nel$ caso$
l’esistenza$di$una$relazione$lineare$tra$le$variabili$indipendenti$(quando$la$r$grande$le$2$variabili$tendono$a$
muoversi$ contemporaneamente$ e$ quindi$ la$ variazione$ media$ di$ Y$ dato$ un$ incremento$ di$ una$ delle$ X$ può$
essere$influenzato$da$un$contemporaneo$incremento$di$un’altra$X$alla$prima$relazionata$linearmente).$

BONTA’)O)CAPACITA’)ESPLICATIVA)DEL)MODELLO)
La$ regressione$ multipla$ utilizza$ le$ variabili$ indipendenti$ per$ spiegare$ il$ comportamento$ della$ variabile$
dipendente.$La$VARIABILITA’$(o$DEVIANZA)$di$Y$può$in$parte$essere$spiegate$da$una$funzione$lineare$delle$
variabili$X$(ossia$dal$modello$di$regressione)$e$una$parte$no.$

Come$ nella$ regressione$ semplice$ possiamo$ ricavarci$ un$ indice$ per$ misurare$ la$ proporzione$ di$ variabilità$
spiegabile$con$il$modello.$

Abbiamo$quindi$di$nuovo$

SST$=$SSR$+$SSE$

!ᵢ − ! !
= !ᵢˆ − ! ² + !!! $

!!" !!"
R²$=$ $=$1?$ $$$(0≤R²≤1)$
!!" !!"

_)STIMA)DELLA)VARIANZA)DEL)MODELLO)

Ossia$la$stima$di$σ²$varianza$degli$errori$aleatori.$

!"ᵢ² !!"
sₑ²$=$ $=$
!!!!! !!!!!
$

dove$ k$ rappresenta$ il$ numero$ di$ variabili$ indipendenti$ del$ modello.$ La$ radice$ quadrata$ è$ invece$ l’errore)
standard)della)stima.)

_$MEDIA$DEI$QUADRATI$DELLA$REGRESSIONE$

MSR$=$SSR/K$

Viene$utilizzata$come$misura$della$variabilità$spiegata$corretta$in$base$al$numero$di$variabili$indipendenti.$
(NB$nei$tabulati$Excel$trovo$la$voce$MS$che$nella$riga$“Regression”$è$proprio$MSR,$mentre$nella$riga$
“Residual$error”$è$la$stima$della$varianza)$
Gradi&di&libertà:&SST&ne&ha&n?1"per ché"p
er" il "cal colo"è"necessari o
"y̅," SR
"n
e $ha$k$come$il$numero$di$coefficienti$
necessari$per$il$suo$calcolo;$SSE$ne$ha$n?k?1$perché$per$il$suo$calcolo$sono$necessari$sia$i$coefficienti$che$la$
media.$

_$LIMITE$DI$R²$e$R²$AGGIUSTATO$

Può$solo$essere$utilizzato$per$confrontare$modelli$che$contengano$lo$stesso$insieme$di$osservazioni$
campionarie$yᵢ.$Se$io$aumento$infatti$il$numero$di$variabili$(anche$se$poco$significative)$l’indice$non$
decresce$mai$perché$aumenta$SSR.$Per$evitare$questo$aumento$“spurio”$si$ricorre$a$un$altro$indicatore$
chiamato$R²$AGGIUSTATO$

!!" !!! !
R"²$=$1? $ $=$R²$?$(1?R²)!!!!! $
!!" !!!!!

Che$è$influenzato$dal$numero$k$di$variabili$indipendenti$che$controbilancia$in$qualche$modo$l’andamento$
!
incrementativo$di$R².$Infatti,$se$inseriamo$una$nuova$X$aumenta$sia$R²$che$la$penalizzazione$ !pertanto(
!!!!!
se#R
% ²$ aumenta$ con$ l’inserimento$ della$ nuova$ variabile,$ allora$ questa$ è$ significativa$ per$ il$ modello$
!
(ΔR>Δ )$ se$ invece$ diminuisce,$ prevale$ la$ penalizzazione$ e$ quindi$ la$ variabile$ non$ spiega$ meglio$ il$
!!!!!
modello.$

Osservazioni)

_$R"²<R²$sempre$

_""R
$ ²$può$essere$minore$di$0$

_"si" u
sa"R
( ²$per$confrontare$diversi$modelli$alternativi,$tuttavia$da$solo$è$inutile$

_$NB$nella$regressione$lineare$semplice$valeva$R²=rxy².$Ora$non$ha$più$senso,$però$similmente$$

!²$=$ryyˆ$

Ossia$ è$ il$ quadrato$ del$ coefficiente$ di$ correlazione$ tra$ valori$ previsti$ e$ osservati$ o$ COEFFICIENTE) DI)
CORRELAZIONE)MULTIPLA.)(MULTIPLE)R))

INFERENZA)
_)Distribuzione)degli)stimatori)

Come$prima,$i$risultati$degli$intervalli$di$confidenza$e$verifiche$di$ipotesi$dipendono$dalle$distribuzioni$dei$
coefficienti$e$dalla$loro$varianza.$$

Come$ abbiamo$ detto$ in$ precedenza$ gli$ stimatori$ dei$ coefficienti$ sono$ FUNZIONI$ LINEARI$ della$ variabile$
dipendente$Y.$Infatti$se$fissiamo$tutte$le$xj$la$componente$strutturale$del$modello$assume$forma$costante.$E$
quindi$Y$sarà$la$somma$di$una$costante$e$di$ε$ALEATORIA.$Essa$avrà$quindi$stessa$distribuzione$e$varianza.$
Essendo$i$coefficienti,$funzione$lineare$di$Y$seguono$anch’essi$la$distribuzione$e$la$varianza$di$ε.$
Quindi)i)coefficienti)si)assumono)DISTRIBUITI)NORMALMENTE.$$

NB!$ Anche$ se$ gli$ errori$ non$ si$ distribuissero$ normalmente$ per$ il$ teorema$ centrale$ del$ limite$ potremmo$
affermarlo$lo$stesso$per$approssimazione.$È$il$fatto$che$il$termine$di$errore$comprenda$gli$effetti$congiunti$
di$un$alto$numero$di$variabili$non$considerate$che$permette$di$intuire$ed$ipotizzare$la$distribuzione$normale$
degli$stimatori$dei$coefficienti.$

Vediamo$ora$le$VARIANZE)DEGLI)STIMATORI$

!!!
!!!! $=$
!!! !!!! (!!.! ! x₁x₂ )
$

!!!
!!!! $=$
!!! !!!! (!!.! ! x₁x₂ )
$

Esse$dipendono:$

_$dalla$dimensione$del$campione$n$(in$modo$inverso)$

_$dalla$dispersione$delle$variabili$Xj$(sₓ(n?1)$=$ (! − !)²)$in$modo$inverso$

_$ dalla$ correlazione$ tra$ le$ variabili$ esplicative$ (in$ modo$ diretto,$ instabilità$ degli$ stimatori)$ =$ difficoltà$ nel$
separare$l’effetto$delle$singole$variabili$indipendenti$sulla$previsione.$Varianza$di$uno$stimatore$influenzata$
da$TUTTE$le$altre$variabili$indipendenti.$

_$dal$termine$di$errore$del$modello$(in$modo$diretto)$

Pertanto$

!!!
B₁$∼$N(β₁$;$ )$
!!! !!!! (!!.! ! x₁x₂ )

!!!
B₂$∼$N(β₂$;$ ! )$
!!! !!! (!!.! ! x₁x₂ )

“Dato$ il$ modello$ teorico$ di$ regressione,$ siano$ b₀,b₁$ e$ b₂$ le$ stime$ dei$ minimi$ quadrati$ dei$ parametri$ del$
modulo$teorico$e$sb$le$stime$degli$errori$standard$degli$stimatori.$Se$valgono$le$ipotesi$standard$del$modello$
di$regressione$multipla$e$se$i$termini$di$errore$sono$distribuiti$normalmente,$allora$

!! !!!
tbj$=$
!!"
$$j=1…k$

segue$una$distribuzione$t$di$student$con$(n?k?1)$gradi$di$libertà.”$

Ovviamente$tbj$è$la$statistica$test$che$usiamo$nel$processo$di$inferenza.$

$
INTERVALLI)DI)CONFIDENZA)a)livello)100(1=α)%)per)Bj)

(bj$±$tn?k?1,$α/2$$sbj)$

VERIFICA)DI)IPOTESI)

I. H₀$:$$βj$≤$β*$$$$$$$$H₁$:$$βj$>$β*$
!! !! ∗
Rifiuto$se$$ $>$tn?k?1,$α$
!!"
II. H₀$:$$βj$≥$β*$$$$$$$$H₁$:$$βj$<$β*$
!! !! ∗
Rifiuto$se$$
!!"
$<$tn?k?1,$α$
III. H₀$:$$βj$=$β*$$$$$$$$H₁$:$$βj$≠$β*$
∣!! !! ∗ ∣
Rifiuto$se$$
!!"
$>$tn?k?1,$α$

Di$ solito$ questo$ testi$ ha$ particolare$ significatività$ quando$ β*=0$ perché$ se$ non$ si$ potesse$ rifiutare$ H₀$ la$
variabile$non$dovrebbe$essere$inclusa$nel$modello$perché$non$significativa.$Nelle$analisi$su$Excel$le$quantità$
della$statistica$test$e$del$p?value$sono$immediatamente$visibili,$e$da$li$si$può$già$capire$immediatamente$il$
livello$ di$ significatività$ di$ una$ variabile.$ Non$ esiste$ solo$ questo$ procedimento$ per$ capire$ se$ includere$ o$
meno$una$variabile,$anche$perché$il$limite$di$questo$è$che$non$tiene$in$considerazione$l’errore$del$secondo$
tipo$(non$rifiuto$H₀$/$H₀$falsa).$

NB!$ Anche$ nella$ regressione$ semplice$ t$ aveva$ n?k?1$ gradi$ di$ libertà,$ solo$ che$ k=1,$ corrispondente$ al$
coefficiente$b₁,$e$quindi$era$t(k?2)$

VERIFICA)DI)IPOTESI)SU)TUTTI)I)COEFFICIENTI)(TEST)F))

Usiamo$questo$test$per$verificare$che$interi$insiemi$di$coefficienti$non$siano$simultaneamente$nulli.$

H₀$:$β₁=β₂$=….=$0$

H₁$:$almeno$un$βj$≠$0$

Accettare$ H₀$ permetterebbe$ di$ concludere$ che$ nessun$ predittore$ del$ modello$ di$ regressione$ sia$
statisticamente$significativo$e$che$fornisca$informazioni$utili.$(equivale$a$R²=0)$

Per$capire$se$rifiutare$H₀$si$usa$una$statistica$test$nuova$

!!!"/! !"# !²/!


F$=$ $=$ $=$ $
!!"/(!!!!!) !!! (!!! ! )/(!!!!!)

Essa$ rappresenta$ un$ confronto$ tra$ quanto$ spiego$ (numeratore)$ rispetto$ a$ quando$ non$ spiego$
(denominatore).$Dunque$per$rifiutare,$la$statistica$test$deve$essere$abbastanza$maggiore$di$0.$

Rifiuto$H₀$se$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$F$>$Fk,n.k.1,α$

La$variabile$segue$la$distribuzione$F$con$k$gdl$al$numeratore$e$n?k?1$gdl$al$denominatore.$
PREVISIONI)
_$Previsione$per$il$valore$medio$

E(yn+1$/$X1,n+1$;$X2,n+1$…$Xk,n+1)$

_$Previsione$per$il$valore$puntuale$

Yn+1$=$β₀+β₁x1,n+1+….$+$εn+1$

La$STIMA$di$queste$previsione$è$la$stessa:$

yˆn+1$=$b₀+b₁x1,n+1+….bk,n+1$

Oltre$alla$previsione$del$valore$puntuale$previsto$yˆ$potremmo$essere$interessati$all’intervallo$di$confidenza$
per$la$previsione$del$singolo$valore$o$del$valore$atteso.$Occorre$calcolare$la$stima$delle$varianze$(quella$per$
il$valore$singolo$e$per$il$valore$medio).$

La$deviazione$standard$del$valore$previsto$è$funzione$$

_$dell’errore$standard$della$stima$se,$$

_$della$deviazione$standard$delle$variabili$esplicative$

_$del$quadrato$della$distanza$tra$la$media$delle$variabili$indipendenti$e$i$valori$delle$x$usati$per$la$previsione$

Il$calcolo$risulterebbe$pero$troppo$complesso.$Comunque$un$intervallo$di$confidenza$avrebbe$la$forma$

(yˆ$±$tn?k?1,α/2$sy)$

MULTICOLLINEARITA’)
“Situazione$in$cui$2$o$più$variabili$indipendenti$X$sono$fortemente$correlate$tra$loro$in$modo$lineare”$

CONSEGUENZE)

_$ non$ possibile$ stimare$ in$ modo$ preciso$ e$ separato$ l’effetto$ che$ ognuna$ di$ queste$ variabili$ X$ ha$ sulla$ Y.$
Infatti$succede$che$una$variazione$di$X₁$provoca$una$contemporanea$variazione$di$X₂;$non$si$può$quindi$dire$
quale$delle$2$sia$effettivamente$la$causa$della$variazione$di$Y.$

_$il$coefficiente$di$correlazione$lineare$tra$le$variabili$esplicative$è$molto$alto$(r)$e$quindi$questo$influenza$il$
calcolo$ degli$ stimatori$ b₁$ e$ b₂.$ (comunque$ vengono$ rispettate$ le$ ipotesi,$ e$ quindi$ la$ correlazione$ non$ è$
perfettamente$lineare$ma$molto$forte.$

_$il$coefficiente$di$correlazione$influenza$anche$la$stima$delle$varianze$dei$coefficienti$che$crescono$(sb1$e$
sb2).$Aumenta$infatti$l’incertezza,$ossia$lo$standard$error$sulle$stime$dei$minimi$quadrati$è$inflazionato.$

_$ se$ la$ varianza$ aumenta,$ influenza$ anche$ il$ calcolo$ della$ statistica$ test$ (più$ piccola)$ e$ degli$ intervallo$ di$
confidenza$(più$grandi).$Il$p?value$cresce$ed$è$più$difficile$rifiutare.$
NB$le$stesse$considerazioni$le$facevamo$quando$dicevamo$che$X$non$era$significativa.$Le$2$cose$provocano$
le$stesse$conseguenze.$

INDICATORI)DI)MULTICOLLINEARITA’)

_$ coefficienti$ di$ regressione$ molto$ diversi$ da$ quelli$ che$ ci$ si$ potrebbe$ attendere$ secondo$ le$ teorie$
economiche$o$l’esperienza$(anche$con$segno$opposto$a$quello$atteso)$

_$ i$ coefficienti$ delle$ variabili$ che$ si$ ritengono$ rilevanti$ hanno$ una$ statistica$ test$ molto$ bassa,$ in$ realtà,$
quindi$si$tratta$di$valori$nulli$

_$ le$ statistiche$ T$ di$ tutti$ i$ coefficienti$ sono$ basse$ (test$ non$ significativi),$ indicando$ l’assenza$ di$ influenze$
individuali$ sulla$ risposta,$ ma$ il$ valore$ della$ statistica$ F$ del$ modello$ indica$ la$ sua$ significatività$ statistica$
(rifiuto$H₀)$$

_$calcolo$la$matrice$delle$correlazioni$tra$tutte$le$coppie$di$variabili$X$e$vedo$che$vi$sono$forti$correlazioni$o$
relazioni$di$dipendenza$lineare$tra$alcune$

_$uso$indice$VIF$(Variance$Inflation$Factor)$che$indica$quanto$aumenta$s$a$causa$della$multicollinearità.$Si$
ottiene$calcolando$l’indice$R²$delle$regressioni$di$ognuna$delle$Xj$rispetto$a$tutte$le$altre$variabili$X.$

VIFJ$=$1/1?Rj²$

Quindi$ in$ assenza$ di$ correlazione$ VIF$ !$ 1,$ mentre$ nel$ caso$ contrario$ VIF!$ ∞$ (si$ ritiene$ tipicamente$ una$
situazione$di$multicollinearità$quando$VIF>10)$

SOLUZIONI)

La$multicollinearità$non$indica$che$il$modello$sia$sbagliato$ma$è$un$problema$dei$dati$del$campione$quindi$si$
può$

_$ campionare$ nuovi$ dati$ (però$ costoso)$ che$ non$ determinino$ una$ forte$ correlazione$ tra$ le$ variabili$
indipendenti$

_$non$è$consigliato$rimuovere$la$variabili$affette$(a$meno$che$non$siano$significative,$capibile$attraverso$il$
test$F$parziale)$

_$costruire$delle$nuovi$variabili$artificiali$funzioni$delle$variabili$correlate$

Da$X1$X2….$(potenzialmente$correlate)$!$$F1$F2$(NON$correlate)$

Potrebbero piacerti anche