Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
per il Management
Modelli statistici di dipendenza
2
Modelli statistici di dipendenza
Modelli statistici di dipendenza
• L’
L’obiettivo
bi tti di un modello
d ll statistico
t ti ti di analisi
li i d
della
ll
dipendenza è quello di studiare come varia una
determinata variabile Y ((detta dipendente
p o risposta),
p ), in
funzione del variare di alcune variabili X1, …, Xk (dette
indipendenti o esplicative).
• Esempio:
E i Y = prezzo di vendita
dit di un appartamento,
t t X=
superficie dell’appartamento.
• Esempio: Y = mi piace/non mi piace fare acquisti nel
supermercato ABC, X = ritengo/non ritengo che il
supermercato ABC abbia una buona varietà di prodotti.
• Esempio: Y = l’individuo è assunto/non è assunto dopo
lo stage, X = punteggio al test di ammissione allo stage.
3
Modelli statistici di dipendenza
Modelli statistici di dipendenza
• U
Un modello
d ll statistico
t ti ti di di
dipendenza
d è rappresentato
t t
dalla funzione di densità/probabilità condizionata:
f(y|x1, …, xk)
dove:
– y = variabile dipendente o risposta;
– x1, …,, xk = variabili indipendenti
p o esplicative
p .
4
Modelli statistici di dipendenza
Modelli statistici di dipendenza
Il processo di formulazione di un modello può essere
scomposto nei seguenti passaggi logici:
1.
1 Posizione del problema
2. Scelta della classe di modelli
3. Scelta delle variabili e rilevazione dei dati
4. Selezione del modello
5. Stima dei pparametri incogniti
g
6. Analisi della “bontà” del modello.
7. Utilizzo operativo:
1. Analisi del fenomeno
2. Previsioni
3
3. Scenari
5
Esempio: Prezzo su superficie
Esempio: Prezzo su superficie
6
Classificazione Modelli
Classificazione Modelli
Modelli per tipo di rilevazione del campione
7
Regressione lineare (reg)
Regressione lineare (reg)
• Il modello di regressione lineare semplice è così formalizzato:
yi = b0 + b1xi + wi
dove:
yi = variabile dipendente o risposta;
xi = variabile indipendente o esplicativa;
b0, b1 = pparametri incogniti
g ((intercetta e coefficiente di
regressione);
wi = termine di errore (o disturbo).
• Il ttermine
i wi deve
d presentare
t i seguenti
ti requisiti:
i iti
– distribuito in modo normale;
– a media zero;
– omoschedastico (varianza costante indipendente dalla
variabile x);
– osservazioni indipendenti.
8
reg: interpretazione
g p
• E(yi | xi) = i = b0 + b1xi, la relazione lineare è vera in
media
• b0 = E(yi | xi = 0), rappresenta l’influenza di variabili
omesse che non variano con i
• b1 incremento
i t di i corrispondente
i d t ad d un aumento t di
una unità di xi
• wi incorpora variabili omesse ed imperfezioni della
relazione lineare che intercorre tra yi e xi
• Il modello può anche essere formulato come
Equazione Assunzioni
E(y(yi ||xi) = i = b0 + b1xi (i,w2 ), indip.
yi ||xi ~ N( p
Quindi f(yi |xi) è una normale con media dipendente da xi
9
reg: stima puntuale
reg: stima puntuale
• (metodo
( dei minimi q quadrati)) le stime di b0 e b1 sono
calcolate minimizzando
i (yi - b0 - b1xi)2
in questo modo otteniamo
XY
b̂1 2 ;b̂0 Y b̂1X
X
• la varianza dell’errore è stimata come
1 n
ˆ w
2
y ŷ
y 2
n 2 i1
i i
10
reg: esempio – prezzo su superficie (sqft)
reg: esempio – prezzo su superficie (sqft)
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 7551970 7551970 148.64 <.0001
Error 65 3302439 50807
Corrected 66 10854409
Total
Parameter
Estimates
95%
Confidence
Variable DF Parameter Standard t Value Pr > |t| Limits
Estimate Error
Intercept 1 -758.78383 159.89171 -4.75 <.0001 -1078.10963 -439.458
sqft 1 1.21372 0.09955 12.19 <.0001 1.0149 1.41254
11
reg: bontà di adattamento
reg: bontà di adattamento
n
• SSModel
SSM d l = iˆ
y y 2
i 1
n
• SSResidual
SSResid al = i i
y ˆ
y 2
SST = SSM+SSR
i 1
n
• SSTotal = i
y y 2
i1
12
reg: test t
reg: test t
• Ipotesi nulla H0: b1=0
• Statistica test
toss = Coef./(Std. Err.) = b̂1 / se(b̂1),
toss ~ Tn-p-1 se H0 vera
• p-value
p-value = 2Pr{Tn-p-1> | toss |}
13
reg: test t
reg: test t
• Se il modello è vero,, l’ipotesi
p nulla H0: b1=0 equivale
q ad
affermare che non vi è legame tra X e Y.
• regola
l di rifiuto
ifi t bbasata
t sull p-value
l (sempre
( valida)
lid )
value <
p-value
p
14
reg: test t
reg: test t
15
reg: test t
reg: test t
16
Y binaria: Logit e Probit
Y binaria: Logit e Probit
• IIn alcuni
l i casii lla variabile
i bil di
dipendente
d t è di natura
t bi i
binaria
ed assume solo i due valori 0 o 1. Questi sono
generalmente il risultato di una codifica.
g
• Esempi:
–ppazienti di una p patologia
g p potrebbero reagire
g o meno
ad una terapia innovativa;
– in un test aziendale per una promozione interna
alcuni impiegati potrebbero superare la prova e altri
no;
– dopo un periodo di prova alcuni possono essere
assunti e altri no.
17
Regressione logit
Regressione logit
Ad esempiop ppotremmo essere interessati a capire
p
se per un cliente è importante che in un
supermercato ci sia una sufficiente varietà di
prodotti.
Has a sufficient choice of brands/types/sizes of products * Shopping there makes me feel
good Crosstabulation
18
logit: variabile riposta
logit: variabile riposta
V i bil aleatoria
Variabile l t i di Bernoulli
B lli
Distribuzione Caratteristiche
y p(y )
E(y )
0 1
V ( y ) (1 )
1
Importante osservare che:
• la particolare codifica adottata ci permette di interpretare
la probabilità come una media;
• la varianza dipende dalla media.
19
logit
Equazione Assunzioni
expb0 b1x i
i yi|xi ~Be(i), indip.
1 expb0 b1x i
o equivalentemente
logit(i ) b0 b1x i yi|xi ~Be(i), indip.
i
dove logit(i ) log è il logaritmo dell’ “odds”.
1 i
21
logit: odds
logit: odds
odds dd
p
probabilità
probabilit d ll' evento
b bili à dell ; odds
odds 1 1 probabilità
22
logit: logistica
logit: logistica
exp( x )
exp(x
G fi della
Grafico d ll ffunzione
i i ti
llogistica
1 exp( x )
1.2
0.8
0.6
0.4
0.2
23
logit: interpretazione
logit: interpretazione
b0 valore di logit() quando x = 0, b1 incremento di logit()
se xj aumenta di una unità.
Importante osservare che se xj aumenta di una unità allora
l’incremento di dipende dal valore di xj.
b0 scelta insufficiente
l i (P (feel
logit(Pr(f l=1))
1)) =
b0+b1 scelta sufficiente
24
logit: interpretazione
logit: interpretazione
risulta
i lt
Ssi /(1 Ssi )
b1 logit(Ssi ) logit(Sno ) log
Sno /(1 Sno )
quindi
Ssi /(1 Ssi ) Ssi
exp(b1 ) exp(b1 ) Sno
Sno /(1 Sno ) 1 Sno 1 Ssi
25
logit: stima ML
logit: stima ML
La stima
L ti d
deii parametri
t i avviene
i con il metodo
t d ddella
ll
massima verosimiglianza. L’idea è quella di considerare il
campione
p osservato come q quello che aveva la maggiore
gg
probabilità di essere estratto.
Funzione di probabilità del campione
p( y; ) 1y1 (1 1 )1 y1 ... ny n (1 n )1 y n
Funzione di verosimiglianza (Likelihood function)
L(b0 , b1; y) 1y1 (1 1 )1 y1 ... ny n (1 n )1 y n ; logit(i ) b0 b1x i
Stimatore di massima verosimiglianza
(bˆ0 , bˆ1 ) arg max L(b0 , b1; y)
26
logit: stima ML
logit: stima ML
Esempio: Y = 1 non assunto dopo stage
dex = punteggio al test di entrata
Model Fit Statistics Testing Global Null Hypothesis: BETA=0
Intercept
Intercept and
Criterion Only Covariates Test Chi-Square DF Pr > ChiSq
AIC 795.912 748.014 Likelihood 49.8977 1 <.0001
Ratio
SC 800.438 757.067 Score 47.3598 1 <.0001
-2 Log L 793.912 744.014 Wald 44.1038 1 <.0001
95% Confidence
Parameter DF Estimate Error Chi-Square Pr > ChiSq Parameter Estimate Limits
Intercept 1 2.9863 0.5948 25.2094 <.0001 Intercept 2.9863 1.821 4.152
dex 1 -0.0909 0.0137 44.1038 <.0001 dex -0.0909 -0.12 -0.0641
27
logit: test Z
logit: test Z
• Ipotesi
I t i nullall H0: b1=0 0
• Statistica test
zoss = Coef./(Std. Err ) = b
Coef /(Std Err.) b̂1 / se(b
b̂1)
zoss ~ N(0,1) se H0 vera e n suff. elevato
• Regola di rifiuto
| zoss | > z/2
/2
• P-value
2Pr{Z > | zoss|}
28
logit: test di Wald
logit: test di Wald
• Ipotesi
I t i nullall H0: b1=0
0
• Statistica test
woss = (zoss)2
woss ~ 2(1) se H0 vera e n suff. elevato
• Regola di rifiuto
Woss > 2
• P-value
Pr{2(1) > woss}
29
Regressione probit: modello
Regressione probit: modello
Modello alternativo al logit. Differisce da questo perché usa
la funzione probit ( 1) al posto della logit.
logit
Equazione Assunzioni
i b0 b1x i yi|xi ~Be(
Be(i),
) indip.
indip
o equivalentemente
1( ) b b x yi|xi ~Be(
B (i),
) indip.
i di
i 0 1 i
30
probit: stima ML
probit: stima ML
Esempio: Y = 1 non assunto dopo stage
dex = punteggio al test di entrata
31