Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Marco Ventura
cap 1-2-3 SW
Econometria I 1-1
Libro di testo:
Econometria I 1-2
Introduzione
all’econometria
Capitoli 1, 2 e 3
Econometria I 1-4
Questo corso tratta dell’uso dei dati per misurare
relazioni ed anche effetti causali
Econometria I 1-5
In questo corso:
SE IL TEMPO LO CONSENTE:
• apprenderete metodi per stimare effetti causali usando dati non
sperimentali;
• apprenderete l’uso di alcuni strumenti che possono essere impiegati
per altri scopi, per esempio la previsione utilizzando serie di dati
temporali;
Econometria I 1-6
Richiami di probabilità e statistica
(Capitoli 2, 3)
Econometria I 1-7
I dati dei punteggi nei test della California
Variabili:
• Punteggi nei test del quinto anno (Stanford-9 achievement
test, combinazione di matematica e lettura), media del
distretto
• Rapporto studenti/insegnanti (STR) = numero di studenti
nel distretto diviso per numero di insegnanti a tempo pieno
equivalente
Econometria I 1-8
Primo sguardo ai dati:
(dovreste già sapere come interpretare questa
tabella)
Questa tabella non ci dice nulla sulla relazione tra punteggi nei
test e STR.
Econometria I 1-9
I distretti con classi più piccole ottengono punteggi
più elevati nei test?
Diagramma a nuvola di punteggio nei test e STS
Econometria I 1-11
Analisi dei dati iniziali: confrontare i distretti con dimensioni delle classi
“piccole (STR < 20) e “grandi (STR ≥ 20) :
Econometria I 1-12
1. Stima
- =
∑ - ∑
= 657,4 – 650,0
= 7,4
È una differenza da considerare grande nel mondo reale?
– Deviazione standard tra i distretti = 19,1
– Differenza tra 60-esimo and 75-esimo percentili della
distribuzione dei punteggi nei test = 667,6 – 659,4 = 8,2
– È una differenza sufficientemente grande da risultare
importante per discussioni sulla riforma della scuola, per i
genitori o per un comitato scolastico?
Econometria I 1-13
2. Verifica di ipotesi
ss
2
(Y
ns 1 i1 i s
Y ) 2
Econometria I 1-14
Calcolare la statistica-t per la differenza tra
medie Dim s n
Y Y
piccola 657,4 19,4 238
grande 650,0 17,9 182
Ys Yl 657, 4 650,0 7, 4
t =4,05
ss2
sl2 19,42
17,92 1,83
ns nl 238 182
|t| > 1,96, perciò si rifiuta l’ipotesi nulla che le due medie
coincidano (al livello di significatività del 5%)
Econometria I 1-15
3. Intervallo di confidenza
( Ys – Yl ) ± 1,96×SE( Y – Y )
s l
Econometria I 1-16
E ora…
Econometria I 1-17
Richiami di teoria statistica
Econometria I 1-18
(a) Popolazione, variabile casuale e distribuzione
Popolazione
• Il gruppo o l’insieme di tutte le possibili unità di interesse (distretti
scolastici)
• Considereremo le popolazioni infinitamente grandi (∞ è
un’approssimazione di “molto grande )
Variabile casuale Y
• Rappresentazione numerica di un risultato casuale (punteggio medio
nei test del distretto, STR del distretto)
Econometria I 1-19
Distribuzione di Y
Econometria I 1-20
(b) Momenti di una distribuzione: media, varianza,
deviazione standard, covarianza, correlazione
Econometria I 1-21
Momenti (continua)
E Y Y
3
asimmestria =
Y3
E Y Y
4
curtosi = Y4
= misura di massa nelle code
= misura di probabilità di valori grandi
• curtosi = 3: distribuzione normale
• assimmetria > (<) 3: code pesanti “leptocurtica ( platicurtica )
Econometria I 1-22
Econometria I 1-23
2 variabili casuali: distribuzioni congiunte e
covarianza
• Le variabili casuali X e Z hanno una distribuzione congiunta
• La covarianza tra X e Z è
• cov(X,Z) = E[(X – μX)(Z – μZ)] = σXZ
E così la correlazione…
Econometria I 1-25
Il coefficiente di correlazione è definito in termini di
covarianza:
cov( X , Z ) XZ
corr(X,Z) = = rXZ
var( X ) var(Z ) XZ
• –1 ≤ corr(X,Z) ≤ 1
Econometria I 1-26
Il coefficiente di correlazione misura l’associazione lineare
Econometria I 1-27
Media varianza e covarianza di somme di variabili casuali
(concetto chiave 2.3)
2.30
2.31
2.32
2.33
2.34
2.34
2.36
Econometria I 1-28
Media varianza e covarianza di somme di variabili casuali
(concetto chiave 2.3)
Econometria I 1-29
MEAN SQUARED ERROR
Econometria I 1-30
(c) Distribuzione condizionata e media
condizionata
Distribuzione condizionata
• La distribuzione di Y dato il valore (o i valori) di un’altra variabile casuale X
• Es: la distribuzione dei punteggi nei test dato STR < 20
• Esempio: E(Punteggio test|STR < 20) = media dei punteggi nei test tra i
distretti con dimensioni delle classi piccole
La differenza in media è la differenza tra le medie di due distribuzioni
condizionate:
Econometria I 1-31
Media condizionata (continua)
Econometria I 1-32
Distribuzioni marginali e condizionate:
compiti a casa
Econometria I 1-33
(d) Distribuzione di un campione di dati estratto a caso da
una popolazione: Y1,…, Yn
Casualità e dati
• Prima della selezione del campione, il valore di Y è casuale perché l’individuo
selezionato è casuale
Econometria I 1-34
Distribuzione di Y1,…,Yn sotto campionamento casuale
semplice
Stima
è lo stimatore naturale della media. Ma:
?
a) quali sono le proprietà di
Econometria I 1-38
La distribuzione campionaria di Y (continua)
• Pr( Y = ½) = 2×0,22×0,78 = 0,3432 1 volta deve uscire Y=1 e una volta Y=0.
Può accadere prima 0 poi 1 o vv, per questo x2
Econometria I 1-39
La distribuzione campionaria di Y (continua)
Uno studente pendolare riposte se il tempo di percorrenza è stato breve o
lungo, Y=1 se è stato breve. Poichè lo studente ha usato un campionamento
casuale semplice Yi sono i.i.d.
La P che Y=1 è 0.78, poiché il valore atteso di una bernoulliana è la sua P che
sia =1 avremo che E(Yi)=0.78. La media campionaria di Y è la frequenza
relativa dei casi in cui Y=1
Econometria I 1-40
La distribuzione campionaria di Y (continua)
Econometria I 1-41
Distribuzione campionaria di Y quando Y è di Bernoulli (p = 0,78):
Econometria I 1-42
La distribuzione campionaria di Y (continua)
La legge dei grandi numeri afferma che, sotto certe condizioni Y converge in
probabilità a μy , o in modo equivalente che Y è consistente per μy
Econometria I 1-43
Cose che vogliamo sapere sulla distribuzione
campionaria:
• Qual è la media di Y?
• Se E( Y ) = μ = 0,78, allora Y è uno stimatore non
distorto di μ o correto
• Qual è la varianza di Y ?
• In che modo var( Y ) dipende da n (famosa formula 1/n)
• Si avvicina a μ quando n è grande?
• Legge dei grandi numeri: Y è uno stimatore consistente
di μ
• Y – μ assume forma a campana per n grande...
questo è vero in generale?
• In effetti, Y – μ è approssimato da una distribuzione
normale per n grande (teorema limite centrale)
Econometria I 1-44
Media e varianza della distribuzione
campionaria di Y
• Caso generale – cioè, per Yi i.i.d. da qualsiasi distribuzione, non solo di Bernoulli:
1 n 1 n
1 n
• media: E( Y ) = E( n i1
Yi
)= E(Yi ) = n Y = μY
n i1 i1
= E[ Y – μY]2
2
1 n
=E Yi Y
n i1
2
1 n
(Yi Y )
=E
n i1Econometria I 1-45
2
n
Quindi var(Y ) = E 1 (Yi Y )
n i1
1 n 1 n
= E (Y ) (Y )
i Y j Y
n
i1 n
j1
n n
1
2
= E (Yi Y )(Y j Y )
n i1 j1
n n
= 1
2
cov(Yi ,Y j )
n i1 j1
Econometria I 1-46
1 n n
Quindi var(Y ) = 2 cov(Yi ,Y j )
n i1 j1
1 n 2
= 2 Y
n i1
Y2
=
n
Econometria I 1-47
Media e varianza della distribuzione campionaria
di Y (continua)
E( Y ) = μY
var( Y
)= Y
2
n
Implicazioni:
1. Y
è uno stimatore non distorto di μY (cioè E(Y ) = μY)
2. var(Y ) è inversamente proporzionale a n
1. la dispersione della distribuzione campionaria è proporzionale a 1/ n
2. Quindi l’incertezza campionaria associata con Y
è proporzionale a 1/ n (grandi campioni, meno incertezza, ma
legge con radice quadrata)
Econometria I 1-48
Distribuzione campionaria di Y quando n è grande
Econometria I 1-49
Legge dei grandi numeri:
μY, cioè
Pr[|Y – μY| < ε] 1 per n ∞
p
che si può scrivere Y μY
p
(“ Y μY significa “Y converge in probabilità a μY ).
Y2
(NB: per n ∞, var( Y ) = 0, il che implica che
Pr[| Y – μY| < ε] 1.) n
Econometria I 1-50
Teorema limite centrale (TLC):
2
Se (Y1,…,Yn) sono i.i.d. e Y < ∞ , allora quando n è grande la
distribuzione di Y è bene approssimata da una distribuzione
normale.
Y2
• Y è distribuita approssimativamente come N(μY, ) (“distribuzione
n
normale con media μY e varianza /n )
2
Y
• n ( Y – μY)/σY è distribuita approssimativamente come N(0,1) (normale
standard)
Y E(Y ) Y Y
• Cioè, Y“standardizzata = var(Y )= Y / n è distribuita
approssimativamente come N(0,1)
• Più grande è n, migliore è l’approssimazione.
Econometria I 1-51
Distribuzione campionaria di Y quando Y è di Bernoulli, p
= 0,78:
Econometria I 1-52
Stesso esempio: distribuzione campionaria di Y E(Y )
var(Y )
Econometria I 1-53
Riepilogo: distribuzione campionaria di Y
p
– Y μY (Legge dei grandi numeri)
Y E(Y )
– var(Y )
è approssimata da N(0,1) (TLC)
Econometria I 1-54
(b) Perché usare Y per stimare μY?
• Y è non distorto: E( Y ) = μY
p
• Y è consistente: Y μY
Econometria I 1-56
Verifica di ipotesi (par 3.2)
Econometria I 1-57
Terminologia per la verifica di ipotesi statistiche (par 3.2)
Econometria I 1-58
Terminologia per la verifica di ipotesi statistiche (par 3.2)
Y base a
Calcolo del p-value in :
valore-p = PrH [| Y Y ,0 || Y act Y ,0 |]
0
Econometria I 1-59
Calcolo del valore-p (continua)
Y Y ,0 Y act Y ,0
= PrH0 [| || |]
Y / n Y / n
Y Y ,0 Y act Y ,0
= PrH [| || |]
0
Y Y
~ probabilità sotto code N(0,1) sin+destra
=
dove Y = dev. std della distribuzione di Y = σY/ n.
Econometria I 1-60
Calcolo del valore-p con σY nota:
Econometria I 1-62
Calcolo del valore-p con Y stimato
2
Y Y ,0 Y act Y ,0
= Pr [| || |]
H 0
Y / n Y / n
Y Y ,0 Y act Y ,0
~ Pr [|
= H
|| |] (n grande)
0
sY / n sY / n
Quindi
valore-p =PrH [| t || t act |] ( Y2 stimato)
0
~
= probabilità sotto code normali al di fuori di |tact|
Y Y ,0
dove t = (la consueta statistica t)
sY / n
Econometria I 1-63
Osservazione: il concetto chiave 3.4 chiarifica che lo SE di Y
SE(Y )= /
Poiché la t di una generica variabile X è giusto data da
Y Y ,0
(X - μx)/SE(X) avremo che è una t e che possiamo
sY / n
Econometria I 1-64
Che collegamento c’è tra il valore-p e il livello di
significatività?
Econometria I 1-65
A questo punto potreste chiedervi...
Che ne è della tabella-t e dei gradi di libertà?
Econometria I 1-66
Commenti su questa procedura e sulla distribuzione t di
Student
Econometria I 1-67
Commenti sulla distribuzione t di Student
(continua)
2. Se la dimensione del campione è modesta (qualche dozzina) o
grande (centinaia o più), la differenza tra la distribuzione t e i
valori critici N(0,1) è trascurabile. Riportiamo di seguito alcuni
valori critici al 5% per test bidirezionali:
Econometria I 1-68
Commenti sulla distribuzione t di Student
(continua)
Econometria I 1-69
Econometria I 1-70
Commenti sulla distribuzione t di Student
(continua)
4. Forse non lo sapete. Considerate la statistica t che verifica l’ipotesi
che due medie (gruppi s, l) siano uguali:
Ys Yl Ys Yl
t
ss2 sl2 SE(Ys Yl )
ns
nl
Econometria I 1-71
Commenti sulla distribuzione t di Student
(continua)
Esiste una versione modificata della t per la differenza tra medie basata
su una diversa formula dello SE la statistica t “a varianza aggregata
– cfr. il Paragrafo 3.6 del volume stampato –
Econometria I 1-72
Solitamente l’ipotesi di uguaglianza della varianza tra due gruppi non è
verificata, così nella pratica inferenza sulla differenza in media di due
gruppi è basata sulla 3.19
Ys Yl Ys Yl (3.19)
t
ss2 sl2 SE(Ys Yl )
ns
nl
Econometria I 1-73
La distribuzione t di Student – Riepilogo
• L’ipotesi che Y abbia distribuzione N(μY, Y2 ) è raramente plausibile nella pratica
(reddito? numero di figli?)
• per n > 30, la distribuzione t e N(0,1) sono molto vicine (al crescere di n, la
distribuzione tn–1 converge a N(0,1))
• La distribuzione t è un artefatto che risale ai tempi in cui le dimensioni dei campioni
erano piccole e i “calcolatori erano persone
• Per motivi storici, il software statistico utilizza generalmente la distribuzione t per
calcolare valori-p ma questo è irrilevante quando la dimensione del campione è
moderata o grande.
• Per questi motivi, in questo corso ci concentreremo sull’approssimazione con n
grande data dal limite centrale (TLC)
1. Quadro probabilistico per l’inferenza statistica
2. Stima
3. Verifica
4. Intervalli di confidenza
Econometria I 1-74
Intervalli di confidenza
Econometria I 1-75
Intervalli di confidenza (continua)
Y Y Y Y
{μY: ≤ 1,96} = {μY: –1,96 ≤ ≤ 1,96}
sY / n sY / n
sY sY
= {μY ! ( Y – 1,96 n , Y+ 1,96 n )}
Econometria I 1-76
Riepilogo:
Econometria I 1-77
Torniamo alla domanda politica di partenza:
Qual è l’effetto sui punteggi nei test della riduzione della dimensione
delle classi di uno studente per classe?
Abbiamo risposto a questa domanda?
Econometria I 1-78
Esempi dello stimatore della differenza tra medie
The Causal Effect as a Difference of Conditional Expectations
The causal effect of a treatment is the expected effect on the outcome of interest
of the treatment as measured in an ideal randomized controlled experiment.
the causal effect is also called the treatment effect in an ideal randomized
controlled experiment medicine and vaccines
Econometria I 1-79
Estimation of the Causal Effect Using Differences of Means
Econometria I 1-80
Gender gap
Econometria I 1-81
Gender gap
Econometria I 1-82
Altri esempi: parental background: classe sociale o livello scolare? Si
veda esempio pag 66 SW 5 edizione.
Econometria I 1-83