Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Statistica m1
Statistica m1
20/02
Variabili casuali, distribuzione Normale e Normale Standard
La variabile «risultato del lancio di un dado a sei facce» è una v.c. discreta.
Ogni valore che una v.c. discreta può assumere ha una precisa probabilità di verificarsi.
E le v.c. continue?
Esse possono assumere qualsiasi valore in un dato intervallo il numero di casi possibili è infinito
La probabilità che una v.c. assuma un singolo valore è nulla (qualsiasi numero diviso ∞ è zero)
Per v.c. continue ci si riferisce alla probabilità che esse assumano un valore compreso in un intervallo di valori e si utilizza la
funzione di densità di probabilità per rappresentare tali probabilità.
La funzione di densità di probabilità di una v.c. è quella funzione matematica per cui l’area sottesa alla funzione
corrispondente a un certo intervallo, è pari alla probabilità che assuma un valore in quell’intervallo.
La funzione di densità
Due parametri descrivono la forma di
una funzione di densità (PDF):
il suo valore atteso o media (μ): misura il centro della PDF
Intuizione: registro per un numero elevatissimo di volte il valore che assume la v.c. (per es. lancio più e più volte il dado,
registro l’altezza di un numero elevatissimo di individui, etc.) e calcolo la media dei valori registrati, posso pensare a quel
valore come il valore atteso della v.c.
sua varianza (): misura la sua dispersione attorno al valore atteso (la radice quadrata della varianza, , detta deviazione
standard, ha il vantaggio di essere espressa nella stessa unità di misura della variabile stessa)
Graficamente possiamo pensare alla varianza come la pancia della pdf: più è larga è la curva, maggiore sarà la varianza
1
La v.c. Normale:
Se una v.c. X ha distribuzione di probabilità Normale con media e varianza :
Ha le seguenti caratteristiche:
• l’intervallo di valori che può assumere è compreso tra e
• la sua pdf è a forma di campana (centrata attorno al valore atteso) e
simmetrica attorno a :
• è contemporaneamente il valore atteso, la mediana e la moda di X
Molti fenomeni reali si manifestano con una distribuzione empirica che si
approssima molto bene con una funzione di densità Normale
I valori
all’interno della tavola mostrano le probabilità
cumulate
La prima riga e la prima colonna riportano i possibili valori di (che chiamiamo )
o la prima colonna riporta l’unità e il primo decimale di
o la prima riga riporta il secondo decimale di
La probabilità cumulata di(cioè ) o l’area sottesa alla pdf da – a ), si trova all’incrocio della riga e della colonna
corrispondenti ad un dato valore
Si ricordi che:
(per v.c. continue )
2
Nella tavola sono riportati solo valori positivi di Z, tuttavia la pdf di una variabile Normale Standard è simmetrica attorno alla
media, quindi:
L’area sottesa alla pdf è complessivamente uguale a 1, quindi:
Esercizio:
o P (Z < 1,64) = 0,9495 = 94,95%
o P (Z > 0,35) = 1 – P (Z < 0,35) = 1 – 0,6368
o P (Z < -1,5) = 1 – P (Z < 1,5) = 1 – 0,9332
o P (Z > -0,82) = P (Z < 0,82)
•
•
3
• Una variabile casuale con distribuzione t di Student’s assume valori compresi tra e
• Dipende da un singolo parametro (intero positivo) noto come gradi di libertà (degrees of freedom, df )
• Al crescere dei gradi di libertà la distribuzione t di Student si avvicina sempre di più ad una normale distribution
.4
.3
.2
.1
0
-4 -2 0 2 4
x
0 1.725
Student's t with 20 df
4
Sommatoria di xi per i che va da 1 a n:
Esempio: i xi
1 1
0
2 1
5
3 1
8
La media 4 2 aritmetica:
1
Esempio: 5 2
Unità 3 1 2 3 4 5
X (età) 18 22 10 20 15
La varianza sintetizza il grado di dispersione dei valori dalla loro media aritmetica.
i Xi (Xi - (Xi - 2
1 1 (18 – 17) = 1 1
8
2 2 5 25
2
3 1 -7 49
0
4 2 -3 9
0
5 1 -2 4
5
88
(Sum of Squares) È la somma degli scarti dalla media elevati al quadrato (è il numeratore della Varianza)
(o standard deviation) È espressa nella stessa unità di misura di (è la radice quadrata della Varianza)
5
o Se estraessimo un campione di famiglie con reddito pari a 2000€ cosa osserveremmo? Mediamente osserveremo che la
spesa alimentare di queste famiglie sarà maggiore, rispetto a quella del primo campione
La relazione lineare fra reddito e spesa descritta nel modello economico ci dice qualcosa sulla effettiva relazione fra le due
variabili, ma non tutto. La relazione tra reddito e spesa è infatti una relazione statistica, composta da una componente
deterministica (f (x) ) e una componente stocastica (e) (casuale).
La parte deterministica ci dice la relazione in media: in media le variabili si comportano così
6
• E' possibile stimarla a partire da un campione di osservazioni
• Stimare la relazione descritta dal modello significa attribuire, sulla base delle informazioni contenute in un campione, un
valore pari ai parametri ignoti e (calcolare intercetta e pendenza della retta che meglio descrive la relazione)
stimare la componente deterministica del modello: la retta
Estraiamo un campione casuale di 40 famiglie di cui registriamo reddito settimanale (in centinaia di $) e spesa alimentare (in $).
Sull’asse delle x abbiamo il reddito, sull’asse delle y la spesa
alimentare settimanale.
Dobbiamo stimare la retta che descrive la relazione tra le due variabili
La retta stimata attraverserà la nuvola dei punti.
Potrebbe essere una retta che unisce il più basso valore di x con il più
basso valore di y, oppure possiamo unire il minimo di y con il minimo
di x
Il metodo OLS
Il metodo dei minimi quadrati (Ordinary Least Squares, OLS)
individua quella retta che rende minima la somma dei quadrati delle distanze tra
ciascun punto e la retta stessa.
e sono le stime OLS di e . Si tratta di numeri
la retta stimata è
le distanze tra ciascun punto (osservazione campionaria) e la retta sono dette
residui campionari ():
per costruzione la somma dei quadrati dei residui() è minima
Differenza fra residui () ed errori ():
L’errore () è la componente casuale del modello che si ipotizza vero in
popolazione, sintetizza il contributo di tutti i fattori diversi da che esercitano un
effetto su . Non è osservabile!
Il residuo ) è la distanze fra ciascuna osservazione campionaria e il
corrispondente valore stimato dalla retta. Si osserva! (I residui sono usati per
stimare gli errori)
gli stimatori OLS sono:
B2 è la formula che uso per attribuire un valore al parametro ignoto beta 2, mentre b1 è la formula che uso per stimare beta 1.
Una volta che applico la formula b2 per stimare beta 2, ottengo una stima
La seguente distinzione è fondamentale:
i parametri da stimare ( e ) sono parametri ignoti, che si ipotizza descrivano la relazione fra x e y, possono essere stimati
con qualsiasi stimatore
gli stimatori OLS (e ) sono variabili casuali, perché producono valori diversi a seconda del campione a cui sono applicati
(formula)
le stime OLS ( e ) sono numeri e si ottengono applicando gli stimatori ad un preciso campione.
27/02
Valori osservati () e valori stimati ()
Vedi Esempio1.xlsx
Modello di regressione ipotizzato:
o y = Volume delle vendite (€)
o x = spazio espositivo ()
Risultati di stima del modello con il metodo OLS (replicabili usando il dataset Esempio 1.dta):
7
Il modello di regressione può essere usato per prevedere valori della variabile dipendente, sulla base dei valori che assume la
variabile esplicativa.
distanza tra la y osservata e la y stimata --> = y -
La somma dei residui è sempre 0 -->
: spazio osservato
: vendite osservate
: vendite stimate
: spazio medio osservato (media campionaria)
: vendite medie osservate (media campionaria)
è la devianza campionaria della y, misura la variabilità totale di y. E' detta Somma dei Quadrati Totali (SQT) --> y osservato dal
modello – y medio
è la Somma dei Quadrati della Regressione (SQM), riflette la quota della variazione totale di y spiegata dalla regressione («M»
sta per «Modello») --> y stimato dalla retta – y medio.
Parte di variabilità della y descritta dal modello.
è la Somma dei Quadrati dei Residui (SQR), riflette la
parte della variazione totale in y non spiegata dalla
regressione --> y osservato dal modello – y stimato
dalla retta.
SQT=SQM+SQR
Nomenclatura alternativa (non useremo questa, ma
potreste trovarla in altri testi):
Somma dei Quadrati Totali (SQT) = Devianza
Totale
Somma dei Quadrati della Regressione (SQM) =
Devianza di Regressione
Somma dei Quadrati dei Residui (SQR) = Devianza di Dispersione
Decomposition of the total sample variation in : graphic intuition considering a single observation of
8
L’interpretazione delle stime dei coefficienti
Esempio: Ipotizzo che il reddito familiare (x) abbia un effetto lineare sulla spesa alimentare familiare (y):
02/03
Proprietà degli stimatori OLS ( e )
Gli stimatori OLS (formule) sono variabili casuali che assumono valori diversi in base al campione a cui sono applicati. In quanto
v.c. hanno:
o un proprio valore atteso
o una propria varianza
o una propria distribuzione di probabilità
Si può dimostrare che - se le ipotesi del modello sono valide – i valori attesi degli stimatori OLS sono i parametri veri: cioè gli
stimatori OLS sono stimatori corretti.
Uno stimatore il cui valore atteso è il parametro vero, si dice stimatore corretto.
Attenzione! Ad essere corretto è lo stimatore, non la stima.
Si può dimostrare che - se sono valide le ipotesi del modello – la varianza degli stimatori OLS è:
o
o
è la varianza del termine d’errore, ossia tutto ciò che non è catturato dal modello
La varianza di uno stimatore dice quanto possono variare le stime da un campione all'altro, misura cioè la sua precisione.
La misura di precisione degli stimatori OLS che si usa più spesso però è lo standard error:
o
o
Più grande è lo standard error di uno stimatore, più variabilità c’è nelle stime che esso produce su diversi campioni
Rispetto alla varianza (sopra):
• (ignoto) è sostituito con una sua stima
• è estratta la radice quadrata
• gli st. error forniscono una stima della precisione di e
Se si assume valida anche l'ipotesi sulla normalità distributiva degli errori, anche gli stimatori OLS hanno distribuzione normale:
Secondo il Teorema del Limite Centrale anche se gli errori non hanno distribuzione normale, se le altre Ipotesi sul modello sono
valide e se la numerosità campionaria è sufficientemente elevata gli stimatori OLS hanno una distribuzione assimilabile alla
distribuzione normale.
9
Si possono standardizzare:
Verifica di ipotesi
Test di ipotesi è uno strumento molto utilizzato che ha l’obiettivo di confrontare un idea che abbiamo su un parametro della
popolazione, con le informazioni che ci vengono da un campione.
La procedura di verifica di ipotesi mette a confronto una congettura relativa alla popolazione con l'informazione contenuta in
un campione di osservazioni.
• La congettura può derivare dalla teoria economica o da precedente evidenza empirica ed è descritta dall'ipotesi nulla
• L'informazione contenuta nel campione è rappresentata dalle stime puntuali OLS e dai rispettivi standard error
La verifica d'ipotesi si compone di:
un'ipotesi nulla e un'ipotesi alternativa
una regione di rifiuto
una statistica test
una conclusione
Se è
vera
l'ipotesi nulla :
• il parametro vero è uguale a
• lo stimatore di ha una distribuzione Normale centrata
attorno a 10 (PDF rossa).
Se estraessi vari campioni sarebbe molto probabile osservare
stime campionarie nella zona centrale della distribuzione (vicino
a 10), e meno probabile osservare stime campionarie nella zona
delle due code (lontano da 10)
10
La probabilità di osservare valori che si trovano nella zona di rifiuto
(l’ampiezza totale dell’area grigia) è detta livello di significatività del
test ed è indicata con
Quanto è ampia la zona di rifiuto lo stabilisce il ricercatore. In genere
si scelgono livelli di pari a 1%, 5% o 10%
Il livello si significatività misura anche l’errore di I tipo, perché è la
probabilità di rifiutare l’ipotesi nulla, quando in realtà è vera.
Se la statistica
campionaria
osservata si trova nella zona di rifiuto (es. 18):
• è poco verosimile (anche se non impossibile) che lo stimatore abbia
la distribuzione (centrata attorno a 10) che abbiamo ipotizzato
• possiamo concludere che l'ipotesi nulla sia da rifiutare
Sarà più probabile che quel 18 venga da un’altra distribuzione, che per
esempio potrebbe essere centrata attorno al 19. Quindi rifiuto l’ipotesi
che il parametro incognito sarà 10.
La statistica test (t) è funzione dei dati campionari e una volta applicata ad un
preciso campione produrrà un preciso valore: la statistica test osservata ():
Toss è un numero dato dalla stima del parametro di interesse – il valore che il
parametro di interesse assume se l’ipotesi nulla è vera, diviso lo standard error.
Se è vera,
• la statistica test è una Normale Standard
• è molto probabile che abbia un valore vicino a 0 (zona centrale della
distribuzione),
• è meno probabile checada nella zona lontano da 0 (nelle due code della
distribuzione)
11
Se sottopongo a verifica contro l’ipotesi alternativa rifiuto l’ipotesi nulla se
Che può essere scritto anche come:
o:
• se e
• se e
• se e
Estraggo un campione e stimo il modello sopra con il metodo OLS, ottenendo una stima di pari a :
La prima riga riporta il nome della variabile esplicativa a cui si riferisce il coefficiente, quindi nella prima riga abbiamo la
stima della varabile pubblicità
Ricavo la statistica test osservata:
and
Confronto la statistica test osservata con i valori critici: 9.8>1.96
Verifica di ipotesi:
procedimento
Definite e , stabilita qual è la
statistica test e il livello di significatività del test si calcola la statistica test
campionaria.
Se essa cade nella zona di rifiuto si conclude rifiutando , se cade nella
zona di non rifiuto, si conclude non rifiutando :
06/03
Test di significatività sui coefficienti di regressione
Il test di significatività sottopone a verifica l'ipotesi in cui uno dei parametri di regressione sia uguale a zero.
Nel caso in cui riguardi la pendenza del modello di regressione ), verifica che esista una relazione lineare tra la y e la x.
Il sistema d'ipotesi è: e
La statistica test è:
La statistica test osservata è
La conclusione del test porta a stabilire se la stima del parametro sia statisticamente significativa (statisticamente diversa da
zero), cioè se la variabile incida significativamente sulla variabile
L'output di stima di un modello di regressione include:
12
la stima dei coefficienti --> _cons è la stima dell’intercetta, in questo caso nella voce coef reddito abbiamo la pendenza
i loro standard error
la statistica test osservata dei test di significatività (t) --> la statistica test è lo stimatore standardizzato ed è una variabile
casuale. In queste 120 osservazioni la statistica test osservata è t obs = 5,60
il p-value
Il p-value
Nel caso di un test a due code, il p-value rappresenta la somma delle probabilità alla
destra di | e a sinistra di :
Conoscere il p-value di una statistica test osservata consente di prendere una
decisione sul test senza conoscere i valori critici: se il p-value è minore del livello di
significatività si rifiuta
Una volta deciso il livello significatività, in qualsiasi test d’ipotesi è possibile prendere una decisione indifferentemente
osservando:
La statistica test osservata (): se | Rifiuto
Il p-value: Se p-value Rifiuto
Se p-value > a --> Non rifiuto H0
Esempio: S6.0
Coe
t
.
0.00
0.006
0.
_co
5.
0.3
0.000
td.
.3
|t|
90
59
s0
8
a) Si svolga un test di significatività sul coefficiente β, con α=5% e si riporti in un grafico il p-value.
H0:
H1: ≠ 0
=
Nella tavola della normale standard cerco 0,28 = 0,6103 (probabilità cumulata rispetto
a 0,28).
Pvalue: (1-0,6103) * 2 = 0,7794
Conclusione del test: siccome pvalue > α (o |t_oss|< t_crit) non rifiuto H0 e concludo
che il coefficiente non è statisticamente significativo.
13
Non rifiutando Ho si conclude che il coefficiente non è significativamente diverso da zero o (in altre parole) che esso non è
statisticamente significativo. Nel caso in cui il test sia eseguito sul β2, non rifiutando Ho si conclude che la variabile x non incide
significativamente sulla variabile dipendente y o (in altre parole) non ha un effetto significativo su y .
Esempio 1.
Health= α + β * cigarettes + e
Health= aspettativa di vita alla nascita (anni)
Cigarette= consumo di sigarette, misurato in numero pacchetti venduti pro-capite
Coeff. St.Error t-Statistic |t-Statistic| p-value
Cigarette -0.20 0.08 ? ? ?
Con un livello di significatività α=1% posso affermare che il coefficiente della variabile cigarette
(β) è significativo (cioè la variabile cigarette incide significativamente sulla salute)? No (p-
value> α, Non rifiuto H0)
Con un livello di significatività α=5% posso affermare che il coefficiente della variabile cigarette
(β) è significativo (cioè la variabile cigarette incide significativamente sulla salute)? Si (p-
value< α, Rifiuto H0)
Con un livello di significatività α=10% posso affermare che il coefficiente della variabile
cigarette (β) è significativo (cioè la variabile cigarette incide significativamente sulla salute)? Si (p-value< α,Rifiuto H0)
*** ** *
Esercizio:
Health= α + β * Urbanization + e
Health= aspettativa di vita alla nascita (anni)
Urbanization= livello di urbanizzazione, misurato come percentuale della popolazione che risiede in area metropolitana
14
- |t-stat|è compreso tra 1.64 e 1.96
* ** ***
Esercizio:
Health= α + β * alcohol + e
Health= aspettativa di vita alla nascita (anni)
Alchol= cosumo di alcol, misurato in litri venduti pro-capite
Coeff. St.Error t-stat |t-Stat| p-value
Alcohol -0.04 0.05 -0.8 0.8 (1-0.7881)*2=0.42=42%
Con un livello di significatività α=1% posso affermare che la variabile ha un effetto significativo sulla salute? No
Con un livello di significatività α=5% posso affermare che la variabile ha un effetto significativo sulla salute? No
Con un livello di significatività α=10% posso affermare che la variabile ha un effetto significativo sulla salute? No
Quanti asterischi? Nessuno
Se ragionassimo con lo t statistic avremmo lo stesso risultato, o,80<1,64 quindi nessun asterisco
Esercizio:
Health=income+e
Health= aspettativa di vita alla nascita (anni)
Income=Reddito pro capite (migliaia di $)
Con un livello di significatività =1% posso affermare la variabile ha un effetto significativo sulla salute? No
Con un livello di significatività =5% posso affermare la variabile ha un effetto significativo sulla salute? No
Con un livello di significatività =10% posso affermare la variabile ha un effetto significativo sulla salute? Si
Quanti asterischi? Uno *
Esercizio:
Health=crime+e
Health= aspettativa di vita alla nascita (anni)
Crime= crimine, misurato come numero di crimini violenti per 100 000 persone
Coeff |t-stat| Quanti asterischi?
Crime -0.038 2.87
15
Ciascun coefficiente riferito alla variabile :
• misura l’effetto sul valore atteso di di una variazione unitaria nella variabile ipotizzando costante il valore di tutte le altre
variabili (i.e. ceteris paribus), è detto effetto marginale di x su y. In caso di un modello lineare multiplo il coefficiente b1 ci
dice come varia la y quando x1 aumenta di un’unità, tenendo costante tutte le altre variabili
• rappresenta la derivata parziale di rispetto alla variabile :
Il coefficiente indica a quanto ammonta il valore atteso della variabile dipendente quando tutte le variabili esplicative hanno
valore zero.
• Il modello in cui i vincoli sui parametri descritti in non sono stati imposti è detto modello non vincolato:
Il test (detto test F) si basa sul confronto della SQR nei due modelli (e )
Sistema di ipotesi è: e
• Fissiamo
16
• La statistica test è :
17
o se rifuto oppure
o se rifiuto
• Se rifiuto significa che almeno una delle variabili pubblicità e ampiezza è significativa. Qualora invece pvalue > a, non
rifiutiamo H0, quindi i coefficienti pubblicità e ampiezza sono entrambi congiuntamente significativi.
Il test F verifica l’ipotesi che tutti i regressori siano congiuntamente non significativi
Il sistema di ipotesi è:
• : nessun regressore è significativo
• : almeno un regressore è significativo
Il modello vincolato ha solo l'intercetta: perché tutti gli altri coefficienti sono uguali a 0
Il modello non vincolato ha tutte le variabili esplicative:
SQR nel modello vincolato (che ha solo l’intercetta) non è altro che SQT del modello non vincolato
Perché?
Nel modello generico lo stimatore OLS dell’intercetta () è
Si consideri il modello ristretto:
• ovvero lo stimatore OLS dell’intercetta è uguale alla media di y
• La stima di è uguale alla media di y nel campione
• Il modello stimato è
• Ne consegue che nel modello vincolato la SQR è
Il risultato del test F per la significatività del modello viene riportato da tutti i software econometrici tra gli output di regressione:
• Vendite rappresenta le vendite settimanali di un fast-food della catena Dollar-Burger
• Prezzo è il prezzo medio degli hamburger venduti
• Pubblicità e la spesa mensile del fast-food in attività pubblicitarie
• Ampiezza è l'ampiezza del punto vendita in
Comando: reg
variabile
dipendente variabili esplicative
Nella parte in basso troviamo la stima dei coefficienti (coef.)
La terza colonna riporta la statistica test osservata
Nella parte sopra abbiamo:
o SS: somma dei quadrati. 23348 è la somma dei quadrati spiegati dal modello SQM, mentre 1989 è la somma dei quadrati
residui SQR, sotto abbiamo SQT la somma dei quadrati totali.
o Number of obs = 10 è N
18
o F (3, 6) = 23,48 è la statistica test F osservata del test F sulla significatività complessiva del modello. I numeri 3 (K-1) e 6
(N-K) sono i gradi di libertà del numeratore e del denominatore della statistica test.
Quanti regressori ci sono nel modello? Guardando il primo numero sappiamo rispondere, quindi essendo 3 K-1, i regressori
(variabili esplicative, variabili x) sono 3, in quanto K è il numero di parametri (include l’intercetta).
o Prob > F = 0,0010 è il p-value del test F sulla significatività complessiva del modello
o R-squared è R2 --> il 92,15% della variabilità della y è spiegata dal modello
o Adj R-squared è R2 corretto
Commento:
In base al modello stimato i prezzi di FV e formaggi e il reddito familiare pro-capite hanno un impatto statisticamente
significativo sulla quantità pro capite di FV consumata mediamente in UK. Nel dettaglio, l’effetto del prezzo di FV è significativo
all’1% (p-value=0.006), l’effetto del prezzo dei formaggi al 5% (p-value=0.020) e l’effetto del reddito all’1% (p-value=0.000). Il
prezzo del pane e l’ampiezza della famiglia non incidono invece significativamente (p-value >0.1) su tale consumo.
In base alle nostre stime e a parità di altri fattori, un aumento di 1£/kg nel prezzo della FV porta ad una riduzione di quasi 85
grammi a settimana nel consumo medio pro capite di FV. Sempre a parità di altre condizioni invece un aumento del prezzo del
formaggio di 1£/kg porterebbe ad un aumento nel consumo medio di FV di circa 25 grammi pro capite a settimana.
All’aumentare di 1£ del prezzo del pane, il modello prevede che in media la quantità consumata di frutta e verdura diminuisce in
media di 34,27 grammi (essendo il coefficiente non significativo, si commenta solo che l’impatto di quella x non è significativo
sulla y, non si commenta invece l’ampiezza della stima ottenuta).
Questo risultato suggerisce che per i consumatori inglesi il formaggio e la FV siano beni sostituti (all’aumento del prezzo
dell’uno aumenta il consumo dell’altro).
Infine, a parità di altri fattori anche il reddito pro capite risulta essere un fattore determinante per il consumo di FV: un aumento
di 100£ a settimana induce ad aumentare il consumo medio pro capite di FV di 3.5 grammi.
Commentare prima la significatività. Per quelli significativi procedere con il commento, per quelli non significativi no
19
Per ricostruire e occorre consultare questa porzione di output:
Il test di significatività per il coefficiente della variabile prezzo del formaggio ha lo scopo di verificare l’ipotesi che il parametro
vero () – non osservabile direttamente – che in popolazione lega il prezzo del formaggio al consumo di FV sia nullo. In altre
parole, il test sottopone a verifica l’ipotesi nulla che non ci sia una relazione tra prezzo del formaggio e consumo di FV in
popolazione.
Il sistema di ipotesi di tale test è:
Strada 1)
Il valore critico corrispondente ad un α per una normale standardizzata (la t di Student per N molto grandi converge ad una
normale) è 1.96 (è un valore critico da ricordare a memoria, insieme a 1.645 per e 2.575 per . Si tratta dei valori critici per test a
due code con normale standardizzata)
2.34>1.96 Rifiuto
Strada 2)
Il p-value corrispondente alla mia statistica test è 0.020 (è la probabilità che la statistica test assuma un valore >2.34 o <-2.34).
Il p-value è calcolato da software, ma si può ricavarlo usando le tavole della normale standardizzata. Prova a trovarlo per
esercitarti.
0.020<0.05 Rifiuto
20
In conclusione, rifiuto l’ipotesi che non ci sia relazione tra prezzo del formaggio e consumo di FV, con un livello di significatività
del 5% (cioè accettando una probabilità di errore del 5%). In altre parole, il prezzo del formaggio incide significativamente sul
consumo di FV, ovvero il coefficiente del prezzo del formaggio è statisticamente significativo, con un livello di significatività del
5%.
E se avessi scelto un ?
Strada 1)
Il valore critico corrispondente ad un α per una normale standardizzata (la t di Student per N molto grandi converge ad una
normale) è 2.575 per .
2.34<2.575 Non rifiuto
Strada 2)
Il p-value corrispondente alla mia statistica test è 0.020 (è la probabilità che la statistica test assuma un valore >2.34 o <-2.34).
Il p-value è calcolato da software, ma si può ricavarlo usando le tavole della normale standardizzata (o della t di student se il
campione non è sufficientemente alto). Prova a trovarlo per esercitarti.
0.020>0.01 Non rifiuto
In conclusione, non rifiuto l’ipotesi che non ci sia relazione tra prezzo del formaggio e consumo di FV, con un livello di
significatività dell’1% (cioè accettando di sbagliare 1 volta su 100). In altre parole, il prezzo del formaggio non incide
significativamente sul consumo di FV, ovvero il coefficiente del prezzo del formaggio non è statisticamente significativo, con un
livello di significatività dell’1%. La scelta del livello di significatività può avere effetto sulla decisione finale!
Attenzione! Se stiamo conducendo la nostra analisi sui dati normalmente nessuno ci dice quale livello di significatività ()
scegliere. Nella pratica quindi:
- Se è possibile rifiutare ad almeno uno dei 3 possibili livelli di , si individua il livello di più basso a cui è possibile rifiutare e si
commenta la significatività rispetto a quello:
es: nel test di significatività appena descritto è possibile rifiutare sia con che con , mentre non è possibile rifiutare con . Il
commento a questo test dunque sarà: il coefficiente del prezzo del formaggio è statisticamente significativo al 5%.
- Se non è possibile rifiutare perché p-value>10%, concludo che il coefficiente non è statisticamente significativo.
Per scrivere x medio: andare su accento oppure \bar doppio spazio e scrivere x
Per scrivere y stimato: andare su accento oppure \hat spazio spazio e scrivere y
13/03
Relazioni lineari e non lineari
21
• l'elasticità è . Essa varia in ciascun punto() della retta.
In una relazione lineare:
- l’effetto marginale di su è costante in ogni punto
- l’ elasticità di rispetto a cambia in ogni punto
Esempio:
Si consideri la funzione lineare: :
• se la x aumenta di 1 unità a partire dal punto (x = 1; y = 5) ci si sposta lunga la retta nel punto (x = 2; y = 8) la variazione
della y è 3
• se la x aumenta di 1 unità a partire dal punto (x = 10; y = 32) ci si sposta lunga la retta nel punto (x = 11; y = 35) la
variazione della y è 3
La variazione della y a fronte di una variazione unitaria della x (effetto marginale di x su y) è costante in ogni punto della retta.
• Nel punto (x=10; y=32), l'elasticità della funzione è 4
Dunque un aumento dell’1% della x a partire dal punto (x=10; y=32) è associato ad una variazione dello 0.94% della y
• Nel punto (x=1; y=5), l'elasticità della funzione è
Dunque un aumento dell’1% della x a partire dal punto (x=1; y=5) è associato ad una variazione dello 0.6% della y
La variazione % della y a fronte di un aumento dell’1% della x non è costante!
2
Y
200 1.00
Y
1 150 0.90
1 100 0.80
50
0 0
0
20
40
60
80
0
10
0
20
40
60
80
0
0
0
20
40
60
80
0
0
10
12
10
12
X
X
In una relazioneXnon lineare la pendenza della curva:
• è la pendenza della rette tangente alla curva in un punto specifico
• misura l’effetto marginale di su
• è diversa in ogni punto della curva
Esempio:
Si consideri la funzione non lineare:
La pendenza della retta tangente alla curva e
data da:
La pendenza della curva dipende da dunque è diversa a seconda del punto della
curva in cui ci troviamo (la pendenza della che varia in ogni punto ci dice che la
relazione tra x e y non è lineare):
• nel punto (x=0, y=16) la pendenza è -8
• nel punto (x=2, y=4) la pendenza è -4
• nel punto (x=6, y=4) la pendenza è 4
L’elasticità :
• nel punto (x=6, y=4) è: --> ad un aumento dell'1% della x corrisponde una
variazione del 6% della y.
• nel punto (x=3, y=1) è:
• nel punto (x=2, y=4) è:
• Ma è anche lineare?
Una relazione lineare ( implica pendenza (cioè effetto marginale di X su Y) costante:
Y: household food expenditure
Un aumento di 100$ nel reddito determinerà lo stesso incremento nella spesa alimentare
indipendentemente dal livello di reddito e di spesa alimentare di partenza
La relazione lineare tra Y e X è una buona approssimazione della realtà?
Nonlinear relationship
E' molto probabile che la relazione tra Y (spesa
alimentare) e X (reddito delle famiglie) sia X: household income
• la pendenza (la pendenza della retta tangente alla curva in un dato punto) si riduce
al crescere di X
• al crescere del reddito, l’effetto marginale del reddito sulla spesa alimentare si
riduce
X: household income
22
• La relazione è crescente (al crescere del reddito la spesa alimentare cresce), ma ad un tasso decrescente (cresce
sempre meno)
ln(y)=β_0+β_1 x (β_1>0)
7
6
ln(y)
5
4
3
2
1
0
0 20 40 60 80 100 120 450 𝑦=exp "(" 𝛽_0+𝛽_1 " 𝑥" )
400
Tuttavia la relazione sottostante
X tra e è non lineare*:
350
300 (𝛽_1>0)
250
Y
-2
-4
-6
-8
-10 3
3
𝑦=exp(𝛽_0+𝛽_1 𝑥) (𝛽_1<
0 20 40 60 80 100 120 2
Y
Assumiamo che la
e di ampiezza di partenza
500000
Potrebbe essere verosimile che per abitazioni più costose un metro quadro aggiuntivo 0 200 400 600 800
Total square mt
Price ($)
determini un incremento del prezzo più ampio rispetto ad abitazioni meno costose.
Posso descrivere questo tipo di relazione con un modello log-lineare e specificare la
relazione tra PRICE e MQ come:
24
. reg lprice mq
3
2
1
0
0 20 40 60 80 100 120 1.45
Tuttavia la relazione sottostante
ln(X) tra e è non lineare: 𝑦=𝛽_0+𝛽_1 ln(𝑥)
1.35 (𝛽_1>0)
La pendenza di questa curva (cioè l’effetto marginale d su ) cambia in ogni 1.25
Y
-6
-8
-10
0 20 40 60 80 100 120 3 𝑦=𝛽_0+𝛽_1 ln(𝑥) (𝛽_1<0)
Tuttavia la relazione sottostante tra e è non lineare: 3
ln X (cioè l’effetto marginale d su ) cambia in ogni 2
La pendenza di questa curva
Y
2
punto ed è uguale a: 1
1
Se , la funzione è decrescente ad un tasso decrescente 0
25
Esempio 4: la relazione tra reddito e spesa alimentare
Tuttavia, al crescere del reddito è verosimile che a fronte dello stesso incremento di
reddito la spesa alimentare non continuerà a crescere sempre allo stesso tasso.
È verosimile che al crescere del reddito l’effetto marginale del reddito sulla spesa
Food
alimentare si riduca
26
2ln(𝑦)=𝛽_0+𝛽_1 ln𝑥 (𝛽_1<0)
0
ln(y)
-2
-4
-6
-8
-10
0 20 40 60 80 100 120
Tuttavia la relazione sottostante tra e è non lineare:
•
ln X
L’effetto marginale di su cambia in ogni punto ed è: 3.10
2.90
2.70
𝑦=𝑒^(𝛽_0 ) 𝑥^(𝛽_1 ) (𝛽
• Se la funzione è decrescente ad un tasso decrescente 2.50
2.30
Y
* può essere riscritta come . 2.10
1.90
1.70
Il modello log-log: (con ) 1.50
Nel modello log-log, la relazione tra e è lineare. 0 20 40 60 80 100
Se la funzione è crescente a tasso costante
X
12 ln(𝑦)=𝛽_0+𝛽_1 ln𝑥 (𝛽_1>0)
10
ln(y)
8
6
4
2
0
0 20 40 60 80 100 120
Tuttavia la relazione sottostante
ln(X) tra e è non lineare:
3.40
Y
2.90
2.40
0 20 40 60 80 100 120
L’effetto marginale di su cambia in ogni punto ed è uguale a
0 20 40 X 60 80 100
Perciò:
X
- Se : la funzione è crescente ad un tasso decrescente
- Se : la funzione è crescente ad un tasso crescente
Interpretazione di : un aumento
dell’1% in x determina una
variazione % nella y pari .
è l’ elasticità d rispetto a
In questi modelli
• Sia che devono essere
positivi, e
• L’elasticità di rispetto a è
costante
27
Si assuma una relazione lineare
. reg q p
1 1.5 2 2.5 3
Price of chicken
Tavola
riassuntiva
28
Regole di derivazione utilizzate per il calcolo degli effetti marginali nei modelli illustrati
16/03
Variabili dicotomiche nei modelli di regressione
29
Quando nel modello c’è una variabile binaria e una variabile continua, stiamo assumendo effetti marginali costanti sui due
sottogruppi. Di conseguenza, l’effetto marginale dell’istruzione sul salario è uguale sia per i maschi, che per le femmine.
Si avranno due modelli rappresentanti da due rette con stessa pendenza, ma
diversa intercetta.
L’inclusione della variabile binaria nel modello sposta parallelamente la relazione
tra e di un ammontare pari a (intercept shift)
: è la differenza nelle intercette dei due modelli e rappresenta la differenza
(costante) nel salario medio fra donne e uomini, a qualsiasi livello di istruzione:
• se , a parità di livello di istruzione le donne hanno in media salari orari
inferiori agli uomini
La differenza nel salario medio tra uomini e donne:
• è costante per qualsiasi livello di istruzione
• è descritta da uno shift nell'intercetta (se a qualsiasi livello di istruzione gli
uomini guadagnano un ammontare fisso in più delle donne)
A parità di livello di istruzione e di anni di esperienza il salario medio di una donna è inferiore a quello di un uomo di 2,2$/ora (i
dati si riferiscono al 1976).
Regressori del modello: variabile continua istruzione e variabile ottenuta come prodotto tra female ed educazione
Se
Se
Per i lavoratori donna nel modello che descrive la relazione tra e :
• l’intercetta è ()
• la pendenza (cioè l’effetto marginale dell’istruzione sul salario) è
Per i lavoratori uomo nel modello che descrive la relazione tra e :
• l’intercetta è ()
• la pendenza (cioè l’effetto marginale dell’istruzione sul salario) è
30
Stimando un modello come questo io assumo che l’effetto marginale dell’istruzione sui salari possa essere diverso per i due
sottogruppi. Inoltre, in un modello in cui female entra come termine di interazione io assumo diversa pendenza, ma uguale
intercetta.
10 12 14 16 18 20
Il termine di interazione () introduce la possibilità che l’effetto dell'istruzione sul
salario orario sia diverso per uomini e donne (different returns to education).
Le due rette che descrivono l’effetto dell’istruzione sul salario per le donne e per
Hourly wage
Male function
gli uomini hanno:
- stessa intercetta (si assume che per livelli di istruzione nulli, il salario di
8
uomini e donne sia identico, pari a ) Female function
6
- pendenza diversa (per gli uomini e per le donne)
4
2
0
0 2 4 6 8 10 12 14 16 18 20
Education
(stessa intercetta per uomini e donne): Per livelli di istruzione nulli, il salario medio per donne e uomini non è significativamente
diverso da 0.
è l’effetto marginale dell’istruzione sul salario medio per gli uomini (female = 0). Per gli uomini, un anno aggiuntivo di istruzione
determina in media un incremento di salario pari a 0.58$/ora.
(differenza nelle pendenze). È la differenza nell’effetto marginale dell'istruzione sul salario tra donne e uomini. L’effetto di un
anno aggiuntivo di istruzione sul salario orario è inferiore (di 0.18$) per le donne rispetto agli per gli uomini.
è l’effetto marginale dell′istruzione sul salario medio per le donne (female = 1). Per le lavoratrici, un anno aggiuntivo di
istruzione determina in media un incremento di salario pari a 0.40$/ora.
Se assumiamo che il genere incida sia sull’intercetta che sulla pendenza della relazione tra salario e istruzione, i due effetti
possono essere incorporati nel modello seguente:
Per fare ciò, il regressore binario female deve entrare sia nel termine di
interazione che da solo.
Se
Se
Le due rette che descrivono l’effetto dell’istruzione sul salario per le donne e
per gli uomini hanno:
- intercetta diversa (per gli uomini e per le donne)
- pendenza diversa ( per gli uomini e per le donne
= 6.16: il salario orario medio degli uomini con esperienza nulla è pari a 6.16$
: (shift nell’intercetta): La differenza nel salario orario medio tra donne e uomini con esperienza nulla è significativamente
diversa da zero e pari a -1.55$
: è l’effetto marginale dell’esperienza lavorativa sul salario orario dei lavoratori uomini. Per gli uomini un anno aggiuntivo di
esperienza determina in media un incremento nel salario orario di $0.05
-0.06(differenza nella pendenza): l’effetto marginale dell’esperienza lavorativa sul salario orario è significativamente diversa tra
donne e uomini. . L’effetto di un anno aggiuntivo di esperienza sul salario orario è inferiore (di 0.06$) per le donne rispetto agli
gli uomini
: è l’effetto marginale dell’esperienza lavorativa sul salario orario delle lavoratrici. Per le donne un anno aggiuntivo di esperienza
determina in media una riduzione nel salario orario di $0.01.
31
Variabili binarie nei modelli log-lineari
è approssimativamente la differenza media percentuale nei salari orari (y) tra donne (dummy=1) e uomini (dummy=0)
In media il salario orario delle donne è inferiore del 36% rispetto al salario orario degli uomini, a parità di altri regressori
è approssimativamente la variazione % nei salari dovuta ad un anno aggiuntivo di istruzione per gli uomini (dummy=0)
è approssimativamente la variazione % nei salari dovuta ad un anno aggiuntivo di istruzione per le donne (dummy=1)
: (differenza nelle intercette). Per livelli di istruzione nulli, la differenza nel salario fra donne e uomini è del -36% (significativo al
10%)
: è l’effetto dell'istruzione sul salario medio degli uomini. Per gli uomini, un anno aggiuntivo di istruzione determina in media un
incremento di salario pari al 7%
: (differenza nelle pendenze). È la differenza nell’effetto dell'istruzione sul salario medio tra donne uomini . Il coefficiente non è
significativo: l’effetto dell'istruzione sul salario non è diverso fra donne e uomini.
Se fosse stato significativo? è la differenza tra donne e uomini nell’effetto percentuale dell'istruzione sul reddito: un anno
aggiuntivo di istruzione per le donne avrebbe portato un aumento nel salario pari a 7-0.006=6.994%.
Esempio:
Creare un modello per stimare il numero di ore lavorate
Stimare un modello in cui il numero di ore lavoratore è funzione di wage, educ e di nchild (numero di figli in famiglia)
32
33,03 è l’intercetta --> quando wage, educ e numero di figli sono pari a 0, il numero di ore lavorate in media è pari a 33 ore.
Indicare quanta della variabilità della variabile dipendente è spiegata dal modello
R2 = 0,0433 --> il 4,3% della variabilità della y è spiegata dal modello (è basso)
Creare una nuova variabile child che è uguale a 1 se c’è almeno un figlio, uguale a 0 se non ci sono figli
Gen child=.
Replace child=1 if nchild>0
Replace child=0 if nchild==0
Il numero di ore lavorate è significativamente diverso per le lavoratrici con figli e senza figli?
E (hrswork | child=1) = E (hrswork | child=0) ?
Devo stimare un modello in cui le ore lavorate sono funzione solamente della binaria
Hrswork =
Stimare un nuovo modello in cui le ore lavorate è funzione di wage, educ e presenza di figli
La presenza di figli incide
significativamente sul numero di ore
lavorate? Si, perché il pvalue è meno
dell1%, quindi l’avere figli ha un effetto sul
numero di ore lavorate significativo all’1%
Chi ha figli lavora 1,47 ore in meno di chi
non ha figli, a parità di altre condizioni.
33
di ore lavorate sia diverso per lavoratrici con e senza figli a parità di salario orario? Stima un modello appropriato per rispondere
Devo inserire una nuova variabile che sia il prodotto tra educ e child
Devo generare una nuova variabile
Gen child_ed=child*educ
Hrs =
Beta 0 = valore atteso delle ore lavorate quando il livello di istruzione è nullo e non ci sono figli (intercetta del modello senza
figli) --> 31,4 ore lavorate in media dalle donne che non hanno istruzione e non hanno figli
Il coefficiente di child mi dice la differenza del numero di ore lavorate tra chi ha figli e chi non ha figli
Pendenza per chi ha figli : beta 1 + beta 3
Beta 3 : -0,234 (non è significativo)
Siccome il termine di interazione non è significativo, la differenza tra gli effetti marginali non è significativo. Le due rette non
hanno pendenza diversa
L’ufficio controllo di gestione di un’azienda meccanica vuole studiare in che modo l’esperienza dei propri operai incide sulla
qualità del loro lavoro. A questo scopo, su campione di 500 operai, vengono stimati i seguenti modelli di regressione in cui x
rappresenta l’esperienza lavorativa (misurata in anni) e y è un indice di prestazione misurato in una scala da 0 a 100:
Modello 1: = 64.3 + 0.99x
Model 2: = 39.5 + 15.3ln(x)
(le stime, ottenute con il metodo OLS, sono statisticamente significative ad un livello di significatività pari a 0.01).
Risposta: c
In un test di significatività (quindi un test a due code) l’area a sinistra di |t-oss| è 0.702, a quanto ammonta il p-value?
a) 0.596
b) 0.298
c) 0.702
d) 0.950
Alle Olimpiadi del 1996, 79 tra i paesi partecipanti hanno vinto almeno una medaglia. Per ciascuno di questi paesi, sia MEDALS
il numero di medaglie vinte, POPM la popolazione in milioni di abitanti, e GDPB il PIL in miliardi di dollari. È stato stimato il
seguente modello di regressione:
MEDALS = β1 + β2POPM + β3GDPB + e
Che ha prodotto le seguenti stime:
Si sottoponga a verifica l’ipotesi che non ci sia una relazione statisticamente significativa fra il numero di medaglie vinte e il PIL
di un paese contro l’ipotesi alternativa che tale relazione esista. Si selezioni l’affermazione corretta:
a) Con un livello di significatività del 5% rifiuto H0
b) Con un livello di significatività dell’1% rifiuto H0
c) Con un livello di significatività del 10% non rifiuto H0
d) Con un livello di significatività del 10% rifiuto H0
H0:
H1:
T obs = 0,013 / 0,007 = 1,857
34
Se il livello di significatività è del 10%, il t critico è 1,645 --> il t obs cade nella zona di rifiuto, quindi al 10% rifiuto
Se il livello di significatività è del 1%, il t critico è 2,575 --> il t obs non cade nella zona di rifiuto, quindi all’1% non rifiuto
Se il livello di significatività è del 5%, il t critico è 1,96 --> il t obs non cade nella zona di rifiuto, quindi al 5% non rifiuto
Risposta: d
Si consideri il seguente modello di regressione che mette in relazione la quota di spesa famigliare in bevande alcoliche (WALC)
con la spesa totale famigliare (TOTEXP), l’età del capofamiglia (AGE) e il numero di bambini in famiglia (NK):
WALC = β1+β2ln(TOTEXP)+β3NK+β4AGE+e
Il modello è stimato su un campione di 1200 famiglie. Una versione incompleta dell’output di stima è riportata qui sotto:
Si consideri il seguente modello di regressione usato per misurare l’effetto della formazione dei lavoratori sulla loro produttività:
log(scrap)=β0+β1hrsemp+β2log(sales)+β3log(employ)+e
Dove:
scrap: numero di prodotti difettosi (è spesso usato come misura
della produttività dei lavoratori)
hrsemp: numero di ore annue di formazione per lavoratore
sales: vendite annue (in dollari)
employ : numero di impiegati
Il modello è stato stimato su un campione di 300 aziende, i risultati
di stima sono riportati qui sotto:
Si commenti in che modo lo stile coloniale incide sul prezzo delle abitazioni.
Il coefficiente della binaria mi dice la differenza media in percentuale tra chi ha lo stile coloniale e chi non lo ha. il coefficiente è
0,530 ed è significativo all’1%. Le abitazioni in stile coloniale hanno un prezzo più alto del 53% rispetto alle abitazioni non in
stile coloniale, a parità delle altre condizioni
Esercizio Stata
1. Si sottoponga a verifica l’ipotesi nulla che il numero di visite
mediche negli ultimi tre mesi è lo stesso per i paziente sposati di
50 anni o più e per i pazienti non sposati di 50 anni o più
35
Domanda alternativa: riporta il numero medio di visite dei pazienti sposati con più di 50 anni e il numero medio di visite dei
pazienti non sposati con più di 50 anni. La differenza è significativa? In questo caso le medie le troviamo nella prima parte
della tabella: i pazienti non sposati con più di 50 anni hanno registrato un numero medio di visite pari circa a 4, mentre i
pazienti sposati con più di 50 anni hanno registrato un numero medio di visite pari circa a 3,7. La differenza osservata è di
0,3
L’ipotesi nulla è che la differenza sia uguale a 0, mentre l’ipotesi alternativa è che sia diversa da 0. Per capire se la
differenza è significativa si guarda il pvalue pari a 44,6%; in questo caso il p value è maggiore anche dell’alfa più grande,
quindi non rifiuto H0. Concludo che le due medie non sono significativamente diverse.
La stessa conclusione l’avrei raggiunta con un modello di regressione in cui il numero di visite è funzione solo della binaria che
definisce i due sottogruppi
Docvis = B0 + B1married + u
--> differenza tra la media di docvis per coloro che sono sposati e la media di docvis per coloro che non sono sposati
Guardando la significatività del coefficiente, verifico se la differenza è significativa
2. Si stimi un modello di regressione in cui la variabile dipendente docvis è funzione di married, female, income, age e hhkid.
Qual è l’effetto di age sulla variabile dipendente?
Il coefficiente married non è significativo, quindi accetto l’ipotesi nulla che non ci sia
alcuna relazione statisticamente significativa fra il numero di visite mediche e lo
status matrimoniale dei pazienti
4. Si sospetta che l’effetto dell’età sul numero di visite mediche sia diverso per i
pazienti sposati e per i pazienti non sposati. Si apportino le dovute modifiche al modello precedentemente stimato per verificare
se tale differenza esiste. Si stimi il modello opportunamente modificato e si commenti.
36
Il coefficiente married_age non è significativo
(pvalue > 10%), quindi concludo che l’effetto marginale dell’età sul numero di visite non è significativamente diverso tra i
pazienti sposati e i pazienti non sposati, a parità degli altri fattori.
Assignment 7
Il coefficiente lnarea è significativo al 10%. L’elasticità della produzione rispetto all’area coltivata è pari a 0,25%.
All’aumentare dell’1% dell’area coltivata, la produzione
aumenta dello 0,25%, a parità degli altri fattori
Il coefficiente lnlabor è significativo al 5%. All’aumentare
dell’1% del lavoro impiegato, la produzione aumenta dello
0,32%, a parità degli altri fattori
Il coefficiente lnfert è significativo all’1%. Quando aumento
dell’1% la quantità di fertilizzante, la produzione aumenta
di 0,33%, a parità degli altri fattori
37
Comando reg precedente
Subito dopo comando: test larea llabor
d. Si completi la tabella seguente con i valori opportuni (si può svolgere l’esercizio anche senza eseguire ulteriori comandi di
Stata):
Null and Alternative Observed test 1% Critical value p-value Test decision
hypotheses statistic
1,89 + 2,575 – 2,575 0,066 Non rifiuto H0
e. Si stimi una nuova funzione di produzione in cui la produzione di riso per ettaro coltivato è funzione del logaritmo del lavoro
impiegato per ettaro coltivato e del logaritmo del fertilizzante utilizzato per ettaro coltivato. Si riportino i coefficienti stimati e
la loro significatività e si commenti come contribuisce il lavoro alla produzione di riso.
Assignment 8
1. Considerando il campione di 526 lavoratori osservato, stabilire se esiste una differenza significativa nel livello di istruzione
tra uomini e donne.
38
Il coefficiente female è significativo al 10%, quindi rifiuto l’ipotesi nulla. Il coefficiente B2 indica la differenza nei livelli di
istruzioni nel campione, quindi la differenza del livello medio di istruzione tra i due gruppi è significativa al 10%
2. Si stimi un modello di regressione lineare in cui il salario è funzione del livello di istruzione, del genere del lavoratore e
dell’esperienza, verificando se l’effetto marginale dell’esperienza sul salario medio sia diversa tra uomini e donne. Si
discuta brevemente.
39