Sei sulla pagina 1di 39

STATISTICA AZIENDALE

20/02
Variabili casuali, distribuzione Normale e Normale Standard

Variabili casuali e probabilità


“A variable is any (measurable) characteristic that can and does assume different values for the different people, objects, or
events being studied” (Rosner)
Una variabile casuale (v.c) è tale poiché il suo valore non è noto fino a quando non è osservato (per es. l’altezza di un
individuo, il fatturato di un’azienda, etc.).
Una v.c.:
- È discreta se il numero di valori che può assumere è limitato (numero di dipendenti, genere di uno studente, etc.)
- È continua se può assumere tutti i valori di un intervallo reale (altezza, reddito, etc.)
A ciascuno dei possibili valori (nel caso di v.c. discrete) o intervalli di valori (nel caso di v.c. continue) che una v.c. può
assumere è possibile associare un livello di probabilità.

Variabili casuali, probabilità e funzione di densità


La probabilità di un evento è il rapporto tra il numero di casi favorevoli a quell’evento e il numero dei casi possibili:
Esempio: qual è la probabilità di ottenere un numero pari lanciando un dado a 6 facce?
• Evento: ottenere un numero pari
• Casi possibili: 6 (ottengo il numero 1, ottengo il numero 2, … 6)
• Casi favorevoli all’evento: 3 (numero 2, numero 4, numero 6)

La variabile «risultato del lancio di un dado a sei facce» è una v.c. discreta.
Ogni valore che una v.c. discreta può assumere ha una precisa probabilità di verificarsi.

E le v.c. continue?
Esse possono assumere qualsiasi valore in un dato intervallo  il numero di casi possibili è infinito
La probabilità che una v.c. assuma un singolo valore è nulla (qualsiasi numero diviso ∞ è zero)
Per v.c. continue ci si riferisce alla probabilità che esse assumano un valore compreso in un intervallo di valori e si utilizza la
funzione di densità di probabilità per rappresentare tali probabilità.
La funzione di densità di probabilità di una v.c. è quella funzione matematica per cui l’area sottesa alla funzione
corrispondente a un certo intervallo, è pari alla probabilità che assuma un valore in quell’intervallo.

La funzione di densità (PDF, Probability Density Function)


• Una funzione di densità non può mai assumere valori negativi:
• L’area totale sottesa alla funzione è uguale a 1
L’area sottesa alla curva corrispondente a un dato intervallo di valori
rappresenta la probabilità che la X assuma un valore compreso in
quell’intervallo

Funzione di densità e funzione di ripartizione


Data una v.c. continua , la funzione di ripartizione o funzione di
distribuzione cumulata è quella funzione che per ciascun valore restituisce
la corrispondente probabilità cumulata
È nota anche come Cumulative Distribution Function (CDF)

La funzione di densità
Due parametri descrivono la forma di
una funzione di densità (PDF):
 il suo valore atteso o media (μ): misura il centro della PDF
Intuizione: registro per un numero elevatissimo di volte il valore che assume la v.c. (per es. lancio più e più volte il dado,
registro l’altezza di un numero elevatissimo di individui, etc.) e calcolo la media dei valori registrati, posso pensare a quel
valore come il valore atteso della v.c.
 sua varianza (): misura la sua dispersione attorno al valore atteso (la radice quadrata della varianza, , detta deviazione
standard, ha il vantaggio di essere espressa nella stessa unità di misura della variabile stessa)
Graficamente possiamo pensare alla varianza come la pancia della pdf: più è larga è la curva, maggiore sarà la varianza

1
La v.c. Normale:
Se una v.c. X ha distribuzione di probabilità Normale con media e varianza :
Ha le seguenti caratteristiche:
• l’intervallo di valori che può assumere è compreso tra e
• la sua pdf è a forma di campana (centrata attorno al valore atteso) e
simmetrica attorno a :
• è contemporaneamente il valore atteso, la mediana e la moda di X
Molti fenomeni reali si manifestano con una distribuzione empirica che si
approssima molto bene con una funzione di densità Normale

La v.c. Normale standardizzata:


 È possibile trasformare qualsiasi v.c. Normale in una v.c. , detta normale
standardizzata:
 ha media = 0 e varianza = 1
 I valori standardizzati di una variabile quantitativa esprimono la distanza tra le osservazioni e la media in termini di
deviazioni standard
Esempio:

può essere standardizzata e trasformata in Z:


Se  (una famiglia che spende 3 migliaia di $ al mese si colloca a 1 standard deviation dalla media)
Se  (una famiglia che spende 2 migliaia di $ al mese si colloca a 0.5 standard deviation dalla media)

Perché è così importante?


È possibile calcolare la probabilità associata a qualsiasi intervallo di Z utilizzando le tavole statistiche (senza il calcolo di
integrale)
 Siccome qualsiasi v.c. Normale può essere trasformata nella v.c. Normale
standardizzata, le tavole statistiche possono essere usate per calcolare le
probabilità di qualsiasi v.c. Normale
 Si può dimostrare che:
- Il 90% dell’area sotto la pdf normale standard compreso tra -1.645 e 1.645
- Il 95% è compreso tra -1.96 e +1.96
- Il 99% è compreso tra -2.575 and +2.575
 Quindi:
 P(−1.645 < X < 1.645) = 0.90
 P(−1.96 < X < 1.96) = 0.95
 P(−2.575 < X < 2.575) = 0.99

La tavola della Normale standardizzata


Useremo questo tipo di tavole, in cui:
• Sono riportati solo valori positivi di Z
• Sono riportate le probabilità cumulate. Grazie alla simmetria possiamo recuperare anche i valori negativi
Mostra le probabilità cumulate associate a qualsiasi valore positivo della Normale Standardizzata:
(una notazione comune è anche ) ovvero l’ampiezza dell’area sottesa alla funzione di densità della Normale Standardizzata tra
e qualsiasi valore positivo (detto percentile):

 I valori
all’interno della tavola mostrano le probabilità
cumulate
 La prima riga e la prima colonna riportano i possibili valori di (che chiamiamo )
o la prima colonna riporta l’unità e il primo decimale di
o la prima riga riporta il secondo decimale di
 La probabilità cumulata di(cioè ) o l’area sottesa alla pdf da – a ), si trova all’incrocio della riga e della colonna
corrispondenti ad un dato valore

Si ricordi che:

(per v.c. continue )

2
 Nella tavola sono riportati solo valori positivi di Z, tuttavia la pdf di una variabile Normale Standard è simmetrica attorno alla
media, quindi:
 L’area sottesa alla pdf è complessivamente uguale a 1, quindi:

La tavola della Normale Standardizzata: P(Z>a)=?


 L’area totale sotto la curva è pari a 1, dunque: )
Esempio:

La tavola della Normale


Standardizzata: P(Z<-a)=?
 La curva è simmetrica attorno a 0, dunque:
Esempio:

Esercizio:
o P (Z < 1,64) = 0,9495 = 94,95%
o P (Z > 0,35) = 1 – P (Z < 0,35) = 1 – 0,6368
o P (Z < -1,5) = 1 – P (Z < 1,5) = 1 – 0,9332
o P (Z > -0,82) = P (Z < 0,82)

La tavola della Normale Standardizzata: P(Z<?)=A


Nel caso in cui sia nota la probabilità e ignoto il valore di:
• Individuo il valore noto della probabilità all’interno della tavola
• Risalgo al valore dileggendo il contenuto della prima colonna e della prima riga
Esempio:


Una notazione utile


• Una notazione ricorrente per un
generico valore per cui è
L’indice () indica la probabilità cumulata di (l’area a sinistra di )
• è spesso chiamato «percentile» in riferimento alla sua probabilità cumulata:
se , è il 95° percentile (ed è uguale a 1.645) e si può indicare come



Il percentile di una data distribuzione di probabilità è quel valore definito dalla seguente relazione:

Calcolo delle probabilità per qualsiasi variabile con distribuzione normale


Se e

Calcolo della probabilità per una qualsiasi v.c. Normale


Sia X una v.c. Normale con media e varianza :
Esempio:

Altre distribuzioni rilevanti: la distribuzione t di Student


La distribuzione di Student:
• È simile alla distribuzione normale standard
• È simmetrica attorno allo 0

3
• Una variabile casuale con distribuzione t di Student’s assume valori compresi tra e
• Dipende da un singolo parametro (intero positivo) noto come gradi di libertà (degrees of freedom, df )
• Al crescere dei gradi di libertà la distribuzione t di Student si avvicina sempre di più ad una normale distribution

.4
.3
.2
.1
0
-4 -2 0 2 4
x

t-student with 1df t-student with 10df - per df > 120


t-student with 50df Standard Normal Z(0;1)
la t di Student
approssima la distribuzione Normale
Standard
- Probabilità per df < 120 possono essere calcolate usando la tavola
della distribuzione t di Student

Student’s t Distibution Tables


Ex. What does mean?
is the 95th percentile of a distribution with 20 degrees of freedom
How to read the Student’s t table
• degrees of freedom (df) are given in the first column
• percentiles are given across the first row.
The 95-th percentile of a t distribution with 20 degrees of freedom is found by reading across the row marked 20 and reading
down the column marked 0.95.
.4
.3
.2
.1
0

0 1.725
Student's t with 20 df

Other relevant distributions for continuous r.v.: the F


distribution (F di Fisher)
• A r.v. with a F distribution is continuos and ranges
from to
• The shape of the F distribution depends on two parameters termed the
numerator and denominator degrees of freedom (positive integer). La
forma dipende da due parametri che si chiamano gradi di libertà
• The F distribution is generally positively skewed, with the skewness
dependent on the relative magnitudes of the two degrees of freedom
• If the numerator df is 1 or 2, then the distribution has a mode at 0;
otherwise, it has a mode greater than 0
La curva rossa ha gradi di libertà 1 e 1; aumentando i gradi di libertà la
distribuzione cambia e comincia ad avere una moda lontana da 0 avvicinandosi
a una forma simmetrica.
La curva grigia ha gradi di libertà 100 e 100
23/02
Sommatoria, media, varianza, covarianza

Sommatoria di x per x che va da 1 a n:

4
Sommatoria di xi per i che va da 1 a n:

Esempio: i xi
1 1
0
2 1
5
3 1
8
La media 4 2 aritmetica:
1
Esempio: 5 2
Unità 3 1 2 3 4 5
X (età) 18 22 10 20 15

Sintesi della distribuzione di un carattere: misure di variabilità


La varianza sintetizza il grado di dispersione dei valori dalla loro media aritmetica.
i Xi (Xi - (Xi - 2
1 1 (18 – 17) = 1 1
8
2 2 5 25
2
3 1 -7 49
0
4 2 -3 9
0
5 1 -2 4
5
88


(Sum of Squares) È la somma degli scarti dalla media elevati al quadrato (è il numeratore della Varianza)

(o standard deviation) È espressa nella stessa unità di misura di (è la radice quadrata della Varianza)

Misura della variabilità congiunta: la covarianza


Si pensi all’altezza (X) e al peso (Y) dei bambini, ci si aspetta che ci sia tra esse una associazione, per esempio che i bambini
più alti della media siano anche quelli con peso superiore alla media. Il prodotto delle differenze tra X e la propria media e Y e la
propria media è la covarianza:

Il modello di regressione lineare semplice

Modello economico e modello di regressione


Il modello economico è una descrizione stilizzata delle relazioni che intercorrono tra variabili economiche.
La teoria economica fornisce indicazioni sulle possibili relazioni fra le variabili economiche proponendo specifici modelli
economici: Q = f (prezzo; reddito)
Il modello di regressione lineare (modello econometrico) è uno strumento che consente di utilizzare un campione di
osservazioni economiche
per misurare questo tipo di relazioni. Consente quindi di verificare quanto il modello economico è in grado di descrivere la
relazioni tra variabili

Esempio: relazione tra reddito familiare e spesa alimentare.


Il più semplice dei modelli economici ipotizza:
: consumo pro capite settimanale (€)
: reddito settimanale (€)
: (intercetta) la spesa media settimanale di una famiglia con reddito 0
: (pendenza) la variazione nella spesa settimanale corrispondente ad una variazione di 1€ nel reddito settimanale
Scritto in questo modo la relazione sarà descritta da una retta che intercetta l’asse delle y all’altezza di un valore pari a e
pendenza pari a
Si tratta di un modello economico e descrive una relazione deterministica (o esatta o matematica) tra reddito e consumo. Tutte
le volte che una famiglia ha un reddito pari a un determinato valore, la famiglia spenderà in prodotti alimentari una somma pari a ,
quindi tutte le famiglie con lo stesso reddito sosterranno la stessa spesa alimentare.
Il modello economico è una rappresentazione teorica della realtà, in quanto le cose non stanno esattamente così, in quanto ci
sono una serie di fattori che concorrono a determinare l’ammontare della y aldilà del reddito.
o Se estraessimo un campione di famiglie con reddito pari a 1000€, osserveremmo per tutte la stessa spesa alimentare ()?

5
o Se estraessimo un campione di famiglie con reddito pari a 2000€ cosa osserveremmo? Mediamente osserveremo che la
spesa alimentare di queste famiglie sarà maggiore, rispetto a quella del primo campione
La relazione lineare fra reddito e spesa descritta nel modello economico ci dice qualcosa sulla effettiva relazione fra le due
variabili, ma non tutto. La relazione tra reddito e spesa è infatti una relazione statistica, composta da una componente
deterministica (f (x) ) e una componente stocastica (e) (casuale).
La parte deterministica ci dice la relazione in media: in media le variabili si comportano così

Una relazione statistica tra:


: variabile indipendente o esplicativa e
: variabile dipendente o risposta
è descritta dall'equazione, detta modello di regressione:
in cui:
• ) è il contributo della alla . È la funzione di regressione, la componente deterministica della relazione.
F (x) può avere tutte le forme che vogliamo (lineare o non)
• è la componente stocastica (casuale, aleatoria), che rende la una variabile casuale (v.c.), è il termine di errore e
rappresenta il contributo di tutti i fattori diversi da che esercitano un effetto su . Può essere qualcosa di osservabile (come
ampiezza della famiglia) o non (gusti)
Il più semplice modello di regressione è il modello di regressione lineare semplice: in cui la è lineare e c’è una sola variabile
esplicativa

Ipotesi del modello di regressione lineare semplice


Tali assunzioni servono perché se sono vere, il modello di regressione descrive la relazione.
Ipotesi 1: linearità.
Fra le possibili funzioni che possono descrivere il legame fra e si è scelta la funzione lineare (una retta)
Ipotesi 2: --> è una v.c. Normale con valore atteso nullo e varianza costante pari ad un valore (non noto) indicato con
Se il valore atteso di e è 0, il valore atteso di y sarà pari al valore atteso della componente deterministica + valore atteso di e (0) --
> E(y|x) =
Cosa significa nei fatti l’Ipotesi 2?
è somma di una componente deterministica e di una v.c. () è dunque anch'essa una v.c. con una propria distribuzione di
probabilità e:
- valore atteso pari a
- varianza costante pari a  la dispersione dei valori di spesa attorno al
loro valore atteso è la stessa per tutti i livelli di reddito. L'incertezza sulla
relazione tra e è la stessa per tutte le osservazioni (omoschedasticità)
La varianza della y attorno al suo valore medio è costante -->
omoschedasticità, ossia assumere varianza costante
Ipotesi 3: . Gli errori non sono tra loro correlati

Ipotesi del modello di repressione lineare semplice


Se valgono le ipotesi, la relazione deterministica descrive effettivamente il rapporto tra e in media:

Per le famiglie con reddito 1000, la spesa alimentare è


una variabile casuale incentrata nel suo valore
medio.
Per le famiglie con reddito 2000, la spesa alimentare è una variabile casuale con sua distribuzione di probabilità e suo valore
medio.
Per ciascun valore della x posso immaginarmi la distribuzione della y e il suo valore medio.
La retta di regressione è la retta che definisce tutte le y condizionate rispetto ai vari valori delle x, definisce quindi la relazione in
media tra la y e la x

La stima dei parametri


La relazione statistica descritta dal modello di regressione: è una relazione che si ipotizza vera in popolazione (per es. alla luce
della teoria microeconomica)
• Non è una relazione osservabile

6
• E' possibile stimarla a partire da un campione di osservazioni
• Stimare la relazione descritta dal modello significa attribuire, sulla base delle informazioni contenute in un campione, un
valore pari ai parametri ignoti e (calcolare intercetta e pendenza della retta che meglio descrive la relazione)
 stimare la componente deterministica del modello: la retta

Estraiamo un campione casuale di 40 famiglie di cui registriamo reddito settimanale (in centinaia di $) e spesa alimentare (in $).
Sull’asse delle x abbiamo il reddito, sull’asse delle y la spesa
alimentare settimanale.
Dobbiamo stimare la retta che descrive la relazione tra le due variabili
La retta stimata attraverserà la nuvola dei punti.
Potrebbe essere una retta che unisce il più basso valore di x con il più
basso valore di y, oppure possiamo unire il minimo di y con il minimo
di x

Il metodo OLS
Il metodo dei minimi quadrati (Ordinary Least Squares, OLS)
individua quella retta che rende minima la somma dei quadrati delle distanze tra
ciascun punto e la retta stessa.
 e sono le stime OLS di e . Si tratta di numeri
 la retta stimata è
 le distanze tra ciascun punto (osservazione campionaria) e la retta sono dette
residui campionari ():
 per costruzione la somma dei quadrati dei residui() è minima
Differenza fra residui () ed errori ():
 L’errore () è la componente casuale del modello che si ipotizza vero in
popolazione, sintetizza il contributo di tutti i fattori diversi da che esercitano un
effetto su . Non è osservabile!
 Il residuo ) è la distanze fra ciascuna osservazione campionaria e il
corrispondente valore stimato dalla retta. Si osserva! (I residui sono usati per
stimare gli errori)
 gli stimatori OLS sono:

B2 è la formula che uso per attribuire un valore al parametro ignoto beta 2, mentre b1 è la formula che uso per stimare beta 1.
Una volta che applico la formula b2 per stimare beta 2, ottengo una stima
La seguente distinzione è fondamentale:
 i parametri da stimare ( e ) sono parametri ignoti, che si ipotizza descrivano la relazione fra x e y, possono essere stimati
con qualsiasi stimatore
 gli stimatori OLS (e ) sono variabili casuali, perché producono valori diversi a seconda del campione a cui sono applicati
(formula)
 le stime OLS ( e ) sono numeri e si ottengono applicando gli stimatori ad un preciso campione.
27/02
Valori osservati () e valori stimati ()
Vedi Esempio1.xlsx
Modello di regressione ipotizzato:
o y = Volume delle vendite (€)
o x = spazio espositivo ()
Risultati di stima del modello con il metodo OLS (replicabili usando il dataset Esempio 1.dta):

Y Coef. Std. Err. t P>|t| [95% Conf. Interval]

X .6732535 .1201379 5.60 0.001 .3962149 .950292


_cons -10.18726 22.63623 -0.45 0.665 -62.3865 42.01198

_cons = constant term, ossia intercetta


Modello di regressione stimato:
: valore delle vendite previste dal modello, valore che osserverei dalle vendite se la retta di regressione descrivesse
perfettamente la relazione tra la y e la x, se non ci fosse la componente stocastica.
Il modello stima che un punto vendita con un’estensione di 100 ha mediamene un volume di vendite pari a:

7
Il modello di regressione può essere usato per prevedere valori della variabile dipendente, sulla base dei valori che assume la
variabile esplicativa.
distanza tra la y osservata e la y stimata --> = y -
La somma dei residui è sempre 0 -->

: spazio osservato
: vendite osservate
: vendite stimate
: spazio medio osservato (media campionaria)
: vendite medie osservate (media campionaria)

Scomposizione della devianza della


Si può dimostrare che i valori stimati con il metodo OLS soddisfano la seguente relazione:

è la devianza campionaria della y, misura la variabilità totale di y. E' detta Somma dei Quadrati Totali (SQT) --> y osservato dal
modello – y medio
è la Somma dei Quadrati della Regressione (SQM), riflette la quota della variazione totale di y spiegata dalla regressione («M»
sta per «Modello») --> y stimato dalla retta – y medio.
Parte di variabilità della y descritta dal modello.
è la Somma dei Quadrati dei Residui (SQR), riflette la
parte della variazione totale in y non spiegata dalla
regressione --> y osservato dal modello – y stimato
dalla retta.
SQT=SQM+SQR
Nomenclatura alternativa (non useremo questa, ma
potreste trovarla in altri testi):
 Somma dei Quadrati Totali (SQT) = Devianza
Totale
 Somma dei Quadrati della Regressione (SQM) =
Devianza di Regressione
 Somma dei Quadrati dei Residui (SQR) = Devianza di Dispersione
Decomposition of the total sample variation in : graphic intuition considering a single observation of

L'adattamento del modello ai dati: l'


La variabilità totale di y attorno alla sua media campionaria (SQT) può essere scomposta in:
• una componente spiegata dal modello di regressione (SQM)
• una componente residua, non spiegata dal modello di regressione (SQR)
SQT = SQM + SQR
Questo consente di definire una misura della bontà dell'adattamento del modello ai dati, il coefficiente di determinazione o :
L'indice misura la percentuale di variabilità della y spiegata dal modello di regressione e assume valori compresi tra 0 e 1:
• quanto più è vicino a 1, tanto più i valori osservati di y sono prossimi ai valori previsti dal modello stimato.
• se = 1 tutti i punti del campione si trovano esattamente sulla retta, il modello si adatta perfettamente ai dati, la relazione tra
y e x è deterministica.
• quanto più è vicino allo 0, tanto più è debole l'associazione lineare tra la y e la x.
• Se = 0 la retta stimata è una retta orizzontale in corrispondenza di .

8
L’interpretazione delle stime dei coefficienti
Esempio: Ipotizzo che il reddito familiare (x) abbia un effetto lineare sulla spesa alimentare familiare (y):

Estraggo un campione di 40 famiglie e stimo il modello.


Applicando gli stimatori e al campione, ottengo le seguenti stime:
La retta di regressione stimata con il metodo OLS è:
Per interpretare correttamente ed efficacemente le stime dei coefficienti è indispensabile conoscere le unità di misura della y e
della x.
 la pendenza della retta di regressione misura quanto aumenta il valore atteso della variabile dipendente (y) quando la
variabile esplicativa (x) aumenta di 1 unità. Come varia mediamente la y a fronte di un incremento unitario della x
 l'intercetta della retta di regressione indica quanto ammonta il valore atteso della variabile dipendente (y) quando la
variabile esplicativa (x) ha valore zero. A quanto ammonta mediamente la y quando la x vale 0.

y: spesa alimentare settimanale in $


x: reddito familiare settimanale in centinaia di $
 pendenza: all'aumentare di 1 centinaio di $ del reddito familiare il valore atteso della spesa alimentare settimanale crescerà
di 10.21$.
 intercetta: il valore atteso della spesa alimentare di una famiglia con reddito nullo ammonta a 83.42$. E’ molto frequente
che l’intercetta stimata non abbia un significato ragionevole in termini economici, questo è dovuto dal fatto che per avere
una stima che abbia un senso economico, sarebbe necessario avere molte osservazioni campionarie che abbiano un
valore di x vicino allo zero, in questo modo la stima sarebbe basata su osservazioni campionarie. Molto spesso abbiamo
poche osservazioni con x vicino allo zero e quando stimiamo una retta otteniamo una retta basata su molte osservazioni
con x alte e pochissime con x basse. Quindi le stime di quello che accade quando x è pari a 0 non sono sempre attendibili.
 il modello prevede che la spesa alimentare settimanale di una famiglia con reddito di 2000$ sia di 83.42 + 10.21*20 =
287.61$

02/03
Proprietà degli stimatori OLS ( e )
Gli stimatori OLS (formule) sono variabili casuali che assumono valori diversi in base al campione a cui sono applicati. In quanto
v.c. hanno:
o un proprio valore atteso
o una propria varianza
o una propria distribuzione di probabilità
Si può dimostrare che - se le ipotesi del modello sono valide – i valori attesi degli stimatori OLS sono i parametri veri: cioè gli
stimatori OLS sono stimatori corretti.
Uno stimatore il cui valore atteso è il parametro vero, si dice stimatore corretto.
Attenzione! Ad essere corretto è lo stimatore, non la stima.

Si può dimostrare che - se sono valide le ipotesi del modello – la varianza degli stimatori OLS è:
o
o
è la varianza del termine d’errore, ossia tutto ciò che non è catturato dal modello
La varianza di uno stimatore dice quanto possono variare le stime da un campione all'altro, misura cioè la sua precisione.
La misura di precisione degli stimatori OLS che si usa più spesso però è lo standard error:
o
o
Più grande è lo standard error di uno stimatore, più variabilità c’è nelle stime che esso produce su diversi campioni
Rispetto alla varianza (sopra):
• (ignoto) è sostituito con una sua stima
• è estratta la radice quadrata
• gli st. error forniscono una stima della precisione di e

Se si assume valida anche l'ipotesi sulla normalità distributiva degli errori, anche gli stimatori OLS hanno distribuzione normale:

Secondo il Teorema del Limite Centrale anche se gli errori non hanno distribuzione normale, se le altre Ipotesi sul modello sono
valide e se la numerosità campionaria è sufficientemente elevata gli stimatori OLS hanno una distribuzione assimilabile alla
distribuzione normale.

Inferenza nel modello di regressione lineare


In breve: cosa abbiamo appreso degli stimatori OLS ( e )?
Assunte valide le Ipotesi sul modello gli stimatori OLS:
 sono v.c.
 hanno come valore atteso il parametro ignoto che vogliono stimare
 la loro varianza dipende dalla varianza - ignota - dell'errore ()
 hanno distribuzione normale

9
 Si possono standardizzare:

Verifica di ipotesi sul modello di regressione

Verifica di ipotesi
Test di ipotesi è uno strumento molto utilizzato che ha l’obiettivo di confrontare un idea che abbiamo su un parametro della
popolazione, con le informazioni che ci vengono da un campione.
La procedura di verifica di ipotesi mette a confronto una congettura relativa alla popolazione con l'informazione contenuta in
un campione di osservazioni.
• La congettura può derivare dalla teoria economica o da precedente evidenza empirica ed è descritta dall'ipotesi nulla
• L'informazione contenuta nel campione è rappresentata dalle stime puntuali OLS e dai rispettivi standard error
La verifica d'ipotesi si compone di:
 un'ipotesi nulla e un'ipotesi alternativa
 una regione di rifiuto
 una statistica test
 una conclusione

Verifica di ipotesi: l’ipotesi nulla


L'ipotesi nulla () è la congettura che si vuole verificare e riguarda un parametro di regressione (intercetta o pendenza della
retta) .
specifica un preciso valore o intervallo di valori per tale parametro, per es.
Per ogni si deve specificare un'ipotesi alternativa (). Se , le ipotesi alternative possibili sono:
 : se si rifiuta si conclude che > c.
 : se si rifiuta si conclude che < c.
 : se si rifiuta si conclude che il parametro è diverso da e può essere sia maggiore che minore. Questo tipo di caratterizza i
test a due code

Formulo una congettura sul parametro incognito : Per es.


Tale congettura diventa l’ipotesi nulla del mio test:
Scelgo come ipotesi alternativa:
Utilizzo l’informazione campionaria per prendere una decisione circa la mia congettura.

Verifica di ipotesi: la regione di rifiuto e 𝛼


Non conosco il parametro vero in popolazione
So che lo stimatore OLS del parametro ha una distribuzione di
probabilità centrata attorno al valore vero in popolazione
Formulo una congettura sul parametro vero:
Se è vera la distribuzione di è descritta dalla curva rossa centrata
attorno al 10.
Estraggo un campione casuale dalla popolazione e ottengo una stima
campionaria del parametro:
Posso affermare che la stima campionaria osservata è una
manifestazione campionaria della variabile che in popolazione ha
media 10 (ovvero la variabile dalla distribuzione rossa)?  Verifico
l’ipotesi nulla

Se è
vera
l'ipotesi nulla :
• il parametro vero è uguale a
• lo stimatore di ha una distribuzione Normale centrata
attorno a 10 (PDF rossa).
Se estraessi vari campioni sarebbe molto probabile osservare
stime campionarie nella zona centrale della distribuzione (vicino
a 10), e meno probabile osservare stime campionarie nella zona
delle due code (lontano da 10)

Nell’insieme delle stime possibili che posso ottenere con lo


stimatore OLS, la regione di rifiuto del test consiste nell'intervallo
di valori con bassa probabilità di essere osservati nel caso in cui
l'ipotesi nulla sia vera

Verifica di ipotesi: la regione di rifiuto e 𝛼


I valori che delimitano la regione di rifiuto sono detti valori critici
Definisco regione di rifiuto del test quei valori poco probabile che io osservi, se l’ipotesi nulla è vera.

10
La probabilità di osservare valori che si trovano nella zona di rifiuto
(l’ampiezza totale dell’area grigia) è detta livello di significatività del
test ed è indicata con
Quanto è ampia la zona di rifiuto lo stabilisce il ricercatore. In genere
si scelgono livelli di pari a 1%, 5% o 10%
Il livello si significatività misura anche l’errore di I tipo, perché è la
probabilità di rifiutare l’ipotesi nulla, quando in realtà è vera.

Se la statistica campionaria osservata non si trova nella zona di rifiuto


(es.16):
• è verosimile che lo stimatore abbia la distribuzione (centrata
attorno a 10) che abbiamo ipotizzato
• possiamo concludere che l'ipotesi nulla non sia da rifiutare

Se la statistica
campionaria
osservata si trova nella zona di rifiuto (es. 18):
• è poco verosimile (anche se non impossibile) che lo stimatore abbia
la distribuzione (centrata attorno a 10) che abbiamo ipotizzato
• possiamo concludere che l'ipotesi nulla sia da rifiutare
Sarà più probabile che quel 18 venga da un’altra distribuzione, che per
esempio potrebbe essere centrata attorno al 19. Quindi rifiuto l’ipotesi
che il parametro incognito sarà 10.

Verifica di ipotesi: utilizzo della statistica test


Per facilità nel calcolo delle probabilità la prassi è quella di ricorrere ad una statistica test:
 è una trasformazione dello stimatore ottenuta standardizzando lo stimatore stesso : --> stimatore – valore atteso, diviso
standard error. Come è una v.c. che assume valori diversi a seconda del campione sui cui è calcolata. Si tratta di una
statistica campionaria (cioè una funzione dei dati campionari)
 la cui distribuzione di probabilità è completamente nota se è vera.
Infatti se è vera, la statistica test è la seguente v.c.: la cui distribuzione è completamente nota (è una Normale Standard).
Attenzione! Se non è nota si può sostituire con una sua stima ():

La statistica test (t) è funzione dei dati campionari e una volta applicata ad un
preciso campione produrrà un preciso valore: la statistica test osservata ():
Toss è un numero dato dalla stima del parametro di interesse – il valore che il
parametro di interesse assume se l’ipotesi nulla è vera, diviso lo standard error.
Se è vera,
• la statistica test è una Normale Standard
• è molto probabile che abbia un valore vicino a 0 (zona centrale della
distribuzione),
• è meno probabile checada nella zona lontano da 0 (nelle due code della
distribuzione)

Essendo la statistica test una Normale Standard se è vera, la zona di rifiuto e i


rispettivi valori critici sono definiti sulla Normale Standard.
Nei test a due code i valori critici che delimitano la regione di rifiuto sono due:
e

Attenzione alla notazione!

Gli indici indicano l’area a sinistra del valore critico.


I valori critici () della variabile Normal Standard per i tre valori di comunemente usati sono:
o per un test a due code con = 10%

o 1.96 per un test a due code con = 5%

o 2.575 per un test a due code con = 1%

11
Se sottopongo a verifica contro l’ipotesi alternativa rifiuto l’ipotesi nulla se
Che può essere scritto anche come:
o:
• se e
• se e
• se e

Verifica di ipotesi: procedimento

Voglio sottoporre a verifica l’ipotesi che all’aumentare di 1€ della spesa


pubblicitaria, le vendite aumentano di 2€:

 Estraggo un campione e stimo il modello sopra con il metodo OLS, ottenendo una stima di pari a :

La prima riga riporta il nome della variabile esplicativa a cui si riferisce il coefficiente, quindi nella prima riga abbiamo la
stima della varabile pubblicità
 Ricavo la statistica test osservata:

 Definisco la zona di rifiuto del test, scegliendo un livello di significatività pari al 5%


 Dalla tavola della Normale Standard (o dalla memoria) ricavo che i valori critici
che delimitano questa zona sono

and
Confronto la statistica test osservata con i valori critici: 9.8>1.96

cade nella zona di rifiuto del test


Rifiuto l’ipotesi nulla che

Verifica di ipotesi:
procedimento
 Definite e , stabilita qual è la
statistica test e il livello di significatività del test si calcola la statistica test
campionaria.
 Se essa cade nella zona di rifiuto si conclude rifiutando , se cade nella
zona di non rifiuto, si conclude non rifiutando :

06/03
Test di significatività sui coefficienti di regressione
Il test di significatività sottopone a verifica l'ipotesi in cui uno dei parametri di regressione sia uguale a zero.
Nel caso in cui riguardi la pendenza del modello di regressione ), verifica che esista una relazione lineare tra la y e la x.
Il sistema d'ipotesi è: e
La statistica test è:
La statistica test osservata è
La conclusione del test porta a stabilire se la stima del parametro sia statisticamente significativa (statisticamente diversa da
zero), cioè se la variabile incida significativamente sulla variabile
L'output di stima di un modello di regressione include:

12
 la stima dei coefficienti --> _cons è la stima dell’intercetta, in questo caso nella voce coef reddito abbiamo la pendenza
 i loro standard error
 la statistica test osservata dei test di significatività (t) --> la statistica test è lo stimatore standardizzato ed è una variabile
casuale. In queste 120 osservazioni la statistica test osservata è t obs = 5,60
 il p-value

Il p-value
Nel caso di un test a due code, il p-value rappresenta la somma delle probabilità alla
destra di | e a sinistra di :
Conoscere il p-value di una statistica test osservata consente di prendere una
decisione sul test senza conoscere i valori critici: se il p-value è minore del livello di
significatività si rifiuta

P-value o : tutte le strade portano a Roma

Una volta deciso il livello significatività, in qualsiasi test d’ipotesi è possibile prendere una decisione indifferentemente
osservando:
 La statistica test osservata (): se |  Rifiuto
 Il p-value: Se p-value  Rifiuto
 Se p-value > a --> Non rifiuto H0

Esempio: S6.0
Coe
t
.
0.00
0.006
0.
_co
5.
0.3
0.000
td.
.3
|t|
90
59
s0
8

Coeff. Std.Error Esercizio:


2.2 8

a) Si svolga un test di significatività sul coefficiente β, con α=5% e si riporti in un grafico il p-value.
H0:
H1: ≠ 0
=
Nella tavola della normale standard cerco 0,28 = 0,6103 (probabilità cumulata rispetto
a 0,28).
Pvalue: (1-0,6103) * 2 = 0,7794
Conclusione del test: siccome pvalue > α (o |t_oss|< t_crit) non rifiuto H0 e concludo
che il coefficiente non è statisticamente significativo.

Focus 1: il test di significatività sui coefficienti di regressione

Sia dato un modello di regressione y = β1 + β2x + e


Il test di significatività sottopone a verifica che il generico coefficiente di regressione βk sia uguale a zero contro l’ipotesi
alternativa che non lo sia: H0: βk=0 e H1: βk≠0
La statistica test (osservata) è: (βk ) / (st.error(bk))
Rifiutando Ho si conclude che il coefficiente è significativamente diverso da zero o (in altre parole) che esso è statisticamente
significativo.
Nel caso in cui il test sia eseguito sul β2, rifiutando Ho si conclude che la variabile x incide significativamente sulla variabile
dipendente y o (in altre parole) ha un effetto significativo su y .

13
Non rifiutando Ho si conclude che il coefficiente non è significativamente diverso da zero o (in altre parole) che esso non è
statisticamente significativo. Nel caso in cui il test sia eseguito sul β2, non rifiutando Ho si conclude che la variabile x non incide
significativamente sulla variabile dipendente y o (in altre parole) non ha un effetto significativo su y .

Esempio 1.
Health= α + β * cigarettes + e
Health= aspettativa di vita alla nascita (anni)
Cigarette= consumo di sigarette, misurato in numero pacchetti venduti pro-capite
Coeff. St.Error t-Statistic |t-Statistic| p-value
Cigarette -0.20 0.08 ? ? ?

t-stat = -0.20 / 0.08 = -2.5


|t-stat|= 2.5
P-value = (1-0.9938)*2 = 0.0062*2 = 0.0124 = 1.24%

Con un livello di significatività α=1% posso affermare che il coefficiente della variabile cigarette
(β) è significativo (cioè la variabile cigarette incide significativamente sulla salute)? No (p-
value> α, Non rifiuto H0)
Con un livello di significatività α=5% posso affermare che il coefficiente della variabile cigarette
(β) è significativo (cioè la variabile cigarette incide significativamente sulla salute)? Si (p-
value< α, Rifiuto H0)
Con un livello di significatività α=10% posso affermare che il coefficiente della variabile
cigarette (β) è significativo (cioè la variabile cigarette incide significativamente sulla salute)? Si (p-value< α,Rifiuto H0)

Convenzionalmente la significatività dei coefficienti si commenta come segue:


 Un coefficiente è significativo all’1% se p-value<0.01 e nella tabella che riporta i risultati di stima del modello viene indicato
con ***
 Un coefficiente è significativo al 5% se p-value<0.05 ma >0.01 e nella tabella che riporta i risultati di stima del modello
viene indicato con **
 Un coefficiente è significativo al 10% se p-value<0.10 ma >0.05 e nella tabella che riporta i risultati di stima del modello
viene indicato con *
 Un coefficiente non è significativo se p-value>0.10 e nella tabella che riporta i risultati di stima del modello viene indicato
con nessun asterisco
0 0.01 0.05 0.1
(1%) (5%) (10%)

*** ** *

0< p-value <0.01 0.01<p-value<0.05 0.05<p-value<0.1 p-value>0.1


(0< p-value <1%) (1%<p-value<5%) (5%<p-value<10%) (p-value>10%)

Significativo ad un livello di Significativo ad un livello di Significativo ad un livello di Non significativo


significatività () dell’ 1% significatività () del 5% significatività () del 10%

Quanti asterischi si possono attribuire al coefficiente della variabile cigarettes? Due **

Esercizio:
Health= α + β * Urbanization + e
Health= aspettativa di vita alla nascita (anni)
Urbanization= livello di urbanizzazione, misurato come percentuale della popolazione che risiede in area metropolitana

Coeff |t-stat| Quanti asterischi?


Un coefficiente è Urbanization -0.025 1.00 NESSUNO significativo all’1% (e segnalato con
***) se
- p-value<0.01
o
- |t-stat|>2.575

Un coefficiente è significativo al 5% (e segnalato con **) se


- p-value è compreso tra 0.01 e 0.05
o
- |t-stat| compreso tra 1.96 e 2.575

Un coefficiente è significativo al 10% (e segnalato con *) se


- p-value è compreso tra 0.05 e 0.10
o

14
- |t-stat|è compreso tra 1.64 e 1.96

Un coefficient non è significativo (e segnalato con nessun asterisco) se:


- p-value>0.10
o
- |t-stat|<1.64

0 1.64 1.96 2.575

* ** ***

|t-stat|<1.64 1.64<|t-stat|<1.96 1.96<|t-stat|<2.575 |t-stat|>2.575

Coefficiente non Coefficiente significativo ad un livello Coefficiente significativo ad un Coefficiente


significativo di significatività () del 10% livello di significatività () del 5% significativo ad un
livello di significatività ()
dell’ 1%

Esercizio:
Health= α + β * alcohol + e
Health= aspettativa di vita alla nascita (anni)
Alchol= cosumo di alcol, misurato in litri venduti pro-capite
Coeff. St.Error t-stat |t-Stat| p-value
Alcohol -0.04 0.05 -0.8 0.8 (1-0.7881)*2=0.42=42%

Con un livello di significatività α=1% posso affermare che la variabile ha un effetto significativo sulla salute? No
Con un livello di significatività α=5% posso affermare che la variabile ha un effetto significativo sulla salute? No
Con un livello di significatività α=10% posso affermare che la variabile ha un effetto significativo sulla salute? No
Quanti asterischi? Nessuno
Se ragionassimo con lo t statistic avremmo lo stesso risultato, o,80<1,64 quindi nessun asterisco

Esercizio:
Health=income+e
Health= aspettativa di vita alla nascita (anni)
Income=Reddito pro capite (migliaia di $)

Coeff. St.Error t-stat |t-Stat| p-value


Income 0.18 0.10 1.8 1.8 (1-0.9641)*2=0.07=7%

Con un livello di significatività =1% posso affermare la variabile ha un effetto significativo sulla salute? No
Con un livello di significatività =5% posso affermare la variabile ha un effetto significativo sulla salute? No
Con un livello di significatività =10% posso affermare la variabile ha un effetto significativo sulla salute? Si
Quanti asterischi? Uno *

Esercizio:
Health=crime+e
Health= aspettativa di vita alla nascita (anni)
Crime= crimine, misurato come numero di crimini violenti per 100 000 persone
Coeff |t-stat| Quanti asterischi?
Crime -0.038 2.87

Prova a rispondere senza calcolare il p-value. E’ possibile? 2,87 > 2,575


Quanti asterischi? TRE***
09/03
Il modello di regressione lineare multipla

Il modello di regressione lineare multipla


In un modello di regressione multipla, la variabile dipendente è funzione lineare di variabili esplicative (dette anche
covariate o regressori) :
sono parametri ignoti che definiscono la relazione tra ciascuna variabile esplicativa e la
Possiamo pensare che la relazione che la y e ciascuna variabile esplicativa sia lineare
è un termine di errore casuale che costituisce la componente stocastica della relazione tra e le
L'interpretazione dei coefficienti nel modello di regressione multipla

15
Ciascun coefficiente riferito alla variabile :
• misura l’effetto sul valore atteso di di una variazione unitaria nella variabile ipotizzando costante il valore di tutte le altre
variabili (i.e. ceteris paribus), è detto effetto marginale di x su y. In caso di un modello lineare multiplo il coefficiente b1 ci
dice come varia la y quando x1 aumenta di un’unità, tenendo costante tutte le altre variabili
• rappresenta la derivata parziale di rispetto alla variabile :
Il coefficiente indica a quanto ammonta il valore atteso della variabile dipendente quando tutte le variabili esplicative hanno
valore zero.

Il modello di regressione lineare multipla


Le ipotesi alla base del modello di regressione lineare multipla sono analoghe a quelle del modello di regressione lineare
semplice.
Ipotesi 1: linearità del modello. Si ipotizza una relazione lineare fra la y e ciascuna variabile esplicativa
Ipotesi 2:
è una v.c. Normale con valore atteso nullo e varianza costante pari ad un valore (non noto) indicato con
Ipotesi 3: . Gli errori non sono tra loro correlati
Le procedure di verifica di ipotesi sono identiche a quelle descritte
per il modello di regressione lineare semplice. La statistica test per i test su qualsiasi coefficiente è:

Indice di adattamento ai dati: e


Il coefficiente di determinazione può essere utilizzato anche nel caso del modello multiplo per misurare la quota di variabilità
della spiegata da tutte le variabili esplicative.
Attenzione: si può confrontare l' di diversi modelli solo se hanno lo stesso numero di esplicative.
aumenta all'aumentare del numero di esplicative: al crescere del numero di variabili SQR diminuisce e aumenta
Per aggirare questo problema si usa l' corretto ():
Si tratta di un R2 a cui sono stati aggiunti degli elementi che correggono l’errore, e fa diventare quindi l’R2 corretto
o N: numerosità del campione, quante osservazioni abbiamo nel campione
o K: numero di parametri da stimare (inclusa l’intercetta!), ossia il numero delle lettere greche che abbiamo nel modello
L' è una misura dell'adattamento del modello ai dati, ma perde la sua interpretazione di percentuale di variabilità spiegata. Non
è più la quota di variabilità spiegata dal modello, è un indice di adattamento del modello ai dati.

Il test F per la verifica di ipotesi congiunte sui coefficienti


Si tratta di un test di ipotesi fatto su più di un coefficiente di regressione.
Si consideri il seguente modello:
o Vendite rappresenta le vendite settimanali di un fast-food della catena Dollar-Burger (variabile dipendente)
o Prezzo è il prezzo medio degli hamburger venduti
o Pubblicità è la spesa mensile del fast-food in attività pubblicitarie
o Ampiezza è l'ampiezza del punto vendita in
Vogliamo verificare l'ipotesi che le vendite dipendano unicamente dalle politiche di prezzo e non dall'ampiezza dei punti vendita
e dagli investimenti in pubblicità. Stiamo verificando un ipotesi congiunta sui coefficienti

Il sistema di ipotesi del test è: e


• Il modello in cui i vincoli (condizioni) sui parametri descritti in sono stati imposti è detto modello vincolato:

• Il modello in cui i vincoli sui parametri descritti in non sono stati imposti è detto modello non vincolato:

Il test (detto test F) si basa sul confronto della SQR nei due modelli (e )

L'aggiunta di variabili esplicative (regressori) ad un modello riduce sempre la SQR.


Se la riduzione di SQR dovuta all'inclusione di pubblicità e ampiezza è:
• ridotta: le due variabili contribuiscono poco alla spiegazione della variabilità della e l'evidenza empirica è favorevole alla
• importante: le due variabili contribuiscono significativamente alla spiegazione della variabilità della e l'evidenza
empirica è favorevole alla
• la statistica test per verificarlo è:
o SQRv: somma dei quadrati dei residui del modello vincolato
o SQRnv: somma dei quadrati dei residui del modello non vincolato
o J: numero di vincoli --> in questo esempio sono due (beta 3 e beta 4)
o N: numero di osservazioni
o K: numero coefficienti nel modello non vincolato --> in questo esempio sono 4 (beta 1, 2, 3, 4)

Sistema di ipotesi è: e
• Fissiamo

16
• La statistica test è :

La statistica test F ha distribuzione F di Fisher con gradi di libertà J e (N-K)


(vedi tavola statsitica)
• Si calcola la statistica test F osservata
• la decisione è così raggiunta:

17
o se rifuto oppure
o se rifiuto
• Se rifiuto significa che almeno una delle variabili pubblicità e ampiezza è significativa. Qualora invece pvalue > a, non
rifiutiamo H0, quindi i coefficienti pubblicità e ampiezza sono entrambi congiuntamente significativi.

Test F per la significatività del modello


Utilizzando la logica del test F è possibile verificare la significatività complessiva del modello:

Il test F verifica l’ipotesi che tutti i regressori siano congiuntamente non significativi
Il sistema di ipotesi è:
• : nessun regressore è significativo
• : almeno un regressore è significativo
Il modello vincolato ha solo l'intercetta: perché tutti gli altri coefficienti sono uguali a 0
Il modello non vincolato ha tutte le variabili esplicative:
SQR nel modello vincolato (che ha solo l’intercetta) non è altro che SQT del modello non vincolato

Perché?
Nel modello generico lo stimatore OLS dell’intercetta () è
Si consideri il modello ristretto:
• ovvero lo stimatore OLS dell’intercetta è uguale alla media di y
• La stima di è uguale alla media di y nel campione
• Il modello stimato è
• Ne consegue che nel modello vincolato la SQR è

Test F per la significatività del modello


• Modello non vincolato:
• Modello vincolato:
La statistica test F=
Siccome :
Il numero di vincoli imposti nel modello vincolato (J) è pari al numero di parametri (K) del modello non vincolato -1:
La statistica test F diventa
o SQT e SQR: si riferiscono al modello non vincolato
o K: numero di parametri (compresa l’intercetta) del modello non vincolato
o N: numerosità del campione
o (K-1) e (N-K) sono i gradi di libertà che definiscono la distribuzione F
La procedura è sempre la stessa:
• Definisco
• se (o se ) rifiuto
Rifiutare significa concludere che almeno una variabile esplicativa è statisticamente significativa
Non rifiutare H0 significa che il modello è complessivamente non significativo, nessun regressore ha un effetto significativo

Il risultato del test F per la significatività del modello viene riportato da tutti i software econometrici tra gli output di regressione:
• Vendite rappresenta le vendite settimanali di un fast-food della catena Dollar-Burger
• Prezzo è il prezzo medio degli hamburger venduti
• Pubblicità e la spesa mensile del fast-food in attività pubblicitarie
• Ampiezza è l'ampiezza del punto vendita in

Comando: reg
variabile
dipendente variabili esplicative
Nella parte in basso troviamo la stima dei coefficienti (coef.)
La terza colonna riporta la statistica test osservata
Nella parte sopra abbiamo:
o SS: somma dei quadrati. 23348 è la somma dei quadrati spiegati dal modello SQM, mentre 1989 è la somma dei quadrati
residui SQR, sotto abbiamo SQT la somma dei quadrati totali.
o Number of obs = 10 è N

18
o F (3, 6) = 23,48 è la statistica test F osservata del test F sulla significatività complessiva del modello. I numeri 3 (K-1) e 6
(N-K) sono i gradi di libertà del numeratore e del denominatore della statistica test.
Quanti regressori ci sono nel modello? Guardando il primo numero sappiamo rispondere, quindi essendo 3 K-1, i regressori
(variabili esplicative, variabili x) sono 3, in quanto K è il numero di parametri (include l’intercetta).
o Prob > F = 0,0010 è il p-value del test F sulla significatività complessiva del modello
o R-squared è R2 --> il 92,15% della variabilità della y è spiegata dal modello
o Adj R-squared è R2 corretto

Focus 2: analisi dettagliata di un output di regressione


Utilizzando i dati sui consumi delle famiglie inglesi (dataset ConsumiUK.dta) è stato stimato il seguente modello di regressione
multipla:
o : quantità di frutta e verdura pro capite acquistata (g/settimana)
o : prezzo della frutta e della verdura (£/kg)
o : prezzo del pane (£/kg)
o : prezzo dei formaggi (£/kg)
o : ampiezza familiare
o : reddito familiare pro capite (100£/settimana)
Allo scopo di individuare i fattori che incidono sulla quantità di frutta e verdura (FV) consumata.

Questo è l’output di regressione:

Commento:
In base al modello stimato i prezzi di FV e formaggi e il reddito familiare pro-capite hanno un impatto statisticamente
significativo sulla quantità pro capite di FV consumata mediamente in UK. Nel dettaglio, l’effetto del prezzo di FV è significativo
all’1% (p-value=0.006), l’effetto del prezzo dei formaggi al 5% (p-value=0.020) e l’effetto del reddito all’1% (p-value=0.000). Il
prezzo del pane e l’ampiezza della famiglia non incidono invece significativamente (p-value >0.1) su tale consumo.
In base alle nostre stime e a parità di altri fattori, un aumento di 1£/kg nel prezzo della FV porta ad una riduzione di quasi 85
grammi a settimana nel consumo medio pro capite di FV. Sempre a parità di altre condizioni invece un aumento del prezzo del
formaggio di 1£/kg porterebbe ad un aumento nel consumo medio di FV di circa 25 grammi pro capite a settimana.
All’aumentare di 1£ del prezzo del pane, il modello prevede che in media la quantità consumata di frutta e verdura diminuisce in
media di 34,27 grammi (essendo il coefficiente non significativo, si commenta solo che l’impatto di quella x non è significativo
sulla y, non si commenta invece l’ampiezza della stima ottenuta).
Questo risultato suggerisce che per i consumatori inglesi il formaggio e la FV siano beni sostituti (all’aumento del prezzo
dell’uno aumenta il consumo dell’altro).
Infine, a parità di altri fattori anche il reddito pro capite risulta essere un fattore determinante per il consumo di FV: un aumento
di 100£ a settimana induce ad aumentare il consumo medio pro capite di FV di 3.5 grammi.

Commentare prima la significatività. Per quelli significativi procedere con il commento, per quelli non significativi no

Diagnostiche del modello:


L’ non è alto, poiché si aggira attorno a 0.02, indicando che solo il 2% della variabilità della variabile dipendente è spiegata dal
modello (non occorre commentare l’ perché non stiamo confrontando più modelli).
Il test F mostra che il modello è complessivamente significativo all’1% (p-value<0.01) possiamo rifiutare l’ipotesi nulla che tutti i
regressori siano congiuntamente non significativi. Dunque concludiamo che almeno uno dei coefficienti delle variabili esplicative
del modello è significativo.

Scomponiamo l’output di regressione:


Calcolo di e :

19
Per ricostruire e occorre consultare questa porzione di output:

SS: sum of squares (somma dei quadrati)


SQM = 331173
SQR = 14231220
SQT = 14562394
df: degree of freedom (gradi di libertà)

Il test F sulla significatività complessiva del modello


Il test F sulla significatività complessiva del modello è riportato in questa porzione di output:

La statistica test del test F è data da:

I test di significatività dei singoli coefficienti


Consideriamo il coefficiente del prezzo del formaggio:

Il test di significatività per il coefficiente della variabile prezzo del formaggio ha lo scopo di verificare l’ipotesi che il parametro
vero () – non osservabile direttamente – che in popolazione lega il prezzo del formaggio al consumo di FV sia nullo. In altre
parole, il test sottopone a verifica l’ipotesi nulla che non ci sia una relazione tra prezzo del formaggio e consumo di FV in
popolazione.
Il sistema di ipotesi di tale test è:

La statistica test è: e segue una distribuzione Normale Standard.


La statistica test osservata è:

Scegliamo un livello di significatività pari a 5%.


Ci sono due strade possibili:
1) Prendiamo una decisione confrontando la statistica test osservata con il valore critico
2) Prendiamo una decisione confrontando il p-value con

Strada 1)
Il valore critico corrispondente ad un α per una normale standardizzata (la t di Student per N molto grandi converge ad una
normale) è 1.96 (è un valore critico da ricordare a memoria, insieme a 1.645 per e 2.575 per . Si tratta dei valori critici per test a
due code con normale standardizzata)
2.34>1.96  Rifiuto

Strada 2)
Il p-value corrispondente alla mia statistica test è 0.020 (è la probabilità che la statistica test assuma un valore >2.34 o <-2.34).
Il p-value è calcolato da software, ma si può ricavarlo usando le tavole della normale standardizzata. Prova a trovarlo per
esercitarti.
0.020<0.05  Rifiuto

20
In conclusione, rifiuto l’ipotesi che non ci sia relazione tra prezzo del formaggio e consumo di FV, con un livello di significatività
del 5% (cioè accettando una probabilità di errore del 5%). In altre parole, il prezzo del formaggio incide significativamente sul
consumo di FV, ovvero il coefficiente del prezzo del formaggio è statisticamente significativo, con un livello di significatività del
5%.

E se avessi scelto un ?
Strada 1)
Il valore critico corrispondente ad un α per una normale standardizzata (la t di Student per N molto grandi converge ad una
normale) è 2.575 per .
2.34<2.575  Non rifiuto

Strada 2)
Il p-value corrispondente alla mia statistica test è 0.020 (è la probabilità che la statistica test assuma un valore >2.34 o <-2.34).
Il p-value è calcolato da software, ma si può ricavarlo usando le tavole della normale standardizzata (o della t di student se il
campione non è sufficientemente alto). Prova a trovarlo per esercitarti.
0.020>0.01  Non rifiuto
In conclusione, non rifiuto l’ipotesi che non ci sia relazione tra prezzo del formaggio e consumo di FV, con un livello di
significatività dell’1% (cioè accettando di sbagliare 1 volta su 100). In altre parole, il prezzo del formaggio non incide
significativamente sul consumo di FV, ovvero il coefficiente del prezzo del formaggio non è statisticamente significativo, con un
livello di significatività dell’1%. La scelta del livello di significatività può avere effetto sulla decisione finale!

Attenzione! Se stiamo conducendo la nostra analisi sui dati normalmente nessuno ci dice quale livello di significatività ()
scegliere. Nella pratica quindi:
- Se è possibile rifiutare ad almeno uno dei 3 possibili livelli di , si individua il livello di più basso a cui è possibile rifiutare e si
commenta la significatività rispetto a quello:
es: nel test di significatività appena descritto è possibile rifiutare sia con che con , mentre non è possibile rifiutare con . Il
commento a questo test dunque sarà: il coefficiente del prezzo del formaggio è statisticamente significativo al 5%.
- Se non è possibile rifiutare perché p-value>10%, concludo che il coefficiente non è statisticamente significativo.

Come scrivere formule su Word

Inserisci --> equazione

Per scrivere le lettere greche: \beta \alpha \gamma

Per scrivere beta0: \beta _0

Per scrivere x medio: andare su accento oppure \bar doppio spazio e scrivere x

Per scrivere y stimato: andare su accento oppure \hat spazio spazio e scrivere y

Per fare la sommatoria: \sum spazio spazio

--> \sum spazio spazio \hat spazio spazio y


Per scrivere diverso da \neq

13/03
Relazioni lineari e non lineari

Pendenza, effetto marginale, derivata prima, elasticità


In una relazione fra due variabili: siamo particolarmente interessati a verificare l’effetto che un cambiamento in una variabile ha
sull’altra variabile.
È possibile misurare tale effetto come:
• il cambiamento in dovuto ad un incremento unitario di . Questo è l’ «effetto marginale» di su
• Il cambiamento % in dovuto all’incremento dell’1% di . Questa è l’ «elasticità» di rispetto a .
Se è la relazione fra le due variabili, l’effetto marginale di su è rappresentato:
• in termini geometrici dalla pendenza della funzione in un dato punto
• in termini algebrici dalla derivata prima della funzione in un dato punto:
L'elasticità di rispetto a è il prodotto dell’effetto marginale di su in un dato punto e il rapporto fra il valore di e di in quel punto:
Relazione lineare fra variabili
Se è lineare:
• la pendenza (cioè la derivata prima () di rispetto a , cioè
l’effetto marginale di ) è costante e uguale a in ogni punto
Un dato cambiamento in determina la stessa variazione in in ogni
punto della funzione

21
• l'elasticità è . Essa varia in ciascun punto() della retta.
In una relazione lineare:
- l’effetto marginale di su è costante in ogni punto
- l’ elasticità di rispetto a cambia in ogni punto

Esempio:
Si consideri la funzione lineare: :
• se la x aumenta di 1 unità a partire dal punto (x = 1; y = 5) ci si sposta lunga la retta nel punto (x = 2; y = 8)  la variazione
della y è 3
• se la x aumenta di 1 unità a partire dal punto (x = 10; y = 32) ci si sposta lunga la retta nel punto (x = 11; y = 35)  la
variazione della y è 3
La variazione della y a fronte di una variazione unitaria della x (effetto marginale di x su y) è costante in ogni punto della retta.
• Nel punto (x=10; y=32), l'elasticità della funzione è 4
Dunque un aumento dell’1% della x a partire dal punto (x=10; y=32) è associato ad una variazione dello 0.94% della y
• Nel punto (x=1; y=5), l'elasticità della funzione è
Dunque un aumento dell’1% della x a partire dal punto (x=1; y=5) è associato ad una variazione dello 0.6% della y
La variazione % della y a fronte di un aumento dell’1% della x non è costante!

Relazioni non lineari


3 450 1.50
400 1.40
3 350 1.30
2 300 1.20
250 1.10
Y

2
Y

200 1.00

Y
1 150 0.90
1 100 0.80
50
0 0

0
20
40
60
80
0
10
0
20
40
60
80
0
0
0
20
40
60
80
0
0

10
12
10
12

X
X
In una relazioneXnon lineare la pendenza della curva:
• è la pendenza della rette tangente alla curva in un punto specifico
• misura l’effetto marginale di su
• è diversa in ogni punto della curva

Esempio:
Si consideri la funzione non lineare:
La pendenza della retta tangente alla curva e
data da:
La pendenza della curva dipende da dunque è diversa a seconda del punto della
curva in cui ci troviamo (la pendenza della che varia in ogni punto ci dice che la
relazione tra x e y non è lineare):
• nel punto (x=0, y=16) la pendenza è -8
• nel punto (x=2, y=4) la pendenza è -4
• nel punto (x=6, y=4) la pendenza è 4
L’elasticità :
• nel punto (x=6, y=4) è: --> ad un aumento dell'1% della x corrisponde una
variazione del 6% della y.
• nel punto (x=3, y=1) è:
• nel punto (x=2, y=4) è:

Modelli per relazioni non lineari

La scelta della forma funzionale


Le variabili economiche sono spesso legate da relazioni che non sono descritte adeguatamente da una retta.
Consideriamo – ancora una volta - la relazione tra la spesa alimentare di una famiglia (Y) e il suo reddito (X)
• E' una relazione positiva (il cibo è un bene normale) Linear relationship

• Ma è anche lineare?
Una relazione lineare ( implica pendenza (cioè effetto marginale di X su Y) costante:
Y: household food expenditure

Un aumento di 100$ nel reddito determinerà lo stesso incremento nella spesa alimentare
indipendentemente dal livello di reddito e di spesa alimentare di partenza
La relazione lineare tra Y e X è una buona approssimazione della realtà?
Nonlinear relationship
E' molto probabile che la relazione tra Y (spesa
alimentare) e X (reddito delle famiglie) sia X: household income

descritta da una curva in cui:


Y: household food expenditure

• la pendenza (la pendenza della retta tangente alla curva in un dato punto) si riduce
al crescere di X
• al crescere del reddito, l’effetto marginale del reddito sulla spesa alimentare si
riduce

X: household income

22
• La relazione è crescente (al crescere del reddito la spesa alimentare cresce), ma ad un tasso decrescente (cresce
sempre meno)

Trasformazione delle variabili: Il mondo non è lineare


Molte relazioni economiche sono descritte da funzioni non lineari
Tuttavia, il modello di regressione lineare è molto più flessibile di quanto possa sembrare
Il modello di regressione lineare può essere usato per rappresentare molte relazioni non lineari tra le variabili usando semplici
trasformazioni (per es. logaritmi, quadrati, cubi, etc.) delle variabili economiche originarie.
Se le variabilie/o in un modello di regressione lineare sono trasformazioni delle variabili economiche di interesse, il modello sta
descrivendo relazioni non lineari tra tali variabili economiche.
Perciò trasformando le variabili economiche di interesse con log, quadrati, etc. è possibile:
- rappresentare vari tipi di relazioni non lineari
- stimare tali relazioni usando le usuali tecniche del modello di regressione lineare

Trasformazioni logaritmiche delle variabili: il logaritmo naturale


Ripasso: Il logaritmo naturale (o logaritmo in base e):

è il numero irrazionale 2.718282


Il logaritmo in base di è quel numero a cui elevare la base per ottenere l’argomento:
si può scrivere anche
Proprietà fondamentali delle potenze:


Trasformazioni logaritmiche delle variabili


Modelli che includono trasformazioni logaritmiche delle variabili:
• modello linear-log: --> beta 1 è l’effetto marginale del logaritmo di x su y, ci dice come cambia y quando il logaritmo di x
aumenta di un’unità
• modello log-linear:
• modello log-log: --> entrambe le variabili sono trasformazioni logaritmiche.
Attenzione! In questi modelli (in cui x e/o y sono trasformazioni delle variabili economiche originarie) il significato dei coefficienti
cambia. Nei modelli sopra, il coefficiente non rappresenta l’effetto marginale di su

Il modello log-lineare: (con )


Nel modello log-lineare, la variabile dipendente è il logaritmo della variabile economica d’interesse.
La relazione tra e è lineare e se la funzione è crescente a tasso costante (l’effetto marginale di x sul logaritmo di y è uguale
in ogni punto)

ln⁡(y)=β_0+β_1 x (β_1>0)
7
6
ln(y)

5
4
3
2
1
0
0 20 40 60 80 100 120 450 𝑦=exp⁡ "(" 𝛽_0+𝛽_1 " 𝑥" )
400
Tuttavia la relazione sottostante
X tra e è non lineare*:
350
300 (𝛽_1>0)
250
Y

La pendenza di questa curva (cioè l’effetto marginale d su ) cambia in 200


150
ogni punto ed è uguale a: 100
50
0
Se , la funzione è crescente ad un tasso crescente 0 20 40 60 80 100 120
*Si ricordi che il logaritmo di con base (cioè ) è il numero a cui si deve
X essere riscritta come
elevare la base () per ottenere l’argomento (). Perciò, corrisponde ad una funzione esponenziale e può

Il modello log-lineare: (con )


Nel modello log-lineare, la relazione tra e è lineare e se la funzione è decrescente a tasso costante
ln⁡(𝑦)=𝛽_0+𝛽_1 𝑥 (𝛽_1<0)
2
0
ln(y)

-2
-4
-6
-8
-10 3
3
𝑦=exp(𝛽_0+𝛽_1 𝑥) (𝛽_1<
0 20 40 60 80 100 120 2
Y

Tuttavia la relazione sottostante tra e è non lineare: 2


X 1
1
0
0 20 40 60 80 100 120
23
X
La pendenza di questa curva (cioè l’effetto marginale d su ) cambia in ogni punto ed è uguale a:
Se , la funzione è decrescente ad un tasso decrescente

Il modello log-lineare: interpretazione del coefficiente di regression ()

Interpretazione di : un aumento unitario di determina approssimativamente un


cambiamento % in pari a
In questi modelli:
• è chiamato semi-elasticità di rispetto a
• deve essere positivo ()
• se la funzione è crescente ad un tasso crescente
• se la funzione è decrescente ad un tasso decrescente

Il modello log-lineare: un esempio


Example 3: the relation between the price of a house and its size

Assumiamo che la

relazione sia lineare :


Comando: reg variabile dipendente variabile indipendente --> stima i coefficienti della retta che meglio passa nella nuvola dei
punti
Interpretazione del coefficiente stimato (): Linear relationship fitted (red line)
1500000

Nei modelli lineari il coefficiente di regressione misura l’effetto marginale di su


 l’aumento medio nel prezzo dovuto ad un aggiuntivo di ampiezza della casa è pari a
$998.3. Tale variazione del prezzo è assunta costante qualunque sia il livello di prezzo
1000000
Price of the house

e di ampiezza di partenza
500000

• La funzione lineare non sembra avere un buon adattamento ai dati


• La relazione lineare non sembra essere una buona approssimazione della realtà
0

Potrebbe essere verosimile che per abitazioni più costose un metro quadro aggiuntivo 0 200 400 600 800
Total square mt
Price ($)

determini un incremento del prezzo più ampio rispetto ad abitazioni meno costose.
Posso descrivere questo tipo di relazione con un modello log-lineare e specificare la
relazione tra PRICE e MQ come:

in cui la variabile dipendente è , una trasformazione logaritmica della variabile


economica di interesse

Il modello log-lineare: un esempio Square mt

24
. reg lprice mq

Source SS df MS Number of obs = 1,080


F(1, 1078) = 1794.78
Model 185.472091 1 185.472091 Prob > F = 0.0000
Residual 111.400275 1,078 .103339773 R-squared = 0.6248
Adj R-squared = 0.6244
Total 296.872366 1,079 .275136577 Root MSE = .32147

lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]

mq .0044269 .0001045 42.36 0.000 .0042218 .0046319


_cons 10.8386 .0246075 440.46 0.000 10.79031 10.88688
Comando: reg lprice (variabile dipendente)
mq
Interpretazione del coefficiente stimato :
lprice Coef. Std. Err. t P>|t|
: all'aumento di 1della superficie, il prezzo atteso aumenta
mq .0044269 .0001045 42.36 0.000 approssimativamente dello 0.44% (semielasticità del prezzo rispetto
_cons 10.8386 .0246075 440.46 0.000
all’ampiezza)
Price ($)

Che cosa sappiamo dell’ effetto marginale di MQ su PRICE?


L’effetto marginale di MQ su PRICE è :
Square mt
Nei modelli log-lineari l’effetto marginale di x su y cambia in ogni punto ed è uguale
a
• Per un’abitazione il cui prezzo è $50,000 l’effetto sul prezzo di 1 aggiuntivo è
0.0044*50,000=220$
• Per un’abitazione il cui prezzo è $200,000 l’effetto sul prezzo di 1 aggiuntivo è
0.0044*200,000=880$
Al crescere del prezzo (), l’effetto marginale della superficie sul prezzo è crescente

Il modello linear-log : (con )


Nel modello linear-log, la relazione tra e è lineare e se la funzione è crescente a
tasso costante

𝑦=𝛽_0+𝛽_1 ln⁡(𝑥) (𝛽_1>0)


7
6
5
4
y

3
2
1
0
0 20 40 60 80 100 120 1.45
Tuttavia la relazione sottostante
ln(X) tra e è non lineare: 𝑦=𝛽_0+𝛽_1 ln⁡(𝑥)
1.35 (𝛽_1>0)
La pendenza di questa curva (cioè l’effetto marginale d su ) cambia in ogni 1.25
Y

punto ed è uguale a: 1.15


Se, la funzione è crescente a tasso decrescente 1.05
0.95
Il modello linear-log: (con ) 0 20 40 60 80 100
Nel modello linear-log, la relazione tra e è lineare e se la funzione è
decrescente ad un tasso costante
X

𝑦=𝛽_0+𝛽_1 ln⁡(𝑥) (𝛽_1<0)


2
0
-2
-4
y

-6
-8
-10
0 20 40 60 80 100 120 3 𝑦=𝛽_0+𝛽_1 ln⁡(𝑥) (𝛽_1<0)
Tuttavia la relazione sottostante tra e è non lineare: 3
ln X (cioè l’effetto marginale d su ) cambia in ogni 2
La pendenza di questa curva
Y

2
punto ed è uguale a: 1
1
Se , la funzione è decrescente ad un tasso decrescente 0

Il modello linear-log: interpretazione del coefficiente di regressione ()


0 20 40
X
60 80 100 120

Interpretazione di : un incremento dell’1% nella determina approssimativamente una variazione(assoluta) di pari a


In questi modelli:
• deve essere positivo,
• se la funzione è crescente ad un tasso decrescente
• se la funzione è decrescente ad un tasso decrescente

Il modello linear-log: un esempio

25
Esempio 4: la relazione tra reddito e spesa alimentare

Assumiamo una relazione lineare:

FOOD.EXP: spesa alimentare mensile in $


INCOME: reddito mensile in $
. reg food_exp INCOME

Source SS df MS Number of obs = 40


F(1, 38) = 23.79
Model 190626.984 1 190626.984 Prob > F = 0.0000
Residual 304505.176 38 8013.2941 R-squared = 0.3850
Adj R-squared = 0.3688
Total 495132.16 39 12695.6964 Root MSE = 89.517

food_exp Coef. Std. Err. t P>|t| [95% Conf. Interval]

INCOME .1020964 .0209326 4.88 0.000 .0597205 .1444723


_cons 83.416 43.41016 1.92 0.062 -4.463279 171.2953

Interpretazione del coefficiente stimato ():


Nei modelli lineari il coefficiente di regressione misura l’effetto marginale d su
la variazione della spesa alimentare dovuta ad un aumento di $1 nel reddito mensile (incremento unitario) è $0.1. E’ costante
ad ogni livello di reddito e spesa alimentare.
expenditure

Tuttavia, al crescere del reddito è verosimile che a fronte dello stesso incremento di
reddito la spesa alimentare non continuerà a crescere sempre allo stesso tasso.
È verosimile che al crescere del reddito l’effetto marginale del reddito sulla spesa
Food

alimentare si riduca

Come si può rappresentare questa dinamica in un modello?


income
È possibile rappresentare questa relazione con un modello linear-log:
dove la variabile esplicativa è una trasformazione logaritmica della variabile economica di interesse, INCOME

. reg food_exp LINCOME


Nonlinear relationship fitted (red line)
600

Source SS df MS Number of obs = 40


F(1, 38) = 21.05
500
Household food expenditure

Model 176519.799 1 176519.799 Prob > F = 0.0000


Residual 318612.361 38 8384.53582 R-squared = 0.3565
400

Adj R-squared = 0.3396


Total 495132.16 39 12695.6964 Root MSE = 91.567
200 300

food_exp Coef. Std. Err. t P>|t| [95% Conf. Interval]


100

LINCOME 132.1658 28.80461 4.59 0.000 73.85395 190.4777 0 10 20 30 40


_cons -705.8326 216.1196 -3.27 0.002 -1143.344 -268.3214 Household income

Interpretazione del coefficiente stimato :


food_exp Coef. Std. Err. t P>|t|
: un incremento dell’1% nel reddito famigliare determina una variazione
LINCOME 132.1658 28.80461 4.59 0.000 attesa nella spesa alimentare pari a $1.32
_cons -705.8326 216.1196 -3.27 0.002

Che cosa sappiamo dell’ effetto


expenditure

marginale di INCOME su FOOD.EXP?


Nei modelli linear-log l’effetto marginale di sucambia in ogni punto ed è uguale a
• Per famiglie il cui reddito mensile è $1,000, l’effetto marginale è 132/1000=0.132$ (un
Food

aumento di $1 nel reddito mensile determina in media un aumento di $0.132 - circa


income
13 cents- nella spesa alimentare)
• Per famiglie il cui reddito mensile è $5,000 l’effetto marginale è 132.2/5000=0.026$
(un incremento di $1 nel reddito mensile determina in media un aumento di $0.026 – circa 3
cents – nella spesa alimentare)
Al crescere del reddito () l’effetto marginale del reddito sulla spesa alimentare

Il modello log-log: (con )


Nel modello log-log, la relazione tra e è lineare.
Se la funzione è decrescente a tasso costante

26
2ln⁡(𝑦)=𝛽_0+𝛽_1 ln⁡𝑥 (𝛽_1<0)
0
ln(y)

-2
-4
-6
-8
-10
0 20 40 60 80 100 120
Tuttavia la relazione sottostante tra e è non lineare:

ln X
L’effetto marginale di su cambia in ogni punto ed è: 3.10
2.90
2.70
𝑦=𝑒^(𝛽_0 ) 𝑥^(𝛽_1 ) (𝛽
• Se la funzione è decrescente ad un tasso decrescente 2.50
2.30

Y
* può essere riscritta come . 2.10
1.90
1.70
Il modello log-log: (con ) 1.50
Nel modello log-log, la relazione tra e è lineare. 0 20 40 60 80 100
Se la funzione è crescente a tasso costante
X
12 ln⁡(𝑦)=𝛽_0+𝛽_1 ln⁡𝑥 (𝛽_1>0)
10
ln(y)

8
6
4
2
0
0 20 40 60 80 100 120
Tuttavia la relazione sottostante
ln(X) tra e è non lineare:

4.40 𝑦=𝑒^(𝛽_0 ) 𝑥^(𝛽_1 ) (0<𝛽_1<1) 𝑦=𝑒^(𝛽_0 ) 𝑥^(𝛽_1 ) (𝛽_1>1)


3.90

3.40
Y

2.90

2.40
0 20 40 60 80 100 120
L’effetto marginale di su cambia in ogni punto ed è uguale a
0 20 40 X 60 80 100

Perciò:
X
- Se : la funzione è crescente ad un tasso decrescente
- Se : la funzione è crescente ad un tasso crescente

Il modello log-log : interpretazione del coefficiente di regressione ()

Interpretazione di : un aumento
dell’1% in x determina una
variazione % nella y pari .
è l’ elasticità d rispetto a
In questi modelli
• Sia che devono essere
positivi, e
• L’elasticità di rispetto a è
costante

Il modello log- log: un


esempio
Esempio 5: La relazione tra il consumo di pollo e il prezzo del pollo

27
Si assuma una relazione lineare

. reg q p

Source SS df MS Number of obs = 52


F(1, 50) = 122.73
Model 5205.74977 1 5205.74977 Prob > F = 0.0000
Residual 2120.81351 50 42.4162702 R-squared = 0.7105
Adj R-squared = 0.7047
Total 7326.56328 51 143.658104 Root MSE = 6.5128

q Coef. Std. Err. t P>|t| [95% Conf. Interval]

p -18.40283 1.661151 -11.08 0.000 -21.73935 -15.06631


Nei modelli lineari il _cons 57.95564 2.575224 22.51 0.000 52.78315 63.12813
coefficiente di
regressione misura l’effetto marginale di su
in media, un aumento del prezzo del pollo di $1 determina una riduzione del consumo
annule pro capite di pollo di 18.4 kg

Si assuma una relazione lineare

La relazione lineare è una buona approssimazione della realtà?


Consideriamo una funzione diversa:

Linear relationship fitted (red line)


50
Quantity of purchased chicken
20 3010 40

1 1.5 2 2.5 3
Price of chicken

Interpretazione del coefficiente stimato :


(elasticità di prezzo della carne di pollo) un aumento dell’1% nel
Prezzo del pollo determina una riduzione dell’1.12% nella
quantità di pollo acquistata

Che cosa si può dire dell’effetto marginale di su ?


Nei modelli log-log l’effetto marginale di su cambia in ogni punto ed è
• Nel punto A (dove PRICE=1.5 e QUANTITY=25.9) l’effetto marginale di PRICE su
QUANTITY è
Un incremento di $1 nel prezzo porta ad una riduzione del consumo medio di pollo di 19 kg
• Nel punto B (PRICE=2.5 e QUANTITY=14.8) l’effetto marginale di PRICE su QUANTITY
è
Un incremento di $1 nel prezzo porta ad una riduzione del consumo medio di pollo di 6.5kg

Il modello log-log (o a elasticità costante) è molto usato:


• perché è flessibile: in base al valore di si presta a rappresentare diversi tipi di relazione
• l'interpretazione è resa molto semplice dall'elasticità costante

Tavola
riassuntiva

28
Regole di derivazione utilizzate per il calcolo degli effetti marginali nei modelli illustrati

16/03
Variabili dicotomiche nei modelli di regressione

Esempio 6: questioni di genere nel salario

• wage: salario orario


• female: dummy=1 per le donne, =0 per gli uomini
Quando una variabile binaria è usata come regressore abbiamo sempre due modelli, quindi è utile riscrivere il modello per i due
valori che la variabile binaria può assumere
In questo modello female è l’unico regressore.
La variabile binaria divide la popolazione in due gruppi:
Se  (retta rossa)
Se  (retta blu)
Abbiamo definito due rette orizzontali. Se io stimo un modello in cui metto solo la
variabile binaria come regressore, sto stimando il valore atteso del salario per gli
uomini e per le donne.
Interpretazione dei coefficienti
• è il salario medio degli uomini
• : è il salario medio delle donne
• : è la differenza media tra il salario delle donne e il salario degli uomini

. reg wage female

Source SS df MS Number of obs = 526


F(1, 524) = 68.54
Model 828.220467 1 828.220467 Prob > F = 0.0000
Residual 6332.19382 524 12.0843394 R-squared = 0.1157
Adj R-squared = 0.1140
Total 7160.41429 525 13.6388844 Root MSE = 3.4763

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

female -2.51183 .3034092 -8.28 0.000 -3.107878 -1.915782


_cons 7.099489 .2100082 33.81 0.000 6.686928 7.51205

• salario orario medio per gli uomini del campione


• = $4.6 : salario orario medio per le donne del campione
• $ differenza nel salario orario medio tra donne e uomini nel campione. Le donne guadagnano 2,5 dollari in meno rispetto
agli uomini

Esempio 6: Questioni di genere nel salario - intercept shift

• wage: salario orario


• female: dummy=1 per le donne, =0 per gli uomini (variabile binaria)
• educ: livello di istruzione (variabile continua)
Se 
Se 
Per i lavoratori donna (female = 1), nel modello che descrive la relazione tra e :
• l’intercetta è ()
• la pendenza (effetto marginale dell’istruzione sul salario) è
Per i lavoratori uomo (female = 0), nel modello che descrive la relazione tra e :
• l’intercetta è () --> definisce la relazione tra wage ed istruzione quando f è 0, quindi per i maschi. Salario medio atteso per
gli uomini quando l’istruzione è nulla
• la pendenza (effetto marginale dell’istruzione sul salario) è --> variazione attesa media del salario, quando il livello
dell’istruzione aumenta di uno

29
Quando nel modello c’è una variabile binaria e una variabile continua, stiamo assumendo effetti marginali costanti sui due
sottogruppi. Di conseguenza, l’effetto marginale dell’istruzione sul salario è uguale sia per i maschi, che per le femmine.
Si avranno due modelli rappresentanti da due rette con stessa pendenza, ma
diversa intercetta.
L’inclusione della variabile binaria nel modello sposta parallelamente la relazione
tra e di un ammontare pari a (intercept shift)
: è la differenza nelle intercette dei due modelli e rappresenta la differenza
(costante) nel salario medio fra donne e uomini, a qualsiasi livello di istruzione:
• se , a parità di livello di istruzione le donne hanno in media salari orari
inferiori agli uomini
La differenza nel salario medio tra uomini e donne:
• è costante per qualsiasi livello di istruzione
• è descritta da uno shift nell'intercetta (se a qualsiasi livello di istruzione gli
uomini guadagnano un ammontare fisso in più delle donne)

A parità di livello di istruzione e di anni di esperienza il salario medio di una donna è inferiore a quello di un uomo di 2,2$/ora (i
dati si riferiscono al 1976).

Coefficiente female – 2 è la differenza media nei salari tra donne e uomini


Un aumento di un anno nell’educazione determina un aumento di 60 centesimi nel salario, mentre un aumento di 1 anno
nell’esperienza determina in media un aumento di 6 centesimi nel salario

Esempio 6: Questioni di genere nel salario – stessa intercetta, cambiamento di pendenza


È possibile ipotizzare che il genere del lavoratore causi un cambiamento nella pendenza della relazione tra salario e
istruzione includendo una variabile interazione uguale al prodotto tra istruzione e genere (variabile binaria * regressore di cui
mi interessa l’effetto marginale):

Regressori del modello: variabile continua istruzione e variabile ottenuta come prodotto tra female ed educazione
Se 
Se 
Per i lavoratori donna nel modello che descrive la relazione tra e :
• l’intercetta è ()
• la pendenza (cioè l’effetto marginale dell’istruzione sul salario) è
Per i lavoratori uomo nel modello che descrive la relazione tra e :
• l’intercetta è ()
• la pendenza (cioè l’effetto marginale dell’istruzione sul salario) è

30
Stimando un modello come questo io assumo che l’effetto marginale dell’istruzione sui salari possa essere diverso per i due
sottogruppi. Inoltre, in un modello in cui female entra come termine di interazione io assumo diversa pendenza, ma uguale
intercetta.

10 12 14 16 18 20
Il termine di interazione () introduce la possibilità che l’effetto dell'istruzione sul
salario orario sia diverso per uomini e donne (different returns to education).
Le due rette che descrivono l’effetto dell’istruzione sul salario per le donne e per

Hourly wage
Male function
gli uomini hanno:
- stessa intercetta (si assume che per livelli di istruzione nulli, il salario di

8
uomini e donne sia identico, pari a ) Female function

6
- pendenza diversa (per gli uomini e per le donne)

4
2
0
0 2 4 6 8 10 12 14 16 18 20
Education

(stessa intercetta per uomini e donne): Per livelli di istruzione nulli, il salario medio per donne e uomini non è significativamente
diverso da 0.
è l’effetto marginale dell’istruzione sul salario medio per gli uomini (female = 0). Per gli uomini, un anno aggiuntivo di istruzione
determina in media un incremento di salario pari a 0.58$/ora.
(differenza nelle pendenze). È la differenza nell’effetto marginale dell'istruzione sul salario tra donne e uomini. L’effetto di un
anno aggiuntivo di istruzione sul salario orario è inferiore (di 0.18$) per le donne rispetto agli per gli uomini.
è l’effetto marginale dell′istruzione sul salario medio per le donne (female = 1). Per le lavoratrici, un anno aggiuntivo di
istruzione determina in media un incremento di salario pari a 0.40$/ora.

Se assumiamo che il genere incida sia sull’intercetta che sulla pendenza della relazione tra salario e istruzione, i due effetti
possono essere incorporati nel modello seguente:

Per fare ciò, il regressore binario female deve entrare sia nel termine di
interazione che da solo.
Se 
Se 
Le due rette che descrivono l’effetto dell’istruzione sul salario per le donne e
per gli uomini hanno:
- intercetta diversa (per gli uomini e per le donne)
- pendenza diversa ( per gli uomini e per le donne

= 6.16: il salario orario medio degli uomini con esperienza nulla è pari a 6.16$
: (shift nell’intercetta): La differenza nel salario orario medio tra donne e uomini con esperienza nulla è significativamente
diversa da zero e pari a -1.55$
: è l’effetto marginale dell’esperienza lavorativa sul salario orario dei lavoratori uomini. Per gli uomini un anno aggiuntivo di
esperienza determina in media un incremento nel salario orario di $0.05
-0.06(differenza nella pendenza): l’effetto marginale dell’esperienza lavorativa sul salario orario è significativamente diversa tra
donne e uomini. . L’effetto di un anno aggiuntivo di esperienza sul salario orario è inferiore (di 0.06$) per le donne rispetto agli
gli uomini
: è l’effetto marginale dell’esperienza lavorativa sul salario orario delle lavoratrici. Per le donne un anno aggiuntivo di esperienza
determina in media una riduzione nel salario orario di $0.01.

31
Variabili binarie nei modelli log-lineari

. reg lwage female educ

Source SS df MS Number of obs = 526


F(2, 523) = 112.19
Model 44.5315181 2 22.2657591 Prob > F = 0.0000
Residual 103.798233 523 .198466985 R-squared = 0.3002
Adj R-squared = 0.2975
Total 148.329751 525 .28253286 Root MSE = .4455

lwage Coef. Std. Err. t P>|t| [95% Conf. Interval]

female -.3608654 .0390245 -9.25 0.000 -.4375294 -.2842015


educ .0772033 .0070472 10.96 0.000 .0633591 .0910475
_cons .8262694 .0940541 8.79 0.000 .6414991 1.01104

è approssimativamente la differenza media percentuale nei salari orari (y) tra donne (dummy=1) e uomini (dummy=0)
In media il salario orario delle donne è inferiore del 36% rispetto al salario orario degli uomini, a parità di altri regressori

è approssimativamente la variazione % nei salari dovuta ad un anno aggiuntivo di istruzione per gli uomini (dummy=0)

è approssimativamente la variazione % nei salari dovuta ad un anno aggiuntivo di istruzione per le donne (dummy=1)
: (differenza nelle intercette). Per livelli di istruzione nulli, la differenza nel salario fra donne e uomini è del -36% (significativo al
10%)
: è l’effetto dell'istruzione sul salario medio degli uomini. Per gli uomini, un anno aggiuntivo di istruzione determina in media un
incremento di salario pari al 7%
: (differenza nelle pendenze). È la differenza nell’effetto dell'istruzione sul salario medio tra donne uomini . Il coefficiente non è
significativo: l’effetto dell'istruzione sul salario non è diverso fra donne e uomini.
Se fosse stato significativo? è la differenza tra donne e uomini nell’effetto percentuale dell'istruzione sul reddito: un anno
aggiuntivo di istruzione per le donne avrebbe portato un aumento nel salario pari a 7-0.006=6.994%.

Esempio:
Creare un modello per stimare il numero di ore lavorate
Stimare un modello in cui il numero di ore lavoratore è funzione di wage, educ e di nchild (numero di figli in famiglia)

L’unità di misura della dipendente sono il


numero di ore
L’unità di misura di wage è dollari
L’unità di misura di educ sono anni
L’unità di misura di nchild sono il numero
di figli
Effetto marginale del salario sul numero di
ore lavorate è -0,04 --> il coefficiente è
significativo al 5%; per ogni dollaro in più
all’ora, le ore lavorate settimanalmente si
riducono in media di 0,04
Effetto marginale dell’istruzione sul
numero di ore lavorate è 0,61 --> il
coefficiente è significativo all’1%; per ogni
anno di istruzione in più il modello stima che le ore lavorate settimanalmente aumentano di 0,6
Effetto magistrale del numero di figli sulle ore lavorate è -0,45 --> il coefficiente è significativo al 5% (p value è compreso tra 1%
e 5%), per ogni figlio in più, il modello stima che si lavori settimanalmente 0,45 ore in meno

32
33,03 è l’intercetta --> quando wage, educ e numero di figli sono pari a 0, il numero di ore lavorate in media è pari a 33 ore.

Indicare quanta della variabilità della variabile dipendente è spiegata dal modello
R2 = 0,0433 --> il 4,3% della variabilità della y è spiegata dal modello (è basso)

Creare una nuova variabile child che è uguale a 1 se c’è almeno un figlio, uguale a 0 se non ci sono figli
Gen child=.
Replace child=1 if nchild>0
Replace child=0 if nchild==0

Il numero di ore lavorate è significativamente diverso per le lavoratrici con figli e senza figli?
E (hrswork | child=1) = E (hrswork | child=0) ?
Devo stimare un modello in cui le ore lavorate sono funzione solamente della binaria
Hrswork =

Il coefficient di child è la differenza media


nelle ore lavorate tra chi ha figli e chi non
ha figli = -1,45
L’intercetta è il numero medio di ore
lavorate per chi non ha figli = 41,54
La differenza media nelle ore lavorate tra
chi ha figli e chi non ha figli è significativa
all’1%, quindi è significativamente
diverso dal numero di ore lavorate tra chi
non ha figli.

La stessa risposta l’avrei potuta ottenere


facendo un test di ipotesi
H0: media per chi ha figli – media per chi non ha figli = 0
H1: media per chi ha figli – media per chi non ha figli ≠ 0
Comando stata: ttest hrswork, by(child)

Prima riga: per coloro che non hanno figli la media


della variabile d’interesse è 41,5 (questo è uguale a
beta 0)
Per le donne con figli la media delle ore lavorate è
40,1
Diff = 1,44 --> ore lavorate per chi ha figli – ore
lavorate per chi non ha figli (uguale al coefficiente di
child). Differenza media delle ore lavorate tra i due
sottogruppi nel campione
Voglio testare se nelle popolazioni da cui questi
campioni sono estratte la differenza è 0, contro
l’alternativa che non lo sia
Ha : ipotesi alternativa
!= diversa da 0
Se il p value è minore di alfa rifiutiamo H0 --> pvalue
= 0,2% quindi rifiutiamo anche al livello di significatività più basso. Quindi in popolazione le due medie sono diverse, perché la
differenza tra le due medie non è 0

Stimare un nuovo modello in cui le ore lavorate è funzione di wage, educ e presenza di figli
La presenza di figli incide
significativamente sul numero di ore
lavorate? Si, perché il pvalue è meno
dell1%, quindi l’avere figli ha un effetto sul
numero di ore lavorate significativo all’1%
Chi ha figli lavora 1,47 ore in meno di chi
non ha figli, a parità di altre condizioni.

Si assume che l’effetto marginale


dell’istruzione sia costante, pensi che
l’effetto marginale dell’istruzione sul numero

33
di ore lavorate sia diverso per lavoratrici con e senza figli a parità di salario orario? Stima un modello appropriato per rispondere
Devo inserire una nuova variabile che sia il prodotto tra educ e child
Devo generare una nuova variabile
Gen child_ed=child*educ

Hrs =
Beta 0 = valore atteso delle ore lavorate quando il livello di istruzione è nullo e non ci sono figli (intercetta del modello senza
figli) --> 31,4 ore lavorate in media dalle donne che non hanno istruzione e non hanno figli
Il coefficiente di child mi dice la differenza del numero di ore lavorate tra chi ha figli e chi non ha figli
Pendenza per chi ha figli : beta 1 + beta 3
Beta 3 : -0,234 (non è significativo)
Siccome il termine di interazione non è significativo, la differenza tra gli effetti marginali non è significativo. Le due rette non
hanno pendenza diversa

Mok test fac simile prima prova parziale

L’ufficio controllo di gestione di un’azienda meccanica vuole studiare in che modo l’esperienza dei propri operai incide sulla
qualità del loro lavoro. A questo scopo, su campione di 500 operai, vengono stimati i seguenti modelli di regressione in cui x
rappresenta l’esperienza lavorativa (misurata in anni) e y è un indice di prestazione misurato in una scala da 0 a 100:
Modello 1: = 64.3 + 0.99x
Model 2: = 39.5 + 15.3ln(x)
(le stime, ottenute con il metodo OLS, sono statisticamente significative ad un livello di significatività pari a 0.01).

Si indichi quale delle seguenti affermazioni è falsa:


a) Sulla base del Modello 1, l’effetto marginale sulla qualità del lavoro di un anno aggiuntivo di esperienza è pari a 0.99 per un
operaio con 10 anni di esperienza --> l’effetto marginale è costante, quindi è vera.
b) Sulla base del Modello 2, l’effetto marginale sulla qualità del lavoro di un anno aggiuntivo di esperienza è pari a 0.765 per
un operaio con 20 anni di esperienza --> nei modelli linear log la pendenza è data da Beta2/x. Quindi l’effetto marginale la
cui x è 20 sarà 15,3/20 = 0,765
c) Sulla base del Modello 2, l’elasticità della prestazione rispetto all’esperienza è del 15.3% --> falso perché 15,3 non è
l’elasticità. 15,3% sarebbe l’elasticità se il modello fosse log log.
d) Sulla base del Modello 1, l’effetto marginale sulla qualità del lavoro di un anno aggiuntivo di esperienza è pari a 0.99 per un
operaio con 20 anni di esperienza --> si perché l’effetto marginale dell’esperienza sulla qualità del lavoro è costante e pari a
0,99

Risposta: c

In un test di significatività (quindi un test a due code) l’area a sinistra di |t-oss| è 0.702, a quanto ammonta il p-value?
a) 0.596
b) 0.298
c) 0.702
d) 0.950

Risposta: (1-0,702)*2 = 0,596 --> a

Alle Olimpiadi del 1996, 79 tra i paesi partecipanti hanno vinto almeno una medaglia. Per ciascuno di questi paesi, sia MEDALS
il numero di medaglie vinte, POPM la popolazione in milioni di abitanti, e GDPB il PIL in miliardi di dollari. È stato stimato il
seguente modello di regressione:
MEDALS = β1 + β2POPM + β3GDPB + e
Che ha prodotto le seguenti stime:

Si sottoponga a verifica l’ipotesi che non ci sia una relazione statisticamente significativa fra il numero di medaglie vinte e il PIL
di un paese contro l’ipotesi alternativa che tale relazione esista. Si selezioni l’affermazione corretta:
a) Con un livello di significatività del 5% rifiuto H0
b) Con un livello di significatività dell’1% rifiuto H0
c) Con un livello di significatività del 10% non rifiuto H0
d) Con un livello di significatività del 10% rifiuto H0
H0:
H1:
T obs = 0,013 / 0,007 = 1,857

34
Se il livello di significatività è del 10%, il t critico è 1,645 --> il t obs cade nella zona di rifiuto, quindi al 10% rifiuto
Se il livello di significatività è del 1%, il t critico è 2,575 --> il t obs non cade nella zona di rifiuto, quindi all’1% non rifiuto
Se il livello di significatività è del 5%, il t critico è 1,96 --> il t obs non cade nella zona di rifiuto, quindi al 5% non rifiuto

Risposta: d

Si consideri il seguente modello di regressione che mette in relazione la quota di spesa famigliare in bevande alcoliche (WALC)
con la spesa totale famigliare (TOTEXP), l’età del capofamiglia (AGE) e il numero di bambini in famiglia (NK):
WALC = β1+β2ln(TOTEXP)+β3NK+β4AGE+e

Il modello è stimato su un campione di 1200 famiglie. Una versione incompleta dell’output di stima è riportata qui sotto:

A quanto ammonta (si indichino 3 decimali)?


= t obs * se(b2) = 5,710 * 0,484 = 2,764

Si consideri il seguente modello di regressione usato per misurare l’effetto della formazione dei lavoratori sulla loro produttività:
log(scrap)=β0+β1hrsemp+β2log(sales)+β3log(employ)+e
Dove:
scrap: numero di prodotti difettosi (è spesso usato come misura
della produttività dei lavoratori)
hrsemp: numero di ore annue di formazione per lavoratore
sales: vendite annue (in dollari)
employ : numero di impiegati
Il modello è stato stimato su un campione di 300 aziende, i risultati
di stima sono riportati qui sotto:

Si commenti l’effetto del numero di ore annue di formazione sulla


produttività dei lavoratori (si usi α=5%).
L’effetto del numero di ore di formazione sulla produttività non è significativo al 10%

Si consideri il seguente modello:


log(price)=β0+β1log(lotsize)+β2log(sqrft)+β3bdrms+β4colonial+e
In cui:
price: prezzo delle abitazioni (in migliaia di dollari)
lotsize: ampiezza del lotto in metri quadri
sqrft: ampiezza dell’abitazione in metri quadri
bdrms: numero di stanze
colonial: =1 se l’abitazione è in stile coloniale, =0 se l’abitazione non è in
stile coloniale
Il modello è stato stimato su un campione di 1209 abitazioni e le stime sono
riportate qui sotto:

Si commenti in che modo lo stile coloniale incide sul prezzo delle abitazioni.
Il coefficiente della binaria mi dice la differenza media in percentuale tra chi ha lo stile coloniale e chi non lo ha. il coefficiente è
0,530 ed è significativo all’1%. Le abitazioni in stile coloniale hanno un prezzo più alto del 53% rispetto alle abitazioni non in
stile coloniale, a parità delle altre condizioni

Esercizio Stata
1. Si sottoponga a verifica l’ipotesi nulla che il numero di visite
mediche negli ultimi tre mesi è lo stesso per i paziente sposati di
50 anni o più e per i pazienti non sposati di 50 anni o più

H0: mediadocvis(pazienti sposati) = mediadocvis(pazienti non


sposati)
H1: mediadocvis(pazienti sposati) ≠ mediadocvis(pazienti non
sposati)
Ttest docvis (variabile di cui vogliamo verificare le medie),
by(married) (variabile binaria), if age>=50

35
 Domanda alternativa: riporta il numero medio di visite dei pazienti sposati con più di 50 anni e il numero medio di visite dei
pazienti non sposati con più di 50 anni. La differenza è significativa? In questo caso le medie le troviamo nella prima parte
della tabella: i pazienti non sposati con più di 50 anni hanno registrato un numero medio di visite pari circa a 4, mentre i
pazienti sposati con più di 50 anni hanno registrato un numero medio di visite pari circa a 3,7. La differenza osservata è di
0,3
L’ipotesi nulla è che la differenza sia uguale a 0, mentre l’ipotesi alternativa è che sia diversa da 0. Per capire se la
differenza è significativa si guarda il pvalue pari a 44,6%; in questo caso il p value è maggiore anche dell’alfa più grande,
quindi non rifiuto H0. Concludo che le due medie non sono significativamente diverse.

La stessa conclusione l’avrei raggiunta con un modello di regressione in cui il numero di visite è funzione solo della binaria che
definisce i due sottogruppi
Docvis = B0 + B1married + u
--> differenza tra la media di docvis per coloro che sono sposati e la media di docvis per coloro che non sono sposati
Guardando la significatività del coefficiente, verifico se la differenza è significativa

Il coefficiente married non è significativo,


quindi la differenza del numero medio di
visite tra i sposati e i non sposati non è significativo, quindi non possiamo concludere che la differenza nelle popolazioni sia
diverso da 0.

2. Si stimi un modello di regressione in cui la variabile dipendente docvis è funzione di married, female, income, age e hhkid.
Qual è l’effetto di age sulla variabile dipendente?

Il coefficiente age è significativo all’1%.


All’aumentare di un anno di età, il numero di
visite mediche negli ultimi 3 anni aumenta in media di 0,05, a parità delle altre condizioni

3. Si vuole sottoporre a verifica l’ipotesi che non ci sia alcuna relazione


statisticamente significativa fra il numero di visite mediche e lo status matrimoniale
dei pazienti (a parità di età, genere, reddito e presenza di figli minori di 16 anni)
contro l’ipotesi che tale relazione esista. Ipotizzando di usare , si rappresenti tale
test con un grafico che riporti i valori critici, la statistica test osservata e il p-value.

Il coefficiente married non è significativo, quindi accetto l’ipotesi nulla che non ci sia
alcuna relazione statisticamente significativa fra il numero di visite mediche e lo
status matrimoniale dei pazienti
4. Si sospetta che l’effetto dell’età sul numero di visite mediche sia diverso per i
pazienti sposati e per i pazienti non sposati. Si apportino le dovute modifiche al modello precedentemente stimato per verificare
se tale differenza esiste. Si stimi il modello opportunamente modificato e si commenti.

Y = B0 + B1married + B2age + B3income + B4hhkids + B5female + B6married*age


Se il coefficiente del termine di interazione è significativo posso concludere che l’effetto di un anno d’età in più sul numero di
visite mediche è diverso tra coloro che sono sposati e coloro che non sono sposati

36
Il coefficiente married_age non è significativo
(pvalue > 10%), quindi concludo che l’effetto marginale dell’età sul numero di visite non è significativamente diverso tra i
pazienti sposati e i pazienti non sposati, a parità degli altri fattori.

5. Qual è il livello di istruzione medio delle pazienti nel campione?

Il livello medio di istruzione delle pazienti nel


campione è di circa 11 anni

Assignment 7

a. Si consideri la seguente funzione di produzione:

Che segno e ampiezza ti aspetti che abbiano i coefficienti e ?


Osserva i grafici riassuntivi qui sotto per rispondere:

B3: la relazione è log log, quindi guardiamo il grafico c e d. B3


avrà una relazione crescente a tasso decrescente, quindi B3
sarà positivo

b. Usando solamente i dati riferiti al 1993, si stimi la seguente


funzione di produzione:

Si riporti e si commenti l’elasticità della produzione di riso


rispetto all’area coltivata, al Lavoro impiegato e alla
quantità di fertilizzante utilizzata.

Il coefficiente lnarea è significativo al 10%. L’elasticità della produzione rispetto all’area coltivata è pari a 0,25%.
All’aumentare dell’1% dell’area coltivata, la produzione
aumenta dello 0,25%, a parità degli altri fattori
Il coefficiente lnlabor è significativo al 5%. All’aumentare
dell’1% del lavoro impiegato, la produzione aumenta dello
0,32%, a parità degli altri fattori
Il coefficiente lnfert è significativo all’1%. Quando aumento
dell’1% la quantità di fertilizzante, la produzione aumenta
di 0,33%, a parità degli altri fattori

c. Si sottoponga a verifica la seguente ipotesi: contro


l’ipotesi alternativa

37
Comando reg precedente
Subito dopo comando: test larea llabor

d. Si completi la tabella seguente con i valori opportuni (si può svolgere l’esercizio anche senza eseguire ulteriori comandi di
Stata):

Null and Alternative Observed test 1% Critical value p-value Test decision
hypotheses statistic
1,89 + 2,575 – 2,575 0,066 Non rifiuto H0

-1,125 + 2,575 – 2,575 (1-0,8708)*2 = Non rifiuto H0


0,2584
4,70 + 2,575 – 2,575 0,000 Rifiuto H0

e. Si stimi una nuova funzione di produzione in cui la produzione di riso per ettaro coltivato è funzione del logaritmo del lavoro
impiegato per ettaro coltivato e del logaritmo del fertilizzante utilizzato per ettaro coltivato. Si riportino i coefficienti stimati e
la loro significatività e si commenti come contribuisce il lavoro alla produzione di riso.

Devo trasformare le variabili in unità per ettaro


Gen prod_hect=prod/area
Gen lnfert_hect=ln(fert/area)
Gen lnlabor_hect=ln(labor/area)

Il coeffiente lnlabor_hect è significativo all’1%. All’aumentare di


1% nel lavoro impiegato per ettaro coltivato, la produzione
aumenta in media di 0,01 tonnellate per ettaro.

Assignment 8
1. Considerando il campione di 526 lavoratori osservato, stabilire se esiste una differenza significativa nel livello di istruzione
tra uomini e donne.

H0: media istruzione delle donne = media istruzione dei maschi


H1: media femmine ≠ media maschi

Il livello di istruzione tra donne e uomini è


significativamente diverso al 10%, quindi rifiuto
l’ipotesi nulla.
12,3 è il livello di istruzione medio delle donne, mentre 12,8 il livello di istruzione medio degli uomini

38
Il coefficiente female è significativo al 10%, quindi rifiuto l’ipotesi nulla. Il coefficiente B2 indica la differenza nei livelli di
istruzioni nel campione, quindi la differenza del livello medio di istruzione tra i due gruppi è significativa al 10%

2. Si stimi un modello di regressione lineare in cui il salario è funzione del livello di istruzione, del genere del lavoratore e
dell’esperienza, verificando se l’effetto marginale dell’esperienza sul salario medio sia diversa tra uomini e donne. Si
discuta brevemente.

Wage = B0 + B1educ + B2 female + B3 exper + B4exper*female

Il coefficiente exper_female è significativo all’1%,


quindi l’effetto marginale dell’esperienza sul salario
medio è diverso tra uomini e donne.
Sulla base di questo modello posso stabilire se l’effetto
marginale dell’istruzione tra uomini e donne è diverso?
No, perché non ho il termine di interazione tra educ e
female, questo modello assume che l’effetto
dell’istruzione sulle donne e uomini sia lo stesso (le
due rette differiscono solo per l’intercetta).

L’effetto marginale dell’istruzione sui salari:


all’aumentare dell’istruzione di un anno, i salari
aumentano di 0,62

L’effetto marginale dell’esperienza sui salari per gli


uomini: per gli uomini un anno in più di esperienza determina un aumento di 10 centesimi nel salario orario. Per le donne
invece sommo B3 e B4, quindi un anno in più di esperienza per le donne determina un aumento di 2 centesimi sul salario

39

Potrebbero piacerti anche