Sei sulla pagina 1di 20

Metodi statistici per leconomia (Prof.

Capitanio)

Slide n. 10

Materiale di supporto per le lezioni. Non sostituisce il libro di testo


1

REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si interessati a studiare se e in che misura la variabile Y (che chiameremo VARIABILE DIPENDENTE o RISPOSTA) sia influenzata dalla X (VARIABILE ESPLICATIVA o INDIPENDENTE). Negli studi empirici la relazione che lega Y ad X non potr mai essere funzionale, in quanto ad uno stesso valore di X corrisponderanno pi valori di Y.
Volume delle vendite (migliaia di !)

21 19 17 15 13 11 9 7
0 1 2 3 4 5 6 7

Investimento in pubblicit (migliaia di !)

Rappresenteremo il legame attraverso una relazione statistica, descritta da modelli del tipo:

Y = f (x ) + !

f ( x ) rappresenta il contributo della variabile esplicativa X (componente deterministica)

! rappresenta il contributo di tutti i fattori non osservati (errore) (componente casuale, non osservabile)
nel nostro modello Y una variabile casuale

Ipotizzeremo che la relazione che lega Y ad X sia di tipo lineare:

Y = ! 0 + !1X + "

MODELLO DI REGRESSIONE LINEARE SEMPLICE I dati che abbiamo a disposizione sono n coppie di valori di X e di Y osservati congiuntamente

(x , y )
i i

i = 1,2, , n

Assunzioni del modello di regressione lineare classico 1) I valori della variabile Y che osserviamo sono generati da:

Yi = ! 0 + !1x i + " i per ogni i = 1,2, , n


2) Le componenti derrore ! i sono variabili casuali indipendenti con E (! i ) = 0 e

Var (! i ) = " 2 , per ogni i = 1,2, , n . (Lipotesi di varianza uguale per tutte le
componenti viene detta omoschedasticit) I valori x i sono noti senza errore.

3)

Dalle tre assunzioni precedenti consegue che le osservazioni y i sono realizzazioni di variabili casuali: a) indipendenti b) con valore atteso c) con varianza In particolare, la b) significa che in corrispondenza del valore X = x i , osserveremo un valore di Y mediamente pari a ! 0 + !1 x i . Problema:

STIMARE I PARAMETRI ! 0 E !1 sulla base delle osservazioni campionarie


5

METODO DEI MINIMI QUADRATI


+! x =! y 0 1

=y "y ! i i i

(x , y )
i i

+! x =! y i 0 1 i

valori di Y stimati attraverso la retta

=y !y residui (sono una stima degli errori non osservabili ! ) e i i i i

Stimiamo i parametri ! 0 e !1 con i valori che rendono minima la somma dei residui al quadrato.

e! che minimizzano: Si tratta quindi di trovare i valori ! 0 1

La soluzione :

COEFFICIENTE DI REGRESSIONE INTERCETTA

Restano quindi definiti gli stimatori

B1 =

Cod ( x ,Y ) Dev ( x )

Cov ( x ,Y ) Var ( x )

B 0 = Y ! B1x

Propriet
1) e sono stimatori corretti di ! 0 e !1 e !1 che sono funzioni lineari delle

2) Nella classe degli stimatori corretti di ! 0

y i gli stimatori dei minimi quadrati sono i pi efficienti. (Teorema di Gauss-Markov).

Inoltre:

SCOMPOSIZIONE DELLA DEVIANZA

Somma totale dei quadrati (SQT) Devianza totale Somma dei quadrati della regressione (SQR) Devianza di regressione Somma dei quadrati degli errori (SQE) Devianza di dispersione o residua

10

(x i , y i )

11

COEFFICIENTE DI DETERMINAZIONE LINEARE Quantifica ladeguatezza del modello

Indica la proporzione di variabilit di Y spiegata dalla variabile esplicativa X attraverso il modello di regressione.

1) 0 ! R 2 ! 1 2) R 2 = !2 2Dev ( x ) 3) Dev regr (Y ) = ! 1

12

0 ! R2 ! 1

quando

Dev regr = 0

! y = 0 tutti i valori stimati sono uguali alla media di Y y i


INDIPENDENZA LINEARE DI Y DA X

R 2 = 1 quando Dev regr = Dev tot , ovvero


Dev disp = 0
= 0 tutti i valori stimati sono uguali a quelli osservati yi ! y i
DIPENDENZA LINEARE PERFETTA DI Y DA X

13

STIMA DELLA VARIANZA ! 2 DELLERRORE

Uno stimatore corretto della varianza

La radice quadrata di una misura della variabilit degli scostamenti dei valori osservati da quelli previsti dal modello (indica quanto sono dispersi i valori osservati attorno alla retta stimata): viene usualmente chiamato errore standard di regressione

Si dimostra che

!e
i =1

= 0 (e quindi la media dei residui 0)


n
2

) = " (e ! M(e )) = " e 2 Di conseguenza Dev (e i i i


i =1 i =1

14

Abbiamo visto che:

E (B1 ) = !1 ;

E (B 0 ) = ! 0
e

Possiamo stimare la varianza di e

attraverso

(stimatore della varianza dellerrore) e gli errori standard con: e

15

ASSUNZIONE DI NORMALITA DISTRIBUTIVA DEGLI ERRORI Per poter fare inferenza specifichiamo la forma distributiva degli errori particolare assumiamo che Ricordando lespressione del modello . In

, questa assunzione implica:

Sotto lipotesi di Normalit distributiva degli errori si ha: 1) Gli stimatori dei minimi quadrati e hanno distribuzione Normale.

# "2 & B1 ! N % !1 ; ( $ Dev ( x ) '


2) e

16

INTERVALLI DI REGRESSIONE

CONFIDENZA

PER

PARAMETRI

DELLA

RETTA

DI

17

TEST DIPOTESI SUI PARAMETRI DELLA RETTA DI REGRESSIONE

Test sul coefficiente di regressione


Focalizziamo lattenzione sul sistema di ipotesi

Porre equivale a dire che la variabile risposta Y linearmente indipendente da X, e quindi la variabile indipendente X non aiuta a spiegare meglio Y. La statistica test da utilizzare che, sotto Si rifiuta , ha distribuzione quando , dove

18

Per i sistemi di ipotesi

(a)

(b)

si usa la statistica test che, sotto , ha distribuzione .

Le regioni di rifiuto sono rispettivamente: (a) e (b) , dove

19

Test sullintercetta

(a)

(b)

(c)

La statistica test da utilizzare che, sotto , ha distribuzione .

Le regioni di rifiuto sono rispettivamente: (a) dove (b) (c)

20