Sei sulla pagina 1di 5

CASCHOOL GRETL REGRESSIONE NON LINEARE

TEST SCR & STR


TESTSCR AVGINC AVG TEST SCORE DISTRICT AVERAGE INCOME (IN $1000'S) Media dei punteggi ottenuti nelle prove di lettura e di mate Reddito medio per distretto in migliaia di dollari (READ_SCR+MATH_SCR)/ 2

TESTSCR & AVGINC Regressione Quadratica

testscr rispetto a avginc (con retta dei minimi quadrati) 740 Y = 625, + 1,88X

720

700

680 testscr 660 640 620 600

Dal grafico a nuvola qui avginc sopra si nota una forte correlazione positiva tra reddito e punteggi: gli studenti dei distretti pi ricchi ottengono punteggi pi alti nei test rispetto agli studenti dei distretti pi poveri. Notiamo che questo grafico ha una particolarit: la maggior parte dei punti giace al di sotto della retta OLS

10

20

30

40

50

quando il reddito medio molto basso (< 10.000 $) o molto alto (> 40.000 $) mentre si trova al di sopra della retta quando il reddito medio tra i 15.000 $ e i 30.000 $. Quindi sembra esserci una curvatura nella regressione che non viene catturata dalla ragressione lineare. Per procedere ad un modello di regressione non lineare definisco una nuova variabile: AVGINC2 = AVGINC^2 E procedo al modello di regressione come se avessi due regressori ( avginc e avginc2 ). Modello 1: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const avginc avginc2 Coefficiente 607,302 3,85099 -0,0423085 Errore Std. 2,90175 0,268094 0,00478034 rapporto t 209,2878 14,3643 -8,8505 p-value <0,00001 <0,00001 <0,00001 *** *** ***

Media var. dipendente 654,1565 SQM var. dipendente 19,05335 Somma quadr. residui 67510,32 E.S. della regressione 12,72381 R-quadro 0,556173 R-quadro corretto 0,554045 F(2, 417) 428,5233 P-value(F) 7,4e-102 Log-verosimiglianza -1662,708 Criterio di Akaike 3331,416 Criterio di Schwarz 3343,537 Hannan-Quinn 3336,207 Fz di regressione non lineare: TESTSCR = 607,302 + 3,851 AVGINC 0,042 (AVGINC)2 Da questo modello si ottiene la seguente regressione quadratica:
testscr: valori effettivi e stimati, rispetto a avginc 720 Effettivi Stime

700

680

testscr

660

640

620

600 10 20 30 avginc 40 50

Tale funzione coglie la curvatura evidenziata dal grafico a nuvola, ovvero la funzione quadratica sembra adattarsi ai dati meglio di quella lineare. Per verificare questa nostra ipotesi in modo formale procediamo ad un test in cui poniamo come ipotesi nulla che il coefficiente di avginc2 sia nullo contro unalternativa bilaterale: se la relazione fosse lineare allora varrebbe la nulla 2 = 0. La statistica t per uqesta ipotesi quella fornita dalla tabella sopra: cio rapporto t -8,851. | -8,851 | > 1,96 quindi possiamo rifiutare la nulla ad un livello del 5 %. Inoltre il p-value < 0,01 % quindi si rifiuta la nulla a tutti i livelli di significativit convenzionali. Quindi abbiamo verificato formalmente che il modello quadratica si adatta ai dati meglio di quello lineare. Ora ci chiediamo quale sia la variazione predetta dei punteggi nei test associata ad una variazione del reddito del distretto da 10.000 $ a 11.000 $. Sappiamo che la variazione Y data da Y = f (X1+X1, X2,, Xn) + f (X1, X2,, Xn) dove f o stimatore della funzione di regressione della popolazione. Dunque f = 607,302 + 3,851 AVGINC 0,042 (AVGINC)2. Da cui Y = 607,302 + 3,851 * 11 0,042 * (11)2 [607,302 + 3,851 * 10 0,042 * (10)2] = 3,851 * 1 0,042 * 21 = 2,96 Quindi la differenza predetta tra i punteggi nel test di un distretto con un reddito medio di 11.000 $ e di uno con reddito medio di 10.000 $ di 2,96 punti. Ora ci chiediamo quale sia la variazione predetta dei punteggi nei test associata ad una variazione del reddito del distretto da 40.000 $ a 41.000 $. Dunque Y = 607,302 + 3,851 * 41 0,042 * (41)2 [607,302 + 3,851 * 40 0,042 * (40)2] = 3,851 * 1 0,042 * 81 = 0,45 Quindi la differenza predetta tra i punteggi nel test di un distretto con un reddito medio di 41.000 $ e di uno con reddito medio di 40.000 $ di 0,45 punti. Dunque una variazione nel reddito di 1.000 $ associata a una variazione predetta maggiore nei punteggi quando il reddito iniziale basso (10.000 $) rispetto a quando alto (40.000 $). In altre parole, la pendenza della funzione di regressione quadratica stimata pi elevata per bassi livelli di reddito che per alti livelli di reddito. Questo effetto stimato dipende per dallo stimatore f della funzione di regressione della popolazione quindi leffetto stimato Y contiene errori campionari. Dunque per calcolare lincerterzza circa leffetto stimatocalcoliamo un intervallo di confidenza per leffetto stimato. Calcoliamo la statistica F per lipotesi 1 + 212 = 0:
Vincolo: b[avginc] + 21*b[avginc2] = 0 Statistica test: F robusta(1, 417) = 299,942, con p-value = 5,12059e-051 Stime vincolate: coefficiente errore std. rapporto t p-value -------------------------------------------------------------const 655,817 0,803952 815,7 0,0000 *** avginc -0,997275 0,0793665 -12,57 6,08e-031 *** avginc2 0,0474893 0,00377936 12,57 6,08e-031 *** Errore standard della regressione = 16,2521

Ora usiamo la formula SE(Y) = passaggio da 10.000 a 11.000 $

| Y | F

da cui otteniamo per quanto riguarda leffetto stimato per un

SE(Y) = 2,96/(299,942 ) = 0,1709 da cui otteniamo lintervallo di confidenza tramite la formula: 1X1 1,96 SE(1) X1 ovvero lintrvallo di confidenza per leffetto stimato 2.96 1.96 * 0.17 * 1 = (2.63 , 3.29). Regressione Cubica Introduciamo la variabile AVGINC3 = AVGINC^3. Stimiamo il modello di regressione: Modello 3: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const avginc avginc2 avginc3 Coefficiente Errore Std. 600,079 5,10206 5,01868 0,70735 -0,0958052 0,0289537 0,000685484 0,000347065 654,1565 67169,69 0,558413 270,1797 -1661,646 3347,453 rapporto t 117,6150 7,0950 -3,3089 1,9751 p-value <0,00001 <0,00001 0,00102 0,04892 *** *** *** **

Media var. dipendente Somma quadr. residui R-quadro F(3, 416) Log-verosimiglianza Criterio di Schwarz

SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn

19,05335 12,70691 0,555228 2,81e-97 3331,292 3337,679

Fz di regr. nonlin. : TESTSCR = 600,1 + 5,0 AVGINC 0,1 (AVGINC)2 + 0,001 (AVGINC)3 La statistica t relativa a AVGINC3 1,975 > 1,96 quindi lipotesi nulla che 3 = 0 e cio che la funzione di regressione sia quadratica pu essere rifiutata ad un livello di significativit del 5 % a afavore dellalternativa che essa sia cubica. Statistica F con ipotesi nulla 2 = 0 e 3 = 0, cio che verifichiamo lipotesi nulla che la funzione di regressione sia lineare contro lalternativa che sia cubica:
Insieme di vincoli 1: b[avginc2] = 0 2: b[avginc3] = 0 Statistica test: F robusta(2, 416) = 37,6908, con p-value = 9,0426e-016 Stime vincolate: coefficiente errore std. rapporto t p-value --------------------------------------------------------------const 625,384 1,53240 408,1 0,0000 *** avginc 1,87855 0,0905044 20,76 2,75e-066 *** avginc2 0,000000 0,000000 NA NA

avginc3

0,000000

0,000000

NA

NA

Errore standard della regressione = 13,3865

Poich il p-value < 0,01 % lipotesi nulla che la regressione sia lineare rifiutata a favore dellalternativa che tale regressione sia cubica. Grafico della regressione stimata:

testscr: valori effettivi e stimati, rispetto a avginc 720 Stime Effettivi

700

680

testscr

660

640

620

600 10 20 30 avginc 40 50