Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
testscr rispetto a avginc (con retta dei minimi quadrati) 740 Y = 625, + 1,88X
720
700
Dal grafico a nuvola qui avginc sopra si nota una forte correlazione positiva tra reddito e punteggi: gli studenti dei distretti pi ricchi ottengono punteggi pi alti nei test rispetto agli studenti dei distretti pi poveri. Notiamo che questo grafico ha una particolarit: la maggior parte dei punti giace al di sotto della retta OLS
10
20
30
40
50
quando il reddito medio molto basso (< 10.000 $) o molto alto (> 40.000 $) mentre si trova al di sopra della retta quando il reddito medio tra i 15.000 $ e i 30.000 $. Quindi sembra esserci una curvatura nella regressione che non viene catturata dalla ragressione lineare. Per procedere ad un modello di regressione non lineare definisco una nuova variabile: AVGINC2 = AVGINC^2 E procedo al modello di regressione come se avessi due regressori ( avginc e avginc2 ). Modello 1: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const avginc avginc2 Coefficiente 607,302 3,85099 -0,0423085 Errore Std. 2,90175 0,268094 0,00478034 rapporto t 209,2878 14,3643 -8,8505 p-value <0,00001 <0,00001 <0,00001 *** *** ***
Media var. dipendente 654,1565 SQM var. dipendente 19,05335 Somma quadr. residui 67510,32 E.S. della regressione 12,72381 R-quadro 0,556173 R-quadro corretto 0,554045 F(2, 417) 428,5233 P-value(F) 7,4e-102 Log-verosimiglianza -1662,708 Criterio di Akaike 3331,416 Criterio di Schwarz 3343,537 Hannan-Quinn 3336,207 Fz di regressione non lineare: TESTSCR = 607,302 + 3,851 AVGINC 0,042 (AVGINC)2 Da questo modello si ottiene la seguente regressione quadratica:
testscr: valori effettivi e stimati, rispetto a avginc 720 Effettivi Stime
700
680
testscr
660
640
620
600 10 20 30 avginc 40 50
Tale funzione coglie la curvatura evidenziata dal grafico a nuvola, ovvero la funzione quadratica sembra adattarsi ai dati meglio di quella lineare. Per verificare questa nostra ipotesi in modo formale procediamo ad un test in cui poniamo come ipotesi nulla che il coefficiente di avginc2 sia nullo contro unalternativa bilaterale: se la relazione fosse lineare allora varrebbe la nulla 2 = 0. La statistica t per uqesta ipotesi quella fornita dalla tabella sopra: cio rapporto t -8,851. | -8,851 | > 1,96 quindi possiamo rifiutare la nulla ad un livello del 5 %. Inoltre il p-value < 0,01 % quindi si rifiuta la nulla a tutti i livelli di significativit convenzionali. Quindi abbiamo verificato formalmente che il modello quadratica si adatta ai dati meglio di quello lineare. Ora ci chiediamo quale sia la variazione predetta dei punteggi nei test associata ad una variazione del reddito del distretto da 10.000 $ a 11.000 $. Sappiamo che la variazione Y data da Y = f (X1+X1, X2,, Xn) + f (X1, X2,, Xn) dove f o stimatore della funzione di regressione della popolazione. Dunque f = 607,302 + 3,851 AVGINC 0,042 (AVGINC)2. Da cui Y = 607,302 + 3,851 * 11 0,042 * (11)2 [607,302 + 3,851 * 10 0,042 * (10)2] = 3,851 * 1 0,042 * 21 = 2,96 Quindi la differenza predetta tra i punteggi nel test di un distretto con un reddito medio di 11.000 $ e di uno con reddito medio di 10.000 $ di 2,96 punti. Ora ci chiediamo quale sia la variazione predetta dei punteggi nei test associata ad una variazione del reddito del distretto da 40.000 $ a 41.000 $. Dunque Y = 607,302 + 3,851 * 41 0,042 * (41)2 [607,302 + 3,851 * 40 0,042 * (40)2] = 3,851 * 1 0,042 * 81 = 0,45 Quindi la differenza predetta tra i punteggi nel test di un distretto con un reddito medio di 41.000 $ e di uno con reddito medio di 40.000 $ di 0,45 punti. Dunque una variazione nel reddito di 1.000 $ associata a una variazione predetta maggiore nei punteggi quando il reddito iniziale basso (10.000 $) rispetto a quando alto (40.000 $). In altre parole, la pendenza della funzione di regressione quadratica stimata pi elevata per bassi livelli di reddito che per alti livelli di reddito. Questo effetto stimato dipende per dallo stimatore f della funzione di regressione della popolazione quindi leffetto stimato Y contiene errori campionari. Dunque per calcolare lincerterzza circa leffetto stimatocalcoliamo un intervallo di confidenza per leffetto stimato. Calcoliamo la statistica F per lipotesi 1 + 212 = 0:
Vincolo: b[avginc] + 21*b[avginc2] = 0 Statistica test: F robusta(1, 417) = 299,942, con p-value = 5,12059e-051 Stime vincolate: coefficiente errore std. rapporto t p-value -------------------------------------------------------------const 655,817 0,803952 815,7 0,0000 *** avginc -0,997275 0,0793665 -12,57 6,08e-031 *** avginc2 0,0474893 0,00377936 12,57 6,08e-031 *** Errore standard della regressione = 16,2521
| Y | F
SE(Y) = 2,96/(299,942 ) = 0,1709 da cui otteniamo lintervallo di confidenza tramite la formula: 1X1 1,96 SE(1) X1 ovvero lintrvallo di confidenza per leffetto stimato 2.96 1.96 * 0.17 * 1 = (2.63 , 3.29). Regressione Cubica Introduciamo la variabile AVGINC3 = AVGINC^3. Stimiamo il modello di regressione: Modello 3: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const avginc avginc2 avginc3 Coefficiente Errore Std. 600,079 5,10206 5,01868 0,70735 -0,0958052 0,0289537 0,000685484 0,000347065 654,1565 67169,69 0,558413 270,1797 -1661,646 3347,453 rapporto t 117,6150 7,0950 -3,3089 1,9751 p-value <0,00001 <0,00001 0,00102 0,04892 *** *** *** **
Media var. dipendente Somma quadr. residui R-quadro F(3, 416) Log-verosimiglianza Criterio di Schwarz
SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn
Fz di regr. nonlin. : TESTSCR = 600,1 + 5,0 AVGINC 0,1 (AVGINC)2 + 0,001 (AVGINC)3 La statistica t relativa a AVGINC3 1,975 > 1,96 quindi lipotesi nulla che 3 = 0 e cio che la funzione di regressione sia quadratica pu essere rifiutata ad un livello di significativit del 5 % a afavore dellalternativa che essa sia cubica. Statistica F con ipotesi nulla 2 = 0 e 3 = 0, cio che verifichiamo lipotesi nulla che la funzione di regressione sia lineare contro lalternativa che sia cubica:
Insieme di vincoli 1: b[avginc2] = 0 2: b[avginc3] = 0 Statistica test: F robusta(2, 416) = 37,6908, con p-value = 9,0426e-016 Stime vincolate: coefficiente errore std. rapporto t p-value --------------------------------------------------------------const 625,384 1,53240 408,1 0,0000 *** avginc 1,87855 0,0905044 20,76 2,75e-066 *** avginc2 0,000000 0,000000 NA NA
avginc3
0,000000
0,000000
NA
NA
Poich il p-value < 0,01 % lipotesi nulla che la regressione sia lineare rifiutata a favore dellalternativa che tale regressione sia cubica. Grafico della regressione stimata:
700
680
testscr
660
640
620
600 10 20 30 avginc 40 50