Progetto Statistica

PROGETTO DI STATISTICA
Analisi dell’aspettativa di vita negli Stati Uniti d’America
Si è analizzato un dataset relativo agli Stati Uniti d’America nel periodo di riferimento
1970-79, costituito da 50 osservazioni per le 8 differenti variabili continue:
popolazione, reddito pro-capite, livello di analfabetismo, aspettativa di vita, tasso di
omicidi, percentuale di diplomati, media dei giorni in cui la temperatura è stata sotto
gli 0°C.
Il progetto si articolerà in due parti: una prima parte costituita da un’analisi

descrittiva, per cui si sono costruiti gli istogrammi ed i boxplot riguardanti le diverse
variabili, ed una seconda in cui si è provato a realizzare un modello statistico
secondo regressione lineare multipla per la variabile aspettativa di vita.
ANALISI DESCRITTIVA
ASPETTATIVA DI VITA
Media varianza minimo massimo mediana I quartile III quartile

70.880 1.802 67.960 73.600 70.670 70.120 71.890
POPOLAZIONE
media varianza minimo massimo mediana I quartile III quartile

4246 19931684 365 21198 2838 1080 4968
REDDITO PRO-CAPITE

4436 377573 3098 6315 4519 3993 4814
ANALFABETISMO

1.170 0.372 0.500 2.800 0.950 0.625 1.575
OMICIDI

7.378 13.627 1.400 15.100 6.850 4.350 10.675
DIPLOMATI

53.110 65.238 37.800 67.300 53.250 48.050 59.150
GIORNI CON TEMPERATURA SOTTO GLI 0°C

104.460 2702 0.000 188.000 114.500 66.250 139.750
AREA

70736 7280748061 1049 566432 54277 36985 81163
REGRESSIONE LINEARE
Si proceda ora con la regressione, ipotizzando, dapprima, che la variabile aspettativa
di vita dipenda da tutte le restanti 7 variabili.
Si ipotizzi, quindi, la retta di regressione:
Y=a+bX1+cX2+dX3+eX5+fX6+gX7+hX8
dove:
Y = aspettativa di vita,
X1 = popolazione,
X2 = reddito pro-capite,
X3 = analfabetismo,
X5 = omicidi,
X6 = diplomati,
X7 = giorni in cui la temperatura è sotto 0°C,
X8 = area.
SCATTERPLOT
Dall’analisi dei grafici si può evincere che

le tre variabili popolazione, reddito pro-
capite e area non risultano seguire un
andamento lineare; per questo non
sembrano essere significative.
Tuttavia, prima di scartare tali variabili, si
proceda nella regressione.
OUTPUT DI REGRESSIONE CON TUTTE LE VARIABILI
Call:
lm(formula = Y ~ X1 + X2 + X3 + X5 + X6 + X7 + X8)
Residuals:
Min 1Q Median 3Q Max
-1.48895 -0.51232 -0.02747 0.57002 1.49447
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.094e+01 1.748e+00 40.586 < 2e-16 ***
X1 5.180e-05 2.919e-05 1.775 0.0832 .
X2 -2.180e-05 2.444e-04 -0.089 0.9293
X3 3.382e-02 3.663e-01 0.092 0.9269
X5 -3.011e-01 4.662e-02 -6.459 8.68e-08 ***
X6 4.893e-02 2.332e-02 2.098 0.0420 *
X7 -5.735e-03 3.143e-03 -1.825 0.0752 .
X8 -7.383e-08 1.668e-06 -0.044 0.9649
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7448 on 42 degrees of freedom

Multiple R-squared: 0.7362, Adjusted R-squared: 0.6922
F-statistic: 16.74 on 7 and 42 DF, p-value: 2.534e-10
Guardando la colonna dei P-Value di ogni variabile si nota che quello relativo a X8
(area) si discosta maggiormente dal valore 0, perciò procediamo a eseguire
nuovamente la regressione eliminando la variabile.
Output di regressione escludendo la variabile di regressione X 8

Call:
lm(formula = Y ~ X1 + X2 + X3 + X5 + X6 + X7)
Residuals:
-1.49047 -0.52533 -0.02546 0.57160 1.50374
Coefficients:
(Intercept) 7.099e+01 1.387e+00 51.165 < 2e-16 ***
X1 5.188e-05 2.879e-05 1.802 0.0785 .
X2 -2.444e-05 2.343e-04 -0.104 0.9174
X3 2.846e-02 3.416e-01 0.083 0.9340
X5 -3.018e-01 4.334e-02 -6.963 1.45e-08 ***
X6 4.847e-02 2.067e-02 2.345 0.0237 *
X7 -5.776e-03 2.970e-03 -1.945 0.0584 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Iteriamo il procedimento per le variabili meno significative.
Output di regressione escludendo le variabili di regressione X 8,

X3
Call:
lm(formula = Y ~ X1 + X2 + X5 + X6 + X7)
Residuals:
-1.4892 -0.5122 -0.0329 0.5645 1.5166
Coefficients:
(Intercept) 7.107e+01 1.029e+00 69.067 < 2e-16 ***
X1 5.115e-05 2.709e-05 1.888 0.0657 .
X2 -2.477e-05 2.316e-04 -0.107 0.9153
X5 -3.000e-01 3.704e-02 -8.099 2.91e-10 ***
X6 4.776e-02 1.859e-02 2.569 0.0137 *
X7 -5.910e-03 2.468e-03 -2.395 0.0210 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Output di regressione escludendo la variabile di regressione X 8,

X3, X2
Call:
lm(formula = Y ~ X1 + X5 + X6 + X7)
Residuals:
-1.47095 -0.53464 -0.03701 0.57621 1.50683
Coefficients:
(Intercept) 7.103e+01 9.529e-01 74.542 < 2e-16 ***
X1 5.014e-05 2.512e-05 1.996 0.05201 .
X5 -3.001e-01 3.661e-02 -8.199 1.77e-10 ***
X6 4.658e-02 1.483e-02 3.142 0.00297 **
X7 -5.943e-03 2.421e-03 -2.455 0.01802 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Output di regressione con le sole variabili X5, X6, X7
Call:
lm(formula = Y ~ X5 + X6 + X7)
Residuals:
-1.5015 -0.5391 0.1014 0.5921 1.2268
Coefficients:
(Intercept) 71.036379 0.983262 72.246 < 2e-16 ***
X5 -0.283065 0.036731 -7.706 8.04e-10 ***
X6 0.049949 0.015201 3.286 0.00195 **
X7 -0.006912 0.002447 -2.824 0.00699 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Ora i P-Value delle 3 variabili sono accettabili, quello del F-test è molto basso; quindi
consideriamo valido questo ultimo modello di regressione.
Inoltre R2 adj è pari a 69.39%; essendo un valore discretamente alto, lo si può
dunque accettare nel modello.
Accettando quest’ultima regressione, la retta finale risulta dunque:
Y=71.036379-0.283065X5+0.049949X6-0.006912X7
GRAFICI DEI RESIDUI
Dai grafici si vede come i residui si dispongano in modo casuale intorno al valore 0;
per questi motivi, confermiamo la validità del modello di regressione
precedentemente analizzato.
GRAFICO DEI RESIDUI STANDARDIZZATI
Da questo grafico si nota come la quasi totalità dei residui delle osservazioni sia
compresa tra -2 e 2, confermando ancora una volta la validità del modello proposto.
NORMAL PROBABILITY PLOT DEI RESIDUI
La parte centrale del NPP è aderente alla retta, ma si riscontrano problemi nella coda
inferiore e superiore, dove i residui sembrano discostarsi dall’andamento gaussiano.

Progetto Statistica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Progetto Statistica

Caricato da

Copyright:

Formati disponibili

PROGETTO DI STATISTICA

Analisi dell’aspettativa di vita negli Stati Uniti d’America

Il progetto si articolerà in due parti: una prima parte costituita da un’analisi

Media varianza minimo massimo mediana I quartile III quartile

media varianza minimo massimo mediana I quartile III quartile

Media varianza minimo massimo mediana I quartile III quartile

media varianza minimo massimo mediana I quartile III quartile

Media varianza minimo massimo mediana I quartile III quartile

Media varianza minimo massimo mediana I quartile III quartile

media varianza minimo massimo mediana I quartile III quartile

media varianza minimo massimo mediana I quartile III quartile

Dall’analisi dei grafici si può evincere che

Residual standard error: 0.7448 on 42 degrees of freedom

Output di regressione escludendo la variabile di regressione X 8

Residual standard error: 0.7361 on 43 degrees of freedom

Output di regressione escludendo le variabili di regressione X 8,

Residual standard error: 0.7277 on 44 degrees of freedom

Output di regressione escludendo la variabile di regressione X 8,

Residual standard error: 0.7197 on 45 degrees of freedom

Residual standard error: 0.7427 on 46 degrees of freedom

Accettando quest’ultima regressione, la retta finale risulta dunque:

NORMAL PROBABILITY PLOT DEI RESIDUI

Potrebbero piacerti anche