Sei sulla pagina 1di 21

PROGETTO DI STATISTICA

Analisi dell’aspettativa di vita negli Stati Uniti d’America

Si è analizzato un dataset relativo agli Stati Uniti d’America nel periodo di riferimento
1970-79, costituito da 50 osservazioni per le 8 differenti variabili continue:
popolazione, reddito pro-capite, livello di analfabetismo, aspettativa di vita, tasso di
omicidi, percentuale di diplomati, media dei giorni in cui la temperatura è stata sotto
gli 0°C.

Il progetto si articolerà in due parti: una prima parte costituita da un’analisi


descrittiva, per cui si sono costruiti gli istogrammi ed i boxplot riguardanti le diverse
variabili, ed una seconda in cui si è provato a realizzare un modello statistico
secondo regressione lineare multipla per la variabile aspettativa di vita.
ANALISI DESCRITTIVA

ASPETTATIVA DI VITA

Media varianza minimo massimo mediana I quartile III quartile


70.880 1.802 67.960 73.600 70.670 70.120 71.890
POPOLAZIONE

media varianza minimo massimo mediana I quartile III quartile


4246 19931684 365 21198 2838 1080 4968
REDDITO PRO-CAPITE

Media varianza minimo massimo mediana I quartile III quartile


4436 377573 3098 6315 4519 3993 4814
ANALFABETISMO

media varianza minimo massimo mediana I quartile III quartile


1.170 0.372 0.500 2.800 0.950 0.625 1.575
OMICIDI

Media varianza minimo massimo mediana I quartile III quartile


7.378 13.627 1.400 15.100 6.850 4.350 10.675
DIPLOMATI

Media varianza minimo massimo mediana I quartile III quartile


53.110 65.238 37.800 67.300 53.250 48.050 59.150
GIORNI CON TEMPERATURA SOTTO GLI 0°C

media varianza minimo massimo mediana I quartile III quartile


104.460 2702 0.000 188.000 114.500 66.250 139.750
AREA

media varianza minimo massimo mediana I quartile III quartile


70736 7280748061 1049 566432 54277 36985 81163
REGRESSIONE LINEARE
Si proceda ora con la regressione, ipotizzando, dapprima, che la variabile aspettativa
di vita dipenda da tutte le restanti 7 variabili.
Si ipotizzi, quindi, la retta di regressione:

Y=a+bX1+cX2+dX3+eX5+fX6+gX7+hX8

dove:

Y = aspettativa di vita,
X1 = popolazione,
X2 = reddito pro-capite,
X3 = analfabetismo,
X5 = omicidi,
X6 = diplomati,
X7 = giorni in cui la temperatura è sotto 0°C,
X8 = area.
SCATTERPLOT

Dall’analisi dei grafici si può evincere che


le tre variabili popolazione, reddito pro-
capite e area non risultano seguire un
andamento lineare; per questo non
sembrano essere significative.
Tuttavia, prima di scartare tali variabili, si
proceda nella regressione.
OUTPUT DI REGRESSIONE CON TUTTE LE VARIABILI

Call:
lm(formula = Y ~ X1 + X2 + X3 + X5 + X6 + X7 + X8)

Residuals:
Min 1Q Median 3Q Max
-1.48895 -0.51232 -0.02747 0.57002 1.49447

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.094e+01 1.748e+00 40.586 < 2e-16 ***
X1 5.180e-05 2.919e-05 1.775 0.0832 .
X2 -2.180e-05 2.444e-04 -0.089 0.9293
X3 3.382e-02 3.663e-01 0.092 0.9269
X5 -3.011e-01 4.662e-02 -6.459 8.68e-08 ***
X6 4.893e-02 2.332e-02 2.098 0.0420 *
X7 -5.735e-03 3.143e-03 -1.825 0.0752 .
X8 -7.383e-08 1.668e-06 -0.044 0.9649
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7448 on 42 degrees of freedom


Multiple R-squared: 0.7362, Adjusted R-squared: 0.6922
F-statistic: 16.74 on 7 and 42 DF, p-value: 2.534e-10

Guardando la colonna dei P-Value di ogni variabile si nota che quello relativo a X8
(area) si discosta maggiormente dal valore 0, perciò procediamo a eseguire
nuovamente la regressione eliminando la variabile.

Output di regressione escludendo la variabile di regressione X 8


Call:
lm(formula = Y ~ X1 + X2 + X3 + X5 + X6 + X7)

Residuals:
Min 1Q Median 3Q Max
-1.49047 -0.52533 -0.02546 0.57160 1.50374

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.099e+01 1.387e+00 51.165 < 2e-16 ***
X1 5.188e-05 2.879e-05 1.802 0.0785 .
X2 -2.444e-05 2.343e-04 -0.104 0.9174
X3 2.846e-02 3.416e-01 0.083 0.9340
X5 -3.018e-01 4.334e-02 -6.963 1.45e-08 ***
X6 4.847e-02 2.067e-02 2.345 0.0237 *
X7 -5.776e-03 2.970e-03 -1.945 0.0584 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7361 on 43 degrees of freedom


Multiple R-squared: 0.7361, Adjusted R-squared: 0.6993
F-statistic: 19.99 on 6 and 43 DF, p-value: 5.362e-11
Iteriamo il procedimento per le variabili meno significative.

Output di regressione escludendo le variabili di regressione X 8,


X3
Call:
lm(formula = Y ~ X1 + X2 + X5 + X6 + X7)

Residuals:
Min 1Q Median 3Q Max
-1.4892 -0.5122 -0.0329 0.5645 1.5166

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.107e+01 1.029e+00 69.067 < 2e-16 ***
X1 5.115e-05 2.709e-05 1.888 0.0657 .
X2 -2.477e-05 2.316e-04 -0.107 0.9153
X5 -3.000e-01 3.704e-02 -8.099 2.91e-10 ***
X6 4.776e-02 1.859e-02 2.569 0.0137 *
X7 -5.910e-03 2.468e-03 -2.395 0.0210 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7277 on 44 degrees of freedom


Multiple R-squared: 0.7361, Adjusted R-squared: 0.7061
F-statistic: 24.55 on 5 and 44 DF, p-value: 1.019e-11

Output di regressione escludendo la variabile di regressione X 8,


X3, X2
Call:
lm(formula = Y ~ X1 + X5 + X6 + X7)

Residuals:
Min 1Q Median 3Q Max
-1.47095 -0.53464 -0.03701 0.57621 1.50683

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.103e+01 9.529e-01 74.542 < 2e-16 ***
X1 5.014e-05 2.512e-05 1.996 0.05201 .
X5 -3.001e-01 3.661e-02 -8.199 1.77e-10 ***
X6 4.658e-02 1.483e-02 3.142 0.00297 **
X7 -5.943e-03 2.421e-03 -2.455 0.01802 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7197 on 45 degrees of freedom


Multiple R-squared: 0.736, Adjusted R-squared: 0.7126
F-statistic: 31.37 on 4 and 45 DF, p-value: 1.696e-12
Output di regressione con le sole variabili X5, X6, X7
Call:
lm(formula = Y ~ X5 + X6 + X7)

Residuals:
Min 1Q Median 3Q Max
-1.5015 -0.5391 0.1014 0.5921 1.2268

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 71.036379 0.983262 72.246 < 2e-16 ***
X5 -0.283065 0.036731 -7.706 8.04e-10 ***
X6 0.049949 0.015201 3.286 0.00195 **
X7 -0.006912 0.002447 -2.824 0.00699 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7427 on 46 degrees of freedom


Multiple R-squared: 0.7127, Adjusted R-squared: 0.6939
F-statistic: 38.03 on 3 and 46 DF, p-value: 1.634e-12

Ora i P-Value delle 3 variabili sono accettabili, quello del F-test è molto basso; quindi
consideriamo valido questo ultimo modello di regressione.
Inoltre R2 adj è pari a 69.39%; essendo un valore discretamente alto, lo si può
dunque accettare nel modello.

Accettando quest’ultima regressione, la retta finale risulta dunque:

Y=71.036379-0.283065X5+0.049949X6-0.006912X7
GRAFICI DEI RESIDUI
Dai grafici si vede come i residui si dispongano in modo casuale intorno al valore 0;
per questi motivi, confermiamo la validità del modello di regressione
precedentemente analizzato.
GRAFICO DEI RESIDUI STANDARDIZZATI

Da questo grafico si nota come la quasi totalità dei residui delle osservazioni sia
compresa tra -2 e 2, confermando ancora una volta la validità del modello proposto.

NORMAL PROBABILITY PLOT DEI RESIDUI

La parte centrale del NPP è aderente alla retta, ma si riscontrano problemi nella coda
inferiore e superiore, dove i residui sembrano discostarsi dall’andamento gaussiano.