Sei sulla pagina 1di 4

REGRESIÓN ESTADÍSTICA

Relación entre dos variables cuantitativas:

Diagrama de dispersión en el conjunto de datos de galton, para ver la relación entre el peso y la
estatura:

7
200
190
e s ta tu ra _ c m

180

1 8 8
170
160
150

5 0 6 0 7 0 8 0 9 0 1 0 0

p e s o _ k g

lm(formula = peso_kg ~ estatura_cm, data = galton)

Residuals:
Min 1Q Median 3Q Max
-13.900 -3.808 -0.800 3.070 38.570

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -58.86624 7.32951 -8.031 1.1e-14 ***
estatura_cm 0.71998 0.04243 16.969 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.908 on 398 degrees of freedom


Multiple R-squared: 0.4198, Adjusted R-squared: 0.4183
F-statistic: 287.9 on 1 and 398 DF, p-value: < 2.2e-16

R-squared: =0.42 hemos redondeado a 0.42, lo que significa que el 42% es explicable del peso es
explicable por la variabilidad de la estatura.

Modelo:
Peso= -58.87+0.72 estatura.
2. Ejercicio

1. Haz un estudio de la regresión del salario actual en función del inicial.


2. Explica el valor de la pendiente y si tiene sentido el de la ordenada en el origen. Explica
el valor de R2:

En el conjunto de datos de Empleados hemos realizado el estudio de la regresión del salario actual
en función del inicial:

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.928e+03 8.887e+02 2.17 0.0305 *
salini 1.909e+00 4.741e-02 40.28 <2e-16 ***

Multiple R-squared: 0.7746

Vemos, de acuerdo a R-squared que el 0.77% de la variabilidad del salario puede explicarse por la
variabilidad del salario inicial: Salario= 1.928e+03+1.909e+00 *salini.
80000

423
70000
60000

439
50000
s a lin i

40000
30000
20000
10000

20000 40000 60000 80000 100000 120000

s a la rio

Diagrama de dispersión.

3- Si crees que tiene sentido haz un pronóstico del salario actual en función del inicial. Analiza la
bondad del pronóstico en cada caso.

Caso id 214, mujer de un salario inicial real de 10950 y un salario medio real de 20400

Salario= 1.928e+03+1.909e+00 * 10950. (modelo)

No he podido resolver los exponenciales.


4. Busca algún modelo de regresión que tenga sentido analizar en el mismo archivo de datos.

Relación salario edad:

DIAGRAMA DE DISPERSIÓN.
120000
80000
s a la rio

60000
40000
20000

0 10 20 30 40 50 60

Edad

RECTA DE REGRESIÓN

Residuals:
Min 1Q Median 3Q Max
-18958 -10174 -5775 2696 103200

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 42211.09 2615.24 16.14 < 2e-16 ***
Edad -204.13 65.42 -3.12 0.00192 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16920 on 472 degrees of freedom


Multiple R-squared: 0.02021, Adjusted R-squared: 0.01813
F-statistic: 9.736 on 1 and 472 DF, p-value: 0.001918
Modelo:

Salario= 42211.09 +( -204.13) edad.

La bondad de ajuste de este modelo no es muy buena puesto que el R-squared corregido nos da
0.018, lo que significa que este modelo explica el 1%, es decir que el 1% de la variabilidad del
salario puede explicarse por la varabilidad de la estatura a través del modelo expuesto.

Potrebbero piacerti anche