Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
5 Relaciones entre variables. b) Puesto que se trata de un modelo lineal, el coeficiente de determinación coincide con
el coeficiente de correlación lineal de Pearson al cuadrado:
5.1 Ejercicios. 2 2
sXY −7
Ejercicio 5.1 En una muestra de 1500 individuos se recogen datos sobre dos medidas R2 = rXY2
= = = 0.68,
sX sY 6 · 12
antropométricas X e Y . Los resultados que se obtienen son
esto significa que el modelo de regresión lineal explica el 68% de la variabilidad de Y en
x = 14, y = 100, sx = 2, sy = 25, sxy = 45. función de la de X. Por tanto, queda un 32% de variabilidad no explicada.
c) La predicción que realiza este modelo es
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando
este modelo calcular de modo aproximado la cantidad Y esperada cuando X = 15. ŷ = 8.5 − 1.167(4) = 3.83,
que hay que considerar con ciertas reservas, puesto que el modelo explica solamente un
Respuesta: Buscamos la recta Ŷ = a + b X que mejor aproxima los valores de Y , según 68% de la variabilidad total.
el criterio de los mı́nimos cuadrados, en la nube de puntos que resulta de representar en d) Buscamos la recta X̂ = ã + b̃ Y :
un plano (X, Y ) las 1500 observaciones. Los coeficientes de esta recta son:
sXY −7
b̃ = = = −0.583,
sxy 45 s2Y 12
b= 2 = = 11.25,
sx 4 24 40
ã = x − b̃ y = − (−0.583) = 5.915,
a = y − b x = 100 − (11.25)(14) = −57.5. 8 8
por tanto, el modelo es X̂ = 5.915 − 0.583 Y . Observemos que los valores que se obtienen
Ası́, el modelo lineal es: Ŷ = −57.5 + 11.25 X. Por tanto, si x = 15, el modelo lineal para la pendiente de la recta y para el término independiente no coinciden en absoluto
predice un valor de Y de con los que se obtendrı́an despejando de la ecuación Ŷ = 8.5 − 1.167 X, que serı́an X =
7.284 − 0.857 Ŷ y resulta del todo incorrecto utilizar esta última ecuación para predecir X
ŷ = −57.5 + 11.25(15) = 111.25.
en función de Y .
En este punto hay que preguntarse cómo de fiable es esta predicción. Para dar una re- Ejercicio 5.3 La tabla siguiente contiene la edad X y la máxima de la presión sanguı́nea
spuesta necesitamos estudiar las propiedades de la regresión lineal. Y de un grupo de 10 mujeres:
Ejercicio 5.2 De una muestra de 8 observaciones conjuntas de valores de dos variables Edad 56 42 72 36 63 47 55 49 38 42
X e Y se obtiene la siguiente información: Presión 14.8 12.6 15.9 11.8 14.9 13.0 15.1 14.2 11.4 14.1
a) Calculad el coeficiente de correlación lineal entre las variables y decid qué indica.
xi = 24, xi yi = 64, yi = 40, s2y = 12, s2x = 6.
b) Determinad la recta de regresión de Y sobre X, justificando la adecuación de un
a) Obtener la recta de regresión de Y sobre X. Explicar el significado de los parámetros. modelo lineal. Interpretad los coeficientes.
b) Calcular el coeficiente de determinación. Comentar el resultado e indicar el por-
c) Valorad la bondad del modelo.
centaje de variación de Y que no está explicado por el modelo de regresión lineal.
c) Si el modelo es adecuado, ¿cuál es la predicción para un valor de x = 4? d) Haced las predicciones siguientes, sólo cuando creáis que tengan sentido:
d) Obtener la recta de regresión de X sobre Y . d.1) Presión sanguı́nea de una mujer de 51 años.
d.2) Presión sanguı́nea de una niña de 10 años.
d.3) Presión sanguı́nea de una hombre de 54 años.
Respuestas: a) Buscamos la recta Ŷ = a + b X: Respuestas: Construimos la tabla auxiliar para realizar los cálculos de los apartados a)
y b):
sXY xy − x y 64/8 − (24/8)(40/8)
b= 2 = = = −1.167, xi yi x2i yi2 xi yi
sX s2X 6
56 14.8 3136 219.04 828.8
4 24 42 12.6 1764 158.76 529.2
a = y − bx = − (−1.167) = 8.5.
8 8 72 15.9 5184 252.81 1144.8
el parámetro b es el pendiente de la recta de regresión y mide la variación de Y cuando 36 11.8 1296 139.24 424.8
X aumenta una unidad. Puesto que b < 0 esto significa que a medida que X aumenta 63 14.9 3969 222.01 938.7
la variable Y tiende a disminuir, es decir, existe una relación inversa entre X e Y . El 47 13 2209 169 611
parámetro a es el valor de la ordenada en el origen, es decir, el punto en que la recta 55 15.1 3025 228.01 830.5
cruza el eje vertical. La recta de regresión es 49 14.2 2401 201.64 695.8
38 11.4 1444 129.96 433.2
Ŷ = 8.5 − 1.167 X. 42 14.1 1764 198.81 592.2
500 137.8 26192 1919.28 7029
5 ANÁLISIS EXPLORATORIO DE DATOS 41 5 ANÁLISIS EXPLORATORIO DE DATOS 42
Las medias son: Ejercicio 5.5 Dada la siguiente distribución bidimensional encontrar el modelo de re-
500 137.8
x= = 50, y= = 13.78, gresión (lineal o parabólico) que mejor se ajuste a la nube de puntos.
10 10
las varianzas y covarianza son: xi 1 1 2 3 4 5 5 6
yi 13 15 18 19 21 16 20 14
26192
s2X = x2 − x2 = − 502 = 119.2,
10
Respuesta: Si realizamos un gráfico de dispersión, a primera vista puede apreciarse que
1919.28 el modelo lineal va a tener un peor ajuste que el modelo parabólico (véase la figura 1).
s2Y = y 2 − y 2 = − 13.782 = 2.04,
10
7029
sXY = xy − x y = − 50 · 13.78 = 13.9 Figure 1: Gráfico de dispersión con los datos del ejercicio 5.5
10
y el coeficiente de correlación lineal es
sXY 13.9
rXY = =√ = 0.89, 22
sx sY 119.2 · 2.04
que indica una dependencia lineal moderada y directa entre X e Y . Cuanto mayor es X 17.6
mayor tiende a ser Y .
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son:
yi 13.2
sXY 13.9
b= = = 0.12,
s2X 119.2 8.8
a = y − b x = 137.78 − 0.12 · 50 = 7.95.
4.4
El coeficiente a es la intersección con el eje de ordenadas, mientras que b es la pendiente
de la recta de regresión.
c) El ajuste del modelo se mide mediante el coeficiente de determinación R2 , que en el 0 1 2 3 4 5 6 7
2
caso del modelo lineal coincide con rXY . Entonces, R2 = 0.892 = 0.79, que indica que xi
un 79% de la variabilidad de Y viene explicada por el modelo de la recta de regresión,
mientras que queda sin explicar un 21% de la variabilidad. Empezamos ajustando el modelo más sencillo, que es el lineal. Es decir, proponemos el
modelo Ŷ = a+b X, para cuyo cálculo utilizaremos las 5 primeras columnas de la siguiente
d) Sólo tiene sentido realizar la predicción del apartado (d1). Para un valor de x = 51 el
tabla:
modelo predice un valor de y = 7.95 + 0.12 · 51 = 13.90.
xi yi xi yi x2i yi2 ŷi ei e2i
Ejercicio 5.4 Se ha llevado a cabo un ajuste lineal a una nube de puntos formada por 1 13 13 1 169 16.0821 -3.0821 9.499
observaciones de dos variables X e Y y se ha obtenido un coeficiente de determinación 1 15 15 1 225 16.0821 -1.0821 1.171
de 0.03. Discutid si las siguientes afirmaciones son ciertas y por qué: 2 18 36 4 324 16.4686 1.5314 2.345
a) El coeficiente de correlación lineal entre X e Y valdrá 0.173. 3 19 57 9 361 16.8551 2.1449 4.601
b) La covarianza entre X e Y puede ser negativa. 4 21 84 16 441 17.2415 3.7585 14.126
5 16 80 25 256 17.6280 -1.6280 2.650
c) Las variables X e Y son casi independientes.
5 20 100 25 400 17.6280 2.3720 5.626
d) El coeficiente de determinación entre −X e Y valdrá -0.03.
6 14 84 36 196 18.0145 -4.0145 16.116
e) El coeficiente de determinación entre −X y −Y valdrá 0.03.
27 136 469 117 2372 136 0 56.135
f) Sólo el 3% de la variabilidad total de Y queda sin explicar en el modelo.
Para el cálculo de a y b necesitamos las medias y covarianza de X e Y y la varianza de
X:
Respuestas: 27 136
√ √ x= = 3.375, y = = 17,
8 8
a) Falso, rXY = ± R2 = ± 0.03 = ±0.173.
469
b) Cierto. sXY = x y − x y = − (3.375)(17) = 1.25,
8
c) Falso, pues la relación entre X e Y puede ser no lineal.
2 2 117
d) Falso, R2 nunca puede ser negativo. En este caso R2 = 0.03. 2
sX = x − x = − 3.3752 = 3.234,
8
e) Cierto.
por tanto,
f) Falso, el modelo sólo explica un 3% de la variablidad de Y , por tanto, queda por sXY 1.25
explicar un 97%. b= 2 = = 0.386,
sX 3.234
5 ANÁLISIS EXPLORATORIO DE DATOS 43 5 ANÁLISIS EXPLORATORIO DE DATOS 44
xi yi ŷi ei
Figure 2: Gráfico de dispersión con los datos del ejercicio 5.6 0.17 355 371.9435 -16.9435
0.16 328 337.1180 -9.1180
0.17 350 371.9435 -21.9435
0.25 675 650.5475 24.4525
473 0.16 342 337.1180 4.8820
0.15 322 302.2925 19.7075
439 0.21 483 511.2455 -28.2455
0.15 323 302.2925 20.7075
yi 0.16 345 337.1180 7.8820
405
0.17 352 371.9435 -19.9435
0.16 332 337.1180 -5.1180
372 0.17 353 371.9435 -18.9435
0.18 438 406.7690 31.2310
338 0.23 595 580.8965 14.1035
0.23 553 580.8965 -27.8965
0.12 223 197.8160 25.1840
0 0.17 0.22 0.27 0.32 0.37
xi Posteriormente se construye un diagrama de dispersión de los pares (xi , ei ), i = 1, . . . , 16.
Este diagrama ( véase la figura 3) permite concluir que los residuos no presentan ninguna
regularidad evidente y que la amplitud de la dispersión de los residuos es más o menos
Las medias son: constante a lo largo del eje X. Por tanto, se puede considerar que los residuos en el
2.84 6369
x= = 0.1775, y= = 398.0625, modelo lineal son independientes y de varianza constante.
16 16
las varianzas y covarianza son:
Figure 3: Gráfico de residuos de los datos del ejercicio 5.6
0.5222
s2X = x2 − x2 = − 0.17752 = 0.0011,
16
2749169
s2Y = y 2 − y 2 = − 398.06252 = 13369.3086, 31.23
16
1191.79
sXY = xy − x y = − 0.1775 · 398.0625 = 3.8308. 19.34
16
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son: ei 7.44
sXY 3.8308
b= 2 = = 3482.55,
sX 0.0011 -4.45
pendiente de la recta de regresión de X sobre Y , entonces: Por tanto, si la dependencia entre X e Y es directa:
5 sXY 1 sXY 24 24
b=− = 2 , b̃ = − = 2 . b= , a = y − bx = 8 − · 5 = −16,
3 sX 2 sY 5 5
24
Por otro lado, puesto que se trata de un modelo lineal, sabemos que existe la siguiente de manera que el modelo es Ŷ = −16 + 5 X, y la predicción para x = 6 es ŷ = 12.8. Si
relación entre el coeficiente de determinación y el coeficiente de correlación lineal: la dependencia entre X e Y es inversa:
2
sXY 5 1 5 24 24
R2 = rXY2
= = b b̃ = − − = = 0.83. b=− , a = y − bx = 8 + · 5 = 32,
sX sY 3 2 6 5 5
24
Para calcular el coeficiente de correlación lineal hay que tener en cuenta que la pendiente de manera que el modelo ahora es Ŷ = 32 − 5 X, y la predicción para x = 6 es ŷ = 3.2.
de la recta de regresión es negativa,
√ √
rXY = − R2 = − 0.83 = −0.91.
Ejercicio 5.8 Dos distribuciones estadı́sticas tienen como rectas de regresión de Y sobre
X, respectivamente,
5 1 3
Ŷ = + X, Ŷ = 2 + X,
3 4 5
¿Puede asegurarse que la segunda distribución tiene un coeficiente de determinación mayor
que la primera?
Respuesta: No. El hecho que la pendiente de la segunda recta sea mayor que la de la
primera no permite asegurar que R2 vaya también a ser mayor, puesto que R2 depende
del grado de acercamiento de la recta a la nube de puntos.
s2XY
R2 = 1 =⇒ = 1; sXY = ±sX sY .
s2X s2Y