Soluciones Ejercicios Tema5 Aed

5 ANÁLISIS EXPLORATORIO DE DATOS 39 5 ANÁLISIS EXPLORATORIO DE DATOS 40
5 Relaciones entre variables. b) Puesto que se trata de un modelo lineal, el coeficiente de determinación coincide con
el coeficiente de correlación lineal de Pearson al cuadrado:
5.1 Ejercicios. 2 2
sXY −7
Ejercicio 5.1 En una muestra de 1500 individuos se recogen datos sobre dos medidas R2 = rXY2
= = = 0.68,
sX sY 6 · 12
antropométricas X e Y . Los resultados que se obtienen son
esto significa que el modelo de regresión lineal explica el 68% de la variabilidad de Y en
x = 14, y = 100, sx = 2, sy = 25, sxy = 45. función de la de X. Por tanto, queda un 32% de variabilidad no explicada.
c) La predicción que realiza este modelo es
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando
este modelo calcular de modo aproximado la cantidad Y esperada cuando X = 15. ŷ = 8.5 − 1.167(4) = 3.83,
que hay que considerar con ciertas reservas, puesto que el modelo explica solamente un
Respuesta: Buscamos la recta Ŷ = a + b X que mejor aproxima los valores de Y , según 68% de la variabilidad total.
el criterio de los mı́nimos cuadrados, en la nube de puntos que resulta de representar en d) Buscamos la recta X̂ = ã + b̃ Y :
un plano (X, Y ) las 1500 observaciones. Los coeficientes de esta recta son:
sXY −7
b̃ = = = −0.583,
sxy 45 s2Y 12
b= 2 = = 11.25,
sx 4 24 40
ã = x − b̃ y = − (−0.583) = 5.915,
a = y − b x = 100 − (11.25)(14) = −57.5. 8 8
por tanto, el modelo es X̂ = 5.915 − 0.583 Y . Observemos que los valores que se obtienen
Ası́, el modelo lineal es: Ŷ = −57.5 + 11.25 X. Por tanto, si x = 15, el modelo lineal para la pendiente de la recta y para el término independiente no coinciden en absoluto
predice un valor de Y de con los que se obtendrı́an despejando de la ecuación Ŷ = 8.5 − 1.167 X, que serı́an X =
7.284 − 0.857 Ŷ y resulta del todo incorrecto utilizar esta última ecuación para predecir X
ŷ = −57.5 + 11.25(15) = 111.25.
en función de Y .
En este punto hay que preguntarse cómo de fiable es esta predicción. Para dar una re- Ejercicio 5.3 La tabla siguiente contiene la edad X y la máxima de la presión sanguı́nea
spuesta necesitamos estudiar las propiedades de la regresión lineal. Y de un grupo de 10 mujeres:
Ejercicio 5.2 De una muestra de 8 observaciones conjuntas de valores de dos variables Edad 56 42 72 36 63 47 55 49 38 42
X e Y se obtiene la siguiente información: Presión 14.8 12.6 15.9 11.8 14.9 13.0 15.1 14.2 11.4 14.1
a) Calculad el coeficiente de correlación lineal entre las variables y decid qué indica.
xi = 24, xi yi = 64, yi = 40, s2y = 12, s2x = 6.
b) Determinad la recta de regresión de Y sobre X, justificando la adecuación de un
a) Obtener la recta de regresión de Y sobre X. Explicar el significado de los parámetros. modelo lineal. Interpretad los coeficientes.
b) Calcular el coeficiente de determinación. Comentar el resultado e indicar el por-
c) Valorad la bondad del modelo.
centaje de variación de Y que no está explicado por el modelo de regresión lineal.
c) Si el modelo es adecuado, ¿cuál es la predicción para un valor de x = 4? d) Haced las predicciones siguientes, sólo cuando creáis que tengan sentido:
d) Obtener la recta de regresión de X sobre Y . d.1) Presión sanguı́nea de una mujer de 51 años.
d.2) Presión sanguı́nea de una niña de 10 años.
d.3) Presión sanguı́nea de una hombre de 54 años.
Respuestas: a) Buscamos la recta Ŷ = a + b X: Respuestas: Construimos la tabla auxiliar para realizar los cálculos de los apartados a)
y b):
sXY xy − x y 64/8 − (24/8)(40/8)
b= 2 = = = −1.167, xi yi x2i yi2 xi yi
sX s2X 6
56 14.8 3136 219.04 828.8
4 24 42 12.6 1764 158.76 529.2
a = y − bx = − (−1.167) = 8.5.
8 8 72 15.9 5184 252.81 1144.8
el parámetro b es el pendiente de la recta de regresión y mide la variación de Y cuando 36 11.8 1296 139.24 424.8
X aumenta una unidad. Puesto que b < 0 esto significa que a medida que X aumenta 63 14.9 3969 222.01 938.7
la variable Y tiende a disminuir, es decir, existe una relación inversa entre X e Y . El 47 13 2209 169 611
parámetro a es el valor de la ordenada en el origen, es decir, el punto en que la recta 55 15.1 3025 228.01 830.5
cruza el eje vertical. La recta de regresión es 49 14.2 2401 201.64 695.8
38 11.4 1444 129.96 433.2
Ŷ = 8.5 − 1.167 X. 42 14.1 1764 198.81 592.2
500 137.8 26192 1919.28 7029
Las medias son: Ejercicio 5.5 Dada la siguiente distribución bidimensional encontrar el modelo de re-
500 137.8
x= = 50, y= = 13.78, gresión (lineal o parabólico) que mejor se ajuste a la nube de puntos.
10 10
las varianzas y covarianza son: xi 1 1 2 3 4 5 5 6
yi 13 15 18 19 21 16 20 14
26192
s2X = x2 − x2 = − 502 = 119.2,
10
Respuesta: Si realizamos un gráfico de dispersión, a primera vista puede apreciarse que
1919.28 el modelo lineal va a tener un peor ajuste que el modelo parabólico (véase la figura 1).
s2Y = y 2 − y 2 = − 13.782 = 2.04,
10
7029
sXY = xy − x y = − 50 · 13.78 = 13.9 Figure 1: Gráfico de dispersión con los datos del ejercicio 5.5
10
y el coeficiente de correlación lineal es
sXY 13.9
rXY = =√ = 0.89, 22
sx sY 119.2 · 2.04
que indica una dependencia lineal moderada y directa entre X e Y . Cuanto mayor es X 17.6
mayor tiende a ser Y .
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son:
yi 13.2
sXY 13.9
b= = = 0.12,
s2X 119.2 8.8
a = y − b x = 137.78 − 0.12 · 50 = 7.95.
4.4
El coeficiente a es la intersección con el eje de ordenadas, mientras que b es la pendiente
de la recta de regresión.
c) El ajuste del modelo se mide mediante el coeficiente de determinación R2 , que en el 0 1 2 3 4 5 6 7
2
caso del modelo lineal coincide con rXY . Entonces, R2 = 0.892 = 0.79, que indica que xi
un 79% de la variabilidad de Y viene explicada por el modelo de la recta de regresión,
mientras que queda sin explicar un 21% de la variabilidad. Empezamos ajustando el modelo más sencillo, que es el lineal. Es decir, proponemos el
modelo Ŷ = a+b X, para cuyo cálculo utilizaremos las 5 primeras columnas de la siguiente
d) Sólo tiene sentido realizar la predicción del apartado (d1). Para un valor de x = 51 el
tabla:
modelo predice un valor de y = 7.95 + 0.12 · 51 = 13.90.
xi yi xi yi x2i yi2 ŷi ei e2i
Ejercicio 5.4 Se ha llevado a cabo un ajuste lineal a una nube de puntos formada por 1 13 13 1 169 16.0821 -3.0821 9.499
observaciones de dos variables X e Y y se ha obtenido un coeficiente de determinación 1 15 15 1 225 16.0821 -1.0821 1.171
de 0.03. Discutid si las siguientes afirmaciones son ciertas y por qué: 2 18 36 4 324 16.4686 1.5314 2.345
a) El coeficiente de correlación lineal entre X e Y valdrá 0.173. 3 19 57 9 361 16.8551 2.1449 4.601
b) La covarianza entre X e Y puede ser negativa. 4 21 84 16 441 17.2415 3.7585 14.126
5 16 80 25 256 17.6280 -1.6280 2.650
c) Las variables X e Y son casi independientes.
5 20 100 25 400 17.6280 2.3720 5.626
d) El coeficiente de determinación entre −X e Y valdrá -0.03.
6 14 84 36 196 18.0145 -4.0145 16.116
e) El coeficiente de determinación entre −X y −Y valdrá 0.03.
27 136 469 117 2372 136 0 56.135
f) Sólo el 3% de la variabilidad total de Y queda sin explicar en el modelo.
Para el cálculo de a y b necesitamos las medias y covarianza de X e Y y la varianza de
X:
Respuestas: 27 136
√ √ x= = 3.375, y = = 17,
8 8
a) Falso, rXY = ± R2 = ± 0.03 = ±0.173.
469
b) Cierto. sXY = x y − x y = − (3.375)(17) = 1.25,
8
c) Falso, pues la relación entre X e Y puede ser no lineal.
2 2 117
d) Falso, R2 nunca puede ser negativo. En este caso R2 = 0.03. 2
sX = x − x = − 3.3752 = 3.234,
8
e) Cierto.
por tanto,
f) Falso, el modelo sólo explica un 3% de la variablidad de Y , por tanto, queda por sXY 1.25
explicar un 97%. b= 2 = = 0.386,
sX 3.234
a = y − b x = 17 − (0.386)(3.375) = 15.696, 2011

sX 2 Y = x2 y − x2 y = − 14.625 · 17 = 2.75,
8
de manera que el modelo propuesto es Y = 15.696 + 0.386 X. La columna 6 de la tabla 2 2901
anterior contiene los valores ajustados según este modelo, ŷi , y la columna 7 contiene los s2X 2 = x4 − x2 = − 14.6252 = 148.734,
8
residuos ei = yi − ŷi (observad que tienen media cero). y substituyendo, obtenemos:
La forma general de estudiar la bondad de ajuste de un modelo es mediante el coeficiente
de determinación R2 : b = 6.987, c = −0.992, a = 7.930.
s2
R2 = 1 − 2e , Por tanto, el modelo propuesto es Y = 7.930 + 6.987 X − 0.992 X 2 . La columna 9 de
sY la tabla anterior contiene los valores ajustados según este modelo, ŷi , y la columna 10
donde s2e es la varianza de los residuos y s2Y es la varianza de Y , que se obtienen utilizando contiene los residuos ei = yi − ŷi .
las columnas 8 y 5 de la tabla anterior, respectivamente: Para estudiar la bondad de ajuste calculamos el coeficiente de determinación:
s2e 11.959/8
s2e = e2 − e2 =
56.135
− 0 = 7.017, R2 = 1 − =1− = 0.8007.
8 s2Y 7.5
2372 Este resultado nos dice que el 80% de la variabilidad de los datos está explicada por el
s2Y = y 2 − y 2 = − 172 = 7.5, modelo de regresión parabólica. Observad que en este caso es del todo incorrecto utilizar
8 2
rXY como medida de bondad de ajuste del modelo.
de manera que R2 = 1 − 7.017/7.5 = 0.06441. Es decir que solamente el 6% de la
variabilidad de los datos queda explicada por el modelo. Ejercicio 5.6 Los datos siguientes forman parte de un anuncio publicado por un joyero
Puesto que se trata de un modelo lineal, el valor de R2 coincide con el cuadrado del de Singapur en el periódico Straits Times el 29 de febrero de 1992. Estos datos hacen
2
coeficiente de correlación lineal de Pearson, es decir, rXY . Por tanto, en este caso, referencia al precio (en dólares de Singapur) de anillos que llevan un diamante. El tamaño
podrı́amos habernos ahorrado el cálculo de R2 . de un diamante, que se indica en quilates (1 quilate=200 mg).
sXY 1.25 2
tamaño 0.17 0.16 0.17 0.25 0.16 0.15 0.21 0.15
rXY = = = 0.2538, rXY = 0.06441. precio 355 328 350 675 342 322 483 323
sX sY (3.234)(7.5)
tamaño 0.16 0.17 0.16 0.17 0.18 0.23 0.23 0.12
Puesto que el modelo lineal tiene muy mal ajuste, proponemos el modelo de regresión precio 345 352 332 353 438 595 553 223
parabólico Ŷ = a + b X + c X 2 , para cuyo cálculo utilizaremos las 8 primeras columnas de
Ajustad un modelo lineal a estos datos y decidid si el ajuste obtenido es bueno. Comprobad
la siguiente tabla:
si se cumplen para los residuos las suposiciones de independencia y de varianza constante.
xi yi xi yi x2i yi x2i yi2 x3i x4i ŷi ei e2i Respuesta: Entre las dos variables, “tamaño” y “precio”, es el tamaño de un diamante
1 13 13 13 1 169 1 1 13.925 -0.925 0.856 el que determina el precio del anillo. Por tanto, escogemos X =“tamaño” como variable
1 15 15 15 1 225 1 1 13.925 1.075 1.155 independiente y Y =“precio” como variable dependiente.
2 18 36 72 4 324 8 16 17.935 0.065 0.004 Realizamos un diagrama de dispersión para ver si puede utilizarse la regresión lineal. El
3 19 57 171 9 361 27 81 19.961 -0.961 0.924 gráfico obtenido (véase la figura 2) indica que el modelo lineal es adecuado para representar
4 21 84 336 16 441 64 256 20.003 0.997 0.995 la relación entre X e Y .
5 16 80 400 25 256 125 625 18.059 -2.059 4.241 Construimos la tabla auxiliar para realizar los cálculos:
5 20 100 500 25 400 125 625 18.059 1.941 3.766 xi yi x2i yi2 xi yi
6 14 84 504 36 196 216 1296 14.132 -0.132 0.017 0.17 355 0.0289 126025 60.35
27 136 469 2011 117 2372 567 2901 136 0 11.959 0.16 328 0.0256 107584 52.48
0.17 350 0.0289 122500 59.50
Las fórmulas que nos permiten obtener los parámetros a, b y c son: 0.25 675 0.0625 455625 168.75
0.16 342 0.0256 116964 54.72
sXY s2X 2 − sX 2 Y sXX 2
b = , 0.15 322 0.0225 103684 48.30
s2X s2X 2 − s2XX 2 0.21 483 0.0441 233289 101.43
s2X sX 2 Y − sXX 2 sXY 0.15 323 0.0225 104329 48.45
c = ,
s2X s2X 2 − s2XX 2 0.16 345 0.0256 119025 55.20
0.17 352 0.0289 123904 59.84
a = y − b x − c x2 .
0.16 332 0.0256 110224 53.12
Vamos a calcular las medias, covarianzas y varianzas que nos faltan: 0.17 353 0.0289 124609 60.01
0.18 438 0.0324 191844 78.84
117 0.23 595 0.0529 354025 136.85
x2 = = 14.625,
8 0.23 553 0.0529 305809 127.19
567 0.12 223 0.0144 49729 26.76
sXX 2 = x x2 − x x2 = − 3.375 · 14.625 = 21.5156, 2.84 6369 0.5222 2749169 1191.79
8
xi yi ŷi ei
Figure 2: Gráfico de dispersión con los datos del ejercicio 5.6 0.17 355 371.9435 -16.9435
0.16 328 337.1180 -9.1180
0.17 350 371.9435 -21.9435
0.25 675 650.5475 24.4525
473 0.16 342 337.1180 4.8820
0.15 322 302.2925 19.7075
439 0.21 483 511.2455 -28.2455
0.15 323 302.2925 20.7075
yi 0.16 345 337.1180 7.8820
405
0.17 352 371.9435 -19.9435
0.16 332 337.1180 -5.1180
372 0.17 353 371.9435 -18.9435
0.18 438 406.7690 31.2310
338 0.23 595 580.8965 14.1035
0.23 553 580.8965 -27.8965
0.12 223 197.8160 25.1840
0 0.17 0.22 0.27 0.32 0.37
xi Posteriormente se construye un diagrama de dispersión de los pares (xi , ei ), i = 1, . . . , 16.
Este diagrama ( véase la figura 3) permite concluir que los residuos no presentan ninguna
regularidad evidente y que la amplitud de la dispersión de los residuos es más o menos
Las medias son: constante a lo largo del eje X. Por tanto, se puede considerar que los residuos en el
2.84 6369
x= = 0.1775, y= = 398.0625, modelo lineal son independientes y de varianza constante.
16 16
las varianzas y covarianza son:
Figure 3: Gráfico de residuos de los datos del ejercicio 5.6
0.5222
s2X = x2 − x2 = − 0.17752 = 0.0011,
16
2749169
s2Y = y 2 − y 2 = − 398.06252 = 13369.3086, 31.23
16
1191.79
sXY = xy − x y = − 0.1775 · 398.0625 = 3.8308. 19.34
16
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son: ei 7.44
sXY 3.8308
b= 2 = = 3482.55,
sX 0.0011 -4.45
a = y − b x = 398.0625 − 3482.55 · 0.1775 = −220.09,

-16.35
por tanto, el modelo ajustado es Y = −220.09 + 3482.55 X. El coeficiente de correlación
lineal es
sXY 3.8308
rXY = =√ = 0.9989, 0 0.17 0.22 0.27 0.32 0.37
sx sY 0.0011 · 13369.3086
xi
2
que indica una dependencia lineal muy fuerte y directa entre X e Y . El valor de R =
2
rXY = 0.9978 indica que el ajuste es muy bueno, puesto que el modelo lineal explica el
99.78% de la variabilidad de Y . Ejercicio 5.7 Las ecuaciones siguientes
Para comprobar las suposiciones de independecia de los residuos y de varianza constante,
5 4 1 1
hay que calcular para cada valor xi de la variable X la predicción ŷi = a + b xi y el Ŷ = − X − , X̂ = − Y − ,
correspondiente residuo ei = yi − ŷi . 3 3 2 2
representan las rectas de regresión lineal de una distribución estadı́stica bivariante. Hallad
los coeficientes de determinación y de correlación entre las variables X e Y .
Respuesta: Si llamamos b a la pendiente de la recta de regresión de Y sobre X y b̃ a la

pendiente de la recta de regresión de X sobre Y , entonces: Por tanto, si la dependencia entre X e Y es directa:
5 sXY 1 sXY 24 24
b=− = 2 , b̃ = − = 2 . b= , a = y − bx = 8 − · 5 = −16,
3 sX 2 sY 5 5
24
Por otro lado, puesto que se trata de un modelo lineal, sabemos que existe la siguiente de manera que el modelo es Ŷ = −16 + 5 X, y la predicción para x = 6 es ŷ = 12.8. Si
relación entre el coeficiente de determinación y el coeficiente de correlación lineal: la dependencia entre X e Y es inversa:
2
sXY 5 1 5 24 24
R2 = rXY2
= = b b̃ = − − = = 0.83. b=− , a = y − bx = 8 + · 5 = 32,
sX sY 3 2 6 5 5
24
Para calcular el coeficiente de correlación lineal hay que tener en cuenta que la pendiente de manera que el modelo ahora es Ŷ = 32 − 5 X, y la predicción para x = 6 es ŷ = 3.2.
de la recta de regresión es negativa,
√ √
rXY = − R2 = − 0.83 = −0.91.
Ejercicio 5.8 Dos distribuciones estadı́sticas tienen como rectas de regresión de Y sobre
X, respectivamente,
5 1 3
Ŷ = + X, Ŷ = 2 + X,
3 4 5
¿Puede asegurarse que la segunda distribución tiene un coeficiente de determinación mayor
que la primera?
Respuesta: No. El hecho que la pendiente de la segunda recta sea mayor que la de la
primera no permite asegurar que R2 vaya también a ser mayor, puesto que R2 depende
del grado de acercamiento de la recta a la nube de puntos.
Ejercicio 5.9 De una distribución estadı́stica bivariante se conocen x = 5, y = 8, CVY =

3 CVX . Mediante la recta de regresión de Y sobre X, ¿cuál es la predicción del modelo
para un valor de x = 6,
a) en el caso que R2 = 0?
b) en el caso que R2 = 1?
Respuesta: a) Consideremos el modelo lineal Y = a + b X. En este caso se tiene que

R2 = rXY
2
, y por tanto,
R2 = 0 =⇒ sXY = 0 =⇒ b = 0.
De manera que el modelo queda: Ŷ = a, y teniendo en cuenta que a = y − b x = 8, se
tiene que Ŷ = 8, que no depende del valor de la variable X. Ası́, la predicción de este
modelo para x = 6 es y = 8.
b) Debemos determinar los coeficentes a y b del modelo lineal. Empezamos buscando
b = ssXY 2
2 . Puesto que R = 1, tenemos que:
X
s2XY
R2 = 1 =⇒ = 1; sXY = ±sX sY .
s2X s2Y
A partir de la relación CVY = 3 CVX podemos deducir que:

sY sX y 24
CVY = 3 CVX =⇒ =3 ; sY = 3 sX = sX .
y x x 8
Substituyendo esta expresión de sY en la expresión anteriormente encontrada para sXY
tenemos que:
24 sXY 24
sXY = ± s2X ; =± = b.
8 s2X 5

Soluciones Ejercicios Tema5 Aed

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Soluciones Ejercicios Tema5 Aed

Caricato da

Copyright:

Formati disponibili

5 ANÁLISIS EXPLORATORIO DE DATOS 39 5 ANÁLISIS EXPLORATORIO DE DATOS 40

a = y − b x = 17 − (0.386)(3.375) = 15.696, 2011

a = y − b x = 398.0625 − 3482.55 · 0.1775 = −220.09,

Respuesta: Si llamamos b a la pendiente de la recta de regresión de Y sobre X y b̃ a la

Ejercicio 5.9 De una distribución estadı́stica bivariante se conocen x = 5, y = 8, CVY =

Respuesta: a) Consideremos el modelo lineal Y = a + b X. En este caso se tiene que

A partir de la relación CVY = 3 CVX podemos deducir que:

Potrebbero piacerti anche