Sei sulla pagina 1di 71

Instituto Tecnológico de Toluca.

Ing. En Gestión Empresarial.


Estadística Inferencial II.

Unidad 2.
Regresión Lineal múltiple y correlación.
Ejercicios.

Alumnos:
Alarcón Villegas Pamela Alejandra.
Sandoval Rendón Javier Antonio.

Profa. Ing. Laura Marmolejo.

Toluca, Edo de Méx, a 12de Octubre de 2012.


EJERCICIO EXAMEN 2° UNIDAD.
En un experimento de ingeniería química que se refiere a la transferencia de calor
en una cámara fluidizada superficial, se recolectan los datos de la siguiente
cuatros variables de regresión: tasa de flujo de gas fluidizante lb / hora (x1),
tasa de flujo de gas flotante lb/hrs (x2), abertura de la entrada de gas flotante
en mm (x3); temperatura de entada de gas flotante °F (x4). La respuesta es la
eficiencia térmica (y1).
INTERPRETACIÓN DEL COEFICIENTE DE
REGRESIÓN ESTIMADO

El aumento promedio de la eficiencia térmica es de 0.0355 por cada punto


adicional en la tasa de flujo de gas fluidizante asumiendo que las otras
tres variables permanecen constantes, así mismo el aumento promedio
de la eficiencia térmica es de 0.482 por cada punto adicional en la tasa
de flujo de gas flotante asumiendo que las otras tres variables
permanecen constantes, asimismo aumento promedio de la eficiencia
térmica es de 0.0418 por cada punto adicional en la abertura de la
entrada de gas fluidizante asumiendo que las otras tres variables
permanecen constantes, así mismo el aumento promedio de la
eficiencia térmica es de 0.606 por cada punto adicional en la
temperatura de entrada de gas asumiendo que las otras tres variables
permanecen constantes,
COEFICIENTE DE DETERMINACIÓN. 𝑅2

El coeficiente de determinación es de 31.1%, indica una baja


asociación lineal entre las variables, por lo cual no se puede
usar la tasa de flujo de gas fluidizante la tasa de flujo de gas
flotante la abertura de la entrada de gas fluidizante la y la
temperatura de entrada de gas para predecir la eficiencia
térmica.
INTERVALO DE CONFIANZA PARA𝑀𝑦 Τ𝑥0

Con una confianza del 95% se asume que el valor


medio de la eficiencia térmica caerá en el intervalo de
(58.65, 81.20)
INTERVALO DE CONFIANZA PARA 𝑌0

Con una confianza del 95% se asume que el valor


futuro de la eficiencia térmica caerá en el intervalo de
(51.02, 88.84)
PRUEBA DE HIPOTESIS DE CADA COEFICIENTE DE
REGRESION ES CERO:

1. Datos anteriores

2. Ho: B1= 0 La variable Xj no es


importante

3. H1 : B1≠ 0 La variable si es importante

4. Nivel de significancia= 0.05


CONCLUSIONES
 X1: tasa de flujo de gas fluidizante lb / hora (x1),
La variable de tasa de flujo de gas fluidizante lb / hora (x1), tiene un
“p-values” de 0.344 por lo tanto se acepta la hipótesis nula y
sugiere que la variable no es importante en el modelo.
 X2: tasa de flujo de gas flotante lb/hrs (x2),
La variable tasa de flujo de gas flotante lb/hrs (x2), tiene un “p-
values” de 0.007 por lo tanto se rechaza la hipótesis nula y sugiere
que la variable si es importante en el modelo.
 X3 Abertura de la entrada de gas flotante en mm (x3);
La variable del Abertura de la entrada de gas flotante en mm tiene un
p-values” de 0.655 por lo tanto se acepta la hipótesis nula y
sugiere que la variable no es importante en el modelo.
 X4 Temperatura de entada de gas flotante °F (x4).
La variable Temperatura de entada de gas flotante °F tiene un “p-
values” de 0.005 por lo tanto se rechaza la hipótesis nula y sugiere
que la variable si es importante en el modelo.
PRUEBA DE HIPÓTESIS DE QUE TODOS LOS
COEFICIENTES DE REGRESIÓN SON CERO:

1. Datos anteriores

2. Ho: B1=b2=b3=b4= 0 el modelo no sirve

3. H1 : al menos uno de los coeficientes es diferente


de cero, al menos una de las variables sirve

4. Nivel de significancia= 0.05

5. Región critica: si fp < f(tabla) no se rechaza la


hipótesis nula
6. Cálculos

ANALISIS DE VARIANZA MODELO COMPLETO (C)


𝑆𝑆𝑅ൗ
𝑃
𝐹= 𝑆𝑆𝐸ൗ
𝑛−𝑝−1
𝟔𝟑𝟕.𝟒𝟎ൗ
𝟒
𝐹= 𝟕𝟔𝟏.𝟎𝟓ൗ
𝟏𝟓

F=3.14

7. Conclusión:

Como 3.14< 5.86 con un nivel de significancia del 95% se rechaza la hipótesis nula y se
concluye que al menos una de las variables predictoras en el modelo es importante para
predecir la eficiencia térmica. Como p es menor que 0.05 se acepta la hipótesis alternativa.
PRUEBA DE HIPÓTESIS PARA UN
SUBCONJUNTO DE COEFICIENTES DE
REGRESIÓN
1. Datos anteriores

2. Ho: B1=b2=0 no se rechaza la hipótesis nula el modelo


reducido no sirve

3. H1 : al menos uno de los coeficientes es diferente de


cero, al menos una de las variables sirve

4. Nivel de significancia= 0.05

5. Región critica: si fp < f(tabla) no se rechaza la hipótesis


nula
6. Cálculos
Análisis de varianza modelo completo

Análisis de varianza modelo reducido x1, x2


FORMULA:

(𝑆𝑆𝑅𝑐 − 𝑆𝑆𝑅𝑟)ൗ
𝐹𝑝 = 𝐾
𝑆𝑆𝐸𝑐 / (n − (K) − 1

Fp = ((637.40- 78.93)/2) / (761.05/15) = 5.5

F(tabla)= 5.86

7. Conclusiones:

Como el valor de fp es igual a 5.5 y este valor es menor que el de las tablas
5.86 no se rechaza la hipótesis nula y se concluye que el modelo reducido no
sirve.
PRUEBA DE HIPÓTESIS PARA UN
SUBCONJUNTO DE COEFICIENTES DE
REGRESIÓN
1. Datos anteriores

2. Ho: B3=b4=0 no se rechaza la hipótesis nula el modelo


reducido no sirve

3. H1 : al menos uno de los coeficientes es diferente de


cero, al menos una de las variables sirve

4. Nivel de significancia= 0.05

5. Región critica: si fp < f(tabla) no se rechaza la hipótesis


nula
6. Cálculos
Análisis de varianza modelo completo

Análisis de varianza modelo reducido x3, x4


FORMULA:

(𝑆𝑆𝑅𝑐 − 𝑆𝑆𝑅𝑟)ൗ
𝐹𝑝 = 𝐾
𝑆𝑆𝐸𝑐 / (n − (K) − 1

Fp = ((637.40- 78.97)/2) / (761.05/15) = 5.5

F(tabla)= 5.86

7. Conclusiones:
Como el valor de fp es igual a 5.5 y este valor es menor que el de
las tablas 5.86 no se rechaza la hipótesis nula y se concluye que el
modelo reducido no sirve.
INTERPRETACIÓN DE LAS GRÁFICAS
ANÁLISIS DE GRÁFICO RESIDUAL

La dispersión de los puntos en la


grafica de residuos vs
temperatura de entrada del
gas respecto a la media
residual presenta
normalidad, sin embargo el
dato 7 presenta un error
residual muy grande que lo
aleja de la media residual
INTERPRETACIÓN DE LAS GRÁFICAS
ANÁLISIS DE GRÁFICO RESIDUAL

La dispersión de los
puntos en la grafica
de residuos vs la ta
sa de flujo de gas
fluidizante respecto
a la media residual
presenta normalidad,
sin embargo el dato
7 presenta un error
residual muy grande
que lo aleja de la
media residual
INTERPRETACIÓN DE LAS GRÁFICAS
ANÁLISIS DE GRÁFICO RESIDUAL

La dispersión de los
puntos en la grafica
de residuos vs
abertura de la
entrada de gas
respecto a la media
residual presenta
normalidad, sin
embargo el dato 7
presenta un error
residual muy grande
que lo aleja de la
media residual
INTERPRETACIÓN DE LAS GRÁFICAS
ANÁLISIS DE GRÁFICO RESIDUAL

La dispersión de los
puntos en la grafica
de residuos vs la ta
da de flujo de gas
flotante respecto a
la media residual
presenta normalidad,
sin embargo el dato
7 presenta un error
residual muy grande
que lo aleja de la
media residual
INTERPRETACIÓN DE LAS GRÁFICAS
ANÁLISIS DE GRÁFICO RESIDUAL
GRÁFICA DE NORMALIDAD:
Presenta normalidad ya que todos los puntos están cerca de la línea
recta.
HISTOGRAMA DE RESIDUALES:
La forma de la grafica es anormal debido a que la distribución de el
histograma no es simétrico.
RESIDUALES VS VALORES PREDICHOS:
La distribución de los datos presenta una pequeña anormalidad ya
que en el sentido vertical se encuentras varios puntos alejados de la
media residual y en el sentido horizontal se encuentra la misma
dispersión.
GRÁFICA DE RESIDUALES VS ÍNDICE DE LA OBSERVACIÓN:
A pesar a que existen dos datos muy alejados de la media residual
estos solo se considera un dato anormal el de la fila numero 7 los
demás datos se encuentran dentro de la zona de validez.
SELECCIÓN DE VARIABLES EN REGRESIÓN MÚLTIPLE.
MÉTODOS STEPWISE.
MÉTODO DE ELIMINACIÓN HACIA ATRÁS
“BACKWARD”

El método termina en tres pasos.


Se ha economizado dos variables: la
variable eliminada es x3 que
corresponde a la abertura de la
entrada de gas cuya t=0.46 (es la
menor) y P= 0.655>0.05.
la variable eliminada es x1 que
corresponde a la tasa de flujo de
gas fluidizante cuya t=0.98 (es la
menor) y P= 0.344>0.05.
Por lo tanto el mejor modelo de
regresión múltiple queda:
La ecuación de regresión es
Eficiencia térmica (y) = - 172 + 0.490
Tasa de flujo de gas flotante (
+ 0.620 Temperatura de
entrada del gas

Con el cual el consumo de gasolina


queda con una 𝑅2 de 34.49%
explicada por las variables x2 y x4
MÉTODO DE ELIMINACIÓN HACIA ADELANTE
“FORWARD”.

No se puede realizar este método a pesar de buscar la forma de realizar el método con la
variación de l alfa; por lo que no se toma en cuenta este modelo
MÉTODO DE PASO A PASO “STEPWISE”.

No se puede realizar este método, por


lo tanto no se toma en cuenta.
MÉTODO DE LOS MEJORES SUBCONJUNTOS
• Según el modelo la mejor decisión
es aquella que contiene dos
variables ( las cuales son X2 y X4 )
tasa de flujo de gas flotante lb/hrs
(x2), y temperatura de entada de
gas flotante °F (x4).

• A pesar de esto, el coeficiente de


correlación es mínimo y explica en
34.5% a eficiencia térmico respecto
a las variables, por lo que no se
puede realizar predicción.
EJERCICIO PROPUESTO:
INTERPRETEACION DEL COEFICIENTE DE REGRESION:

INTERPRETACION:
El aumento promedio en el consumo diario de petróleo es de 10.3 por cada punto adicional
en la parte de numero de horas- maquina, asumiendo que las otras dos variables
permanecen constantes, asimismo el aumento promedio en el consumo de petróleo es de
0.284 por cada punto adicional en la parte de distancia de transportes asumiendo que las
otras variables permanezcan constantes y hay un aumento promedio de 17.5 en el
consumo diario de petróleo por cada punto adicional en la parte del rendimiento promedio
de motores asumiendo que las otras variables permanecen constantes.
COEFICIENTE DE DETERMINACIÓN. 𝑅 2

INTERPRETACIÓN:
El coeficiente de determinación es de 99.9%, indica una buena
asociación lineal entre las variables, por lo cual se pude usar el numero
de horas-maquina el rendimiento de los motores y la distancia de los
transportes para predecir el consumo diario de gasolina.
INTERVALO DE CONFIANZA PARA𝑀𝑦 Τ𝑥0

Con una confianza del 95% se asume que el valor medio del consumo promedio de petróleo es
caerá en el intervalo de (4355.9, 4985)
INTERVALO DE CONFIANZA PARA 𝑌0

Con una confianza del 95% se asume que el valor futuro del consumo promedio de petróleo
caerá en el intervalo de (4311.9, 5029.7), sin embargo se denota un punto que es un valor
atípico en extremo de los predictores
PRUEBA DE HIPOTESIS DE CADA COEFICIENTE DE
REGRESION ES CERO:

1. Datos anteriores

2. Ho: B1= 0 La variable Xj no es


importante

3. H1 : B1≠ 0 La variable si es importante

4. Nivel de significancia= 0.05


CONCLUSIONES
X1:
La variable de numero de horas-maquina tiene un “p-values” de 0.014 por lo tanto se
rechaza la hipótesis nula y sugiere que la variable si es importante en el modelo.
X2:
La variable distancia de los transportes tiene un “p-values” de 0.014 por lo tanto se
rechaza la hipótesis nula y sugiere que la variable si es importante en el modelo.
X3
La variable del rendimiento promedio del motor tiene un p-values” de 0.415 por lo
tanto se acepta la hipótesis nula y sugiere que la variable no es importante en el
modelo.
PRUEBA DE HIPÓTESIS DE QUE TODOS LOS
COEFICIENTES DE REGRESIÓN SON CERO:

1. Datos anteriores

2. Ho: B1=b2=b3=0 el modelo no sirve

3. H1 : al menos uno de los coeficientes es diferente


de cero, al menos una de las variables sirve

4. Nivel de significancia= 0.05

5. Región critica: si fp < f(tabla) no se rechaza la


hipótesis nula
6. Cálculos

ANALISIS DE VARIANZA MODELO COMPLETO (C)


𝑆𝑆𝑅ൗ
𝑃
𝐹= 𝑆𝑆𝐸ൗ
𝑛−𝑝−1
47613072Τ
3
𝐹= 22776Τ
5

F=3484.23

7. Conclusión:

Como 3484.23> 4.28 con un nivel de significancia del 95% se rechaza la hipótesis nula y se
concluye que al menos una de las variables productoras en el modelo es importante para
predecir el consumo diario de petróleo.
PRUEBA DE HIPÓTESIS PARA UN
SUBCONJUNTO DE COEFICIENTES DE
REGRESIÓN
1. Datos anteriores

2. Ho: B1=b2=b3=0 no se rechaza la hipótesis nula el


modelo reducido no sirve

3. H1 : al menos uno de los coeficientes es diferente de


cero, al menos una de las variables sirve

4. Nivel de significancia= 0.05

5. Región critica: si fp < f(tabla) no se rechaza la hipótesis


nula
6. Cálculos

ANALISIS DE VARIANZA MODELO COMPLETO (C)

 Análisis de varianza del modelo completo

Fuente GL SC MC F P
Regresión 3 47613072 15871024 3484.23 0.000
Error residual 5 22776 4555
Total 8 47635848

 Análisis de varianza reducido x2,x3


Distancia de transportes X2
Rendimiento de motores X3

Fuente GL SC MC F P
Regresión 2 47550086 23775043 1663.32 0.000
Error residual 6 85762 14294
Total 8 47635848
FORMULA:

(𝑆𝑆𝑅𝑐 − 𝑆𝑆𝑅𝑟)ൗ
𝐹𝑝 = 𝐾
𝑆𝑆𝐸𝑐 / (n − (K) − 1

Fp = ((47613072- 47550086)/2) / (22776/5) = 6.91

F(tabla)= 9.01

7. Conclusiones:

Como el valor de fp es igual a 6.91 y este valor es menor que el de las tablas 9.01 no se
rechaza la hipótesis nula y se concluye que el modelo reducido no sirve.
INTERPRETACIÓN DE LAS GRÁFICAS
ANÁLISIS DE GRÁFICO RESIDUAL

Los puntos de dispersión


de los residuos de
número de horas
maquina respecto a la
media residual presenta
una normalidad en todos
los datos, a pesar de la
distancia de los datos de
la fila 6 y 7 del modelo
Análisis de gráfico residual
Los puntos de dispersión de
los residuos de la distancia
de transporte respecto a la
media residual presenta una
normalidad en todos los
datos, a pesar de la distancia
de los datos de la fila 6 y 7
del modelo
Análisis de gráfico residual
Los puntos de dispersión de los
residuos del rendimiento promedio de
motores respecto a la media residual
presenta una normalidad en todos los
datos, a pesar de la distancia de los
datos de la fila 6 y 7 del modelo
ANÁLISIS DE GRÁFICO RESIDUAL
GRÁFICA DE NORMALIDAD:
Presenta normalidad ya que todos los puntos están cerca de la línea recta.
HISTOGRAMA DE RESIDUALES:
La forma de la grafica es anormal debido a que la distribución de el histograma no es simétrico.
RESIDUALES VS VALORES PREDICHOS:
La distribución de los datos presenta una pequeña anormalidad ya que en el sentido vertical se
encuentras dos puntos alejados de la media residual y en el sentido horizontal se encuentra un
punto alejado de los demás datos.

GRÁFICA DE RESIDUALES VS ÍNDICE DE LA OBSERVACIÓN:


A pesar a que existen dos datos muy alejados de la media residual estos no se consideran datos
anormales, esto coloca los datos dentro de la zona de validez.
SELECCIÓN DE VARIABLES EN REGRESIÓN MÚLTIPLE.
MÉTODOS STEPWISE.
MÉTODO DE ELIMINACIÓN HACIA ATRÁS
“BACKWARD”

El método termina en dos pasos.


Se ha economizado una variable: la
variable eliminada es x3 que
corresponde al RENDIMIENTO
PROMEDIO DE MOTORES, cuya
t=0.80 (es la menor) y P=
0.45>0.05.
Por lo tanto el mejor modelo de
regresión múltiple queda:
Con el cual el consumo de gasolina
queda con una 𝑅 2 de 99.93%
explicada por las variables x1 y
x2
MÉTODO DE ELIMINACIÓN HACIA ADELANTE
“FORWARD”.

La variables elegidas por este método


son: en primer lugar x2 que
corresponde a la distancia de
Transportes cuyo valor t=4.96 y
P=0.003<0.05, y en segundo lugar
x1 que corresponde al número de
horas-máquina cuyo valor t= 3.68 y
P=0.1< 0.05
Por lo tanto el mejor modelo de
regresión múltiple es:
MÉTODO DE PASO A PASO “STEPWISE”.

El modelo arrojo en orden las


variables que participan en el
mejor modelo:
La x2 distancia de transportes y la x1
número de horas-máquinas.
El coeficiente de determinación deja
explicado el consumo de petróleo
en 99.93%.
MÉTODO DE LOS MEJORES SUBCONJUNTOS
Se puede observar que
el mejor modelo queda
explicado con dos
variables las cuales son
x1 número de horas
hombre-máquina y x2
distancia de transportes,
cuyo coeficiente de
determinación queda en
99.9% y con esto queda
explicada la variabilidad
de l modelo y si se
puede realizar
predicción.
EJERCICIO 3. PÁGINA 483.
Para ejercitar el cuerpo, una medición objetiva del ajuste aeróbico es el consumo de
oxígeno en volumen por peso unitario del cuerpo por unidad de tiempo. Se
utilizaron 31 individuos en un experimento con objeto de poder modelar el
consumo de oxígeno contra: la edad en años (x1); el peso en kilogramos (x2), el
tiempo para correr 1 1/2 millas (x3); el ritmo del pulso en descanso (x4); el ritmo
del pulso al final de la carrera (x5), el ritmo máximo del pulso durante la carrera
(x6).
Individuo y consumo de oxígeno x1 (edad en años) x2 (peso kg) x3 (tiempo correr 1 y 1/2 milla x4 (ritmo pulso en descanso) x5 (pulso durante la carrera)
x6 (ritmo max del pulso durante

1 44.609 44 89.47 11.37 62 178 182

2 45.313 40 75.07 10.07 62 185 185

3 54.297 44 85.84 8.65 45 156 168

4 59.571 42 68.15 8.17 40 166 172

5 49.874 38 89.02 9.22 55 178 180

6 44.811 47 77.45 11.63 58 176 176

7 45.681 40 75.98 11.95 70 176 180

8 49.091 43 81.19 10.85 64 162 170

9 39.442 44 81.42 13.08 63 174 176

10 60.055 38 81.87 8.63 48 170 186

11 50.541 44 73.03 10.13 45 168 168

12 37.388 45 87.66 14.03 56 186 192

13 44.754 45 66.45 11.12 51 176 176

14 47.273 47 79.15 10.60 47 162 164

15 51.855 54 83.12 10.33 50 166 170

16 49.156 49 81.42 8.95 44 180 185

17 40.836 51 69.63 10.95 57 168 172

18 46.672 51 77.91 10.00 48 162 168

19 46.774 48 91.63 10.25 48 162 164

20 50.388 49 73.37 10.08 76 168 168

21 39.407 57 73.37 12.63 58 174 176

22 46.800 54 79.38 11.17 62 156 165

23 45.441 52 76.32 9.63 48 164 166

24 54.635 50 70.87 8.92 48 146 155

25 45.118 51 67.25 11.08 48 172 172

26 39.203 54 91.63 12.88 44 168 172

27 45.790 51 73.71 10.47 59 186 188

28 50.545 57 59.08 9.93 49 148 155

29 48.673 49 76.32 9.40 56 186 188

30 47.920 48 61.24 11.50 52 170 176

31 47.647 52 82.78 10.50 53 170 172


ECUACIÓN DE REGRESIÓN MÚLTIPLE.

Interpretaciones:
A= 102, significa que
El coeficiente de una variable predictora indica el cambio promedio en el consumo de oxígeno (y),
cuando se incrementa en una unidad la variable predictora x, asumiendo que las demás
permanecen constantes. Por lo tanto; la disminución del consumo de oxígeno es de -0.21166 por
cada año de edad; la disminución del consumo de oxígeno es de -0.07014 por cada unidad de peso
en kg ,la disminución del consumo de oxígeno es de -2.6829 por cada segundo adicional del
tiempo para correr 1 y 1/2 milla; el consumo de oxígeno aumenta en 0.00445 por cada unidad
adicional en el pulso de descanso; el consumo de oxígeno disminuye -0.3835 por cada unidad que
aumenta el pulso al final de la carrera;
el consumo de oxígeno aumenta en 0.3132 por cada unidad aumentada en el ritmo máximo del
pulso durante la carrera.
Asumiendo que las otras variables permanecen constantes.
COEFICIENTE DE DETERMINACIÓN.

Solo el 80.9% de la variación del consumo de oxígeno, está explicada por su relación con las
variables predictoras.
PRUEBA DE HIPÓTESIS DE QUE CADA COEFICIENTE
DE REGRESIÓN ES CERO.

𝐻0 : 𝛽2 = 0 La Variable x2 (peso kg) no es importante en el modelo.


𝐻0 : 𝛽2 ≠ 0 La Variable x2 (peso kg) no es importante en el modelo.
∝= 0.05
Ya que la variable x2 contiene un p-value de 0.212 > 0.05 se acepta la Hipótesis nula, y se
concluye que el peso en kg no contribuye al modelo, ni a su predicción.
PRUEBA DE HIPÓTESIS DE QUE TODOS LOS
COEFICIENTES DE REGRESIÓN SON CEROS.

𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 𝛽6 = 0 El modelo no sirve.
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒𝑠 𝑒𝑠 𝑐𝑒𝑟𝑜. ,
𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑖𝑟𝑣𝑒.
∝= 0.05

Ya que el “p-value” de la prueba F es 0.000, se concluye que al


menos una de las variables predictoras del modelo es importante
para predecir el consumo de oxígeno.
PRUEBA DE HIPÓTESIS PARA UN
SUBCONJUNTO DE COEFICIENTES DE
REGRESIÓN.
• 𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0 Las variables edad (x1), peso kg (x2) y
el tiempo para correr 1 y ½ millas no influyen simultáneamente en el modelo.

• 𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝛽1 ó 𝛽2 ó𝛽3 ≠ 0 Al menos una de las tres


variables influye en el consumo de oxígeno.

• ∝= 0.05
• Como 𝐹𝑝 > 𝑓∝ , 4.25 > 3.01; se rechaza la
hipótesis nula y se concluye con un nivel de
significancia de 0.05 que al menos una de
las tres variables influye en el consumo de
oxígeno.
ANÁLISIS RESIDUAL.

La gráfica muestra que la dispersión de los datos en de edad en años,


´respecto a la media de residuo es casi normal, sin embargo se puede
mostrar un dato anormal que es el siguiente:
Gráfica de normalidad: La dispersión de los puntos es normal, sin embargo los datos que se
encuentran al principio y al final son “outliers”.
Histograma de Residuos: Hay algo de normalidad en los errores, sin embargo su distribución no es
del todo normal.
Gráfica de residuales vs índice de la observación: Sugiere que el punto 15 y 17, son outliers en el
sentido vertical.
Gráfica residuales vs valores predichos: La distribución de los puntos no s igue un orden específico,
sin embargo muestra normalidad
ANÁLISIS RESIDUAL DE MODELO REDUCIDO.
ANÁLISIS RESIDUAL PARA EL MODELO REDUCIDO
𝑥1 , 𝑥2 , 𝑥3

La gráfica muestra una dispersión casi normal, a no ser de ciertos puntos


que muestran una lejanía de la media de residuos.
Ambas gráficas una dispersión casi normal de los puntos, realmente son
algunos puntos que se encuentran anormales. A continuación se muestra la
tabal indicando los datos anormales:
Gráfica de normalidad: La dispersión de los puntos es normal, sin embargo los datos que se
encuentran al principio y al final son “outliers”.
Histograma de Residuos: Hay algo de normalidad en los errores, sin embargo su distribución
no es del todo normal.
Gráfica de residuales vs índice de la observación: Sugiere que los puntos 2 y 17, son outliers
en el sentido vertical.
Gráfica residuales vs valores predichos: La distribución de los puntos no s igue un orden
específico, sin embargo muestra normalidad
MÉTODO PASO A PASO “BACKWARD”.

El método termina en 3 pasos.


La primera variable eliminadafue x4
(ritmo del pulso en descanso),
seguido por x2 (peso kg), y por
último x1 (edad en años)
Por lo tanto se economizaron 3
variables.
Y el coeficiente de correlación
explica el modelo de consumo
de oxígeno en 83.69% por l as
variables seleccionadas, las
cuales son x3 el tiempo que
tarda en correr una milla y
media; seguido por x5 el pulso
durante la carrera, y la x6 el
ritmo máximo del pulso durante
la carrera.
MÉTODO “FORWARD”.

Estas son las variables seleccionadas


por el método, las cuales influyen
en la variación de el conusmo de
oxígeno.
En primer lugar la x3 tiempo en que
tarda en correr una y media millas;
seguida por x5 pulso durante la
carrera; y x6 ritmo máximo del
pulso durante la carrera, y por
último por x1 que corresponde en la
edad en años.
MÉTODO “STEPWISE”.

Este método muestra en orden


consecutivo las variables que
deben tomarse en cuenta en el
modelo comenzando con la x3
tiempo en que tarda en correr
una y media millas; seguida por
x5 pulso durante la carrera; y x6
ritmo máximo del pulso durante
la carrera.
Cuyo Coeficiente de determinación
queda de 83.69%, no dice que
el consumo queda explicado en
este porcentaje con las
variables anteriores.
MÉTODO DE MEJORES SUBCONJUNTOS.

Las mejores opciones son la de 4


variables con 83.7% el cual
contiene las variables x1 edad en
años, x3 tiempo en que tarda en
correr una y media millas; x5
pulso durante la carrera; y x6
ritmo máximo del pulso durante la
carrer
También el modelo puede quedar
explicado con 3 variables con
81.2% el cual contiene las
variables la x3 tiempo en que
tarda en correr una y media
millas; seguida por x5 pulso
durante la carrera; y x6 ritmo
máximo del pulso durante la
carrera.

Potrebbero piacerti anche