Sei sulla pagina 1di 43

Tema

18 REGRESIÓN Y
CORRELACIÓN
MULTIPLE
OBJETIVOS
Al finalizar la Sesión 18, el participante será capaz de:
1. Construir un modelo utilizando dos o más
variables explicativas.
2. Probar una hipótesis para aceptar la validez de
un modelo de regresión múltiple
3. Realizar pruebas de hipótesis individuales para
descartar aquellas variables no significativas en
un modelo de regresión múltiple
4. Calcular en interpretar medidas de asociación
múltiples.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


5. Entender la importancia de los residuos en el
análisis de regresión.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


CONTENIDO

1. El modelo de regresión múltiple


2. Deducción de la ecuación de regresión
múltiple.
3. La computadora y la regresión múltiple
4. Inferencias sobre parámetros de la
población.
5. Técnicas de modelado

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


18.1 El modelo
La regresión múltiple y el análisis de correlación
múltiple consiste en estimar una variable
dependiente, utilizando dos o más variables
independientes.

El modelo genérico será

Yˆ  f (X1 , X 2 , X3 ,....)
Variable Variables
dependiente independientes

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Ejemplos

1. La cantidad de pacientes de enfermedades


respiratorias, dependen de la variación del
clima, el nivel nutricional del paciente y de la
calidad de sus viviendas entre otros factores.
2. La duración de la hospitalización depende del
tipo de afección, de la gravedad de la afección,
de la presencia de complicaciones, del sexo, de
la edad y peso del paciente, entre otros
factores.
3. El nivel de colesterol de un paciente podría ser
explicado por la edad, el peso, el nivel de
hemoglobina y el perímetro abdominal.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
La ventaja

Permite utilizar más información disponible para


estimar la variable dependiente de una manera
confiable.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Proceso
En el proceso de regresión y correlación múltiple,
se debe:

1. Describir la ecuación de regresión múltiple.


2. Examinar el error estándar de regresión
múltiple de la estimación.
3. Utilizar la ecuación de regresión para
determinar qué tan bien describe los datos
observados.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Alcance

1. Permite ajustar los datos tanto a curvas como a


rectas.
2. Se puede incluir variables cualitativas,
haciendo uso de las “variables ficticias”.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


18.2 La ecuación de regresión múltiple

La forma simbólica de la ecuación lineal con dos


variables independientes:
donde: Ŷ  b0  b1X1  b 2 X 2
Ŷ : Valor estimado correspondiente a la variable
dependiente
b 0 : intersección con el eje Y.
X1 y X 2 : valores de las dos variables independientes.
b1 y b2 : pendientes asociadas con X1 y X2
respectivamente

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Visualización: se puede representar una
ecuación de regresión múltiple con dos
variables, como un plano

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


El método de mínimos cuadrados
El problema consiste en decidir cuál de los planos
posibles que podemos dibujar, será el que mejor se
ajuste
El método de mínimos cuadrados garantiza que la
suma de los cuadrados de los errores es mínimo. Las
ecuaciones normales serán
 Y  nb 0  b1 X1  b2  X2
 1X Y  b 0 X 1  b1 X 1  b 2  X1X 2
2

 2X Y  b 0 X 2  b 1 X 1 X 2  b 2 X 2
2

Donde bo, b1 y b2 son los coeficientes de regresión


estimados.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Aplicación
En el siguiente caso, interesa construir un modelo
para determinar los niveles de colesterol,
conociendo el peso (en Kg), el diámetro de la
cintura (en cms) y el nivel de hemoglobina (en grs.)
COLESTEROL PESO CINTURA HEMOGLOBINA
250 76 80 13.5
220 61 72 12.1
200 50 70 11.6
350 94 122 12.5
210 55 75 13.5
205 61 95 14
285 80 120 12.5
190 52 68 14.5

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Al aplicar las ecuaciones normales a los datos
obtenemos los siguientes coeficientes de regresión:
bo = 121,704 b1 = 2,949
b2 = 0,276 b3 = -7,843

Construyendo la siguiente ecuación de regresión:

Ŷ  121,704 + 2,949 X1+ 0,276X2 - 7,843X3

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


18.3 El error estándar de la regresión
múltiple (Syx)
Es una medida de dispersión la
estimación se hace más precisa
conforme el grado de dispersión
alrededor del plano de regresión se
hace mas pequeño.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Para medirla se utiliza la formula:

Sy x   ( Y  Ŷ ) 2

n  k 1
donde:
Y : Valores observados en la muestra
Yˆ : valores estimados a partir a partir de la
ecuación de regresión
n : número de datos
k : número de variables independientes
En los resultados de Excel se llama error típico y para el
caso de colesterol que se viene desarrollando es 14,89

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


18.4 El coeficiente de determinación
múltiple (r2)
Mide la tasa porcentual de los cambios de Y
que pueden ser explicados por X1, X2 y X3
simultáneamente.
SCregresión
r 
2

SCtotal
19950,57
r  2
 0,95
20837,5
Interpretación: El 95% de los cambios en el nivel
de colesterol de un paciente puede ser explicado
por el peso, perímetro abdominal y nivel de
hemoglobina.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
Coeficiente de determinación múltiple ajustado (r2a)
Hay personas que prefieren “ajustar” el r2 de acuerdo a:
n = número de datos
k = número de variables independientes

r  1 1 r
2
a n 1
n  k 1
2

8 1
r  1  1  0,95 
2
 0,9125
8  3 1
a

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Coeficiente de correlación: r
r  r2

Para el caso de colesterol, tenemos:


r  0,95  0,9746
De acuerdo al valor de r podemos afirmar que
las variables peso, perímetro abdominal y
hemoglobina se encuentran asociadas en forma
directa, de una manera muy fuerte.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Los resultados de Excel nos da la siguiente
información:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.97 r
Coeficiente de determinación R2 0.95 r2
R2 ajustado 0.92 r 2a
Error típico 14.89 Syx
Observaciones 8

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


18.5 La prueba global del modelo
No se debe perder de vista que como
trabajamos con una muestra, sólo tendremos
estimaciones de los parámetros.
El modelo de la muestra es
Ŷ  b0  b1X1  b 2 X2
Para el ejemplo será:
Ŷ  121,704 + 2,949 X1+ 0,276X2 - 7,843X3

que estima al modelo de la población:


Y = o +  1X1 +  2X2 +  3X3
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
1. Formulación de hipótesis
Hp : 1 = 2 = 3 = 0
Ha : 1  2  3  0

Si se acepta la hipótesis planteada, significa


que ninguno de los factores (X1,X2 y X3) son
relevantes para explicar los cambios en Y.

2. Determinación del nivel de significación


 = 0,10

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


3. Selección de la prueba estadística:
Se realiza a partir del Análisis de Varianza de la
Regresión y tiene como objeto aceptar o rechazar
la validez del modelo.
CMeregresión
F
CMeresiduos

4. Determinación el criterio de decisión


El valor de F tabular se determina con 3
y 4 grados de libertad y /2 = 0,05
Si Fc es > 6,59 se rechaza la Hp
/2=0,01
(1 -

0,95
F
2
6,59
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
5. Cálculos
6650,19
Fc   29,99
221,73

Lo que se puede verificar con la salida de Excel.


El p-valor es 0,003 y como es menor al valor del
nivel de significación, por lo tanto se rechaza la Hp.

Resultado en Excel
GL SC CMe F p-valor
calculado
Regresión 3 19950.57 6650.19 29.99 0.003
Residuos 4 886.926 221.73

Total 7 20837.5

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


6. Conclusiones
A. Se rechaza la hipótesis planteada, se acepta la
alternante a un nivel de significación de 0,10. La
prueba resultó ser significativa.
B. Hay evidencia muestral suficiente para rechazar
la hipótesis planteada
C. Probablemente al menos uno de los factores
seleccionados (peso, diámetro de la cintura y
hemoglobina) explican el nivel de colesterol en
un paciente.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


18.6 Hipótesis sobre parámetros en la
ecuación de regresión
Una vez que se realiza la prueba global del
modelo, y se concluye que al menos uno de
los factores tiene efecto significativo sobre Y
(nivel de colesterol), se deberá a probar
cada uno de los factores, a fin de determinar
cuál o cuales factores permanecen en el
modelo, y cuales son descartados.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


(A) Hipótesis acerca de una pendiente
individual: B1
Procedimiento

1) Planteo de hipótesis
Hp : 1 = 0
Ha : 1  0
2) Nivel de significación
 = 0,10

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


3) Prueba estadística
b1  B1
tc 
Sb1
donde
bi : pendiente de la regresión ajustada
(muestra)
Bio : pendiente real hipotizada para la población
Sbi : error estándar del coeficiente de regresión
con los supuestos
a) la población normal con , 2
b) la muestra fue seleccionada al azar
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
4) Criterios de decisión

t con Gl = n - k - 1
=8-3-1=6
 = 0,10

-1,94318 1,94318

Si 1,94318  tc -1,94318 se acepta Hp, en caso


contrario se rechaza
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
b1  B10
5) Cálculos tc 
Sb1

Sy x
Sb1   0,704
  nx 
2 2
X

Resultados en Excel
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior Inferior Superior
95% 95.0% 95.0%

Intercepción 121.704 83.00 1.466 0.216 -108.752 352.161 -108.752 352.161

PESO 2.949 0.70 4.189 0.014 0.995 4.904 0.995 4.904

CINTURA 0.276 0.49 0.558 0.607 -1.095 1.646 -1.095 1.646

HEMOGLO -7.843 5.73 -1.37 0.24 -23.74 8.06 -23.74 8.06


BINA

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


Reemplazando en la ecuación:

2,949  0
tc 
0,704

t c  4,189

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


6) Conclusiones
A. Se rechaza la hipótesis planteada. Se acepta
la hipótesis nula.
B) Existe una diferencia suficientemente grande
entre el valor del estimador b1= 2,949 y el valor
hipotizado del parámetro 1= 0 y que nos
permite concluir que el factor X1 (peso del
paciente) afecta significativamente a Y (nivel
de colesterol).
C) La variable X1 (peso) será considerada en el
modelo de regresión múltiple.
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
(B) Hipótesis acerca del coeficiente de
correlación poblacional:  (rho)
1. Planteo de hipótesis
Hp :  = 0
Ha :   0
2. Nivel de significación
 = 0,05

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


3. Criterio de decisión:

-1,94318 1,94318

Si 1,94318  tc -1,94318 se acepta Hp, en


caso contrario se rechaza

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


4. Prueba estadística

r n2
tc 
1 r 2

5. Cálculos

0,9746 8  2
tc   10,66
1  0,9746
2

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


6. Conclusiones
A) Se rechaza la hipótesis planteada, se
acepta la hipótesis alternante a un nivel de
significación de 0,10. La prueba fue
significativa.
B) La evidencia empírica permite afirmar que
existe una alta correlación entre los factores
peso, perímetro abdominal y hemoglobina.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


18.7 Análisis de residuos

Multicolinealidad: Varias X tienen alta


asociación entre ellas.

Homoscedasticidad: Residuos constantes


a lo largo de toda la data.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


HOJA DE COMPROBACIÓN

1. La ventaja principal de la regresión multiple con repecto a la


regresión simple consiste en que la primera nos permite usar más
de la información disponible para estimar la variable dependiente

2. Suponga que en la ecuación de regresión Yˆ  24.4  5.6 X 1  6.8 X 2 , Yˆ


múltiple es el peso (en libras) y X2 es la edad (en años). Por cada
año adicional en la edad, entonces, se puede esperar que el peso
aumente en 24.4 libras

3. Aunque teóricamente posible hacer cálculos de regresión múltiple


a mano, muy pocas veces lo hacemos.

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


4. Suponga que usted está intentando formar un intervalo de
confianza para un valor de Y de una ecuación de regresión
múltiple. Si existen 20 elementos en la muestra y se utilizan
cuatro variables independientes en la regresión, deberá usar 16
grados de libertad cuando obtenga un valor de la tabla t
5. El error estándar del coeficiente b2 en una regresión múltiple se
denota con S2
6. Suponga que deseamos probar si los valores de Y en una
regresión múltiple realmente dependen de los valores de X1. La
hipótesis nula para nuestra prueba será B1 = 0

7. Para determinar si una regresión es significativa como un todo, se


calcula un valor observado de F y se le compara con un valor
obtenido de una tabla

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


8. Si uno conoce la suma total de cuadrados y la suma de regresión
de cuadrados para una regresión múltiple, la suma de error de
cuadrados puede calcularse siempre rápidamente

9. Ciertos patrones en los signos de los residuos de un modelo de


regresión de segundo grado indican que deberiamos utilizar mejor
un modelo lineal

10.Las regresiones simples de Y sibre X1 y de Y sobre X2 muestran


que X1 y X2 son ambas variables explicativas significativas de Y.
Pero una regresión múltiple de Y sobre X1 y X2 nos dice que ni X1
ni X2 son variables explicativas significativas para Y. Claramente,
éste es un caso de multicolinealidad

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


11.Las variables ficticias son una técnica que puede utilizarse para
incorporar datos cualitaticos en las regresiones múltiples

12.Cuando se utiliza una variable ficticia con valores 0 y 1, es muy


importante asegurarse de que los ceros y los unos se usen de
acuerdo con la práctica estándar. El invertir la codificación
destruirá completamente los resultados de la regresión múltiple

13. Podemos formar un modelo de regresión de segundo grado si


multiplicamos por dos los valores observados de una variable
independiente
14.El agregar variables adicionales a una regresión múltiple siempre
reducirá el error estándar de la estimación

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003


15.Suponga que una regresión múltiple ha producido la siguiente
ecuación: Yˆ  5.6  2.8 X 1  3.9 X 2  5.6 X 3 . Si X1, X2 y X3 tienen valor
de cero, entonces se esperaría que Y tuviera el valor de 5.6.

16.El análisis de residuos en un modelo de regresión líneal se hace


para determinar el valor correcto de Se

17.A pesar de que es posible hacer inferencias acerca de la


regresión como un todo, no es posible hacer inferencias acerca
de los coeficientes de regresión estimados.

18.Si existe un alto nivel de correlación entre variables explicativas,


por lo general es posible separar las contribuciones de tales
variables en una regresión
Material de Clases © Jorge Córdova Egocheaga. Febrero 2003
19. El error estándar de los datos de la población se denota con Se

20. Si una regresión incluye a todos los factores explicativos


relevantes, los residuos serán aleatorios

21.Una relación líneal entre variables explicativas con toda


seguridad producirá multicolinealidad en el modelo de regresión

Material de Clases © Jorge Córdova Egocheaga. Febrero 2003

Potrebbero piacerti anche