Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica
Mtodos Multivariantes
ANLISIS DE REGRESIN
Introduccin
El problema principal al analizar un conjunto de datos bivariantes o multivariantes
es descubrir y medir la asociacin entre las variables y determinar como las
variables varan conjuntamente.
Para estudiar las relaciones existentes entre 2 ms variables se utilizan dos
tcnicas:
El anlisis de regresin.
Anlisis de correlacin.
El trmino de regresin que fue usado por primera vez como concepto por el
estadstico Sir Francis Galton a finales del siglo XIX, cuyo trabajo se centr en
comparar la estatura de los hijos en relacin con la de sus padres, y demostr que
los hijos de padres muy altos o muy bajos tienden a retroceder o regresar hacia la
estatura promedio e la poblacin.
Y X
0,734 1,1
0,886 1,2
1,04 1,3
1,19 1,4
1,35 1,5
1,50 1,6
1,66 1,7
1,81 1,8
1,97 1,9
2,12 2,0
Diagrama de Dispersin
2,2
2,0
1,8
1,6
1,4
Corriente de Drenaje
1,2
1,0
,8
,6
1,0 1,2 1,4 1,6 1,8 2,0 2,2
Voltaje
Parece que en trminos generales los puntos trazados siguen una relacin lineal
directa o creciente. Por lo tanto se puede trazar o ajustar una recta para
representar la relacin entre la corriente de drenaje y el voltaje tierra-fuente. Como
la relacin funcional es creciente, indica que a medida que aumenta el voltaje
aumenta la corriente de drenaje.
Supuestos en el Modelo
La variable independiente o predictora X no es una variable aleatoria sino
una variable fija en el muestreo porque sus niveles de observacin son
seleccionados por el investigador.
n
n 2
Min ei2 = Min (Yi (B0 + B1 X i ))
i =1 i =1
Llamemos
n 2
L = (Yi (B0 + B1 X i ))
i =1
( ( ))
n
= 2 Yi B 0 + B1 X i ( 1) = 0
OL
OB0 i =1
(Y (B ))
n
i 0 + B1 X i = 0
i =1
n
Y
i =1
i nB 0 B1 X i = 0
n
Y = nB
i =1
0 + B1 X i (1)
Y i
B1 X i
= B 0
n n
0 = Y B1 X
Derivando respecto de B1
( ( ))
n
= 2 Yi B 0 + B1 X i ( X i ) = 0
OL
OB1 i =1
( ( ))
n
= Yi B 0 + B1 X i X i = 0
i =1
n n n
= Yi X i B 0 X i B1 X i2 = 0
i =1 i =1 i =1
n
Yi X i = B 0 X i + B1 X i2 (2)
i =1
Y i
B1
X i
= B 0
n n
Y B1 X = B0
De (2) se despeja B1
X i Y i = B 0 X i + B 1 X i2
Yi X
X Yi = B 1 X i + B 1 X i
i 2
i
n n
Y X B 1 ( X i )
2
X Yi = + B 1 X i2
i i
i
n n
Y X ( X ) 2
X Yi = + B 1 X i2
i i i
i
n n
X Yi ( X ) 2
= B 1 X i2
i i
X i Yi
n n
n X i Yi X i Yi n X i2 ( X i )2
= B1
n n
[n X i Yi X i Yi n ]
[
n n X i2 ( X i )
2
= B 1
]
n X i Yi Yi X i
B 1 =
n X i2 ( X i )
2
Ejemplo 2: Obtener la recta de regresin mnimo cuadrtica para los datos del
ejemplo 1.
Y X XY X2 Yi
0,734 1,1 0,8074 1,21 0,73131 X = 15,5
i
(Y )
2
Yi SCE
Se = = = CME
i
(n 2) ( n 2)
(Y Y ) = (Y ) (Y Y )
2 2 2
i i Yi + i
Donde:
SCT = (Yi Y ) = Yi 2 nY 2
2
(
SCR = Yi Y ) 2
= B12 ( X i
2
nX 2 )
SCE = SCT SCR
(
SCR = (1,54376 ) 24,85 10(1,55) = 1,96613
2 2
)
SCE = 0,000064176
= 0,0028323(mA)
0,000064176
Ahora bien, Se =
8
1,96613
R2 = = 99,996%
1,9662
El modelo explica casi el 100% de la variacin total de la corriente de drenaje.
Se
S B 1 =
X i
2
nX 2
B1 = 1,54376 Se = 0,0028323 X i
2
= 24,85
X = 1,55
0,0028323
Ahora: SB1 = = 0,003118
24,85 10(1,55)
2
H 0 : B1 = 0 Vs = 0.05
H 1 : B1 0
B1 t n 2, / 2 SB1
1,54376 2,306(0,003118)
1,54376 0,00719
[1,53657 < B1 < 1,58095]
Se espera con un 95% de confianza que la pendiente de la recta de regresin se
encuentre entre 1,53657 y 1,58095. Puesto que el intervalo no contiene el 0 y
debido a que los lmites son dos nmeros positivos, existe relacin lineal directa
entre las variables.
Se usa un procedimiento similar que el descrito para B1. En este caso se prueban
las siguientes hiptesis:
H 0 : B0 = 0 Vs
H 1 : B0 (> 0 < 0)
0
(
n X i2 nX 2 )
Los lmites para el intervalo de confianza son B 0 t n 2 / 2 S B
0
H 0 : B0 = 0 Vs = 0,05
H 1 : B0 0
Se debe calcular S B
0
0,0028323 24,85
S B = = 0,00492
0
(
10 24,85 10(1,44 )
2
)
El estadstico de prueba
0,966828 0
t= = 196,686
0,00492
Como -196,686 < -2,306 se rechaza la hiptesis nula, por lo tanto el trmino
correspondiente al intercepto es conveniente incluirlo en el modelo, se dice
entonces que el trmino es significativo.
0,966828 2,306(0,00492 )
0,966828 0,0113455
[ 0,9782 < B0 < 0,9554]
Recuerde que SCT= SCR+ SCE y la tabla ANOVA que se usa en regresin tiene
la siguiente forma
SCT=1,9662
SCR=1,96613
SCE=0,000064176
Como 245092 > 5,32 se concluye que existe relacin entre la corriente de drenaje
y el voltaje, por lo tanto B1 es un parmetro significativo en el modelo.
Predicciones
Y0 = B 0 + B1 X 0
Donde S Y 0 = Se
1
+
(X X ) 2
( X nX )
0
2 2
n i
Ejemplo 10: obtener un IC del 95% para estimar la corriente de drenaje promedio
cuando el voltaje es de 1,56 en base a los datos del ejemplo.
Y0 = 1,4414 t 8;0,025 = 2,306
Ahora Sy 0 = 0,0028323
(1,56 1,55)
2
+
1
24,85 10(1,55) 10
2
= 0,0028323(0,316419 ) = 0,000896
1,4414 2,306(0,000896 )
1,4416 0,0020662
[1,43953 < Y / X0 < 1,44366 Amp ]
1
= Se 1 + +
(X X ) 2
( X nX )
0
S y 0 2 2
n i
Ejemplo 11: con los datos del ejemplo, calcular un IC del 95% para la corriente de
drenaje cuando el voltaje es de 1,56.
1
= 0,0028323 1 + +
(1,56 1,55) 2
S y 0
(
10 24,85 10(1,55)2 )
= 0,0028323(1,048866)
= 0,002971
1,4414 2,306(0,002971)
1,4414 0,00685
[1,43455 < Y0 / X 0 < 1,4483]
Se espera con un 95% de Confianza que la corriente de drenaje se encuentre en
el Intervalo hallado cuando el voltaje es de 1,56.
El anlisis de correlacin se usa para medir el grado de asociacin lineal entre las
variables X y Y.
Cov( X , Y )
=
XY
(X i X )(Yi Y )
n
1
r=
(n 1) i =1
1
(n 1) (
X i2 nX 2
1
)
(n 1) Yi 2 Yn2( )
(X X )(Yi Y )
n
i
r= i =1
X i
2
nX 2 Y i
2
nY 2
r=
(X Y X Y Y X + XY )
i i i i
X nX Y nY
i
2 2
i
2 2
Multiplicando por n
n X i Yi X i Yi X i Yi + 1 / n( X i Yi )
n X i Yi ( X i )( Yi )
r=
n X i2 ( X i ) n Yi 2 ( Yi )
2 2
Ejemplo 12: obtenga el coeficiente de correlacin r para los datos del ejemplo.
n = 10 X iYi
X i = 15,5 Y i = 14,26
X i
2
= 24,85 Y i
2
= 22,301
r = 0,99997
Este resultado indica que existe una relacin lineal positiva (directa) entre la
corriente de drenaje y el voltaje.
H 0 : = 0 Vs. =0,05
H1 : > 0
0,99997
El estadstico de prueba est dado por t= = 365,1451 y la regin
1 (0,99997 )
2
8
crtica se determina mediante t 8;0, 05 = 1,8595
Como 365,1451 > 1,8595 se rechaza H0, y se concluye que existe una relacin
lineal positiva (directa) entre las variables corriente de drenaje y voltaje.
Sy Sx
B1 = r r = B1
Sx Sy
Al igual que en el modelo simple, se parte del hecho de que se debe minimizar la
n
( ) 2
suma de cuadrados del error Min Yi 0 + 1 X 1 + 2 X 2 , y luego se deriva
i =1
respecto a los tres parmetros ( 0, 1 y 2 ) e igualando a cero, y se obtiene el
sistema de ecuaciones normales y de all se despejan las ecuaciones resultantes
que generan los estimadores MCO.
(Y Y )
n
2
i
SCR
R2 = i =1
n
=
(Y Y )
2 SCT
i
i =1
j d
El estadstico de prueba es t = , el cual bajo H0 cierta tiene distribucin t de
j
1. La Heterocedaticidad
2. Multicolinealidad
Uno de los supuestos del anlisis de regresin lineal establece que no existe
relacin lineal exacta entre los regresores o variables independientes, en otras
palabras, establece que no existe multicolinealidad perfecta en el modelo. Este
hiptesis es necesaria para el clculo es estimadores MCO, ya que en caso
contrario la matriz XX ser no singular.
4. Autocorrelacin
(e ei 1 )
2
i
Durbin Watson DW = i =2
n
bajo la hiptesis nula de que no existe
e
i=2
2
i