Sei sulla pagina 1di 30

Universidad de Los Andes email:gabipm@ula.

ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

Universidad de Los Andes


Facultad de Ciencias Econmicas y Sociales
Escuela de Estadstica
Departamento de Estadstica
Prof. Anna Gabriela Prez de Rivas

Mtodos Multivariantes

ANLISIS DE REGRESIN

Introduccin
El problema principal al analizar un conjunto de datos bivariantes o multivariantes
es descubrir y medir la asociacin entre las variables y determinar como las
variables varan conjuntamente.
Para estudiar las relaciones existentes entre 2 ms variables se utilizan dos
tcnicas:
El anlisis de regresin.
Anlisis de correlacin.

El anlisis de regresin es una tcnica estadstica para el modelado y la


investigacin de la relacin entre 2 ms variables. Este tipo de anlisis trata de
establecer la naturaleza de la relacin entre las variables, es decir se estudia la
relacin funcional entre las variables de modo que se pueda predecir el valor de
una en base en otra u otras variables.

Convencionalmente la variable o variables que son la base de la prediccin se


denominan variable (s) independiente (s) o predictoras, y la variable que se intenta
explicar o predecir se llama variable dependiente.

Sera ideal si se pudiera predecir o describir los valores exactos de la variable


dependiente en trmino de la (s) variable (s) independiente (s), pero esto rara vez
es posible, ya que pueden existir muchos factores que causen variaciones en la
variable dependiente. El inters radica entonces, en predecir o describir el valor
promedio de una variable en trminos del valor conocido de otra u otras variables.

El trmino de regresin que fue usado por primera vez como concepto por el
estadstico Sir Francis Galton a finales del siglo XIX, cuyo trabajo se centr en
comparar la estatura de los hijos en relacin con la de sus padres, y demostr que
los hijos de padres muy altos o muy bajos tienden a retroceder o regresar hacia la
estatura promedio e la poblacin.

El anlisis de regresin puede tener:


- 1 variable independiente, en este caso se denomina simple.

Prof. Anna Gabriela Prez de Rivas 1


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

- Si por el contrario incluye 2 ms variables independientes se


denomina mltiple.

La naturaleza de la relacin existente entre las variables puede adoptar muchas


formas que van desde funciones matemticas muy sencillas (lineal) a funciones
muy complicadas.
El anlisis de correlacin se usa para medir la fuerza de la relacin entre las
variables, su objetivo es determinar el grado de asociacin o relacin lineal entre
las variables.

Diagramas de Dispersin: es un mtodo grfico que se usa para determinar si


existe relacin entre 2 variables. Es un grfico en el que se traza cada uno de los
puntos que representan un par de valores observados para las variables
independiente y dependiente. Para elaborar un diagrama de dispersin el primer
paso es determinar cual es la variable independiente (X) y cual es la variable
dependiente (Y). Se coloca un punto en el plano por cada par de valores (Xi, Yi). El
patrn de puntos obtenidos se llama diagrama de dispersin.

Ejemplo 1: se desea ajustar un modelo de regresin lineal simple para expresar


la corriente de drenaje (Y) en (mA) como una funcin del voltaje tierra-fuente (X)
en (Voltios) los datos son los siguientes:

Y X
0,734 1,1
0,886 1,2
1,04 1,3
1,19 1,4
1,35 1,5
1,50 1,6
1,66 1,7
1,81 1,8
1,97 1,9
2,12 2,0

Diagrama de Dispersin
2,2

2,0

1,8

1,6

1,4
Corriente de Drenaje

1,2

1,0

,8

,6
1,0 1,2 1,4 1,6 1,8 2,0 2,2

Voltaje

Prof. Anna Gabriela Prez de Rivas 2


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

Parece que en trminos generales los puntos trazados siguen una relacin lineal
directa o creciente. Por lo tanto se puede trazar o ajustar una recta para
representar la relacin entre la corriente de drenaje y el voltaje tierra-fuente. Como
la relacin funcional es creciente, indica que a medida que aumenta el voltaje
aumenta la corriente de drenaje.

MODELO DE REGRESIN LINEAL SIMPLE

Se utiliza en aquellas situaciones donde interesa estudiar la relacin que existe en


2 variables, una de las cuales es la variable dependiente Y, y la otra es la variable
predictora o independiente X, admitiendo que la relacin poblacional promedio
entre Y, X puede ser expresada mediante una lnea recta.

Como se desea determinar el valor medio de Y para un valor dado de X, el inters


es obtener Y/X (esperanza condicional) que representa el valor esperado
(promedio) de Y para aun valor dado Xi. La ecuacin que representa la relacin
poblacional lineal entre xi y el valor esperado de y se llama recta de regresin
poblacional y se describe:
Y / X = 0 + 1 X i

Donde 0 y 1 son los coeficientes de regresin


0 representa el valor esperado de Y cuando X =0
1 representa el incremento o disminucin promedio en Y por un incremento
unitario particular en X.

Un valor observado yi por lo general no es igual al valor promedio estimado Y/X.


La diferencia entre el valor real Yi y el valor estimado Y/Xi.
Yi - Y/Xi = Ei

da origen a una variable aleatoria que corresponde a la perturbacin aleatoria, que


puede tomar valores positivos o negativos. Esta variable es muy importante
porque es una variable sustitutiva de todas las variables predictoras omitidas en el
modelo que pueden influir sobre Y. Tambin Ei recoge el componente aleatorio
que no puede ser explicado con la inclusin de ms variables independientes en el
modelo o simplemente los errores de observacin y medida. As pues, es
necesario incluir Ei en el modelo, y se obtendra la siguiente ecuacin:
Yi = 0 + 1 Xi + Ei

Supuestos en el Modelo
 La variable independiente o predictora X no es una variable aleatoria sino
una variable fija en el muestreo porque sus niveles de observacin son
seleccionados por el investigador.

Prof. Anna Gabriela Prez de Rivas 3


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

 La variable dependiente Y se distribuye Normal con media B0 + B1Xi y


varianza 2.
 La variable E es independiente de los valores de la variable X, Ei se
distribuye normal con media cero (0) y varianza 2 constante, por otra parte
Cov(Ei , E k ) = 0 i k

Modelo de Regresin Simple Muestral:

Se usa la informacin de una muestra aleatoria para estimar los parmetros


poblacionales como hay 2 parmetros en un modelo simple se estiman B0 y B1.

As, la recta est dada por


Yi = B 0 + B1 X i

Los residuos o el error de estimacin se obtiene como:


ei = Yi Yi
e = Y B B X
i i 0 1 i

Estimacin de los Parmetros por el Mtodo de Mnimos Cuadrados

El criterio para estimar los coeficientes de regresin se como mtodo de mnimos


cuadrados, es decir el que determina los valores de B0 y B1 que minimizan la
n
suma de los cuadrados de los residuos, es decir, minimizan e
i =1
2
i para hallar la

recta que mejor se ajusta a los datos

n
n 2
Min ei2 = Min (Yi (B0 + B1 X i ))
i =1 i =1

Llamemos

n 2

L = (Yi (B0 + B1 X i ))
i =1

Hallando B0. Se debe derivar L respecto de B0 e igualar a O esto es:

Prof. Anna Gabriela Prez de Rivas 4


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

( ( ))
n
= 2 Yi B 0 + B1 X i ( 1) = 0
OL
OB0 i =1

(Y (B ))
n

i 0 + B1 X i = 0
i =1
n

Y
i =1
i nB 0 B1 X i = 0
n

Y = nB
i =1
0 + B1 X i (1)

Y i

B1 X i
= B 0
n n
0 = Y B1 X

Derivando respecto de B1

( ( ))
n
= 2 Yi B 0 + B1 X i ( X i ) = 0
OL
OB1 i =1

( ( ))
n
= Yi B 0 + B1 X i X i = 0
i =1
n n n
= Yi X i B 0 X i B1 X i2 = 0
i =1 i =1 i =1
n
Yi X i = B 0 X i + B1 X i2 (2)
i =1

Ahora se tiene el siguiente sistema


Yi = nB 0 + B1 X i (1)

Si se despeja B0 se tiene que:


Y B X = nB
i 1 i 0

Y i
B1
X i
= B 0
n n
Y B1 X = B0

Prof. Anna Gabriela Prez de Rivas 5


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

De (2) se despeja B1

X i Y i = B 0 X i + B 1 X i2
Yi X
X Yi = B 1 X i + B 1 X i
i 2
i
n n

Y X B 1 ( X i )
2

X Yi = + B 1 X i2
i i
i
n n
Y X ( X ) 2

X Yi = + B 1 X i2
i i i
i
n n

X Yi ( X ) 2

= B 1 X i2
i i
X i Yi
n n

n X i Yi X i Yi n X i2 ( X i )2
= B1

n n
[n X i Yi X i Yi n ]
[
n n X i2 ( X i )
2
= B 1
]
n X i Yi Yi X i
B 1 =
n X i2 ( X i )
2

NOTA: a las ecuaciones 1 y 2 se les conoce como ecuaciones normales.

Ejemplo 2: Obtener la recta de regresin mnimo cuadrtica para los datos del
ejemplo 1.

Y X XY X2 Yi
0,734 1,1 0,8074 1,21 0,73131 X = 15,5
i

0,886 1,2 1,0632 1,44 0,885684 Y = 14,26


i

1,04 1,3 1,352 1,69 1,04006 X Y = 23,3766


i i

1,19 1,4 1,666 1,96 1,194436 X = 24,85


i
2

1,35 1,5 2,025 2,25 1,3488


1,50 1,6 2,4 2,56 1,503188 X = 1,55
1,66 1,7 2,822 2,89 1,65756 Y = 1,426
1,81 1,8 3,258 3,24 1,81194

Prof. Anna Gabriela Prez de Rivas 6


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

1,97 1,9 3,743 3,61 1,9663 Y=Corriente de drenaje


2,12 2,0 4,24 4 2,1207 X= Voltaje tierra-fuente

Estimando los coeficientes del modelo se tiene que:

10(23,3766) 15,5(14,26 ) 12,736


B1 = = = 1,54376
10(24,85) (15,5)
2
8,25
B = 1,426 1,54376 (1,55) = 0,966828
0

Yi = 0,966828 + 1,54376 X i (modelo de regresin muestral)

B0 = -0,966828 indica que la corriente de drenaje promedio ser 0 cuando no hay


voltaje (el valor negativo del coeficiente no tiene sentido).

B1 : representa un incremento de 1,54376 (mA) por cada unidad de incremento en


el voltaje.

Medidas de Bondad de Ajuste

A pesar de que el mtodo de Mnimos Cuadrados da como resultado una recta


que se ajusta a los datos con el mnimo de variacin, la recta no es un indicador
perfecto de la prediccin. Se necesita entonces obtener medidas que indiquen la
confiabilidad de la recta, para ello se utilizan las medidas de bondad de ajuste. A
continuacin se presenta un esquema de las medidas de la bondad del ajuste.

Ajuste Absoluto: Error estndar de la estimacin


Medidas de Bondad de Ajuste

Ajuste Relativo: Coeficiente de Determinacin R2

Error Estndar de la Estimacin

Mide la variabilidad o dispersin de los valores observados alrededor de la lnea


de regresin, se denota Se y se define como:

(Y )
2
Yi SCE
Se = = = CME
i

(n 2) ( n 2)

Prof. Anna Gabriela Prez de Rivas 7


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

Se debe recordar que:

(Y Y ) = (Y ) (Y Y )
2 2 2
i i Yi + i

Variacin total Variacin Variacin


No Explicada Explicada

SCT = SCE + SCR

Donde:

SCT = (Yi Y ) = Yi 2 nY 2
2

(
SCR = Yi Y ) 2
= B12 ( X i
2
nX 2 )
SCE = SCT SCR

NOTA: cuanto ms grande es el valor de Se mayor ser la dispersin alrededor de


la lnea de regresin. En el caso extremo Se=0, indicara que la ecuacin de
prediccin es un estimador perfecto.

Esta medida de Bondad del ajuste se utiliza fundamentalmente con fines


comparativos (al seleccionar 2 modelos que usan las mismas variables).

Ejemplo 3: Hallar el error estndar de la estimacin para el ejemplo anterior.

SCT = 22,3000952 10(1,426) = 1,9662


2

(
SCR = (1,54376 ) 24,85 10(1,55) = 1,96613
2 2
)
SCE = 0,000064176

= 0,0028323(mA)
0,000064176
Ahora bien, Se =
8

Coeficiente de Determinacin R2: sirve para obtener la cantidad relativa de la


variacin de la variable dependiente Y explicada por la variable independiente X.
SCR
Se obtiene mediante: R 2 =
SCT

Ejemplo 4: Calcular el R2 para el ejemplo en cuestin.

Prof. Anna Gabriela Prez de Rivas 8


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

1,96613
R2 = = 99,996%
1,9662
El modelo explica casi el 100% de la variacin total de la corriente de drenaje.

Inferencia Estadstica Respecto a los Parmetros B0 y B1

An cuando la relacin entre las 2 variables en estudio de una poblacin es muy


poca o nula, es posible obtener valores muestrales que hacen que parezca que las
variables X e Y estn relacionadas linealmente debido a que la aleatoriedad en el
muestreo ha dado lugar a una relacin de tipo lineal cuando en realidad no existe.

Tambin es importante evaluar la adecuacin de un modelo de regresin lineal,


esto es, hacer algn tipo de inferencia (pruebas de hiptesis o intervalos de
confianza) sobre los parmetros del modelo. Para realizar estos procedimientos de
inferencia debe asumirse que los errores estn distribuidos normalmente con
( )
media 0 y varianza 2, E i ~ iid N 0, r 2 i .

Prueba de Hiptesis y Estimacin por Intervalos para 1

Mediante la prueba de hiptesis y los IC, se puede determinar si existe o no


relacin lineal entre las variables X e Y.

Para ello se prueban las hiptesis


H 0 : B1 = 0 Vs
H 1 : B1 0

Si no se rechaza H0, significa que la recta de regresin es una recta horizontal y


por lo tanto Yi = Y (no hay pendiente), lo que se traduce en que la variable
independiente X no sirve para predecir Y.

Si las variables X e Y estn relacionadas linealmente significa que B1 0 y por lo


tanto los valores de X se pueden usar para predecir los valores de Y.
No solo se puede probar H 1 : B1 0 sino tambin H 1 : B1 > 0 H 1 : B1 < 0 .
Para probar la hiptesis H 0 : B1 = 0 se usa la distribucin t y el siguiente error
estndar del estimador.

Se
S B 1 =
X i
2
nX 2

Prof. Anna Gabriela Prez de Rivas 9


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

El estadstico de prueba es el siguiente, el cual tiene distribucin t de Student con


(n-2) grados de libertad.
B 0
t= 1
S B
1

Ejemplo 5: usando los datos del ejemplo, probar la hiptesis


H 0 : B1 = 0 Vs
H 1 : B1 0 con un nivel de significacin =0,05.

B1 = 1,54376 Se = 0,0028323 X i
2
= 24,85

X = 1,55

0,0028323
Ahora: SB1 = = 0,003118
24,85 10(1,55)
2

H 0 : B1 = 0 Vs = 0.05
H 1 : B1 0

Se calcula el estadstico de prueba


1,54376
t= = 495,11225
0,003118

El valor crtico se determina mediante t 8;0,025 = 2,306

Como t=495,11225 > 2,306

Se rechaza H0, por lo tanto el voltaje si ayuda a predecir la corriente de drenaje,


entonces estas variables estn relacionadas linealmente.

Intervalo de Confianza para 1

Un mtodo equivalente a la prueba de hiptesis es el intervalo de confianza, el


cual consiste en determinar si el valor hipottico 1=0 est contenido en el
intervalo.
Los lmites del intervalo de confianza para la pendiente de la recta se obtienen
mediante:

Prof. Anna Gabriela Prez de Rivas 10


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

B1 t n 2, / 2 SB1

Ejemplo 6: encuentre un intervalo de confianza del 95% para 1 basndose en los


datos del ejemplo.

1,54376 2,306(0,003118)
1,54376 0,00719
[1,53657 < B1 < 1,58095]
Se espera con un 95% de confianza que la pendiente de la recta de regresin se
encuentre entre 1,53657 y 1,58095. Puesto que el intervalo no contiene el 0 y
debido a que los lmites son dos nmeros positivos, existe relacin lineal directa
entre las variables.

Prueba de Hiptesis y Estimacin por Intervalos para 0

Se usa un procedimiento similar que el descrito para B1. En este caso se prueban
las siguientes hiptesis:
H 0 : B0 = 0 Vs
H 1 : B0 (> 0 < 0)

El estadstico de prueba que se usa es el que se muestra a continuacin, el cual


tiene distribucin t de Student con (n-2) grados de libertad.
B B0
t= 0 ~ t n2
S B
0

El error estndar de 0 est dado por: S B =


Se X i
2

0
(
n X i2 nX 2 )
Los lmites para el intervalo de confianza son B 0 t n 2 / 2 S B
0

Ejemplo 7: probar la hiptesis de H0: B0 = 0 Vs H1: B0 0 para los datos del


ejemplo. Adems, construya un intervalo de 95% de confianza para B0.

H 0 : B0 = 0 Vs = 0,05
H 1 : B0 0

Se debe calcular S B
0

Prof. Anna Gabriela Prez de Rivas 11


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

0,0028323 24,85
S B = = 0,00492
0
(
10 24,85 10(1,44 )
2
)
El estadstico de prueba

0,966828 0
t= = 196,686
0,00492

El valor crtico t 8;0,025 = 2,306

Como -196,686 < -2,306 se rechaza la hiptesis nula, por lo tanto el trmino
correspondiente al intercepto es conveniente incluirlo en el modelo, se dice
entonces que el trmino es significativo.

Ahora, al construir el intervalo de confianza de 95% se tiene que:

0,966828 2,306(0,00492 )
0,966828 0,0113455
[ 0,9782 < B0 < 0,9554]

Como el intervalo no contiene el 0, es importante incluir a o en el modelo.

Anlisis de Varianza en el Modelo de Regresin

El anlisis de varianza (ANOVA) es una alternativa para probar la hiptesis


H 0 : B1 = 0

Recuerde que SCT= SCR+ SCE y la tabla ANOVA que se usa en regresin tiene
la siguiente forma

Fuente de variacin Grados de Sumas de Cuadrados Estadstico F


Libertad Cuadrados Medios
Regresin 1 SCR SCR SCR/CME
Error n-2 SCE SCE/(n-2)
Total n-1 SCT

Ejemplo 8: con los datos del ejemplo, pruebe la hiptesis H 0 : B1 = 0 usando el


anlisis de varianza, considere =0,05

Anteriormente ya se calcularon las sumas de cuadrados, as:

Prof. Anna Gabriela Prez de Rivas 12


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

SCT=1,9662
SCR=1,96613
SCE=0,000064176

La tabla ANOVA est dada por

Fuente de variacin Sumas de Grados de Cuadrados Estadstico F


Cuadrados Libertad Medios
Regresin 1,96613 1 1,96613 245092,2463
Error 0,000064176 8 0,000008022
Total 1,9662 9

El valor crtico F1,8; 0,05=5,32

Como 245092 > 5,32 se concluye que existe relacin entre la corriente de drenaje
y el voltaje, por lo tanto B1 es un parmetro significativo en el modelo.

Predicciones

Una de las aplicaciones ms importantes de la regresin lineal simple, es la


prediccin de los valores de la variable dependiente Y para valores dados de la
variable independiente X. La prediccin puede ser puntual o por intervalos y se
pueden realizar dos tipos de predicciones:
 Prediccin para el valor medio de Y dado un valor de X denominado Y / X 0 .
 Prediccin para un valor real individual de Y denominado Y0 dado X0 (Y0/X0)

Estimaciones Puntuales de las Predicciones:


Para obtener la mejor estimacin puntual de las predicciones del valor medio y del
valor real de Y, dado el valor de la variable independiente X0, se sustituye este
valor en la recta de regresin muestral y se obtiene

Y0 = B 0 + B1 X 0

As Y0 es una estimacin puntual tanto de Y / X como de Y0/X0.

Ejemplo 9: obtener una estimacin puntual para predecir la corriente de drenaje


promedio, cuando el voltaje es 1,55.

Se obtiene la siguiente estimacin:


Y = 0,966828 + 1,54376(1,56 ) = 1,4414 Amp

Prof. Anna Gabriela Prez de Rivas 13


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

Intervalo de Confianza para la Prediccin Media Y / X 0


Los lmites del IC se obtienen de la siguiente manera:
Y0 t n 2, / 2 S Y 0

Donde S Y 0 = Se
1
+
(X X ) 2

( X nX )
0
2 2
n i

Ejemplo 10: obtener un IC del 95% para estimar la corriente de drenaje promedio
cuando el voltaje es de 1,56 en base a los datos del ejemplo.
Y0 = 1,4414 t 8;0,025 = 2,306

Ahora Sy 0 = 0,0028323
(1,56 1,55)
2
+
1
24,85 10(1,55) 10
2

= 0,0028323(0,316419 ) = 0,000896

1,4414 2,306(0,000896 )
1,4416 0,0020662
[1,43953 < Y / X0 < 1,44366 Amp ]

Se espera con un 95% de confianza que la corriente de drenaje promedio se


encuentra entre 1,439 y 1,4436 Amp. Cuando el voltaje es de 1,56

Intervalo de Confianza para la Prediccin Individual Y0/X0

En este caso, lo nico que cambia en relacin al intervalo de confianza de la


prediccin media es el error estndar que se denota S y0 y se expresa mediante

1
= Se 1 + +
(X X ) 2

( X nX )
0
S y 0 2 2
n i

Los lmites del intervalo estn dados por:


Y0 t (n 2 ) / 2 Sy 0

Ejemplo 11: con los datos del ejemplo, calcular un IC del 95% para la corriente de
drenaje cuando el voltaje es de 1,56.

Y0 = 1,4414 t 8; 0,025 = 2,306

Prof. Anna Gabriela Prez de Rivas 14


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

1
= 0,0028323 1 + +
(1,56 1,55) 2
S y 0
(
10 24,85 10(1,55)2 )
= 0,0028323(1,048866)
= 0,002971

Ahora los lmites del intervalo son:

1,4414 2,306(0,002971)
1,4414 0,00685
[1,43455 < Y0 / X 0 < 1,4483]
Se espera con un 95% de Confianza que la corriente de drenaje se encuentre en
el Intervalo hallado cuando el voltaje es de 1,56.

Anlisis de Correlacin Lineal

En el anlisis de regresin se ha supuesto que X es una variable matemtica


medida con un error despreciable o simplemente se ha considerado fija y se ha
asumido que Y es variable aleatoria.

Muchas aplicaciones del anlisis de regresin involucran situaciones en la que


tanto X como Y son variables aleatorias. En estos casos las observaciones (Xi, Yi)
i=1,2, n, son variables aleatorias distribuidas conjuntamente segn la funcin de
densidad de probabilidad conjunta f(X,Y).

El anlisis de correlacin se usa para medir el grado de asociacin lineal entre las
variables X y Y.

Los supuestos sobre la poblacin en las que se basa el anlisis de correlacin


lineal simple son:
 La relacin entre las variables X y Y es lineal.
 X y Y son variables aleatorias.
 Para cada una de las variables, las varianzas condicionales son iguales
Y2 / X i = Y2 / X = 2 .
 Se supone distribucin normal divariada.

El coeficiente de correlacin Poblacional o Correlacin de Pearson se denota por


la letra griega y se utiliza para medir el grado de asociacin lineal entre las
variables Y e Y y se expresa como:

Prof. Anna Gabriela Prez de Rivas 15


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

Cov( X , Y )
=
XY

 Si en la poblacin todos los pares de valores X e Y estn sobre una recta


dependiente positiva, se dice que hay una correlacin lineal positiva
perfecta entre X e Y, en este caso = 1.
 Si en la poblacin todos los pares de valores X e Y estn sobre una recta
dependiente negativa, se dice que hay una correlacin lineal negativa
perfecta entre X e Y, en este caso = -1.
 Si X e Y no estn relacionadas Cov ( X , Y ) = 0 = 0
 1 1

Coeficiente de Correlacin Muestral r.

Para estimar el parmetro poblacional se usan los datos muestrales y su clculo


se obtiene como:

(X i X )(Yi Y )
n
1

r=
(n 1) i =1

1
(n 1) (
X i2 nX 2
1
)
(n 1) Yi 2 Yn2( )

(X X )(Yi Y )
n

i
r= i =1

X i
2
nX 2 Y i
2
nY 2

r=
(X Y X Y Y X + XY )
i i i i

X nX Y nY
i
2 2
i
2 2

Trabajando con el numerador se tiene que:


X i Yi
X iYi Y X i X Yi + nXY n n n

Multiplicando por n
n X i Yi X i Yi X i Yi + 1 / n( X i Yi )

Al final se obtiene que

Prof. Anna Gabriela Prez de Rivas 16


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

n X i Yi ( X i )( Yi )
r=
n X i2 ( X i ) n Yi 2 ( Yi )
2 2

Ejemplo 12: obtenga el coeficiente de correlacin r para los datos del ejemplo.
n = 10 X iYi
X i = 15,5 Y i = 14,26
X i
2
= 24,85 Y i
2
= 22,301

10(23,3766 ) (15,5)(14,26) 12,736 12,736


r= = = = 0,99997
10(24,85) (15,5) 10(22,301) (14,26 ) 12,736357
2 2
8,25 19,6624

r = 0,99997

Este resultado indica que existe una relacin lineal positiva (directa) entre la
corriente de drenaje y el voltaje.

Como r es muy cercano a 1, la relacin es casi perfecta.

Prueba de Hiptesis acerca de

Se usa probar cuando un valor de es significativamente diferente de cero. Se


prueba la hiptesis H 0 : = 0 Vs. H 1 : (> 0 < 0) .
r
Para probar esta hiptesis se usa el estadstico de prueba t = el cual
1 r2
(n 2)
tiene distribucin t de Student con n-2 grados de libertad.

Ejemplo 13: pruebe la hiptesis H 0 : = 0 Vs. H 1 : > 0 . Use =0,05


Para los datos del ejemplo. r =0,99997

H 0 : = 0 Vs. =0,05
H1 : > 0

Prof. Anna Gabriela Prez de Rivas 17


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

0,99997
El estadstico de prueba est dado por t= = 365,1451 y la regin
1 (0,99997 )
2

8
crtica se determina mediante t 8;0, 05 = 1,8595

Como 365,1451 > 1,8595 se rechaza H0, y se concluye que existe una relacin
lineal positiva (directa) entre las variables corriente de drenaje y voltaje.

NOTA: B1 y r estn estrechamente relacionados pero producen diferentes


interpretaciones. As, se puede obtener B1 en funcin de r y viceversa.

Sy Sx
B1 = r r = B1
Sx Sy

Prof. Anna Gabriela Prez de Rivas 18


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

El modelo de Regresin Mltiple

En general, una variable dependiente puede tener ms de un factor explicativo;


por lo que el modelo simple puede resultar sencillo y que en la mayora de los
fenmenos que se pueden modelar a travs de una ecuacin lineal existen casi
siempre ms de una variable o factor que permita explicar o modelar la variable de
inters.

Cuando hay arias variables independientes determinando el comportamiento de


una variable dependiente deben considerarse todas ellas simultneamente, ya que
existen mltiples causas explicativas de la variable dependiente Y.

Suponga el modelo ms sencillo de regresin mltiple


Yi = 0 + 1 X 1 + 2 X 2 + ei
En este modelo existen dos variables independientes o explicativas (X1 y X2) y
una sola variable dependiente Y. El coeficiente 0 se denomina trmino
independiente estimado de la regresin, mientras que y se denominan
1 2
coeficientes de regresin parcial estimados o muestrales, por cuanto miden el
efecto que tendra sobre la variable dependiente Y la variacin unitaria en una
variable independiente (por ejemplo X1) si la otra (X2) permanece constante en un
determinado valor. Los coeficientes estimados 1 y 2 miden la variacin esperada
en Y por unidad de variacin en X1 y X2 respectivamente.

Si se aplica la estimacin de 1 al recorrido muestral de la variable X1 (mximo


mnimo) se obtiene el rango de efectos de la variable X1 sobre la variable
respuesta Y. Por otra parte, como la variacin media que una variable ha
experimentado a lo largo de la muestra se puede aproximar mediante su
desviacin estndar muestral; si se multiplica sta por la estimacin de 1 , es
decir S se puede obtener una medida de la variacin media ocasionada en Y
1
por cada variable independiente o explicativa.

Para realizar el ajuste de un modelo de regresin mltiple, se efectan las mismas


hiptesis que en el modelo simple:
- Las variables explicativas X1 y X2 son determinsticas o fijas en el muestreo.
- Se supone distribucin normal de los errores o perturbaciones aleatorias,
con varianza constante e independencia entre ellos.
- Ausencia de colinealidad entre las variables explicativas X1 y X2, es decir,
ellas no tienen una relacin lineal exacta, el valor absoluto del coeficiente
de correlacin es inferior a 1. Para un modelo de regresin mltiple con k
variables independientes o explicativas arregladas en una matriz se supone
lo siguiente:

Prof. Anna Gabriela Prez de Rivas 19


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

o La matriz de regresores X se distribuye independientemente del


vector de perturbaciones aleatorias.
o La matriz de regresores X tiene rango k. Este supuesto tiene varias
implicaciones: el nmero de observaciones debe ser igual o mayor al
nmero de regresores K, y todas las columnas de la matriz de
regresores deben ser linealmente independientes.
o La matriz de regresores X no contiene errores de observacin y
medida.
- El vector de parmetros es constante.

Estimacin por Mnimos Cuadrados Ordinarios MCO

Al igual que en el modelo simple, se parte del hecho de que se debe minimizar la
n
( ) 2
suma de cuadrados del error Min Yi 0 + 1 X 1 + 2 X 2 , y luego se deriva
i =1
respecto a los tres parmetros ( 0, 1 y 2 ) e igualando a cero, y se obtiene el
sistema de ecuaciones normales y de all se despejan las ecuaciones resultantes
que generan los estimadores MCO.

Como ahora se desean obtener los estimadores de los coeficientes de un modelo


de regresin mltiple, se puede escribir en trminos matriciales, y la expresin
resultante es la siguiente:
= ( X X )1 X Y
Donde:
- representa el vector de coeficientes del modelo, si existen p - 1 variables
independientes o explicativas entonces este vector es de dimensin p x1 y es de
0


la forma: = 1



p 1

- La matriz X es una matriz de dimensin n x p, donde la primera columna


corresponde a un vector de unos, y las p- 1 columnas a los valores de las
variables independientes o explicativas. Esta matriz es de la forma:
1 x11 x12 ... x1( p 1)

1 x 21 x 22 x 2( p 1)
X =
1

1 x n1 x n 2 x n ( p 1)

Prof. Anna Gabriela Prez de Rivas 20


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

- El vector Y de la variable respuesta es un vector de dimensin n x 1 de la


y1
y
forma: Y = 2


yn
- El vector de residuos o errores se denota e y es de dimensin n x 1; y se
e1 Y1 Y1
e
2 Y2 Y2
obtiene mediante: e = =


en Yn Yn

- El modelo de regresin lineal mltiple en trminos matriciales se puede


escribir como: Y = X + e

Propiedades Probabilsticas del Modelo

1 Distribucin y Propiedades del Vector de Coeficientes del Modelo

- Si se cumplen las hiptesis bsicas, el vector de coeficientes estimados


tiene distribucin normal multivariante con vector de medias y matriz de
( )
varianzas y covarianzas 2 [ X X ] , es decir N , 2 [X X ]
1 1

- El vector de estimadores es un estimador lineal, es una combinacin


lineal de las perturbaciones aleatorias.
- El vector de estimadores , es un estimador insesgado, es decir,
E ( ) = .
- Dentro de la clase de estimadores lineales e Insesgados, tiene mnima
varianza, es decir, es un estimador eficiente.

2. Estimacin de la Varianza de los Errores Aleatorios

De acuerdo a los supuestos del modelo, la varianza de los errores aleatorios


debe ser constante para los n errores aleatorios generados al ajustar un
modelo de regresin. Al igual que el vector de coeficientes estimados , la
varianza de los residuos o errores 2 es un parmetro desconocido que es
necesario estimarlo, y se hace a travs de los residuos obtenidos en la
regresin mnimo cuadrtica.

Prof. Anna Gabriela Prez de Rivas 21


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

Un estimador insesgado de la varianza de los errores o residuos est dado por:


ee SCE
2 = = , esta expresin representa el cociente entre la
n ( p 1) n ( p 1)
suma de cuadrados del error y los grados de libertad asociados a esta fuente
de variacin (n corresponde al nmero de observaciones y p-1 a la cantidad de
variables independientes o regresores empleados en el ajuste del modelo).

Medidas de la Bondad del Ajuste

Una vez que se ha realizado el ajuste por mnimos cuadrados, es conveniente


disponer de uno u varios indicadores que permitan medir el grado de ajuste
entre el modelo y los datos. En el caso de que se hayan estimado varios
modelos alternativos podrn utilizarse medidas de este tipo para seleccionar el
modelo ms adecuado.

Como se indic para el caso de la regresin simple, las medidas ms utilizadas


y conocidas son el coeficiente de determinacin R2 o el R2 corregido. El error
estndar de la estimacin o error estndar residual, y aca se hace mencin al
Criterio de Informacin de Akaike (AIC).

Coeficiente de Determinacin R2: Este coeficiente se basa en la


descomposicin de la varianza de la variable dependiente o respuesta Y, a la
que se denomina varianza total, en dos fuentes de variacin; una variacin
debida a la regresin o variacin explicada y otra variacin debida al error o
variacin no explicada o residual, es decir:
Varianza total = varianza explicada + varianza no explicada
SCT = SCR + SCE

A partir de la descomposicin anterior, el coeficiente de determinacin R2 se


define como la proporcin de la varianza total que es explicada por la
regresin. Su expresin es la siguiente:

(Y Y )
n
2
i
SCR
R2 = i =1
n
=
(Y Y )
2 SCT
i
i =1

Los valores extremos del coeficiente de determinacin R2 son: 0 cuando la


varianza explicada a travs del modelo es nula, y 1 cuando el ajuste es perfecto,
en cuyo caso la varianza no explicada es nula.

Para interpretar adecuadamente el R2 se debe tener en cuanta lo siguiente:


- A medida que se incorporan variables explicativas a un modelo de
regresin lineal, aumenta el valor del R2. Esto ocurre aunque la variable o

Prof. Anna Gabriela Prez de Rivas 22


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

variables incorporadas al modelo no tengan relacin con la variable


dependiente Y.
- El R2 no se puede utilizar para comparar modelos en los que la forma
funcional con la que aparece la variable Y sea diferente, por ejemplo no se
puede utilizar el R2 para comparar dos modelos en los que la variable
dependiente Y aparece en su forma original y en el otro modelo Ln(Y)
respectivamente.

Coeficiente de Determinacin Corregido: El coeficiente de determinacin


corregido permite comparar modelos con distinto nmero de regresores.
(n 1)
Analticamente viene dado por: R 2 = 1 (1 R 2 ) si el modelo tiene p
(n p)
variables independientes o regresores.

El R 2 toma el valor 1 cuando el ajuste es perfecto, y se deben tener en cuanta


los siguientes aspectos al momento de su interpretacin:
- Cuando en un modelo se incorpora una nueva variable explicativa, el
R 2 puede aumentar, quedar igual o disminuir su valor. Para que se
produzca un incremento es necesario que la variable que se incorpora al
modelo tenga cierto poder explicativo de la variable Y. Por el contrario, si la
variable que se incorpora al modelo tiene un poder explicativo pequeo o
nulo el R 2 disminuir su valor, penalizndose de esta forma su introduccin.
- El R 2 tampoco se puede usar para comparar modelos en los que la forma
funcional con la que aparece la variable Y sea diferente.

Criterio de Informacin de Akaike (AIC): El estadstico AIC, basado en la


teora de la informacin tiene la siguiente expresin si es calculado para un
modelo de regresin con p variables independientes o regresores, observe que
ee representa la suma de cuadrados del error.
ee 2 p
AIC = Ln 2 +1 +
n n

En el estadstico AIC, a diferencia de R2 y R 2 , cuanto mejor sea el ajuste ms


pequeo es el valor que toma el estadstico. El AIC no es acotado, y para su
interpretacin deben tomarse en cuanta los siguientes aspectos:
- En el AIC est penalizada la introduccin de nuevas variables explicativas,
y es fcil ver en la expresin del estadstico, que si aumenta el nmero de
regresores empeora la bondad del ajuste.
- El AIC no es una medida de bondad del ajuste relativa como el caso de R2
y R 2 . La utilidad del AIC se manifiesta cuando se comparan los valores
obtenidos en modelos alternativos.

Prof. Anna Gabriela Prez de Rivas 23


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

- El estadstico AIC se puede aplicar para comparar modelos en los que la


forma funcional de la variable respuesta Y sea distinta. Cuando la variable
dependiente Y se expresa en su unidad original se utiliza el AIC descrito
anteriormente y cuando se ajusta una regresin para modelar el Ln(Y) la
frmula del estadstico es la siguiente: AIC L = AIC + 2 Ln(Y )

Contrastes de Significacin en el Modelo de Regresin

En esta seccin se presentan contrastes de significacin del modelo de


regresin ajustado, bajo el supuesto de que se cumplen las hiptesis bsicas.
Al igual que en el modelo simple, se utilizarn bsicamente dos pruebas: la
prueba de anlisis de varianza que permite evaluar la significacin conjunta de
los coeficientes que acompaan a las variables explicativas o un subconjunto
de ellos, y la prueba que se basa en el uso de la distribucin t de Student para
evaluar la significacin individual de los coeficientes del modelo.

El Contraste de Significacin Global: En este contraste se desea determinar


si todos los coeficientes excepto el trmino independiente son en conjunto
estadsticamente significativos, lo que implica plantear las siguientes hiptesis:
H 0 : 1 = 2 = ... = p = 0
H 1 : No todos los coeficientes de j son nulos

Para realizar este contraste se utiliza la tcnica de anlisis de varianza, y la


tabla se describe a continuacin:

Fuente de Sumas de Grados Cuadrados Estadstico F


Variacin Cuadrados de Medios
Libertad
Regresin SCR p1 SCR/(p 1) [SCR /( p 1)]
Error
Total
SCE
SCT
n-p
n-1
SCE/(n p)
[SCE /(n p)]
El estadstico F bajo H0 cierta tiene distribucin F con (p 1) y (n p) grados de
libertad. El criterio de decisin establece el rechazo de la hiptesis nula si el valor
del estadstico F es mayor que el valor de F(n; n p).

Contraste de un Parmetro Individual: En el caso concreto de contrastes sobre


un solo coeficiente, se puede utilizar un estadstico con distribucin t de Student.
As cuando se desea probar la significacin individual se un parmetro la hiptesis
nula es la siguiente:
H 0 : j = d (por lo gerenral se contrasta d = 0)

Prof. Anna Gabriela Prez de Rivas 24


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

j d
El estadstico de prueba es t = , el cual bajo H0 cierta tiene distribucin t de

j

Student con (n k) grados de libertad, donde k representa el nmero de


coeficientes estimados (incluyendo el trmino independiente).

Anlisis de Residuos para Detectar Violaciones en los Supuestos del Modelo


de Regresin Lineal Mltiple

1. La Heterocedaticidad

No siempre se satisfacen las hiptesis planteadas en el modelo de regresin que


justifican la utilizacin de estimadores MCO. En particular hay dos razones muy
importantes por las que suelen incumplirse los supuestos:
- La varianza de los errores aleatorios no es la misma para todas las
observaciones muestrales lo que se denomina HETEROCEDASTICIDAD,
es decir ausencia de varianza constante (HOMOCEDASTICIDAD).
- Los trminos sucesivos del error aleatorio no son independientes lo que se
conoce como autocorrelacin.

En el modelo de regresin Yi = 0 + 1 X 1 + e1 , se supone que los ei son variables


aleatorias normales con parmetros = 0 y 2 = k donde k es constante. En
presencia de heterocedasticidad el estimador MCO continua siendo insesgado,
pero la heterocedasticidad tiene las siguientes consecuencias:
- No se cumple el teorema de Gaus Markov, y el estimador ya no es de
mnima varianza. Es decir, es posible obtener un estimador lineal de menor
varianza que el de MCO.
- Las expresiones usadas para estimar las varianzas y covarianzas de los
estimadores son incorrectas.
- Los procedimientos de inferencia sobre los i, intervalos de confianza y
pruebas de hiptesis son inadecuados.
- La expresin habitual para el estadstico R2 carece de interpretacin.

Deteccin de la Heterocedasticidad: Para detectar heterocedasticidad


existen dos procedimientos: pruebas formales y pruebas grficas.

- Pruebas Grficas: Se deben realizar diagramas de dispersin graficando


los siguientes pares y detectar en ello si existe una tendencia creciente, por
ejemplo, para valores grandes de la variable respuesta se observan
residuos grandes:
o Yi Vs residuos (ei)
o Xi Vs residuos (ei) para todas las variables independientes o las
sospechosas causantes de le heterocedasticidad.

Prof. Anna Gabriela Prez de Rivas 25


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

o X i2 Vs residuos al cuadrado, para todas las variables independientes


o las sospechosas causantes de heterocedasticidad.

- Contraste de White: Consiste en estimar una regresin del cuadrado de


los residuos en funcin de las variables explicativas y sus cuadrados, es
decir: ei2 = 0 + 1 X 1 + 2 X 12 + 3X 2 + 4 X 22 + ... + k 1 X p + k X p2 + wi

De esta regresin el estadstico nR2, donde R2 denota el coeficiente de


determinacin. Si no hay heterocedasticidad dependiente de las variables
explicativas el R2 tender a 0, aunque el producto nR2 incrementar este valor.
Para decidir si el valor del estadstico es suficientemente grande, en cuyo caso
se rechazar la hiptesis nula de homocedasticidad, se comparar con las
tablas de su distribucin en muestras grandes, que es p2 2 siendo p el nmero
de variables explicativas de la regresin auxiliar.

- Contraste de Goldfeld y Quandt: Se parte de la hiptesis nula de


H 0 : 12 = 22 = ... = n2 = 2 Vs
H 1 : i2 = f c (X j ) i = 1,2,..., n
homocedasticidad, es decir

En la hiptesis alternativa se plantea que la varianza de los residuos es


una funcin montona creciente de una variable explicativa Xj. Este
contraste se puede aplicar tambin en situaciones en las cuales la varianza
2 se puede expresar como funcin de varias variables explicativas.

Los pasos para realizar el contraste son:


1. Se ordenan las observaciones de acuerdo con los valores crecientes
de la variable (o combinacin de variables) a la que est ligada la
varianza de los residuos.
2. Se omite cierto nmero de observaciones centrales (1/3 1/5). Se
formas dos grupos de datos, los que estn por debajo de las
eliminadas (grupo 1) y los que estn por encima de las eliminadas
(grupo 2) de tal forma que en cada grupo exista un nmero de
observaciones n1 y n2 similar o igual. Se recomienda para este
procedimiento buscar la mediana.
3. Se ajustan dos modelos de regresin, uno con cada grupo y se
obtienen las respectivas sumas de cuadrados del error, es decir
SCE1 y SCE2.
(SCE 2 /(n2 p) )
4. Se calcula el estadstico de prueba GQ =
(
SCE1 /(n1 p) )
el cual bajo

H0 cierta se distribuye F( n2 p ),( n1 p ) , y es una prueba de cola derecha.


La decisin es rechazar H0 si el valor de GQ es mayor a F( n2 p ),( n1 p ) .

Prof. Anna Gabriela Prez de Rivas 26


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

Soluciones para la Heterocedasticidad

- Se debe aplicar el mtodo de Mnimos Cuadrados Generalizados (MCG)


para obtener los coeficientes .
- Si existen problemas de escala en las observaciones, se puede corregir
usando transformacin logartmica.
- Se debe conocer el esquema de la heterocedasticidad, es decir a qu
variables explicativas est asociada.

2. Multicolinealidad

Uno de los supuestos del anlisis de regresin lineal establece que no existe
relacin lineal exacta entre los regresores o variables independientes, en otras
palabras, establece que no existe multicolinealidad perfecta en el modelo. Este
hiptesis es necesaria para el clculo es estimadores MCO, ya que en caso
contrario la matriz XX ser no singular.

La multicolinealidad perfecta no suele presentarse en la prctica no suele


presentarse en la prctica, en cambio si es frecuente que entre los regresores
exista una relacin aproximadamente lineal, en cuyo caso los estimadores que se
obtengan sern en general poco precisos; aunque siguen conservando la
propiedad de estimadores lineales, insesgados y de varianza mnima. La relacin
entre los regresores hace que sea difcil cuantificar con precisin el efecto de cada
variable independiente o explicativa sobre la variable respuesta Y, lo que
determina que la varianza de los estimadores sea elevada. Cuando se presenta
una relacin aproximadamente lineal entre los regresores, de dice que existe
multicolinealidad no perfecta.

Para la deteccin de la multicolinealidad no existen contrastes estadsticos


propiamente dichos que sean aplicables para su deteccin, pero se han
desarrollado algunos procedimientos o reglas prcticas que tratan de determinar
en qu medida la multicolinealidad afecta gravemente a la estimacin y contraste
de un modelo. Como la multicolinealidad es un problema asociado a la matriz de
regresores X, los procedimientos se basan en el estudio de esta matriz.

Nmero de Condicin: Este procedimiento de deteccin de multicolinealidad fue


propuesto inicialmente por Rachudel en 1971 y desarrollado posteriormente por
Belsley en 1980 y corregido una vez ms en 1982. El nmero de condicin k(X) es
igual a la raz cuadrada de la razn entre la raz caracterstica ms grande
(mximo) y la raz caracterstica ms pequea (mnimo) de la matriz XX, es decir:
mximo
k(X ) =
mnimo

Prof. Anna Gabriela Prez de Rivas 27


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

Como la matriz XX es de dimensin pxp se obtienen p raices caractersticas o


autovalores, pudindose calcular para cada una de ellas un ndice de condicin
definido de la siguiente forma:
mximo
ic(i ) =
i

El nmero de condicin mide la sensibilidad de las estimaciones mnimo


cuadrticas ante pequeos cambios en los datos. El problema de multicolinealidad
es grave cuando el nmero de condicin toma un valor entre 20 y 30, siendo un
problema de gravedad extrema si supera el valor de 30. Para aplicar este
procedimiento conviene considerar los regresores en sus valores originales y no
centrarlos.

Soluciones a la Multicolinealidad: En principio, el problema de la


multicolinealidad est asociado con deficiencias en la informacin muestral. Para
solucionarla se han propuesto las siguientes herramientas:

- Eliminacin de Variables: La multicolinealidad se puede atenuar si se


eliminan los regresores ms afectados. Esta medida no es la ms
recomendada, pero en ciertas circunstancias se justifica ya que hace
disminuir el error cuadrtico medio de los estimadores disminuyendo su
varianza.
- Aumentar el tamao de la muestra
- Uso de informacin Extramuestral: Incorporar nueva informacin al modelo
que se desea ajustar, o establecer restricciones respecto a los parmetros
del modelo, si se dispone de informacin proveniente de otros estudios. El
establecimiento de restricciones reduce el nmero de parmetros a estimar

3. Normalidad de los Residuos

La condicin de que los residuos se distribuyen de acuerdo a una normal con


media 0 y varianza 2, resulta importante cuando se realiza algn tipo de
inferencia estadstica respecto a los coeficientes (intervalos de confianza o
pruebas de hiptesis).

Cuando el tamao muestral es pequeo es importante para hacer la comprobacin


de este supuesto para fines de inferencia. Para muestras grandes el teorema
central del lmite ayuda en el ajuste de los residuos a la curva normal. Sin
embargo, en situaciones en las que existen datos atpicos o extremos, es posible
que los residuos no sigan una distribucin normal.

Prof. Anna Gabriela Prez de Rivas 28


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

La deteccin de posibles desviaciones de la normalidad, suele hacerse mediante


tcnicas grficas o mediante la aplicacin de alguna prueba formal.
Los grficos ms utilizados son el histograma de los residuos y el grfico de
probabilidad normal (ambos incluidos en el SPSS). En el histograma se observa si
los residuos se ajustan a una distribucin normal, cuya curva aparece dibujada o
superpuesta al histograma. Este grfico tambin ayuda a detectar datos atpicos y
caractersticas relativas a la forma (asimetra y kurtosis) de la distribucin de los
residuos. En el grfico de probabilidad normal, la diagonal principal representa la
ubicacin terica de los residuos en el caso de que stos sigan una distribucin
normal. Desviaciones de los puntos a la diagonal, son indicadores de desviaciones
a la normalidad de los residuos.

La prueba de Kolgomorov Smirnov es un test de normalidad, que ayuda a


comprobar la significacin de lo observado en las tcnicas grficas. Es una prueba
no paramtrica que permite analizar el ajuste de los datos a la curva normal.

Si los residuos se desvan de la normalidad y son asimtricos, se puede intentar


solucionar el problema aplicando una transformacin en la variable dependiente
(logartmica, potencias, inversas entre otras).

4. Autocorrelacin

La autocorrelacin se produce cuando los trminos del error correspondientes a


distintas observaciones muestrales estn correlacionados, en contra de uno de los
supuestos iniciales del modelo de regresin. Cuando esto ocurre todos los
trminos del error pudieran estar correlacionados entre s, o una situacin ms
sencilla puede presentarse es que el trmino de error et est relacionado con los
errores correspondientes a las observaciones ms prximas o cercanas a l lo que
sugiere que puede estar asociado a un problema temporal.

Al igual que la heterocedasticidad, la autocorrelacin puede deberse a la omisin


de una variable explicativa relevante, que tiene una estructura relacionada con el
tiempo. Si este es el caso, la situacin ms sencilla es una estructura de
autocorrelacin de primer orden, en la que cada termino del error depende en
buena medida del anterior y en grado decreciente de los previos. Aunque pueden
existir situaciones de autocorrelacin ms complejas.

Las consecuencias de la autocorrelacin son similares a las de la


heterocedasticidad:
- El estimador MCO ya no es de mnima varianza. Es decir, es posible
obtener un estimador lineal de menor varianza que el de MCO.
- Las expresiones usadas para estimar las varianzas y covarianzas de los
estimadores son incorrectas.

Prof. Anna Gabriela Prez de Rivas 29


Universidad de Los Andes email:gabipm@ula.ve
Facultad deCiencias Econmicas y Sociales
Escuela de Estadstica

- Los procedimientos de inferencia sobre los i, intervalos de confianza y


pruebas de hiptesis son inadecuados.
- La expresin habitual para el estadstico R2 carece de interpretacin

El anlisis de los grficos de los residuos es un buen procedimiento para detectar


autocorrelacin. Los residuos MCO continan teniendo media muestral cero, si no
estn autocorrelacionados deben oscilar alrededor de 0 de manera aleatoria.
Cuando estn correlacionados presentan rachas consecutivas de igual signo
ondulando alrededor de 0, por tanto es conveniente es conveniente examinar un
grfico de residuos en funcin del tiempo para ver si se producen estas pautas. Un
segundo grfico de inters es el que muestra cada residuo ei como funcin del
periodo anterior et-1, si dicho grfico adopta la forma de una nube de puntos
estrecha en el primer y tercer cuadrante es indicio de que existe autocorrelacin
positiva, mientras que si se presentan como una nube de puntos estrecha en el
segundo y cuarto cuadrante indica autocorrelacin negativa.

Para detectar la autocorrelacin de primer orden, se suele utilizar el estadstico de


n

(e ei 1 )
2
i
Durbin Watson DW = i =2
n
bajo la hiptesis nula de que no existe
e
i=2
2
i

autocorrelacin por lo que = 0 el estadstico DW = 2, por tanto valores de dicho


estadstico en el entorno de 2 son indicios de que no existe autocorrelacin. Si
existe autocorrelacin positiva elevada ser cercano a 1y el estadstico DW ser
cercano a 0. Si existe autocorrelacin negativa elevada tender a -1 y el
estadstico DW a 4.

Prof. Anna Gabriela Prez de Rivas 30

Potrebbero piacerti anche