Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Si colocamos a la edad en el eje X (de las abscisas) y la presin arterial diastlica (PAD) en el eje Y
(de las ordenadas), cada dato del individuo (edad, PAD) puede ser representado por un punto en
este plano, cada individuo tendr un punto (x,y), esta notacin corresponde al par ordenado.
Para los humanos, a
medida que la edad
aumenta, la presin
arterial diastlica se
incrementa
Tericamente podramos representar este grafico los datos de todos los humanos, y observar en
forma grafica, como se interrelacionan ambas variables. Si lo ponemos en un termino mas
fisiolgico, podramos apreciar en forma grafica, si para los humanos la edad influye sobre la
presin arterial diastlica.
Antes de seguir avanzando debemos de reflexionar sobre una caracterstica de estas variables en
particular y es respecto a la dependencia, sern ambas independientes?, a simple mirada No,
entonces quien determina a quien?
Responder esto es importante ya que si no sabemos respecto a la dependencia entre ellas y
naturalmente, si no existe una determinacin de un por otra, solo deberamos hacer correlaciones.
Pero en nuestro ejemplo, pensamos que la edad es la que determina la presin arterial diastlica y
no al contrario. Entonces lo que vamos ha analizar como que la edad es la que determina a la
presin arterial diastlica.
EDAD ---- PAD
Nuestra primera aproximacin, a partir del grafico, es suponer que la presin arterial diastlica
esta determinada por la edad, mas aun podemos suponer que hay una lnea recta que representa
esta determinacin
Para los humanos, un
incremento en la edad,
trae consigo un
incremento de la presin
arterial diastlica de
manera proporcional a la
edad
Al aplicar este artificio, hacemos una simplificacin extrema, ya que si recordamos la geometra
elemental, estamos simplificando al establecer la relacin de como x influye sobre y, en forma de
una recta. Dicho de otra manera, hemos creado un Modelo que predice como la edad influye sobre
la presin arterial diastlica, de manera muy simple, como una recta.
El parmetro " b0" es el valor que toma la variable dependiente "y", cuando la variable
independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. Para nuestro ejemplo,
la presin arterial diastlica al momento de nacer , 45 mm Hg .
El parmetro " b1" determina la pendiente de la recta, su grado de inclinacin. Para nuestro
ejemplo 0.5 mm Hg, por ao de incremento de la edad
La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que
mejor se ajusta a esta nube de puntos
POBLACIONES Y MUESTRAS
Sin embargo hay que distinguir si trabajamos con una muestra o con la poblacin en general,
asumiremos al inicio que trabajamos con la poblacin general
Imaginemos a una poblacin, donde a cada uno de los individuos se le mide dos atributos
(Variables), y tenemos la sospecha que uno de ellos determine al otro. Para poder evaluar
nuestras sospechas, una de las primeras actividades es hacer un grfico, tratando de evaluar la
relacin que deseamos estudiar. Si el diagrama de dispersin nos muestra que aparentemente hay
una relacin.
Supongamos ahora que ya estamos convencidos de que esa relacin. Asumimos entonces que Y
esta condicionada por X.
Deseamos ahora establecer como X condiciona a Y, mejor dicho
y = f(x)
50
200
Para poder analizar la relacin de ambas variables, se puede hacer un grafico como el siguiente
100
150
200
Ingreso familiar semanal
250
Donde x es una valor particular de X, al observar el grfico se puede ver que aparentemente que Y
depende de X, si x aumente su valor los correspondientes valores de Y tambin lo hacen.
As mismo relacin entre Y y X es lineal (la relacin es aproximada a una recta), se puede expresar
que Y es una funcin, mas an una funcin lineal de X. Matemticamente se expresa como:
y = b0 + b1 x
Por otro lado, para cada individuo, si con su edad, se predice su PAD, esta PAD predicha difiere de
la medida, ser la diferencia entre el valor predicho y un valor real.
ui = Yi - E(Y|Xi)
A esta diferencia se les llama residuos, y se debe a diversos factores (variables omitidas) la suma
de sus efecto produce una PERTURBACION ESTOCASTICA
PERTUBACION ESTOCASTICA
Es debida a diversas razones
1.- Vaguedad de la teora, (teora incompleta)
2.- No disponibilidad de informacin.
3.- Variables centrales versus perifricas
4.- Aleatoridad intrnseca en el comportamiento humano
5.- Variables prximas inadecuadas
6.- Principio de parsimonia
7.- Forma funcional incorrecta
En el anlisis de regresin nos interesa conocer como es la dependencia estadstica entre dos
variables, pero no la funcional o determinstica de la fsica clsica. En las relaciones estadsticas
entre variables tratamos esencialmente con variables aleatorias y estocsticas, esto es variables
que tienen distribuciones de probabilidad. Por otra parte en la dependencia funcional o
determinstica se maneja variables pero esta no son aleatorias o estocsticas.
Entonces se puede establecer la recta de regresin poblacional.
E(Y|Xi) = 0 + 1X1 + ui
60
80
1 60
Sin embargo, cuando se hace investigaciones, usualmente se toma una muestra de la poblacin,
mejor dicho, solo tomamos algunos valores de x e y, ya no toda la poblacin, como ilustra el grfico
siguiente
100
150
200
Ingresos familiares
250
Nos debe quedar claro, entonces que se ha tomado una muestra, y que pudieran obtenerse
diferencias entre las relaciones de una y otra muestra.
Muchos estadsticos para no tener problemas en la interpretacin, los coeficientes de la regresin
obtenidos de una poblacin les denotan con la letra griega (beta), como corresponde a un
parmetro de la poblacin los calculados en base a muestras b (letra latina), como corresponde a
un estadstico.
Y = b0 + b1X+ ui
El coeficiente u, representara los errores. Para cada individuo i.
La relacin entre la variable y y la variable x es lineal, entonces puede ser expresado en forma de
una ecuacin lineal, como
y = b0 + b1 x
sin embargo dado que las variables son estocsticas, en realidad existe un error de aproximacin,
y se puede expresar en forma mas exacta de la siguiente manera
yi = b0 + b1 xi +ui
ESTIMACION DE PARAMETROS
Recuerde que en una regresin poblacional :
Yi= 0 + 1 Xi +ui
Donde 0 y 1 son parmetros poblacionales.
Pero en una que en una regresin muestral:
Yi= b0 + b1 Xi +i tambien se puede escribir como Yi= i+ i
Donde b0 , b1 son estadsticos en base a una muestra determinada, y son los errores .
Entonces : i= Yi- (b0 + b1 Xi )
Como deseamos obtener la mnima desviacin respecto a Y, debe minimizarse, pero no solo un
valor individual, sino todos los i, y el modo de lograr es minimizar la suma de estos, pero como
importa la desviacin de Y y no el sentido, no se puede colocar la suma directa, ya que las
desviaciones negativas contrarestan a las positivas, por lo que se debe de sumar los cuadrados de
la diferencias o mejor dicho i 2
METODO DE MINIMOS CUADRADOS ESTIMADOS (OLS)
Ya que deseamos estimar el valor menor de , pero este va ha ser dependiente de b0 y b1 ,
entonces los que podemos hacer es expresar i como funcin de b0 y b1 y del calculo diferencial,
sabemos que las derivadas nos pueden ayudar a conocer los puntos menores, ya que para ese
valor la derivada ser cero. Entonces expresamos
u i2
2 Yi 0 1 X i 2 u i
u 2 Y
0
2
i
1 X i X i 2 ui X i
Los parmetros b0 y b1 se estiman por medio de el mtodo de los mnimos cuadrados para
muestras, puede escribirse como;
xY
x
i
2
i
cov( x, y )
var( x)
Sxy
b1 = ----------S x
b0 = Y - b 1 X
COMENTARIOS
Al tratar de analizar, la relacin entre dos variables, suponiendo la existencia del modelo causal, es
decir que una variable independiente influye sobre una dependiente. Una simplificacin importante
que se puede hacer es que las otras variables que pueden influir sobre la relacin permanecen
constantes, esto se llama Ceteris paribus con los dems factores relevantes, permanecen igual.
SUPUESTOS
El calculo de los parmetros por medio del mtodo de mnimos cuadrados trae ciertas
consecuencias que e necesario recordarlas.
Propiedades algebraicas de los estadsticos de MCO.
1.- La suma, y por tanto el promedio maestral de los residuos de MCO, es cero, y lo expresamos:
n
u
i 1
Hay que recordar que esto es un consecuencia directa del clculo de los coeficientes b por el
mtodo MCO. Sin embargo no dice nada a cerca de un residuo de una observacin particular i .
2.- La covarianza muestral entre los regresores y los residuos del MCO es cero. De esto se deriva
de que x y u no deben de tener correlacin, es la condicin de primer orden.
n
x u
i 1
3.- Aqu i denota el error para la observacin i, es la diferencia entre la yi obtenida en la realidad
respecto a la i predicha por la regresin lineal. Por lo que puede escribirse:
yi = i + i
Para entender mejor lo que representa cada uno de estos valores, podemos hacer la siguiente
explicacin.
Continuando con nuestro ejemplo, supongamos que efectivamente deseamos evaluar la influencia
de la edad sobre la Presin Arterial Diastlica (PAD),
Se toma datos de 8 personas:
INDIVIDUO EDAD PAD
1
0
46
2
10
50
3
20
55
4
30
59
5
30
59
6
40
65
7
50
70
8
60
76
Lo primero que deseamos es estimar los valores de b,
Se puede calcular b1, es igual a cov(x,y) / var(x)
La cov(x,y):
INDIVIDUO EDAD (X-Xp) PAD (Y-Yp) (X-Xp)(Y-Yp)
1
0
-30
46
-14
420
2
3
4
5
6
7
8
10
20
30
30
40
50
60
-20
-10
0
0
10
20
30
50
55
59
59
65
70
76
-10
-5
-1
-1
5
10
16
200
50
0
0
50
200
480
i
45
50
55
60
ui
1
0
0
-1
5
30
59 60
-1
6
40
65 65
0
7
50
70 70
0
8
60
76 75
1
Ahora debemos responder a las siguientes preguntas,
Cmo determino toda la variabilidad de y (PAD),?
Caigo a la cuenta que eso est dado por la suma de (y i y)2,
INDIVIDUO EDAD
PAD (y-)2
196
1
0
46
100
2
10
50
25
3
20
55
1
4
30
59
1
5
30
59
25
6
40
65
100
7
50
70
256
8
60
76
Esta variacin suma 704. Esta variacin puede descomponerse en varias, la predicha por el
modelo y la de los residuos.
INDIVIDUO EDAD
PAD (- )2
225
1
0
46
100
2
10
50
25
3
20
55
0
4
30
59
0
5
30
59
25
6
40
65
100
7
50
70
225
8
60
76
Esta suma de cuadrados es 700, es la suma de cuadrados del modelo, y de igual manera se puede
calcular la suma de cuadrados de los residuos.
INDIVIDUO EDAD PAD
1
0
46
2
10
50
3
20
55
4
30
59
5
30
59
6
40
65
7
50
70
8
60
76
ui 2
1
0
0
1
1
0
0
1
Es 4
Ahora podemos llevar a cabo otra parte del anlisis, y hacer una anlisis de varianzas, ya que
podemos calcular la varianza del modelo y dividirla entre la varianza de los residuos y analizar si
son iguales o diferentes,
F = Var(modelo) / Var(residuos) =
E( b0) = 0 y E(b1) =1
Si b1 = (xi - ) (yi- ) / (xi - )2
b1 =
b1 =
b1 =
b1 =
b1 =
b1 =
b1 = 1
Var (b1 )
2
2
( xi x )2 sx2
1.- Existencia. Para cada valor de X, Y es una variable aleatoria, con media y varianza finitas.
2.- Independencia. En valor de Y es estadisticamente independiente de otro.
3.- Linealidad. El valor medio de Y es una funcin lineal de X
Y= b0 + b1X + E
Donde E ser los residuos.
4.- Homocedasticidad. La varianza de Y es la misma para cualquier X
5.- Distribucin normal. Para cualquier valor fijo de X , Y se distribuye normalmente.
DETERMINACION DE LA MEJOR RECTA
1) Mtodo de los cuadrados mnimos, determina la mejor recta que se ajusta a los puntos,
teniendo como referencia a la menor distancia de los puntos a la recta, en forma vertical.
2) Mtodo de la mnima varianza, estima los coeficientes no sean sesgados.
3) Solucin al problema de ajuste.
Cov(X,Y)
b1= ---------Var(X)
b0= - b1X
4.- LINEALIDAD
Un supuesto de fondo para la utilizacin de la regresin lineal, es que la relacin entre cada
variable independiente y la dependiente es lineal. Significa que el efecto de cada variable
independiente (Xi) en la dependiente (Y) es el mismo sea cualquiera el valor de la variable
independiente. O dicho de otra manera, "para cada variable independiente X i , la cantidad de
cambio en el valor medio de Y asociado con un aumento de una unidad X i, manteniendo todas la
otras variables independientes constantes, es el mismo sin considerar el nivel de X i".
Por lo contrario, si se observa que el cambio en el valor medio de la variable dependiente asociado
con el incremento de una unidad en la variable independiente vara con el valor de la variable X i se
dice que la relacin entre la variable dependiente y la independiente es no lineal. Entonces el
modelo de regresin no logra captar "el modelo sistemtico de relacin entre las variables
dependientes e independientes" (Fox 1991)
El cumplimiento de este supuesto se puede comprobar en forma visual, con la ayuda de los
grficos de regresin parcial y los residuos.
A) GRAFICOS DE REGRESION PARCIAL
Son muy tiles para conocer que variables concretas incumplen el supuesto de linealidad.
Muestran para cada variable independiente su relacin con la dependiente.
Para que se cumpla el supuesto de linealidad, la nube de puntos correspondiente a los valores de
Xi e Y deben estar alrededor de una lnea recta.
Si la recta es creciente ambas variables se hallan relacionadas positivamente. Si es decreciente la
relacin de Xi e Y en inversa, mientras Xi aumenta Y decrece .
Si la nube de puntos no sigue una lnea recta, entonces la regresin es no lineal. Puede una
transformacin lograr convertirla en lineal.
Si el grfico de puntos no sigue ninguna lnea, es una nube de puntas redondeada, significa que no
existe ninguna relacin. (r=0).
Los grficos de regresin parcial pueden confeccionarse con los datos originales, o tambin con
las variables estandarizadas (se han convertido en Z, ) mediante la resta de la media y divisin
entre la desviacin estndar. Usualmente se toman los valores de Z de -3 a +3. Es til para la
deteccin de los datos atpicos.
weigth heigth
100
150
200
P es o
250
300
350
. scatter
30
40
50
Talla
60
70
80
B) GRAFICOS DE RESIDUOS.
A diferencia de los grficos de regresin parcial, el grfico de residuos no se limita a relaciones
bivariadas, por lo contrario busca los efectos combinados de todas las variables predictoras
incluidas en la ecuacin de regresin con la dependiente. Para lo cual se representan los residuos
estandarizados o los estudentizados, contra los valores predichos de la variable dependiente a
partir de la ecuacin de regresin (). El valor de predicho se obtiene de reemplazar los valores
de las variable independientes en la ecuacin, la diferencia respecto al valor Y obtenido es el
residuo (Ei). Si a Ei lo dividimos por la desviacin estndar, obtenermos el residuo estandarizado
ESi . Los residuos estudentizados se caracterizan por seguir la distribucin t de student con N-p-1
grados de libertad, siendo N el tamao de la muestra, p el nmero de las variables independientes.
El grfico difiere de un grfico de regresin parcial en dos aspectos importantes:
1.- La muestra los valores de los residuos de la prediccin contra la prediccin, y no Y o X i.
2.- la nube de puntos debe ser horizontal y no ascendente o descendente.
El supuesto de linealidad se cumple cuando los residuos se distribuyen aleatoriamente alrededor
de la lnea horizontal que tiene como valor cero. Si la nube de puntos es una curva, no se cumple
con el supuesto de linealidad.
. regress weigth heigth
. predict r, resid
. scatter r weigth
Un grfico de residuo se realiza con los residuos estandarizados o estudentizados.
Berry y Feldman (1985) proponen una forma mas rigurosa, se toma varias submuestras que
incluyen un rango de valores para la variable independientes. Si cada submuestra , por separado
genera estimaciones del intercepto y de coeficientes de pendientes que difieren sustancialmente a
travs de las submuestras, se considera que las dos variables tienen una relacin no lineal.
El supuesto de linealidad no supone la invalidacin del anlisis de regresin, aunque si lo debilita,
la relacin no queda captada adecuadamente en el coeficiente.
Algunos de los remedios contra la no linealidad:
a) Aplicar mtodos de regresin no lineal como la polinomial
b) La trasnformacin logartmica de la variable independiente (logX), la que no dificulta la
interpretacin,
5.- ADITIVIDAD
La prediccin de la variable dependiente exige que los efectos de las distintas variables
independientes puedan sumarse entre s. Esto significa que para cada variable independiente
incluida en el modelo de regresin, la cantidad de cambio que provoca en la variable dependiente
ser el mismo, indistintamente de los valores de la variable independientes incluidas en la ecuacin
de regresin. Si por lo contrario, si se observa que su influencia se ve afectada por los valores que
presenten otras variables independientes, se est frente a un modelo no aditivo (o interactivo). Ello
sucede cuando las variables independientes interactuan unas contra las otras, al influir en la
variable dependiente.
Berry y Feldman (1985) proponen diferenciar tres variedades de modelos de regresin no aditivos:
a) Modelo interactivo de variable ficticia. Cuando una de las variables independientes del modelo
es dicotmica, el modelo es interactivo si la variable independiente est linealmente
relacionada con la variable dependiente, pero para ambos valores de la variable ficticia
dicotmica, la pendiente de las recta de regresin y el intercepto que caracterizan la regresin
lineal entre la variable dependiente y las independientes diferirn segn sea el valor de las
variables ficticias dicotmicas. Entonces estos coeficientes son diferentes para cada valor de la
variable independiente dicotmica.
b) Modelo multiplicativo, Si dos variables independientes, medidas a nivel de intervalo,
interactan en la variable dependiente, de modo que la pendiente de la relacin entre cada
variable independiente y la dependiente est relacionada linealmente con el valor de la otra
variable independiente.
c) Modelo interactivo no lineal. La resolucin de este tipo de modelo exige tomar logaritmos en
ambos lados de la ecuacin de regresin. Es decir, tanto para la varaible dependiente como
para cada una de las variables independientes incluyendo la constante y el trmino de error.
En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pequeo
aumento de Xi depende del valor Xi, significa que se est ante un modelo no lineal. Por el
contrario, cuando el cambio en Y, relacionado a un pequeo incremento de Xi, est relacionado con
el valor de otra variable independiente, el modelo es interactivo.
Cuando se tiene que en un modelo se coloca una nueva variable independiente producto de dos
variables existentes y el incremento en la prediccin es significativo, entonces resulta que el
modelo no es sumativo sino multiplicativo.
6.- NORMALIDAD
El supuesto de normalidad es comn a otras tcnicas de anlisis multivariante. Consiste en la
correspondencia de los datos (tanto relativos a la variable dependiente como las independientes)
con la distribucin normal. Ello es importante porque permite el uso de estadsticos "F" de
Snedecor y "t" de student, en la comprobacin de la significatividad del modelo de regresin en su
conjunto ("F") y de sus coeficientes por separado ("t").
El inclumplimiento es mas probable con tamaos de muestra pequeos. La forma mas sencilla de
comprobar son los grficos:
A) HISTOGRAMA DE RESIDUOS
Incluye los residuos estandarizados, junto con las frecuencias de la variable. Para que el supuesto
de normalidad se satisfaga, los residuos (aquellos datos que no logran ser explicados por el
anlisis de regresin, al no coincidir los valores observados con los predichos por el anlisis de
regresin) han de estar normalmente distribuidos. El histograma debe ser en forma de campana de
Gauss, con media 0 y desviacin estndar 1.
B) GRAFICO DE PROBABILIDAD NORMAL
Algunas veces lo referimos como grfico P-P. Difiere del histograma de residuos en que tambin
puede aplicarse cuando el tamao de muestra es pequeo. En el se compara la distribucin
observada de los residuos estandarizados (o tipificados) con la esperada bajo supuesto de
normalidad. Para ello se representan ambas distribuciones de probabilidad acumulada: la esperada
y la observada. Si ambas distribuciones coinciden, se obtiene una recta que forma un ngulo de
45 grados. Lo que significa que es una distribucin normal. La salida de la normalidad es s los
datos se alejan de la diagonal.
Cuando la lnea de puntos cae por debajo de la normal, la distribucin es platocrtica, a mas
separacin es mayor la distancia. Esta distribucin se caracteriza por tener una dispersin
importante de la media, lo cual dificulta la representatividad. La distribucin de los datos presenta
una forma achatada o plana, con escasos valores en el centro. El valor de la curtosis
correspondiente es un valor negativo. Al contrario si la lnea se sita por encima de la diagonal, la
distribucin es leptocrtica , sus valores estn muy concentrados alrededor de la media, al haber
muchos casos en el centro; su dispersin respecto a la media aritmtica es muy pequea
favoreciendo su representatividad, El valor de la curtosis es positivo.
Un arco sencillo por debajo o encima de la diagonal indica asimetra (negativa o positiva) . La
asimetra indica una agrupacin de los datos. Si es por encima de la diagonal, la distribucin es
asimtrica a la derecha o con sesgo positivo, si los valores se situan a la izquierda de la curva, al
haber en la dsitribucin mayor representacin de los valores inferiores a la media . El valor de
asimetra correspondiente es mayor de cero es positivo.
Un arco por debajo de la diagonal informa, en cambio, que la distribucin es asimtrica negativa ( o
con sesgo negativo), tanto ms, cuanto ms se distancie la linea de puntos de la diagonal, En las
distribuciones asimtricas negativas la agrupacin de los valores se produce a la derecha de la
curva, al haber mayor presencia de valores superiores a la media en la muestra analizada. La
asimetra en este caso toma un valor negativo.
Al detectarse asimetra debe examinar cada variable para comprobar en cuales se incumple el
criterio de normalidad.
C NORMALIDAD POR PRUEBAS ESTADISTICAS
La normalidad tambin se puede evaluar con pruebas estadsticas,
Estadstico de Shapiro-Wilks , Es muy utilizado, se usa para muestras del tamao normal (inferior a
50 unidades). Su valor se obtiene a partir de los valores esperados de los residuos ( E i = Yi - i) de
una distribucin nirmal estndar. El rango de valores posibles va desde 0.0 a 1.0. un W = 1.0
significa el cumplimiento del supuesto de normalidad, mientras que si W =0.0 es su incumplmiento.
Como los paquetes ademas se acompaan del valor del p, esto es mas fcil de interpretar.
La comprobacin del supuesto de normalidad tambien puede hacerse con el estadstico D de
Kolmogorov-Smirnov. Pero unicamente cuando se analiza un tamao de muestra elevado. La
hitesis nula se rechaza en forma inversa que el previo, para valores elevados de D o un valor
pequeo de probabilidad.
Los remedios mas aplicados contra el incumplimiento del supuesto de normalidad multivariante
son:
a) La transformacin logartmica de la variable dependiente (log Y), sobre todo, cuando la
distribucin de los residuos muestra una asimetra positiva masiva. Si dicha asimetra es
mediana se puede aplicar la raiz cuadrada
b) La transformacin cuadrada, si la asimetra es negativa.
c) Transformacin inversa, cuando la distribucin de los residuos muestra un incumplimiento
grave del supuesto de normalidad.
Es de comentar que para algunos autores (Nourisis 1986) el estadstico "F", empleado para la
comprobacin de la hiptesis de significancia del modelo de regresin en forma conjunta, es
bastante insensible a las salidas "moderadas" de la normalidad. Por ello recomienda adoptar los
remedios referidos solo cuando el incumplimiento de los supuestos de normalidad sea importante.
Otros (Afifi y Clark 1990) proponen que las transformaciones para alcanzar normalidad no se lleven
a cabo " si la desviacin tpica dividida por la media es inferior a 1/4" . "Las transformaciones son
mas efectivas al inducir normalidad cuando la desviacin tpica de la variable no transformada es
grande relacionada con la media ".
Se debe comparar la regresin obtenida con la transformacin con la sin transformar para evaluar
la ganancia.
7.- HOMOCEDASTICIDAD
Para que sea posible la medicin correcta de la relacin de la variable independiente y
dependiente, por medio de la regresin lineal es necesario que la varianza de los valores de la
variable dependiente permenezca sin cambios a lo largo del recorrido de la variable independiente
(predictora). A esta caracterstica se le llama homocedasticidad o igualdad de las varianzas de los
trminos de error residual en la serie de los valores independientes. La variable dependiente ha de
mostrar niveles iguales de varianza en los distintos valores de las variables independientes . En
cambio, si la variabilidad en los trminos de error de las distintas variables independientes no es
constante, se dice que los residuos son heterocedsticos. Ello significa que su magnitud (de los
resuduos) aumenta o disminuye en funcin de los valores que adopten las varaibles
independientes, o segn cuales sean los valores predichos. La varianza de la variable dependiente
se concentra en unos valores concretos de las variables independientes, lo que provoca que la
prediccin del valor de la variable dependiente sea mejor (de existir heterocedasticidad), no en
todos, sino slo en determinados valores de la variable independiente.
A pesar que este es uno de los supuestos que mas se incumple, siempre debe valorarse. Para que
el anlisis de la relacin de dependencia sea correcto, la varianza de la variable dependiente no ha
de concentrarse en unos valores determinados de las variables independientes. Ello no solo
ocaciona diferencias en la prediccin del valor de la variable dependiente, sino en general se
relaciona con la obtencin de pruebas de significancia ( con los estadsticos "t" y "F") cuyos
resultados sean incorrectos. La posibilidad de que esto acontezca es mayor cuando se anlizan
datos seccionales (o transversales) que longitudinales; por ejemplo, en una encuesta convencional,
De acuerdo con Gujarati " En datos seccionales, se suele tratar con miembros de una poblacin en
un punto determinado en el tiempo, tales como consumidores individuales o familias, empresas,
industrias, o subdivisiones geogrficas, tales como estados o paices, ciudades, etc. Lo que es mas
estos miembros pueden ser de diferentes tamaos tales como empresas pequeas o medianas o
grandes, o de renta alta, media o baja. De hecho, en la informacin de corte transversal que
comprende unidades heterogeneas, la heterocedasticidad puede ser la regla mas que la
excepcin. En los datos de series temporales, por otro lado, las varibles tienden a ser de ordenes
similar de magnitud porque generalmente se recogen los datos para la misma entidad a lo largo de
un periodo de tiempo".
La homocedasticidad suele relacionarse con el supuesto de normalidad, De hecho se observa que
" cuando el supuesto de normalidad multivariable se satisface, las relaciones entre las variables
son homocedasticas " (Tabachnick y Fidell, 1989). En general la heterogeneidad es mas probable
que acontezca cuando se da algunas o varias de las situaciones siguientes:
a) Se incumple el supuesto de normalidad
b) Las variables no se encuentran directamente relacionadas
c) Algunas de las variables son asimtricas mientras que otras no lo son
d) En determinadas variables independientes, las respuestas se concentran en un nmero
limitado de valores.
Berry y Feldman (1985) destacan tres situaciones en las cuales la heterocedasticidad se convierte
en problema:
a) Cuando la variable dependiente est medida con error, y la cantidad de error vara con el valor
de la variable independiente. Por ejemplo una encuesta, la unidad de anlisis habitual es el
individuo y algunos de ellos pueden aportar una informacin mas adecuada que otros.
b) Cuando la unidad de anlisis es un "agregado" y la variable dependiente la forma un promedio
de valores para los objetos individuales que componen las unidades agregadas. Por ejemplo,
el nivel de renta media en alguna unidad agregada, para determinar el nivel de renta media,
difiere a travs de las unidades, la adecuacin con la que sta medida la variable dependiente
tambin variar. Los niveles de renta medios estimados a partir de una muestra grande de
individuos suelen caracterizarse por un menor error de medicin que las medias obtenidas de
muestras pequeas. Esta aseveracin se deduce del conocimiento de que la varianza de la
distribucin de una media muestral decrece cuando el tamao de muestra aumenta.
Despues se comparan sus respectivos residuos cuadrados(RSS) en relacin con sus grsdos
de libertad. Si el cociente entre ambos resulta ser significativo de acuerdo con el estadstico de
comprobacin F, puede afirmarse, al nivel de significatividad elegido, el incumplimiento del
supuesto de homocedasticidad.
c) La d de Durbin-Watson.
Otra forma de ver la multicolinealidad es tomando en cuenta los errores tpicos, si son elevados
sugieren colinealidad, aunque no siempre es as.
Un procedimeinto alternativo es hacer regresin de para cada variable independiente por separado,
si el R 2 se aproxima a 1 hay multicolinelidad, si no lo hay es cercano a cero.
La tolerancia es el recproco del factor de inflacin de la varianza (FIV)
TOLi = 1 - R2i
El punto de corte es 0,1, el valor peoer es 0 y el mas adecuado 1.
Factor de inflacin de la varianza (FIV), es el reverso de la tolerancia se define como:
FIVi = TOLi -1 - 1/ 1- R2i
Los valores cercanos a 1 indican inexistencia de correlacin y los superiores a 10 indican
multicolinealidad severa.
Los remedios para la multicolinealidad, el mas radical eliminar una de las variables correlcionadas,
el otro es son las variable colinealies construir un sola variable que las represente. Tambin se
puede elegir aumentar el tamao de muestra.
La eliminacin de la variable independiente, que presenten elevado grado de colinealidad. Es el
remedio mas drstico.
Para Wittink (1988) " Omitir una variable predictora relevante puede causar severos problemas, tal
omisin es un ejemplo de Error de especificacin". Por lo que se debe recurrir a la combinacin
antes de la eliminacin.
Otros autores dicen que no se produce gran prdida de informacin, esto depende entonces del los
que est estudiando,. Y si las varible correlacionadas son expresin de un fenmeno, se puede
eliminar o juntar en una variable nica.
E
t 2
E t 1
E
t 1
2
t
E Si
Yi Yi
Ei
E i2
i 1
n p 1
Donde n representa el tamao de la muestra, "p" el nmero de variables independientes incluidas
en la regresin. Esta tipficacin de los reiduos ( que quedan convertido en la misma unidad de
medicin: unidades de desvciacin tpica) facilita la comparacin de residuos y de modelos de
regresin distintos. El rango de los residuos estandarizados va de -3 a 3, tienen = 0 y = 1.
En STATA se puede obtenerlos directamente despues de la regresin, asi:
. predict redstand, rstandard
c) Residuos estudentizados ("Studentized residuals"). Se define de manera similar a los
estandarizados: El cociente del residuo bruto y su desviacin tpica estimada. A esta definicin
Eti
Ei
1 d i ,i
Los residuos estudentizados se ajustan a la distribucin "t" de student, con n-p-1 grados de
libertad. Los valores "di,i " tambin suelen denotarse como "hi,i" . Esta cantidad, que tambin
se le llama "leverage" indica el nmero de elemento "i" de la diagonal de la matriz H, (hat
matriz)l Las observaciones con un valor "hi,i >2p/n" deberan observarse como observaciones
potencialmente muy influyentes en la ecuacin de regresin. Lo mismo acontece con los
valores de "Ei,i >2".
d) Residuo eliminado estandarizado (Studentized deleted residuals). Difiere del anterior en que, al
calcular el error tpico residual, no se incluye el isimo residuo (-i), De esta forma se obtiene
una distribucin del estadstico "t" de student con "n-p-2" grados de libertad.
Et ( i )
( 1)
Ei
1 d i ,i
Los valores de cualquiera de estos cuatro residuos se aaden a grficos que faciliten la
comprobacin inmediata de los supuestos de la regresin. Los grficos de residuos mas comunes
son los que representan los residuos contra:
Una de la variables independientes Xi
Los valores predichos de la variable dependiente
La suma ponderada i de las variables independientes Xi
Los grficos mas utilizados son los del segundo tipo. Este grfico no debe mostrar ninguna
tendencia.
La adecuacin del modelo de regresin puede, comprobarse mediante el "casewise plot". Este es
un grfico de residuos, aunque por cada caso y en forma estandarizada. Como proporciona
informacin de cada caso analizado ( su valor predicho, i , con los residuos correspondientes, se
usa cuando el tamao de muestra es elevado. El nmero de pginas grficos aumenta con el
nmero de casos lo que dificulta su lectura.
PRESIONES SANGUNEAS NORMALES
Edad / Presin sistlica (mmHg) /Presin diastlica (mmHg)
Lactante / 60 90 / 30 62
2 aos / 78 112 / 48 78
8 aos / 85 114 / 52 85
12 aos / 95 135 / 58 88
Adulto / 100 140 / 60 90