Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Del mismo modo, que una variable X1 sea combinacin lineal de otras X2, ...,
Xi con i>2, significa que dichas variables estn relacionadas por la expresin
X1 = 1 > + 2 X2 + ... + iXi, siendo 1,..., i constantes y por tanto, el coeficiente
de correlacin mltiple RX1|X2,...Xitambin ser 1.
Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad
cuando alguno de los coeficientes de correlacin simple o mltiple entre algunas de
las variables independientes es 1, es decir, cuando algunas variables
independientes estn correlacionadas entre s.
En la prctica, esta colinealidad exacta raras veces ocurre, pero s surge con cierta
frecuencia la llamada casi-colinealidad, o por extensin, simplemente colinealidad
en que alguna variable es "casi" combinacin lineal de otra u otras, o dicho de otro
modo, algunos coeficientes de correlacin simple o mltiple entre las variables
independientes estn cercanos a 1, aunque no llegan a dicho valor.
Aunque puede existir colinealidad con FIV bajos, adems puede haber
colinealidades que no impliquen a todas las variables independientes y que, por
tanto, no son bien detectadas por el FIV.
De hecho, para modelos predictivos los componentes principales son las variables
independientes ideales.
Para Belsley ndices de condicin entre 5 y 10 estn asociados con una colinealidad
dbil, mientras que ndices de condicin entre 30 y 100 sealan una colinealidad
moderada a fuerte.
En los modelos estimativos no tiene sentido, ya que el inters del modelo es,
justamente, estimar el efecto sobre la variable independiente de una variable
determinada y no interesa, por lo tanto, usar otras variables distintas.
En este mismo sentido hay que tener en cuenta que las variables producto
introducidas para estudiar la interaccin pueden dan lugar a problemas de
colinealidad y no se recomienda, por lo tanto, que un modelo contenga muchos
trminos de interaccin.
Si una variable toma el mismo valor para todas las observaciones (tiene varianza
cero) existe colinealidad exacta con el trmino independiente, y si una variable
tiene varianza casi cero (toma valores muy prximos para todas las observaciones)
existe casi-colinealidad.
Puede ocurrir que una varianza pequea sea debida a una escala inapropiada para
la variable, por ejemplo, si la edad de sujetos adultos se mide en dcadas se
obtiene una varianza 100 veces menor que si se midiera en aos. En este caso un
cambio de escala puede evitar el problema de la colinealidad.
Ejemplo 10
Realizar el estudio de colinealidad en los datos del ejemplo 5, usando los FIV, los
ndices de condicin y la matriz de proporcin de descomposicin de la varianza de
los estimadores.
Realizando los anlisis de regresin de cada una de las variables independientes
con todas las dems, se obtienen los siguientes coeficientes de determinacin,
tolerancia y factores de inflacin de la varianza
Hay un ndice de condicin alto (50,781) y asociado con el mismo hay cinco
variables (el trmino constante, GRASAS, GRASA2, EDAD y GRAXED) con
proporcin de varianza alta.
Nos indica, por tanto, que GRASAS es colineal con GRASA2, GRAXED (no nos
sorprende), EDAD y con la constante.
Al existir esta ltima colinealidad, el centrado de variables podra mejorar el
problema, se podra tambin renunciar a estudiar los trminos no lineales GRASA2
y GRAXED.
Si bien para la estimacin por mnimos cuadrados de los coeficientes de un modelo de regresin, slo
la asuncin de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de
est basada tambin en las asunciones de normalidad y homoscedasticidad. Por consiguiente, convie
que dichas asunciones se cumplen en cada caso.
Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t n
contrastes de hiptesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece qu
cualquier variable aleatoria
H0 : i = a
es calcular el cociente
Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues en ese caso la estim
EE(i) no es vlida.
Recordando la 2 formulacin del modelo, las asunciones se pueden resumir en que las variablesx1,..
independientes, distribuidas normalmente con media cero y todas con la misma varianza 2
x1,...,xk es un conjunto de variables, una para cada combinacin x1,...,xk de valores de las variables X
denominados residuos, son los valores que en la muestra toman estas variables.
Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable
problema del ejemplo 5, por ejemplo, existe una variable x1,...,xk para cada valor de la edad, del cons
grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable 80,35,0; el del segu
variable 30,40,2; etc., es decir, para cada variable slo se tiene un valor muestral.
Para el problema del ejemplo 8, sin embargo, slo hay cuatro variables: 0,0, 1,0, 0,1 y 1,1 y s puede
suficientes valores muestrales para cada una de ellas como para plantearse pruebas de bondad de aj
distribucin normal (ji-cuadrado o Kolmogorov-Smirnov) y de homoscedasticidad (Bartlett).
El planteamiento habitual es considerar que, como todas ellas son normales con la misma media (0)
varianza (2), los residuos ( ) tambin tienen una distribucin normal con media 0 y varianza desco
simplemente, contrastar este extremo.
Al conjunto de tcnicas que se usan para ello se le denomina anlisis de los residuos.
El anlisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de una pobla
con media 0 y varianza 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov.
Hay que tener en cuenta que de este modo se estn contrastando globalmente todas las asunciones
consiguiente, una falta de normalidad de los residuos puede ser debida tambin a que el modelo sea
a existencia de heterocedasticidad.
Teniendo en cuenta que (n-(k+1))s2/ 2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de
variable
llamada residuo normalizado tendr una distribucin t de Student con (n-(k+1)) grados de libertad, q
valores de n suficientemente grandes se puede aproximar a una normal reducida (de media cero y va
a menudo, se contrasta la distribucin de esta variable en lugar de el residuo.
Adems de estas pruebas de significacin para asegurar que globalmente se cumplen las asunciones
es til realizar un anlisis grfico de los mismos que permite discriminar entre distintas violaciones de
Si se representara en una grfica bidimensional los residuos observados (eje Y) para cada una de las
variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se observara una nube de puntos en dire
horizontal y con anchura constante (la media de cada x1,...,xkdebera ser cero y tener todas la misma
Como para cada variable Y|x1,...,xk el modelo produce la misma estimacin una grfica de los residuo
valores predichos tendr el mismo aspecto (fig. A).
Si se viola la linealidad se observar una falta de linealidad tambin en los residuos (fig. B), si se vio
homoscedasticidad, la anchura de la banda no ser constante (fig. C), una relacin lineal entre los re
predicciones puede indicar que alguna variable no incluida en el modelo puede ser significativa (fig. D