Sei sulla pagina 1di 5

El problema de la colinealidad

Es uno de los problemas ms desesperantes con que uno se puede encontrar en un


anlisis de regresin. Como ya vimos al hablar de la estimacin de los coeficientes, si
en un modelo de RLM alguna variable independiente es combinacin lineal de otras, el
modelo es irresoluble, debido a que, en ese caso, la matriz X'X es singular, es decir, su
determinante es cero y no se puede invertir.
A este fenmeno se le denomina colinealidad. Que una variable X1 sea combinacin
lineal de otra X2, significa que ambas estn relacionadas por la expresin
X1 = 1 + 2X2, siendo1 y 2 constantes, por lo tanto el coeficiente de correlacin entre
ambas variables ser 1.
Del mismo modo, que una variable X1 sea combinacin lineal de otras X2, ...,
Xi con i>2, significa que dichas variables estn relacionadas por la expresin X1 = 1 >
+ 2 X2 + ... +i Xi, siendo 1,..., i constantes y por tanto, el coeficiente de correlacin
mltiple RX1|X2,...Xi tambin ser 1.
Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad cuando
alguno de los coeficientes de correlacin simple o mltiple entre algunas de las
variables independientes es 1, es decir, cuando algunas variables independientes estn
correlacionadas entre s.
En la prctica, esta colinealidad exacta raras veces ocurre, pero s surge con cierta
frecuencia la llamada casi-colinealidad, o por extensin, simplemente colinealidad en
que alguna variable es "casi" combinacin lineal de otra u otras, o dicho de otro modo,
algunos coeficientes de correlacin simple o mltiple entre las variables independientes
estn cercanos a 1, aunque no llegan a dicho valor.
En este caso la matriz X'X es casi-singular, es decir su determinante no es cero pero es
muy pequeo. Como para invertir una matriz hay que dividir por su determinante, en
esta situacin surgen problemas de precisin en la estimacin de los coeficientes, ya
que los algoritmos de inversin de matrices pierden precisin al tener que dividir por
un nmero muy pequeo, siendo adems inestables.
Adems, como la matriz de varianzas de los estimadores es proporcional a X'X, resulta
que en presencia de colinealidad los errores estndar de los coeficientes son grandes
(hay imprecisin tambin en sentido estadstico).
Por consiguiente, a la hora de plantear modelos de RLM conviene estudiar previamente
la existencia de casi-colinealidad (la colinealidad exacta no es necesario estudiarla
previamente, ya que todos los algoritmos la detectan, de hecho no pueden acabar la
estimacin). Como medida de la misma hay varios estadsticos propuestos, los ms
sencillos son los coeficientes de determinacin de cada variable independiente con
todas las dems, es decir

y, relacionados con ellos, el factor de inflacin de la varianza (FIV) y la tolerancia (T),


definidos como

Una regla emprica, citada por Kleinbaum, consiste en considerar que existen
problemas de colinealidad si algn FIV es superior a 10, que corresponde a algn
R2i 0,9 y Ti < 0,1.
Aunque puede existir colinealidad con FIV bajos, adems puede haber colinealidades
que no impliquen a todas las variables independientes y que, por tanto, no son bien
detectadas por el FIV.
Otra manera, ms completa, de detectar colinealidad es realizar un anlisis de
componentes principales de las variables independientes. Esta tcnica es
matemticamente compleja y aqu se hace slo un resumen de la misma necesario
para entender el diagnstico de la colinealidad.
Se denominan componentes principales de un conjunto de variables a otras variables,
combinacin lineal de las originales y que tienen tres propiedades caractersticas:
i) son mutuamente independientes (no estn correlacionadas entre s).
ii) mantienen la misma informacin que las variables originales.
iii) tienen la mxima varianza posible con las limitaciones anteriores.
De hecho, para modelos predictivos los componentes principales son las variables
independientes ideales.
La varianza de cada componente principal es un autovalor (nmero asociado a una
matriz) de la matriz de varianzas-covarianzas de las variables originales.
El nmero de autovalores nulos indica el nmero de variables que son combinacin
lineal de otras (el nmero de colinealidades exactas) y autovalores prximos a cero
indican problemas graves de colinealidad.
El clculo de los autovalores permite, por lo tanto, determinar no slo la existencia de
colinealidad, sino tambin el nmero de colinealidades.
Para determinar cundo un autovalor pequeo est suficientemente prximo a cero se
usa su valor relativo con respecto al mayor, en este sentido, para cada autovalor se
define elndice de condicin como la raz cuadrada del cociente entre el mayor de ellos
y dicho autovalor y se denomina nmero de condicin al mayor de los ndices de
condicin.
Para Belsley ndices de condicin entre 5 y 10 estn asociados con una colinealidad
dbil, mientras que ndices de condicin entre 30 y 100 sealan una colinealidad
moderada a fuerte.

Una vez determinada la presencia y el nmero de colinealidades, es conveniente


averiguar qu variables estn implicadas en ellas. Usando ciertas propiedades de la
matrices se puede calcular la proporcin de la varianza de las variables sobre cada
componente.
Si dos o ms variables tienen una proporcin de varianza alta en un componente indica
que esas variables estn implicadas en la colinealidad y, por tanto, la estimacin de sus
coeficientes est degradada por la misma.
Belsley propone usar conjuntamente los ndices de condicin y la proporcin de
descomposicin de varianza para realizar el diagnstico de colinealidad, usando como
umbral de proporcin alta 0,5 de modo que, finalmente, dicho diagnstico se har:
Los ndices de condicin altos (mayores que 30) indican el nmero de colinealidades y
la magnitud de los mismos mide su importancia relativa.
Si un componente tiene un ndice de condicin mayor que 30 y dos o ms variables
tienen un proporcin de varianza alta en el mismo, esas variables son colineales.
Como ya se indic ms arriba, la mejor solucin a los problemas de colinealidad
consiste en plantear el modelo de regresin con los componentes principales en lugar
de con las variables originales, si bien esta solucin slo est indicada en los modelos
predictivos.
En los modelos estimativos no tiene sentido, ya que el inters del modelo es,
justamente, estimar el efecto sobre la variable independiente de una variable
determinada y no interesa, por lo tanto, usar otras variables distintas.
Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser:
cambios de escala en las variables, incluyendo el centrado de las mismas (restar a
cada variable su media) o, incluso, eliminar alguna de las variables colineales.
En este mismo sentido hay que tener en cuenta que las variables producto introducidas
para estudiar la interaccin pueden dan lugar a problemas de colinealidad y no se
recomienda, por lo tanto, que un modelo contenga muchos trminos de interaccin.
Si una variable toma el mismo valor para todas las observaciones (tiene varianza cero)
existe colinealidad exacta con el trmino independiente, y si una variable tiene
varianza casi cero (toma valores muy prximos para todas las observaciones) existe
casi-colinealidad.
Puede ocurrir que una varianza pequea sea debida a una escala inapropiada para la
variable, por ejemplo, si la edad de sujetos adultos se mide en dcadas se obtiene una
varianza 100 veces menor que si se midiera en aos. En este caso un cambio de escala
puede evitar el problema de la colinealidad.
Tambin se puede perder precisin en el clculo de (X'X)-1 por la existencia de
variables con varianzas excesivamente grandes, en cuyo caso el cambio de escala
aconsejable sera el contrario, por ejemplo, podra dar lugar a problemas de precisin
medir la edad en das.

Ejemplo 10
Realizar el estudio de colinealidad en los datos del ejemplo 5, usando los FIV, los
ndices de condicin y la matriz de proporcin de descomposicin de la varianza de los
estimadores.
Realizando los anlisis de regresin de cada una de las variables independientes con
todas las dems, se obtienen los siguientes coeficientes de determinacin, tolerancia y
factores de inflacin de la varianza

que indican problemas graves de colinealidad.


Obsrvese que el factor de inflacin mayor corresponde a la variable GRASAS,
resultado esperable debido a que se han creado tres variables ms (GRASA2, GRAXED
y GRAXEJ) a partir de ella.
Los autovalores de la matriz X'X y los ndices de condicin, as como la matriz de
proporcin de descomposicin de varianza son:

Hay un ndice de condicin alto (50,781) y asociado con el mismo hay cinco variables
(el trmino constante, GRASAS, GRASA2, EDAD y GRAXED) con proporcin de varianza
alta.
Nos indica, por tanto, que GRASAS es colineal con GRASA2, GRAXED (no nos
sorprende), EDAD y con la constante.
Al existir esta ltima colinealidad, el centrado de variables podra mejorar el problema,
se podra tambin renunciar a estudiar los trminos no lineales GRASA2 y GRAXED.
Empecemos por centrar las variables continuas.
GRASAC = GRASAS - 39,7
EDADC = EDAD - 36,25
GRASC2 = GRASAC x GRASAC
GRXEDC = GRASAC x EDADC
GRXEJC = GRASAC x EJERC
y, para ellas, el diagnstico de colinealidad queda:

y tanto los ndices de condicin como la proporcin de varianza, indican que el


centrado ha resuelto los problemas de colinealidad.
Referencias

Potrebbero piacerti anche