Introducción Al Análisis Multivariante

ANLISIS DE DATOS MULTIVARIANTES
Introduccin al Anlisis Multivariante
CAPTULO 1.- INTRODUCCIN AL ANLISIS MULTIVARIANTE 1.1.- Utilidad del anlisis estadstico multivariante. 1.2.- Objetivos y clasificacin de los diferentes mtodos. 1.3.- Individuos y variables. 1.4.- Matrices de datos. 1.5.- La matriz de covarianza y de correlaciones. 1.6.- Transformacin lineal de variables. 1.7.- Centro de gravedad e inercia de una nube de puntos. 1.8.Representaciones grficas y proyecciones. 1.9.- Multiregresin y multicorrelacin. 1.10.- Programas informticos de anlisis multivariante. 1.11.- Ejemplos. 1.12.Aplicaciones
1.1.- UTILIDAD DEL ANLISIS ESTADSTICO MULTIVARIANTE La utilidad del anlisis estadstico multivariante (Anlisis de Datos Multivariantes) en la investigacin biolgica se ha puesto de gran inters, pues los diversos objetivos de los diferentes campos biolgicos quedan bastantes cubiertos por las tcnicas multivariantes. Por este motivo la mejor manera de poner de manifiesto la necesidad de esta metodologa es precisamente mencionando problemas y casos concretos, ya sean extrados de revistas cientficas como de trabajos realizados por los estudiantes. En el campo de la biologa se pueden formular muchas preguntas sobre determinados fenmenos que se producen en un contexto de complejidad, pues en general dispondremos de muchos individuos sobre los que se miden muchos valores. Pero estas preguntas tienen en comn que su respuesta ha de basarse en el anlisis conjunto de muchas variables, es decir en el contexto del anlisis estadstico multivariante. El Anlisis Multivariante (Multivariate Analysis) ofrece un conjunto de mtodos apropiados para resolver problemas que se presentan en situaciones complejas, tal como hemos indicado anteriormente, pero no son mtodos exclusivos de las ciencias biolgicas, biomdicas o biomtricas, aunque su utilidad en estos mbitos es muy grande. Tiene gran incidencia en el campo de las Ciencias Sociales y del Comportamiento, as como en el campo Econmico, Comercial e Industrial. Se trata por tanto de una metodologa de uso general.
1.2.- OBJETIVOS Y CLASIFICACIN DE LOS DIFERENTES MTODOS El Anlisis Multivariante es la rama de la estadstica que estudia las relaciones entre conjuntos de variables dependientes y los individuos para los cuales se han medido dichas variables (Kendall). Sus mtodos analizan conjuntamente p variables, medidas sobre un conjunto de n individuos u objetos. Una primera diferenciacin entre los distintos mtodos se basa en los objetivos que persiguen. Genricamente, distinguimos cuatro posibles objetivos: a) Simplificacin estructural: se trata de describir la informacin original de forma sinttica o resumida. Se busca la simplicidad a base de conseguir una reduccin de la complejidad del problema. El mtodo consiste en condensar las p
Angel Igelmo Ganzo
variables originales en un nmero menor de nuevas variables creadas por el propio anlisis, que contienen sin embargo gran parte de la informacin original. A este tipo de objetivo, y de mtodo, se denomina reduccin de la dimensin ya que los datos originales se expresan en un espacio de dimensin p mientras que como resultado del anlisis podemos expresarles en otro espacio de menor dimensin. Las nuevas variables creadas por el anlisis se denominan ejes, factores, o componentes principales. Son variables sintticas, que estarn en funcin de las p variables originales. Generalmente, estos factores tienen una interpretacin o significado que el investigador debe descubrir.. El Anlisis de Componentes Principales (ACP), el Anlisis Factorial (AF), y el Anlisis de Correspondencias (AC) son mtodos de reduccin de la dimensin. b) b) Clasificacin o agrupacin: estos mtodos incluyen los de agrupamiento (Anlisis Cluster) y los de Segmentacin. La agrupacin de individuos consiste en formar grupos de individuos homogneos en cuanto a las p variables, y heterogneos respecto a los otros grupos. La agrupacin de variables busca la formacin de grupos de variables similares en cuanto a su comportamiento en un colectivo de objetos. c) Anlisis de interdependencia: se trata de buscar la interdependencia entre grupos de variables, sin que a priori se suponga relacin de causalidad entre ellas. El mtodo ms conocido es el Anlisis de Correspondencias, que es una generalizacin del Anlisis de Correspondencias Bivariante. d) Anlisis de dependencia: explica las relaciones entre grupos de variables, donde se supone que unas pueden ser causas de otras. El Anlisis de Regresin pertenece a este grupo de mtodos. Un tipo interesante de anlisis de dependencia consiste en buscar un criterio que permita separar o discriminar entre objetos pertenecientes a priora a grupos diferentes. Dicho criterio es una funcin de las variables originales. En ltimo trmino, se trata de usar los resultados en el futuro para predecir a qu grupo pertenecen nuevos objetos que no formaban parte de la informacin original y para los cuales se han medido las p variables. El Anlisis Discriminante y la Regresin Logstica son mtodos que persiguen este objetivo. 1.3.- INDIVIDUOS Y VARIABLES Quines son los individuos y cmo se miden las variables? Debemos entender la palabra individuos en sentido amplio. Los n objetos o individuos pueden ser personas o familias (por ejemplo, si trabajamos con datos recogidos a travs de una encuesta de salud realizada a n personas). Sin embargo, el concepto de individuo u objeto es ms amplio. Pueden ser zonas geogrficas (comarcas, regiones, pases); objetos (marcas comerciales en un estudio de marketing farmacutico, programas electorales enfermedades,...) organizaciones (hospitales, centros de salud,...), plantas, animales, etc. Por otra parte, estos n objetos o individuos cuyos datos analizamos pueden constituir todo el colectivo o poblacin de inters, o bien pueden ser una muestra representativa de dicha poblacin. Si se trata de una muestra aleatoria, el anlisis multivariante permite realizar inferencia, es decir, hacer afirmaciones sobre las caractersticas del todo (poblacin) tras analizar la parte (muestra). Aunque nosotros nos limitaremos fundamentalmente al caso descriptivo,
Angel Igelmo Ganzo
ya que la inferencia implicara unos desarrollos matemticos previos que no entran dentro del alcance de este texto. Generalmente, los datos son estticos, en el sentido de que son mediciones realizadas en un momento o periodo dado de tiempo. Sin embargo, el Anlisis Multivariante se puede aplicar tambin para analizar la evolucin temporal del fenmeno en estudio. En este caso, los n individuos son n momentos de tiempo. A veces, se emplean mtodos multivariantes para comparar una determinada situacin en dos momentos de tiempo. Hasta ahora hemos llamado genricamente variables a los datos que tenemos sobre nuestros n individuos, expresados numricamente. Sin embargo, la informacin intrnseca de esos datos depende de su escala de medida. Las p variables pueden venir medidas a escala nominal, ordinal, intervalo o ratio. Las dos primeras se emplean para datos de tipo cualitativo, mientras que las dos ltimas son adecuadas para datos cuantitativos. Esta clasificacin ya es conocida pero se insiste en ella, pues tener una buena clasificacin de variables facilita la comprensin de los problemas. La escala nominal expresa caracteres cualitativos no ordenados. Todos los datos de presencia/ausencia de una caracterstica son nominales. Los nmeros con que codificamos las diferentes modalidades son arbitrarios, utilizndose nicamente como etiquetas o nombres (de ah que se hable de escala nominal), y no tiene sentido efectuar ninguna operacin algebraica con ellos. La escala ordinal expresa tambin caracteres cualitativos, pero las modalidades presentan un orden natural. Los nmeros con que codificamos esas modalidades son arbitrarios, pero respetan ese orden, de forma que podemos hacer comparaciones de tipo mayor que, igual a, o menor que. La escala intervalo expresa datos cuantitativos que se pueden sumar y restar pero no multiplicar ni dividir, ya que su origen o nivel cero es arbitrario. La temperatura es un buen ejemplo de variable medida a nivel intervalo. Como la definicin de cero grados de temperatura es arbitraria, si hoy estamos a 20 grados centgrados y ayer estbamos a 10 grados, podemos afirmar que la temperatura de hoy es superior a la de ayer en 10 grados, pero no que hoy estemos al doble de temperatura. La prueba es que en la escala Fahrenheit hay 18 grados de diferencia entre ayer y hoy, y la relacin es de 1,36 a 1. La escala ratio traduce medidas cuantitativas que poseen un punto cero u origen no arbitrario. Permiten hacer todo tipo de operaciones algebraicas, incluyendo productos y cocientes La eleccin del mtodo multivariante a aplicar y la definicin de distancia para medir el grado de similitud (o disimilitud) entre objetos y entre variables depende fuertemente de la escala de medida. Unos mtodos son ms exigentes que otros, en el sentido de que, por ejemplo, slo tienen validez si se aplican a datos cuantitativos. Por lo tanto, la eleccin del mtodo de anlisis ms adecuado no debe basarse solamente en los objetivos del estudio, sino tambin en el tipo de informacin de que se dispone.
Angel Igelmo Ganzo
1.4.- MATRICES DE DATOS Las tcnicas estadsticas utilizan datos de conjuntos de varias variables medidas en mltiples individuos y estos datos se escriben en forma de tabla o matriz, siendo procesados por medio de programas estadsticos de ordenador leyendo dicha matriz y operando con ella. Sera impensable el desarrollo del Anlisis Multivariante sin la ayuda de la Informtica, pues dichos mtodos procesan, en general, gran cantidad de datos. Los mtodos multivariantes no slo se diferencian segn los objetivos que persiguen, sino tambin segn los datos que pueden procesar, es decir, segn el tipo de matriz de datos de entrada. Generalmente nos encontramos con los siguientes tipos de matrices: 1) Matriz n x p de individuos por variables, cuyas filas (individuos) pertenecen a un solo grupo. Cada fila de la tabla representa a un individuo, proporcionando sus datos, y cada columna corresponde a una variable. El elemento xij de esta tabla, que ocupa la fila i y la columna j, es el valor de la variable j para el individuo i. 2) Matriz n x p de individuos por variables., cuyos individuos pertenecen a dos o ms grupos definidos por el valor o atributo de una variable cualitativa. Esta tabla es similar a la anterior, pero una de la p variables define grupos diferenciados de individuos. Por ejemplo cuando consideramos mediciones sobre un grupo humano y deseamos distinguir por el sexo. 3) Matriz n x n de distancias entre individuos. Su elemento xij representa el grado de diferenciacin o de parecido, segn el caso, entre el individuo i y el individuo j. Se trata de una matriz cuadrada y simtrica, ya que la distancia entre i y j es la misma que entre j e i. La matriz de distancias contiene ceros en su diagonal principal (xii : distancia entre el individuo i y l mismo). Cuando trabajamos con una matriz de similaridades, en la diagonal principal escribimos unos para representar el ndice de mxima similaridad. A veces el investigador escribe una tabla de individuos por variables y define una distancia entre individuos que tenga en cuenta todas sus variables, de forma que el programa como paso previo del anlisis calcula la matriz de distancias a partir de la tabla dada. 4) Tabla de frecuencias o de contingencia. La tabla de frecuencias simple contiene las frecuencias absolutas conjuntas de cada una de las modalidades o categoras de las dos variables categricas o cualitativas. Cmo se crea la matriz de datos? Una vez que el investigador ha conseguido definir claramente el problema, establecer objetivos y concretar qu variables puede ser relevantes y cmo seleccionar los casos o individuos que se analizarn, el primer paso del trabajo consiste en recoger la informacin. Esta puede obtenerse de fuentes existentes, o bien necesitar un experimento diseado especficamente para el estudio. En cualquier caso, en el momento de empezar la recogida de informacin se deben haber concretado ya los objetivos del trabajo y los mtodos estadsticos a utilizar, si bien muchas veces los resultados de la aplicacin
Angel Igelmo Ganzo
de un mtodo sugieren al investigador ideas sobre la aplicacin de otros complementarios que aporten ms luz al tema. En la mayor parte de los trabajos aplicados, la tabla de datos ser del tipo individuos por variables. Cada fila contiene los datos de un individuo, y cada columna los de una variable. Si el mtodo requiere otro tipo de matriz de datos, normalmente el propio programa informtica la calcula a partir de la de individuos por variables, como paso previo del anlisis. Las variables nominales y ordinales han de codificarse previamente. Por ejemplo, escribir un 1 para el caso de presencia, y un 0 en caso contrario, ausencia. Son estos nmeros o cdigos los que se introducen en la tabla de datos. Escribir la tabla de datos en el ordenador es tarea fcil. Puede emplearse cualquier editor de textos con el que el usuario est familiarizado, aunque es recomendable utilizar una hoja de clculo. Los datos se graban en fichero que el programa estadstico leer y procesar. En general para una tabla de datos de variables numricas tendremos: X 1 2 . . . i . . . n X1 x11 x21 . . . xi1 . . . xn1 X2 x12 x22 . . . xi2 ... ... ... ... ... ... ... Xj . . . Xp x1j . . . x1p x2j . . . x2p . ... . . ... . . ... . xij . . . xip
xn2 . . . xni . . . xnp
pero esto es simplemente una matriz, en sentido matemtico, sobre el cuerpo de los nmeros reales suponiendo que las variables son de tipo continuo, medidas en la escala ratio. Matricialmente se representa por una matriz de n filas (n individuos) y p columnas (p variables). x11 x 21 X = . x n1 x12 x 22 . xn 2 x1 p x2 p . x np
Tambin es til referirse a la variable estadstica p-dimensional: X = (X 1 , X 2 , , X p ) donde Xi es el observable i-simo, y el conjunto de valores que toma cada observable estn dados en la correspondiente columna de la tabla. Por ejemplo:
Angel Igelmo Ganzo
X i = {x1i , x 2 i , , x ni }
i = 1,2,,p
Es evidente que tal como estamos planteando el problema nuestros conjuntos de datos sern discretos y finitos aunque puedan provenir de variables continuas. Una buena prctica consiste en analizar cada variable por separado, mediante la metodologa del Anlisis Exploratorio de Datos (EDA), haciendo el correspondiente anlisis unidimensional, calculando los estadsticos que se crean convenientes para un mejor conocimiento de cada variable, as como proceder al clculo de covarianzas entre pares de variables, haciendo incluso anlisis de correlacin entre ellas y representaciones grficas. Todo ello con el objetivo de tener un mayor conocimiento estadstico de cada variable por separado 1.5.- LA MATRIZ DE COVARIANZAS Y DE CORRELACIONES A partir de la matriz de datos, X, se calcula la matriz de varianzascovarianzas, V, as como la matriz de correlaciones. La media para cada variable se obtiene promediando por columnas la matriz de datos: Xi = 1 n xki n k =1
de donde definimos la matriz fila, (1xp), de medias: X = (X1, X 2 , , X p ) e introduciendo la matriz columna (nx1): 1 1 = 1 se puede escribir la relacin matricial: 1 X = 1t X n donde el suprandice t significa traspuesta Ahora se puede centrar la matriz de datos, restando a cada columna su valor medio: 1 1 X c = X 1X = X (1.1t . X ) = ( I .1.1t ) X = H . X n n siendo H la matriz centradora de datos, I la matriz unidad nxn y Xc la matriz de datos centrada. La matriz centradora es:
Angel Igelmo Ganzo
1 1 1 1 n n n 1 1 1 1 H = n n n 1 1 1 1 n n n esta matriz es evidentemente simtrica, y fcilmente se comprueba que es idempotente (H2 = H). Para calcular varianzas y covarianzas hay que efectuar sumas de productos cruzados, de acuerdo con las frmulas: si2 = var( X i ) = 1 n 1 n 2 2 ( ) x X x ki X i2 = ki i n k =1 n k =1
sij = cov( X i , X j ) =
1 n 1 n ( )( ) x X x X x ki x kj X i X j = ki i kj j n n k =1 k =1
donde los primeros sumandos se pueden escribir en forma matricial: Q= 1 t X X n
mientras que los sustraendos se escriben: X t X ; por tanto la matriz de varianzas/covarianzas es: 1 V =Q XtX = XtX XtX n Si empleamos la matriz de datos centrada, entonces: V= 1 t 1 1 1 X c X c = ( HX ) t ( HX ) = X t ( H t H ) X = X t HX n n n n
evidentemente la matriz V es simtrica ya que Vt = V: s11 s 21 V = s 1 p con sii = s i2 y s ij = s ji , i, j = 1, , p Tenemos por tanto la siguiente frmula de clculo: s12 s 22 s p2 s1 p s2 p s pp
Angel Igelmo Ganzo
V=
1 t X HX n
Si se necesitan las cuasivarianzas y cuasicovarianzas basta aplicar: n ~ V = V n 1 Finalmente se calcula la matriz de correlaciones, R, teniendo en cuenta: ~ sij rij = = ~~ s i s j si s j s ij y haciendo: s1 0 0 0 s2 0 Ds = diag ( s1 , s 2 , , s p ) = 0 0 0 s p se puede escribir: r11 r12 r21 r22 = r 1 r 2 p p r1 p r2 p rpp
R = Ds1VDs1
siendo: rii = 1 y rij = r ji , se trata pues de una matriz simtrica con los elementos de la diagonal iguales a 1. A partir de estas matrices se definen los escalares: det V que representa la varianza generalizada traza V que representa la variacin o dispersin total det R que es una medida de la interdependencia de las variables.
1.6.- TRANSFORMACIN LINEAL DE VARIABLES Una situacin habitual dentro del anlisis multivariante es la de la transformacin lineal de variables para simplificar la representacin de la nube de puntos. Se trata pues de la transformacin de las variables originales: X = ( X 1 , X 2 ,, X p ) en otras:
Angel Igelmo Ganzo
Y = (Y1 , Y2 , , Y p ) mediante transformaciones lineales: Y j = t1 j X 1 + t 2 j X 2 + + t pj X p , j = 1,2, , p
o sea que cada individuo, el k-simo por ejemplo, se transformara as: y kj = t1 j x k 1 + t 2 j x k 2 + + t pj x kp , y en forma matricial se obtendra: Y = XT siendo X la matriz de datos originales e Y la matriz de datos transformados, y donde las columnas de T son los coeficientes de la transformacin. Fcilmente se comprueba que la matriz fila de medias y la matriz de varianzas se transforman de la siguiente manera: Y = XT VY = T tVT Un caso importante es el de la tipificacin de variables mediante la transformacin: Xj Xj , j = 1, , p Zj = sj o bien: z kj = x kj X j sj , j = 1, , p y k = 1, , n j = 1,2, , p
ya sabemos que estas variables cumplen: Z j = 0 , var(Z j ) = 1 , En forma matricial sera: Z = X c .Ds1 siendo Xc la matriz de datos centrada. Ahora la matriz de correlaciones, R, viene dada por: R= 1 t Z Z n j = 1, , p
Angel Igelmo Ganzo
1.7.- CENTRO DE GRAVEDAD E INERCIA DE LA NUBE DE PUNTOS Las p mediciones asociadas a cada individuo las consideramos como las coordenadas del individuo en el espacio Rp. Las coordenadas del individuo i-simo sern: Ai = ( xi1 , xi 2 , , xip ) , i = 1,2, , n obtenindose en el espacio Rp la imagen de una nube de n puntos. Las coordenadas del centro de gravedad de la nube de puntos viene dado por: gj = 1 n xkj = X j , n k =1 j=1,...,p
por tanto el cdg, G, es el centro de las medias: G = X . Si se emplea la matriz de datos centrada el cdg es el (0,,0). En Rp , considerado como espacio vectorial, los vectores son de la forma: OAi = ( xi1 , xi 2 , , xip ) definindose el mdulo del vector:
2 2 OA i = xi2 1 + xi 2 + + x ip
el producto escalar de dos vectores: / / OAi , OA j = xi1 x j1 + xi 2 x j 2 + + xip x jp y el ngulo que forman : / / OAi , OA j cos = / / OAi . OA j
La distancia euclidea, entre dos individuos, deducida de la norma anterior, es: d ( Ai , A j ) = ( xi1 x j1 ) 2 + + ( xip x jp ) 2 que como sabemos esta distancia (euclidea) verifica las propiedades: i) ii) iii) d(Ai,Aj)=0 si y solo si Ai=Aj. d(Ai,Aj)=d(Aj,Ai), (propiedad simtrica) d(Ai,Aj)d(Ai,Ak)+d(Ak,Aj), (propiedad triangular)
Angel Igelmo Ganzo
10
Ahora estamos en condiciones de definir la inercia de una nube de puntos. La inercia es el promedio de distancias al cuadrado de cada individuo respecto del cdg: I= 1 n 2 d ( Ai , X ) n i =1
Una nube de puntos muy dispersa tendr una inercia grande, mientras que una nube de puntos muy concentrada, alrededor de su cdg, tendr una inercia pequea. Teniendo en cuenta la definicin de distancia euclidea, podemos escribir: I=
p p 1 n p 1 n 2 2 ( ) ( ) x X x X s k2 = traza V = = ik k ik k n i =1 k =1 n k =1 i =1 k =1
es decir que la inercia de la nube de puntos es la traza de V. Si se emplea la matriz de datos tipificados, resulta: I Z = traza R = p
1.8.- REPRESENTACIONES GRFICAS Y PROYECCIONES Otro aspecto que debemos considerar es la proyeccin de los puntos de la nube sobre una direccin definida por un vector unitario u: u1 u = , u t = (u1 , , u p ) u p Si consideramos el individuo Ai, representado por el vector: / OAi = ( xi1 , xi 2 , , xip ) la proyeccin de dicho vector sobre la direccin definida por el vector unitario vale: u1 / / / proy u OAi = OA, u = OAi cos = xi1u1 + xi 2 u 2 + + xip u p = ( xi1 , , xip ) u p por tanto la proyeccin de cada punto sobre la direccin u se puede escribir matricialmente: Xu Tambin interesa considerar la suma de cuadrados de las proyecciones, valor que intervendr posteriormente, ponderados con 1/n:
Angel Igelmo Ganzo
11
1 1 ( Xu ) t ( Xu ) = u t ( X t X )u n n En particular si partimos de la matriz de datos centrada, sera: 1 u t ( X ct X c )u = u tVu n y si partimos de la matriz de datos tipificados: u t Ru en cualquiera de los casos la suma de cuadrados de las proyecciones de los puntos sobre la direccin u se expresa como una forma cuadrtica de las componentes del vector u. 1.9.- MULTIREGRESIN Y MULTICORRELACIN Partimos de una tabla de datos de individuos por variables, suponiendo que todas las variables X1, X2,, Xp son cuantitativas, y n es el nmero de individuos. Supongamos que deseamos pronosticar el valor de la variable X1 a partir del valor de las restantes: X2,,Xp mediante una funcin g(X2,,Xp) determinada de alguna manera. Si representamos los valores pronosticados por X1 ser X1=g(X2,,Xp). Un caso importante es cuando el funcional g es de la forma: X1 = b11 + b12X2 + + b1pXp es decir se trata de un hiperplano de Rp, y es un caso de regresin lineal. La variable terica o variable pronosticada o variable de regresin es la X1, mientras que X2,,Xp son las variables predictivas o regresores. Si las mediciones de las variables sobre los individuos viene dada por la tabla: X1 x11 x21 . . . xn1 X2 . . . Xk . . . Xp x12 . . . x1k . . . x1p x22 . . . x2k . . . x2p . ... . ... . . ... . ... . . ... . ... . xn2 . . . . . . . xnp X1 x11 x21 . . . xn1 e1 x11 - x11 x21- x21 . . . xn1 - xn1
1 2 . . . n
donde la columna de los valores X1 son los valores pronosticados mediante el funcional anterior y la columna de los e1 son los errores como diferencia entre el valor terico pronosticado, X1, y el valor real, X1. Los valores pronosticados sobre cada individuo sern: x11 = b11 + b12x12 + . . . + b1px1p x21 = b11 + b12x22 + . . . + b1px1p . xn1 = b11 + b12xn2 + . . . + b1px1p
Angel Igelmo Ganzo 12
donde los coeficientes del hiperplano se determinan con la condicin de que la suma cuadrtica de los errores sea mnima:
2 2 SCE = = ei2 1 = ( x i1 xi1 ) = ( xi1 b11 b12 x i 2 b1 p x ip ) i =1 i =1 i =1 n n n
derivando respecto de b11 se obtiene despus de agrupar: X 1 = b11 + b12 X 2 + + b1 p X p lo cual pone de manifiesto que el centroide o cdg, ( X 1 , , X p ) , se halla en el hiperplano de regresin. Despejando b11 de la anterior igualdad y sustituyendo en SCE, se obtiene: = ( xi1 X 1 ) b12 ( xi 2 X 2 ) b1 p ( xip X p )
i =1 n
que es una forma cmoda de expresar la suma cuadrtica de los errores. Derivando respecto de cada parmetro desconocido: b12, , b1p, e igualando a cero, se obtiene el sistema: s12 = b12 s 22 + + b1 p s 2 p s13 = b12 s 23 + + b1 p s3 p s1 p = b12 s 2 p + + b1 p s pp que puesto en forma matricial: s12 s 22 s13 s 23 = s1 p s 2 p Si consideramos la matriz de varianzas: s11 s 21 V = s 1 p s12 s 22 s p2 s1 p s2 p , sii = s i2 , sij = s ji , i, j = 1,2, , p s pp s 23 s 33 s3 p s 2 p b12 s 3 p b13 s pp b1 p
la matriz del sistema anterior es el adjunto V11 de V, y el trmino independiente es la primera columna prescindiendo del primer elemento.
Angel Igelmo Ganzo
13
Si det V11 0, entonces el sistema es compatible y determinado, suponiendo que algn si1 0, i 1, porque entonces el sistema no es homogneo. Resolviendo el sistema por Cramer se obtiene: b1k = L1k , k = 2, , p L11
siendo L11= (-1)1+1.det V11, L1k=(-1)1+k.det V1k, se trata pues de los cofactores. Estos coeficientes, b1k, se denominan coeficientes de regresin parcial de X1 respecto de Xk e indican o representan lo que cambia la variable de regresin, X1 , por unidad de cambio de la variable predictiva Xk. La ecuacin del hiperplano se escribe ahora: X 1 = X 1 o L11 ( X 1 X 1 ) + L12 ( X 2 X 2 ) + + L1 p ( X p X p ) = 0 e introduciendo las variables centradas: 1 = X 1 X 1 , X se obtiene: +L X ++ L X =0 L11 X 1 12 2 1p p Para que existe plano de regresin debe ser L110, suponiendo que el sistema es no homogneo. El sistema homogneo corresponde al caso: s12=s13==s1p=0, lo que significa que la variable X1 est incorrelacionada con las restantes. En este supuesto, si L110, entonces no hay solucin. Si L11=0, entonces habra al menos una infinidad de soluciones para los coeficientes del hiperplano, no habiendo por tanto solucin nica. Por tanto podemos concluir que cuando la variable a pronosticar est incorrelacionada con las restantes, aquella no puede explicarse o pronosticarse, a travs de un hiperplano de regresin, a partir de las restantes variables. De forma general, si tomamos como variable de regresin una cualquiera: Xk, correspondiente a los valores reales: Xk = {x1k, x2k, , xnk} (columna k-sima en la tabla), y siendo las variables predictivas: X1,,Xk-1,Xk+1,,Xp, la ecuacin del hiperplano de regresin ser: X k ) + + Lkp ( X p X p ) = 0 Lk 1 ( X 1 X 1 ) + + Lkk ( X k o con variables centradas: = X X , k = 2, , p X k k k 1 L12 ( X 2 X 2 ) + + L1 p ( X p X p ) L11
Angel Igelmo Ganzo
14
++ L X ++ L X =0 Lk 1 X 1 kk k kp p donde los coeficientes es la fila k-sima de la matriz de los cofactores de V: L11 L21 L 1 p L12 L22 Lp2 L1 p L2 p L pp
evidentemente existe hiperplano de regresin si Lkk 0 . Los p hiperplanos de regresin sern: 1 + L12 X 2 + + L1 X =0 L11 X p p 1 + L22 X 2 =0 + + L2 p X L21 X p 1 + L 2 X 2 ++ L X =0 L p1 X p pp p Analizamos a continuacin las covarianzas y varianzas de cada una de las variables que intervienen, considerando la regresin de X1/X2,,Xp. La variable residual e1 esta incorrelacionada con las variables predictivas, X2,,Xp, y con la variable de regresin X1, aunque no tiene porqu estarlo con la variable real u observada X1. Previamente veamos que la media de los residuales es cero, ya que fcilmente se deduce que X 1 = X 1 , y por tanto e1 = 0 En efecto, para k > 1 se tiene:
n 1 n ) = 1x ik ei1 = x ik ( x i1 x i1 ) = cov(e1 , X k ) = cov(e1 , X k n i =1 n i =1
L1 L1 p L L 1 n ik i1 + 12 x i2 + + p x ip x x s pk = = s1k + 12 s 2 k + + n i =1 L11 L11 L11 L11 = 1 (s1k L11 + s2 k L12 + + s pk L1 p ) = 1 .0 = 0 L11 L11
as pues la variable error y las variables predictivas estn incorrelacionadas. De:
e
i =1
i1 ik
= 0, k = 2,3, , p , se deduce: x
Angel Igelmo Ganzo
15
ik = 0 b1k ei1 x
i =1
ik = 0 b1k ei1 x
k =2 n i =1 p
e b
i1 i =1 k =2
1k
ik = 0 x
e
i =1
i1 i1
= 0 x
por tanto: 1 ) = cov(e1 , X 1 ) = 0 cov(e1 , X es decir que tambin la variable error y la variable de regresin estn incorrelacionadas. Por tanto, para la ltima propiedad se tiene: n L1 L 1 n )= 1 x i1 i1 + 12 x i2 + + p x ip cov(e1 , X 1 ) = cov(e1 , X ( ) x x x x = 1 i1 i1 i1 = n i =1 n i =1 L11 L11 = s11 + L1 p L12 1 (L11 s11 + L12 s12 + + L1 p s1 p ) = 1 L 0 s12 + + s1 p = L11 L11 L11 L11
es decir que los errores y los valores observados de la variable a pronosticar presentan correlacin. La covarianza de la variable de regresin y la variable real vale:
n 1 n ,X ) = 1 x i1 (b12 x i 2 + + b1 p x ip ) = cov( X 1 , X 1 ) = cov( X x x = i1 i1 n 1 1 n i =1 i =1 = b12 s12 + + b1 p s1 p
cada sumando representa la contribucin de cada regresor a la covarianza entre la variable real y la pronosticada. Analicemos ahora la varianza de cada variable. Calculemos primero la varianza de la variable error, que llamamos varianza residual: 1 n 2 1 n 1 n L R i1 = s = ei1 = ei1 ( xi1 xi1 ) = ei1 x = s11 n i =1 n i =1 n i =1 L11 R11
2 e1
donde R y R11 tiene el mismo significado que L y L11 pero referidos a la matriz de correlaciones, ya que: L = s11 s pp R y L11 = s 22 s pp R11
Tener en cuenta que esta varianza residual es el error cuadrtico medio:
Angel Igelmo Ganzo
16
ECM = adems numricamente se cumple:
1 SCE n
s e21 = cov(e1 , X 1 ) Otra expresin til para la varianza residual se obtiene: s e21 = 1 n 1 n 1 n i1 = x i1 ( x i1 x i1 ) = s11 x i1 x i1 ei1 x n i =1 n i =1 n i =1
obsrvese que el sustraendo es la covarianza de la variable de regresin y la variable real, resultando: s e21 = s11 (b12 s12 + + b1 p s1 p ) y tambin: ) s11 s e21 = cov( X 1 , X 1 Como que la variable residual y la variable regresin estn incorrelacionadas, y X 1 = X 1 + e1 se tiene:
2 2 2 sX = sX + s e1 1 1
resultando:
2 2 2 sX = s X 1 s e1 = s11 s11 1
R11 R = s11 1 11 R R
que tambin se puede escribir:

2 sX = b12 s12 + + b1 p s1 p 1
lo que nos indica la aportacin de cada regresor a la varianza de la regresin. Ahora se pueden definir algunos coeficientes de correlacin. En primer lugar definimos el coeficiente de determinacin como el cociente entre la varianza de la variable de regresin y la correspondiente variable observada: D2 =
2 sX 1
2 X1
= 1
s e21 s11
= 1
R R11
Angel Igelmo Ganzo
17
de donde resultan las relaciones:

2 2 sX = D s11 1
y s e21 = s11 (1 D 2 )
El coeficiente de determinacin es el tanto por uno de la varianza real de la variable observada explicada por la variable de regresin. Su raz cuadrada, D, se denomina coeficiente de correlacin mltiple. El coeficiente D es el coeficiente de correlacin lineal de Pearson de X1 y X1, como fcilmente se comprueba aplicando la definicin: D = corr ( X 1 , X 1 ) por tanto tendremos las mismas propiedades que cualquier coeficiente de correlacin lineal de Pearson. Representa la correlacin entre la variable real y las dems o regresores consideradas en conjunto a travs del correspondiente hiperplano de regresin. 1.10.- PROGRAMAS INFORMTICOS DE ANLISIS MULTIVARIANTE Actualmente, existen programas de ordenador disponibles para aplicar los distintos mtodos de Anlisis Multivariante, cuyo manejo es sencillo, y que permiten el tratamiento de volmenes de informacin relativamente grandes, incluso con ordenadores personales. Consideramos que estos temas deben desarrollarse pegados al ordenador de manera que el estudiante adquiera suficiente prctica en el manejo de paquetes informticos, ya que la materia sera realmente inabordable (se quedara a nivel terico - esttico) sin una herramienta capaz de procesar gran cantidad de informacin. Desde el punto de vista del alumno, futuro usuario profesional, lo ms importante y difcil consiste en saber recoger los datos y elegir el mtodo apropiado para el problema en cuestin. Sin embargo, el usuario tambin debe tomar algunas decisiones, ya que los programas facilitan la posibilidad de eleccin entre opciones alternativas. Por ejemplo, debe decidir qu mtodo de estimacin emplea, o qu hace cuando le faltan algunos datos. Una vez obtenidos los resultados, el alumno debe ser capaz de interpretarlos correctamente. Es importante conocer los fundamentos estadsticos y matemticos de las tcnicas empleadas para tomar correctamente aquellas decisiones, e interpretar los resultados. Un error muy frecuente y grave es aplicar los programas de ordenador de forma ciega, sin conocer, por ejemplo, la precisin con que trabajan, o la representatividad de los resultados que obtienen. Sin embargo, no es preciso profundizar en el fundamento matemtico de las tcnicas como un fin en s mismo para poder aplicarlas correctamente. A lo largo del texto proponemos algunos ejemplos y casos prcticos que desarrollamos empleando los programas SPSS y MINITAB para PC, indistintamente
Angel Igelmo Ganzo
18
1.11.- EJEMPLOS Ejemplo 1.1.- Con los datos de la tabla: X1 1 2 2 4 5 4 X2 2 3 1 3 5 7 X3 4 1 3 5 2 3
Determinar la matriz de covarianzas y correlaciones. Determinar los planos de regresin en cada caso y calcular los coeficientes de determinacin.
Ejemplo 1.2.- Sean X1 y X2 dos variables estadsticas correlacionadas. Escribir la matriz de covarianzas y de correlaciones. Plantear las rectas de regresin a la luz de lo explicado en 1.9.
Ejemplo 1.3.- Como continuacin del ejemplo anterior considerar una tercera variable X3 incorrelacionada con las dos anteriores. Escribir las matrices de varianzas y de correlaciones. Analizar los planos de regresin.
1.11.- APLICACIONES CASO 1.- Anlisis de absorcin de plomo en hojas de plantas urbanas La contaminacin por plomo en las ciudades es debido a combustiones de coches, calefacciones, etc. Una vez depositado el plomo en el suelo y en particular en plantas, stas actan como un sensor biolgico de contaminacin urbana debida al plomo. Se recogieron 18 muestras de plantas de adelfa de zonas ajardinadas de una ciudad y de midieron las siguientes variables: Trfico: nmero de vehculos da en la zona Secado: peso de hojas secas sobre 100 gr de hoja fresca Cenizas: peso de ceniza sobre 100 gr de hoja fresca Pbceniza: mgr de plomo por gramo de ceniza Pbfresca: mgr de plomo por gramo de hoja fresca La matriz de datos fue la siguiente:
Angel Igelmo Ganzo
19
Muestra Trfico 1 51406 2 31179 3 67080 4 25320 5 48542 6 70987 7 62614 8 64312 9 21200 10 51684 11 44021 12 33861 13 33861 14 5000 15 27643 16 20823 17 61176 18 50814
Secado 38,9 36,3 34,2 32,42 29,5 30,9 35,3 30 33,2 37,5 33 37,5 42,4 33,6 41,3 36 38,9 33,7
Ceniza 18,8 17,6 16,6 18,3 14,7 16 16,8 15,7 12,7 12,2 23,4 15,5 11,6 20,5 12,8 15,5 11,7 12,2
Pb-Ceniza Pb-fresco 0,82 0,06 0,12 0,007 0,17 0,0097 0,19 0,0113 0,49 0,0212 0,32 0,0158 0,28 0,0166 0,5 0,0235 0,24 0,0101 0,24 0,0109 0,51 0,0394 0,24 0,014 0,05 0,0025 0,29 0,0199 0,07 0,0037 0,35 0,0195 0,47 0,0214 0,1 0,0041
CASO 2.- Evolucin de la composicin elemental del ser humano en diferentes etapas de su ciclo vital. Se trata de analizar los cambios que se producen en la proporcin de agua y en la composicin elemental del ser humano durante diferentes etapas del ciclo vital: feto, prematuro, neonato, adulto y anciano. Las variables utilizadas son: 1. peso corporal en Kg 2. grasa en gr por Kg corporal 3. agua en gr por Kg corporal 4. agua en gr por Kg de masa corporal magra 5. N en gr/Kg de masa corporal magra 6. Na en meq/Kg 7. K 8. Cl 9. Ca en gr/Kg 10. Mg 11. P 12. Fe en mgr/Kg 13. Ca 14. Zn Los datos han sido obtenidos del investigador Widdowson (1955), resultando la siguiente matriz de datos:
Angel Igelmo Ganzo
20
Peso Grasa Agua Water Feto 0,3 5 880 880 Prematuro 1,5 35 830 850 Neonato 3,5 160 690 820 Adulto 70 160 600 720 Anciano 65 150 500 670
N 15 19 23 34 34
Na 100 100 82 80 76
K 43 50 53 69 75
Cl Ca 76 4,2 0 7 55 9,6 44 22,4 37 15
Mg 0,2 0,2 0,3 0,5 0,4
P 3 3,8 5,6 12 8
Fe 58 74 94 74 68
Zn Cu 30 3 30 4 20 5 20 2 20 2
CASO 3.- Anlisis del tamao de una muestra de individuos de una poblacin de Allium sativum. Se analiza las relaciones existentes entre las dimensiones de un tipo de arbusto (Allium sativum), utilizando las variables: altura total del arbusto dimetro mximo del tallo longitud mxima de la hoja anchura mxima de la hoja nmero de hojas por planta la observacin ha recado sobre una muestra de 16 individuos, obtenindose la siguiente matriz de datos:
Numero Arbusto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Altura 46 33 45 51 31 49 32 39 44 42 41 43 44 39 40 32 Dimetro Longitud Tronco Hoja 1,4 50 1,1 37 1,5 49 1,3 50 1 38 1,5 42 1,4 51 1,3 57 1,4 54 1,3 43 1,5 50 1,2 50 1,2 48 1,1 45 1,2 48 1 44 Ancho Hoja 1,5 0,8 1,6 1,8 0,7 1,8 1,4 1,8 2 1,5 2 1,7 1,5 1,6 1,8 1,2 Numero Hojas 7 6 8 7 5 8 7 7 7 7 7 7 7 6 5 5
Angel Igelmo Ganzo
21
CAPTULO 2.- ANLISIS DE COMPONENTES PRINCIPALES 2.1.- Introduccin. 2.2.- Planteamiento del problema. 2.3.- La inercia de las componentes principales. 2.4.- Clculo de las componentes principales. Propiedades. 2.5.- Criterios de reparto de la inercia total y reduccin de la dimensin.- 2.6.Rotacin de las componentes: rotacin varimax y quartimax. 2.7.- Programas de ordenador. 2.8.- Ejemplos. 2.9.- Aplicaciones.
2.1.- INTRODUCCIN Con objeto de analizar la p-variables (correlacionadas) de la matriz de datos, se realiza una transformacin de las variables originales en un nuevo conjunto de variables incorrelacionadas, mediante una rotacin ortogonal en Rp, que llamamos componentes o factores principales. Estas quedarn expresadas como combinacin lineal de las originales, y se expresan en orden decreciente de importancia en cuanto a explicar la incidencia de cada componente principal en la descripcin del problema. El Anlisis de Componentes Principales, ACP, (PCA en la literatura angloamericana), tiene su origen en los trabajos de Karl Pearson a principio de siglo, as como por Harold Hotelling, hacia 1930. La tcnica del ACP es adecuada cuando no se dispone de variables dependientes que permitan explicar el problema mediante una regresin mltiple, es decir que estamos ante una situacin en que todas las variables, en principio, tienen la misma importancia, o bien que dicha importancia est enmascarada y es necesario ponerla de manifiesto. El objetivo principal del anlisis es averiguar cuantas variables, m, de entre las p, (m < p), explican mejor la variabilidad de los datos representados por las variables originales. Si ello es posible, podemos afirmar que la dimensionalidad del problema es menor que p. Por ejemplo si alguna de las variables originales estn fuertemente correlacionadas con otras se pueden agrupar en una nica variable (componente principal) expresada como combinacin lineal de aquellas, y de esta manera se reduce la dimensin del problema. As pues, el ACP transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables incorrelacionadas, donde la importancia de estas ltimas vienen determinadas por la parte de varianza asociadas a ellas. La tcnica ACP no requiere el uso de modelos probabilsticos, siendo, para nuestro caso, una tcnica de tipo descriptivo. Es conveniente realizar un anlisis de componentes principales como estudio previo del anlisis factorial. El anlisis factorial (AF) lo estudiamos en el captulo siguiente.
Angel Igelmo Ganzo
22
2.2.- PLANTEAMIENTO DEL PROBLEMA Consideremos la nube de puntos en el espacio Rp de variables tipificadas. Se trata de buscar direcciones u tales que Pi Ai sea lo ms pequeo posible, Figura 2.1.
Figura 2.1 Como que OAi es constante cualquiera que sea la orientacin del eje, ser necesario que OPi sea lo ms grande posible, ya que OAi = OPi + Ai Pi . Para tener en cuenta todos los puntos se toma la suma de los cuadrados de todos los puntos, es decir se pretende buscar aquella direccin u que maximiza el valor
2 2 2
OP
i =1
. Una direccin que
cumple esta condicin se llama eje factorial o eje principal de inercia, y es tal que proyectando la nube de puntos sobre l, estos se hallan muy separados o muy discriminados. Pero segn vimos en el captulo 1, apartado 1.8, para una matriz de datos tipificados, la suma de cuadrados de las proyecciones vale: u t Ru , siendo u = 1 o u t u = 1
que es una forma cuadrtica respecto de las componentes de u = (u1,u2,,up). El mximo de esta funcin se determina por el mtodo de los multiplicadores de Lagrange: / (u ) = (u1 , u 2 ,, u p ) = u t Ru (u t u 1) =
2 2 2 = u12 + u 2 ++ u2 p + 2 r12 u1u 2 + 2r1 p u1u p + + 2 r p 1, p u p 1u p (u1 + + u p 1)
derivando respecto de u1, e igualando a cero, se obtiene: = 2u1 + 2r12 u 2 + + 2r1 p u p 2u1 = 0 u1 (1 )u1 + r12 u 2 + + r1 p u p = 0
Angel Igelmo Ganzo
23
realizando el mismo proceso respecto de u2,,up se obtiene el sistema de ecuaciones lineales: (1 )u1 + r12 u 2 + + r1 p u p = 0 r12 u1 + (1 )u 2 + + r1 p u p = 0 r1 p u1 + r2 p u 2 + + (1 )u p = 0 la condicin de compatibilidad del sistema es que el determinante del sistema sea nulo: 1 r12 r12 1 det r1 r2 p p o bien: r1 p r2 p =0 r pp
det(R-I)=0
siendo I la matriz identidad y R la matriz de correlaciones. Pero la ecuacin anterior es la ecuacin caracterstica de la matriz R, por tanto los valores de para los que existen direcciones principales son los valores propios de R, y dichas direcciones principales son las dadas por los correspondientes vectores propios. Si algn valor propio, i, es raz mltiple de la ecuacin caracterstica, entonces dim Nuc(A-i) > 1, habiendo arbitrariedad en la eleccin de la base de Nuc (A-iI), pero siempre pueden elegirse de manera que sean ortonormales. Estos factores explican evidentemente la misma inercia, dada por su valor propio. Si algn valor propio fuese cero, entonces el factor correspondiente no presenta variabilidad, no aporta inercia a la inercia total de la nube de puntos o no explica ninguna parte de la inercia total, pudiendo prescindirse de dicho factor. Hay que tener en cuenta que la matriz de correlaciones R es siempre diagonalizable por ser una matriz simtrica.
2.3.- LA INERCIA DE LAS COMPONENTES PRINCIPALES El problema consiste por tanto en diagonalizar la matriz de correlaciones R. Sean pues 1, 2,, p los valores propios. Como que la traza de R es invariante, se tiene: trazaR = Inercia = p = i
i =1 p
por tanto cada factor colabora a la inercia total en una cantidad igual a su valor propio. Cada valor propio es la inercia de cada factor, siendo, en porcentaje, la inercia explicada por el factor uk:
Angel Igelmo Ganzo
24
k 100 p mientras que la inercia explicada por los m (< p) primeros factores sera:
i =1
100
Evidentemente el factor de mayor valor propio ser el que explique mayor inercia, y as sucesivamente. Por ese motivo es conveniente obtener los valores propios ordenados de mayor a menor:
1 2 p
e incluso se puede dar una representacin grfica de su magnitud de forma individualizada, Figura 2.2, o de forma acumulada, Figura 2.3.
Figura 2.2
Angel Igelmo Ganzo
25
Figura 2.3
2.4.- CALCULO DE LOS FACTORES PRINCIPALES. PROPIEDADES Tal como venimos diciendo el problema consiste en diagonalizar la matriz R, a partir de lo cual obtendremos los vectores propios de R y sus correspondientes valores propios: Ru = u siendo u el vector propio asociado al valor propio . Sea T la matriz cuyas columnas son las componentes de los vectores propios en la base inicial o matriz del cambio de base, y supongamos que la hemos elegido ortogonal, es decir: T-1 = Tt, y sea la matriz diagonal de valores propios, entonces: = T t RT Si los vectores propios son: u1 = (t11 , t 21 , , t p1 ) u 2 = (t12 , t 22 , , t p 2 ) u p = (t1 p , t 2 p , , t pp ) entonces la matriz del cambio de base es:
Angel Igelmo Ganzo
26
t11 t 21 T = t 1 p
t12 t 22 t p2
t1 p t2 p t pp
En la base original, (e1,,ep), el individuo i-simo se expresa: OAi = ( z i1 , z i 2 , , z ip ) = z i1e1 + z i 2 e2 + + z ip e p mientras que en las nuevas componentes ser: OAi = ( y i1 , y i 2 , , y ip ) = y i1u1 + y i 2 u 2 + + y ip u p = = y i1 (t11 e1 + + t p1e p ) + + yip (t1 p e1 + + t pp e p ) = = ( y i1t11 + + y ip t1 p )e1 + + ( y i1t p1 + + y ip t pp )e p por tanto: z i1 = y i1t11 + y i 2 t12 + + y ip t1 p z i 2 = y i1t 21 + yi 2 t 22 + + y ip t 2 p z ip = y i1t p1 + y i 2 t p 2 + + y ip t pp que con la formulacin matricial, ser: z i1 y i1 zi 2 yi 2 T = z y ip ip o bien, trasponiendo:
(z
i1
z i 2 z ip ) = (y i1
y i 2 y ip )T t
teniendo en cuenta que T-1=Tt:
(y
i1
y i 2 y ip ) = (z i1
z i 2 z ip )T
aplicando finalmente la relacin anterior sobre cada individuo, i=1,2,,n, se puede escribir: Y = ZT
Angel Igelmo Ganzo
27
obtenindose por tanto las coordenadas de los individuos en los nuevos ejes factoriales a partir de la matriz de datos tipificados. Considerando las p variables: ( Z 1 , Z 2 , , Z p ) representativas de las columnas de la matriz de datos tipificados, y las p variables: (Y1 , Y2 , , Y p ) representativas de las componentes principales, se tiene: ( Z 1 , Z 2 , , Z p ) = (Y1 , Y2 , , Y p )T t o (Y1 , Y2 , , Y p ) = ( Z 1 , Z 2 , , Z p )T Teniendo en cuenta las expresiones (1.x) y (1.x), se cumple: Y = ZT = 0 y VY = T t RT = por tanto los nuevos ejes principales estn centrados, sus varianzas son los valores propios y sus covarianzas son nulas (estn incorrelacionados). Es decir: E (Yi ) = 0 1 n 2 y ki n k =1 1 n cov(Yi , Y j ) = 0 = y ki y kj n k =1 var(Yi ) = i = con i,j=1,2,,p. Una propiedad importante es cuantificar el grado de interdependencia entre las variables originales y los nuevos ejes factoriales, pues ello nos permitir interpretar las componentes principales. Para ello calculemos las covarianzas y correlaciones entre estos pares de variables:
p p 1 n 1 n 1 n p cov(Y j , Z i ) = y kj z ki = y kj y kr t ir = t ir y kj y kr = t ir cov(Y j , Yr ) n k =1 n k =1 r =1 r =1 n k =1 r =1
pero teniendo en cuenta las relaciones anteriores (2.x) y (2.x), resulta: cov(Y j , Z i ) = t ij j y finalmente, dividendo por las d.t.:
ij =
t ij j
j .1
= t ij j
Angel Igelmo Ganzo
28
en forma de matriz: t11 1 t 21 1 t 1 1 p t12 2 t 22 2 t p 2 2 t1 p p t2 p p t pp p
las columnas se refieren a las variables Yj, mientras que las filas a las variables Zi, por tanto en la interseccin de columna con fila tenemos el coeficiente de correlacin lineal entre ambas variables. Notese que la correlacin entre ambas es tanto mayor cuanto mayor sea el valor propio (varianza) del factor Yi, ya que es proporcional a: d .t.(Yi ) = i la matriz anterior recibe el nombre de matriz de factores o matriz de cargas factoriales (obsrvese que ya no es una matriz simtrica) Interesa por tanto aquellos factores de alta d.t. pues sern los que estn ms fuertemente correlacionados con las variables originales. Se podr prescindir de aquellos factores escasamente correlacionados con las originales, pudiendo considerarse como variables independientes. Si un factor principal est muy correlacionado con una variable o grupo de variables originales, entonces ese factor explica por si solo a esa variable o grupo de variables originales. En caso contrario, dicho factor actuara de forma independiente con relacin a dicha variable o grupo de variables. La matriz de cargas factoriales, que representamos por F, se puede escribir de la siguiente manera: F = T
1 2
= 2T t
1
como fcilmente se comprueba, siendo 2 la matriz diagonal de las desviaciones tpicas ( i ). Teniendo en cuenta lo anterior la matriz de correlaciones R se puede expresar as: R = TT t = T 2 2 T t = FF t Tipifiquemos los factores principales, teniendo en cuenta (2.x), y designemos a estos por F1, , Fp: Fi = Yi E (Yi ) Yi 0 1 Yi = = d .t.(Yi ) i i
1 1
ahora E ( Fi ) = 0, var( Fi ) = 1 y cov( Fi , F j ) = 0. Hemos operado un cambio de escala en los factores principales al tipificarlos. Los llamaremos factores o componentes principales escalados.
Angel Igelmo Ganzo
29
Fcilmente se comprueba que: Z1 F1 Z2 F2 = F Z F p p o ( Z 1 , Z 2 , , Z p ) = ( F1 , F2 , , F p ) F t y en componentes: Z i = t i1 1 F1 + t i 2 2 F2 + + t ip p F p , i = 1,2, , p de aqu se sigue que:

2 2 var(Z i ) = t i2 1 1 var( F1 ) + t i 2 2 var( F2 ) + + t ip p var( F p ) 2 2 1 = t i2 1 1 + t i 2 2 + + t ip p
esta es una propiedad relativa a las filas de la matriz de cargas factoriales, F: las filas de la matriz F son vectores unitarios.
2.5.- CRITERIOS DE REPARTO DE LA INERCIA TOTAL Y REDUCCIN DE LA DIMENSIN. La inercia que explica cada factor es numricamente igual a su valor propio, que expresada en porcentaje de la inercia total es:
i 100 p
siendo i el valor propio correspondiente Al factor propio Yi. Si los valores propios son 1>>p, cada factor explica distinta proporcin de la inercia total de manera que cuantos ms factores retengamos mejor ser la calidad de la representacin, pero entonces no simplificamos el problema ya que retenemos todos los factores. Es preciso por tanto definir un criterio para fijar el nmero de factores a retener. Existen varios criterios que enumeramos a continuacin: i) retener aquellos factores cuyos valores propios sean mayores que 1. ii) retener aquellos factores cuyos valores propios sean superiores a un valor fijo previamente fijado por el investigador. iii) retener un nmero fijo de factores.
Angel Igelmo Ganzo
30
iv)
retener aquellos factores que expliquen una proporcin predeterminada de la inercia total (por ejemplo, un 75% o ms).
Si hemos retenido m factores el porcentaje de inercia explicada por dichos factores vale:
i =1
100
Al retener m factores, la parte de varianza de la variable Zi contenida en dichos factores es: 2 2 hi2 = t i2 1 1 + t i 2 2 + + t im m 1 se llama comunalidad de la variable Zi y se interpreta como una medida de la calidad de la representacin de dicha variable Zi por los m primeros factores. Evidentemente la representacin ser tanto mejor cuanto ms se aproxime a la unidad Con la reduccin de la dimensin, los m primeros columnas de la matriz T, que forman la matriz Tm, engendran un nuevo subespacio de representacin de la nube de puntos, siendo las nuevas coordenadas de los individuos: Ym = ZTm valiendo ahora la inercia:
m 1 n m 2 1 n 2 m y = y ik = k ik n i =1 k =1 k =1 n i =1 k =1
que es la parte de variabilidad explicada por dichos factores. Si no hay correlacin entre las p variables iniciales, entonces: 1 0 0 0 1 0 R= 0 0 1 y los factores principales son las variables original y todas explican la misma cantidad de inercia, no siendo posible la reduccin.
2.6.- ROTACIN DE LAS COMPONENTES Los factores principales obtenidos tal como hemos indicado anteriormente pueden tener interpretaciones difciles de comprender, por lo que se procede a tomar otras soluciones para hacerlos ms interpretables a base de rotar la solucin inicial obtenida. Son las soluciones rotadas o factores rotados. Slo vamos a considerar
Angel Igelmo Ganzo
31
rotaciones ortogonales, pues de esta manera los nuevos ejes siguen estando incorrelacionados entre s, mantienen las comunanlidades (la capacidad conjunta de cada factor para retener la informacin de cada variable), sin embargo se altera las correlaciones entre factores y variables, As como el porcentaje de inercia condensada por cada factor. Despus de la rotacin hay que calcular la nueva matriz de factores que contiene las correlaciones entre los factores rotados y las variables originales, que se obtiene multiplicando la matriz de factores obtenida antes de la rotacin por la matriz de correlaciones entre los factores rotados y no rotados, que algunos llaman matriz de transformacin de los factores. Para efectuar una rotacin ortogonal de ejes se aplican dos criterios, denominados rotacin quartimax y rotacin varimax. La rotacin quartimax o criterio quartimax tiene por objeto determinar la transformacin ortogonal que transforma la matriz de factores en otra de manera que la varianza de los cuadrados de las cargas factoriales es mxima, recayendo el nfasis del mtodo en la simplificacin por filas. La rotacin varimax o criterio varimax hace nfasis en la simplificacin de las columnas o factores de la matriz de factores (Kaiser, 1958) con el fin de satisfacer la sencillez de interpretacin, maximizndose suma de varianzas de los cuadrados de las cargas factoriales de cada factor.
2.7.- PROGRAMAS DE ORDENADOR El programa MINITAB dispone de una utilidad especfica para realizar Anlisis de Componentes Principales, a partir de la opcin MULTIVARIANTE. 2.8.- EJEMPLOS Ejemplo 2.1.- Con los datos del ejemplo 1.1 efectuar un anlisis de componentes principales Ejemplo 2.2.- Con los datos del ejemplo 1.2 determinar los ejes principales y la inercia de cada uno de ellos. Hacer una representacin grfica Ejemplo 2.3.- Con los datos del ejemplo 1.3 determinar los ejes principales de inercia, as como la inercia de cada uno de ellos. Hacer una representacin grfica
2.9.- APLICACIONES Desarrollar mediante los programas de ordenador SPSS y MINITAB los casos: Caso 1.- Anlisis de absorcin de plomo en hojas de plantas urbanas. Caso 2.- Evolucin de la composicin elemental del ser humano en diferentes etapas de su ciclo vital
Angel Igelmo Ganzo
32
Caso 3.- Anlisis del tamao de una muestra de arbustos de una poblacin de Allium sativum.
Angel Igelmo Ganzo
33
CAPTULO 3.- ANLISIS FACTORIAL 3.1.- Introduccin. 3.2.- El modelo matemtico. 3.3.- Descomposicin de la matriz de varianzas. 3.4.- Relaciones entre los factores de carga. 3.5.- Contraste de la idoneidad del modelo. 3.6.- Extraccin de los factores. 3.7.- Descripcin de los factores. 3.8.- Rotacin de los factores.
3.1.- INTRODUCCIN Las ideas bsicas del AF fue sugerido por Francis Galton y Charles Spearman, as como otros autores, al principio de siglo y se origina principalmente en los esfuerzos de los siclogos en tener un mejor conocimiento de la inteligencia. Los test de inteligencia contienen principalmente una gran variedad de cuestiones que dependen en gran medida de la habilidad verbal, habilidad matemtica, capacidad memorstica, etc. El AF fue desarrollado para analizar las puntuaciones de estos test y poder determinar si la inteligencia viene determinado por un nico factor o un pequeo grupo de factores ms reducido que los debidos a todos los test disponibles. En este terreno se sabe que hay tres factores: a) inteligencia verbal, b) inteligencia lgica y c) inteligencia espacial tales que cualquier otro conjunto de puntuaciones queda explicada a travs de las anteriores. El AF trata de buscar causas comunes de un conjunto de variables que explicaran a stas como consecuencia de unos factores comunes que pueden no ser observables a priori ya que slo se miden sus manifestaciones. Estos factores comunes son de naturaleza ms abstracta que las variables originales. El proceso matemtico de clculo es similar al ACP, pero conceptualmente son distintos, compartiendo en el software estadstico mtodos similares de clculo. El AF es un mtodo paramtrico en el sentido de que interesa estimar los parmetros de las relaciones entre variables, siendo por tanto un problema de tipo inferencial. Por este motivo el AF se divide en dos partes: el AF exploratorio donde se utiliza la informacin contenida en una muestra (anlisis exploratorio de datos), y el AF confirmatorio donde ya se suponen conocidos el nmero de factores comunes y se analiza su interpretacin. Desafortunadamente en el AF hay que introducir una serie de hiptesis sobre las variables iniciales que ser necesario comprobar al abordar cualquier problema, hiptesis que pueden no cumplirse en la prctica.
3.2.- EL MODELO MATEMTICO El modelo matemtico del AF consiste en suponer que tenemos p observables representadas por las variables X1, , Xp cuya matriz de covarianzas es V. El AF supone que existen m factores desconocidos, m<p, (puesto que se pretende explicar las variables originales por un nmero de variables ms reducido) f1, , fm, tales que:
Angel Igelmo Ganzo
34
Xj = j1f1+ + jmfm + j ,
j = 1, , p
(modelo factorial lineal) donde: * las nuevas variables fi son los factores comunes, variables no observadas, que explican a las variables observadas * los pesos jk son los llamados factores de carga, que representa la carga de la variable Xj sobre el factor fk. Tambin se dice que es la saturacin de la variable Xj en el factor fk. * la variable j describe la variacin residual de la variable Xj no explicada por el conjunto de los factores comunes; tambin se le llama factor especfico (de la variable explicada), es decir, es la parte de la variable observada no explicada por los factores comunes. El modelo anterior necesita de algunas hiptesis para su ulterior desarrollo: los factores comunes son estocsticamente independientes entre si. los factores especficos son independientes entre s e independientes de los factores comunes. se supone que las variables observadas estn centradas. los factores comunes se suponen tambin centrados, y como se puede elegir con arbitrariedad la escala se supone que la d.t. vale 1, por tanto se trata de variables tipificadas. Igual para los factores especficos. los factores comunes y los especficos se suponen con distribucin normal.
a) b) c) d)
e) f)
La formulacin matricial del modelo sera: X = F + E siendo: X1 X2 . X = . . X p 11 21 . = . . 1 p f1 f2 . F = . . f m 1 2 . E = . . m
12 22 . . . p2
. . . 1 m . . . 2m . . . . . . . . . . . . . . . pm
Angel Igelmo Ganzo
35
siendo la matriz factorial. Uno de los principales problemas del anlisis factorial es la determinacin de dicha matriz, cuyos elementos se obtienen a partir de los coeficientes de correlacin entre las variables, adems de la determinacin del nmero de factores m a emplear. Aplicando la relacin anterior a cada observacin de la tabla de datos, se tiene, para la observacin r-sima: X1 = xr1, , Xp = xrp x rj = jk f rk + rj
k =1 m
siendo frk el valor del factor fk en la r-esima observacin, Xr. Expresado en forma matricial sera: X = F + E ahora tenemos: x11 x 21 X = x 1 n x12 x 22 xn 2 x1 p x2 p x np F = f 11 f 21 f p1 f 12 f 1m f 2m f pm 11 21 E = 1 n
f 22 f p2
12 22 n2
1p 2p np
donde la primera matriz es la matriz de datos, la segunda de puntuaciones o valores factoriales y la tercera es la matriz de residuos. Esta es una relacin entre expresiones matriciales relativas a los valores muestrales, en contraposicin a la que hemos dado anteriormente, que aunque es formalmente idntica, aquella expresa una relacin entre variables estadsticas poblacionales.
3.3.- DESCOMPOSICIN DE LA MATRIZ DE VARIANZAS De la formulacin del problema y de las hiptesis se deduce: var( X j ) = 2j1 + + 2jm + j , siendo j=var(j)
de aqu se sigue que la varianza de los observables se explican por la suma de los cuadrados de las correspondientes cargas factoriales, ms la varianza debida al factor residual. Se llama comunalidad del observable Xj a:
2 2 h2 j = j1 + + jm
Angel Igelmo Ganzo
36
y es la parte de la varianza del observable Xj explicada por los factores comunes o la contribucin de todos los factores comunes a la varianza de Xi. En AF interesa buscar los factores comunes que expliquen la mayor parte de variabilidad de las variables. Para las covarianzas se tiene: cov( X i , X j ) = i1 j1 + + im jm por tanto, la matriz de varianzas-covarianzas es: V = t + siendo la matriz diagonal de las varianzas 1, , p. Por tanto las cargas factoriales determinan las covarianzas, y en gran medida las varianzas pues para estas slo falta tener en cuenta la varianza de las variables residuales. La ecuacin matricial anterior es crucial en el AF. En esta ecuacin hay pm+p parmetros desconocidos (factores de carga y varianza de residuos) y (p+1)p ecuaciones. Es necesario, por tanto, para que haya solucin, que m<1/2(p1); puede no haber solucin o incluso no ser nica, pues si es una solucin y T es una matriz ortogonal, entonces T tambin es solucin pues: (T)(T)t=t. Por tanto siempre que se obtiene una solucin se pueden efectuar rotaciones y analizar las nuevas soluciones. La acotacin anterior de m nos proporciona el nmero mximo de factores a extraer.
3.4.- ESTIMACIN DE LOS FACTORES DE CARGA Se puede partir de una matriz de datos, donde las variables estn tipificadas, entonces la matriz de covarianzas pasa a ser la matriz de correlaciones, siendo entonces las comunalidades iguales a la unidad: 1 = 2jk + j
k =1 m
rij = ik jk
k =1
R = t + N Estas propiedades son debidas a Thurstone (1947). La ltima propiedad es la identidad fundamental que debe verificar toda matriz factorial. A partir de aqu se entra en un proceso de inferencia para determinar los factores de carga, esta es la gran diferencia con el ACP, pues este es un mtodo de tipo descriptivo, mientras que el AF es de tipo inferencial.
3.5.- CONTRASTE DE LA IDONEIDAD DEL MODELO

El primer paso a realizar consiste en averiguar si hay o no factores comunes a partir de la informacin disponible en la tabla de datos (muestra). Se trata de realizar un AF exploratorio. Para ello empleamos el contraste de esfericidad de Bartlett, que se utiliza para comprobar la hiptesis de que la matriz de correlaciones es una matriz identidad (las intercorrelaciones entre las variables son cero lo que significa idoneidad para un AF) , que se basa en el estadstico muestral: 1 Y = (n 1 (2 p + 5)) log R 6 que sigue una distribucin ji-cuadrado con (p(p-1) grados de libertad. Se plantea la hiptesis nula H0:R=I (no existen correlaciones significativas entre las variables observadas, por tanto no es adecuado un AF), frente a la alternativa de que existen correlaciones significativas entre las variables observadas, R I, y por tanto es adecuado el modelo AF. Si el estadstico de contraste es significativamente alto entonces se rechaza la hiptesis nula procedindose a efectuar un AF. Debe hacerse notar que el mtodo inferencial de Bartlett se basa en la hiptesis de que la muestra de datos procede de una poblacin con distribucin normal multivariable. 3.6.- EXTRACCIN DE LOS FACTORES Ya hemos dicho que una acotacin del nmero de factores emplear es m<1/2(p1), siendo p el nmero de variables observables. Existen diversos mtodos para determinar el nmero de factores a utilizar, uno de los cuales est basado en el anlisis de componentes principales que ser el que vamos a utilizar ya que es el ms utilizado por los programas estadsticos de ordenador. Elegiremos un nmero pequeo de factores que sern los que expliquen la mayor parte de la variabilidad total, siguiendo los pasos que vimos en el captulo de ACP. En este punto conviene aclarar que el anlisis factorial y el ACP estn en discusin por diversos investigadores, habiendo disparidad de criterios sobre si se trata de dos mtodos distintos y distantes o bien si el ACP puede considerarse como una etapa previa del AF. Con el mtodo de componentes principales el objetivo es extraer la mayor varianza posible empleando pocas variables, a fin de determinar las pxm cargas factoriales, basndonos en la informacin contenida en la matriz de datos. Aqu se ve que se trata de un mtodo inferencial, pues el modelo es para la poblacin. Por tanto elegiremos un primer factor comn f1 de manera que su contribucin a la varianza de todas las variables observadas sea mximo; pero esta varianza, que representamos por V1, vale:
2 2 + 2 V1 = 11 21 + + p1
Angel Igelmo Ganzo
38
pero estos factores estn relacionados entre s, ya que: rij = ik jk , con rij = r ji , rii = hi2
k =1 m
donde los rij se calculan a partir de la tabla de datos y las comunalidades hi2 deben estimarse como mas adelante indicaremos. Aplicando el mtodo de los multiplicadores de Lagrange a la funcin V1 con las restricciones anteriores, se obtiene la siguiente condicin de mximo: (h12 )11 + r12 21 + r13 31 + + r1 p p1 = 0
2 r21 11 + (h2 ) 21 + r23 31 + + r2 p p1 = 0
rp111 + rp 2 21 + rp 3 31 + + (hn2 ) p1 = 0 donde es el multiplicador de Lagrange. La anterior condicin es un sistema homogneo de p ecuaciones con p incgnitas, cuya condicin de compatibilidad es: h12 r21 rp1
r1 p h r2 p =0 2 rp 2 hp r12
2 2
esta ecuacin es la ecuacin caracterstica de la matriz: h12 r21 r 1 p r12 2 h2 rp 2 r1 p r2 p 2 hp y se
que la llamamos matriz de correlacin reducida, y la representamos por R* interpreta como una estimacin puntual de t.
Tal como se demuestra en [.] las comunalidades se aproximan con los coeficientes de determinacin de cada variable respecto de las dems, mientras que los elementos de fuera de la diagonal se estiman a partir de la matriz de datos. Se procede a diagonalizar la matriz R* y se obtienen los m < p valores propios y sus vectores propios asociados, que se toman normalizados: a1, a2, , am . Estos vectores forman las columnas de la matriz A de dimensin (pxm), que verifica: AtA = m = diag(1, 2,, m)
o escrito en componentes:
a
i =i p
2 ik
= k aik = 0 jk
a
i =1
ij
k , j = 1,2,..., m;
Esta primera solucin factorial obtenida estimando las comunalidades a travs de los coeficientes de determinacin se utiliza para iterar el proceso tomando ahora como comunalidades las obtenidas de la solucin anterior, y repitiendo el proceso. La solucin final se obtiene incorporando al proceso un criterio de parada.
3.7.- DESCRIPCIN DE LOS FACTORES Hasta ahora nos hemos preocupado de la obtencin del modelo lineal factorial de un conjunto de variables en funcin de unos factores comunes. El problema que aparece a continuacin se refiere a la descripcin de los factores en funcin de las variables observadas. Aqu vamos a utilizar mtodos de regresin convencionales para obtener una representacin o medida de los factores en las variables. Para ello supondremos que cada factor se puede expresar como la regresin de dicho factor respecto de las variables observadas. Es decir que el factor acta como variable pronosticada o estimada y las variables observadas como regresores o variables predictivas, por tanto tendremos: = X + X + + X , k = 1,2, , m f 2 k k1 1 k2 kp p es la variable terica de regresin y f es la correspondiente variable real. donde f k k Teniendo en cuenta: cov( X 1 , fk ) = s1k = k 1 + r12 k 2 + + r1 p kp cov( X 2 , fk ) = s 2 k = r21 k 1 + k 2 + + r2 p kp ) = s = r + r ++ cov( X p , f k pk p1 k 1 p2 k 2 kp donde los coeficientes de los parmetros de regresin son los coeficientes de correlacin lineal obtenidos de la matriz de datos y las covarianzas son las cargas factoriales. La resolucin de este sistema permite obtener los parmetros del hiperplano de regresin y f , viene dado por el El grado de correlacin entre las dos variables: f k k coeficiente de correlacin mltiple, cuyo cuadrado es el coeficiente de determinacin, y se demuestra que vale:
Angel Igelmo Ganzo
40
Dk2 = k 1 s1k + k 2 s k 2 + + kp s kp 3.8.- ROTACIN DE LOS FACTORES Los mtodos dados para obtencin de los factores no siempre conduce a una solucin ms clara y convincente para una interpretacin cientfica de los factores, procedindose a obtener otra solucin como rotacin de la solucin obtenida. Se trata de obtener matrices factoriales con significado que cumplan unos requisitos que llamamos de estructura simple (Thurstone, 1947): i) Cada fila de la matriz factorial debe tener un cero por lo menos. ii) Cada columna de la matriz factorial deber contener m ceros por lo menos (m factores comunes). iii) Para cada par de columnas de la matriz factorial deber haber varias variables cuyas entradas se anulen en una columna pero no en la otra. iv) Para cada par de columnas de la matriz factorial una gran proporcin de las variables debern tener entradas nulas en ambas columnas cuando hay cuatro o ms factores v) Para todo par de columnas de la matriz factorial deber haber solamente un nmero pequeo de variables con entradas no nulas en ambas columnas. Dentro de la hiptesis de ejes factoriales ortogonales vamos a explicar suscintamente dos tipos de rotaciones que tienen en cuenta los princios antes mencionados aunque de distinta manera. Ello es debido a que la solucin rotada no es nica. La rotacin quartimax o criterio quartimax tiene por objeto determinar la transformacin ortogonal que transforma la matriz factorial en otra de manera que la varianza de los cuadrados de las cargas factoriales es mxima, recayendo el nfasis del mtodo en la simplificacin de la descripcin de las filas o variables. La rotacin varimax o criterio varimax hace nfasis en la simplificacin de las columnas o factores de la matriz factorial (Kaiser, 1958) con el fin de satisfacer los criterios de estructura simple, maximizndose suma de varianzas de los cuadrados de las cargas factoriales de cada factor. Harman (1960) propuso construir una clase general de criterios ortogonales a partir de una suma ponderada de estos dos tipos diferentes de rotaciones ortogonales, que se denomina criterio ortomax. En general estas rotaciones se hallan implementadas en los programas estadsticos de ordenador.
Angel Igelmo Ganzo
41
Captulo 4.- Anlisis de Correspondencias 4.1.- Introduccin. 4.2.- Anlisis de correspondencias simples. 4.3.- Perfiles y distancias. 4.4.- La matriz de varianzas. Extraccin de los factores. Coordenadas de las categoras en los factores. Representaciones grficas. Interpretacin de los factores: contribuciones absolutas y relativas. Proyeccin de filas y de columnas. Anlisis de correspondencias mltiples. Programas de ordenador. Aplicaciones.
4.1.- INTRODUCCIN El anlisis de correspondencias es una de las tcnicas ms recientes concebida esencialmente para la interpretacin de tablas de datos de variables de tipo categrico, analizando la coocurrencia de las categoras de dos variables cualitativas, siendo habitual los casos en que el papel de datos y observaciones es intercambiable. Se puede situar su origen en los trabajos de Benzecri (1963) y la denominada escuela francesa: Lebart, Lefebre, Morinau, etc. con gran incidencia en estudios de anlisis textual. Podemos afirmar que el objetivo bsico del Anlisis de Correspondencias Simples (ACS), que es el caso de dos variables, es el de obtener una representacin grfica (nube de puntos) de una tabla de contingencia. Es decir, se trata de presentar, mediante grficas, la mayor parte de la informacin contenida en una tabla de frecuencias. Dentro de la tcnica del anlisis factorial, podemos afirmar que partiendo de una matriz de datos, se extraen unos factores que permiten reducir la dimensin de la matriz inicial, para, perdiendo un mnimo de informacin, lograr una segunda matriz de datos mucho ms fcil de leer y ms sencilla de interpretar. Otros autores destacan que con el AC se producen representaciones grficas en las que las proximidades geomtricas entre los puntos-fila o los puntos-columna traducen asociaciones estadsticas entre filas o columnas de la tabla de contingencia. En el proceso de clculo del AC cabe destacar dos fases. Una la creacin de la matriz de varianzas-covarianzas de acuerdo con la definicin de distancia de Benzecri, y otra fase correspondiente a la extraccin de factores y la proyeccin de las categoras sobre dichos factores, que permitir la obtencin de las representaciones grficas.
4.2.- ANLISIS DE CORRESPONDENCIAS SIMPLES Como ya hemos dicho el anlisis factorial de correspondencias fue concebido para analizar tablas de contingencia o tablas cruzadas de datos, se trata de datos obtenidos cruzando las modalidades de dos variables cualitativas definidas sobre una misma poblacin de individuos. Esto es lo que se llama Anlisis de Correspondencias Simples (ACS). Cuando sobre un conjunto de individuos se cruzan datos provenientes de ms de dos variables se entra en el Anlisis de Correspondencias Mltiples (ACM), cuyos mtodos son similares al ACS. En este texto nos dedicamos al ACS.
Angel Igelmo Ganzo
42
Partimos de una tabla de frecuencias absolutas de las variables cualitativas: X = {x1 , x 2 , , x q }, Y = { y1 , y 2 , , y p }
x1 x2 . . . xq
y1 y2 . . . yp n11 n12 . n1p n21 n22 . n2p nq1 nq2 nqp n.1 n.2 .. n.p
n1. n2. . . . nq. N
donde se han incluido las distribuciones marginales de X y de Y: X n. x1 x2 . . . xq n.1 n.2 . . . n.q y1 y2 . . . yp n1. n2. . . . np.
Y n.
la distribucin marginal en X es la distribucin que resulta de agrupar los valores de Y para cada valor o atributo de X. Idem para la distribucin marginal de Y. Dividiendo las frecuencias absolutas por el nmero total de observaciones se obtienen las frecuencias relativas. A partir de la tabla anterior se definen las distribuciones condicionales. Por ejemplo, la distribucin condicional de X para Y=y1 , representada por X/Y=y1 o X/y1, sera: X/y1 x1 x2 . . . xq frecuencias n11/n.1 n21/n.2 . . . nq1/n.q
para obtener esta distribucin de frecuencias se puede emplear las frecuencias relativas, ya que: n11 n11 N = f 11 , = n1 n1 f 1 N
etc.
Angel Igelmo Ganzo
43
4.3.- PERFILES Y DISTANCIAS El punto de partida del AC es la tabla de datos, que ya la tomamos como tabla de frecuencias relativas. Si X = {x1, , xq} e Y = {y1, , yp} son las variables cualitativas, representamos por fij la frecuencia relativa de la observacin conjunta X = xi e Y = yj. En forma de tabla sera: pesos fila f1. f2. . . . fq. 1
x1 x2 . . . xq pesos columna
y1 y2 . . . yp f11 f12 . . . f1p f21 f22 . . . f2p .. .. . fq1 fq2 . . . fqp f.1 f.2 . . . f.p
donde hemos incluido las distribuciones marginales. Estos valores se les da el nombre de pesos fila, {f1.,,fq.}, para los valores marginales por fila, y pesos columna, {f.1,,f.p}, para los valores marginales por columna. Evidentemente la suma de los pesos fila o pesos columna valen 1. Para seguir el proceso numrico es preciso introducir una distancia entre filas o entre columnas. Vamos a referirnos en lo que sigue a las filas, pero teniendo en cuenta que ambas ideas son intercambiables. A partir de la tabla anterior se obtienen las distribuciones condicionadas por filas, que se llaman perfiles fila, y la tabla correspondiente tabla de perfiles fila. As pues, se tendr: y1 y2 . . . yp f11/f1. f12/f1. f1p/f1. f21/f2. f22/f2. f2p/f2. fq1/fq. fq2/fq. fqp/fq. 1 1 . . . 1
Y/x1 Y/x2 . . . Y/xq
que es la tabla de perfiles fila; anlogamente se obtiene la tabla de perfiles columna. Esto constituye una operacin de homogeneizacin de la tabla de frecuencias respecto de los pesos fila.
Angel Igelmo Ganzo
44
A partir de aqu, si definisemos directamente una distancia como la distancia euclidea entre filas se podran cometer fuertes descompensaciones debido a un sobrepeso de unas columnas respecto de otras, por tanto es preciso corregir la distancia euclidea entre filas con los pesos columna, obtenindose: d 2 (i, j ) =
k =1 p
1 f k
p f ik f jk f jk f ik = f f f j f k k =1 i f j i f k 2
esta distancia que algunos denominan ji-cuadrado, por motivos que veremos ms adelante, presenta algunas propiedades fundamentales que nos permite realizar ciertas transformaciones con la matriz de datos. Los trminos del sumatorio se transforman as: f ik f i f k f jk f j f k = = f ik f i f k f k f jk f j f jk f j f k f k + + f k = f ik f i f k f i f k f jk f j f k f j f k
f ik f i f k
f i f k f i f k
f j f k f j f k
y haciendo los cambios: y ik = f ik f i f k f i f k f ik f i f k f k , k = 1,2,..., p
z ik = resulta:
f ik f i f k
f k = y ik
d 2 (i, j ) = ( y ik y jk ) 2 = ( z ik z jk ) 2
k =1 k =1
la distancia entre perfiles fila tal como se ha definido al inicio entre los puntos de Rp es una distancia euclidea en Rp. La distancia ponderada definida ms arriba verifica el principio de equivalencia distribucional: Si dos puntos fila, i1 e i2, con pesos fi1. y fi2., estn confundidos en Rp y si se les considera como un solo punto, i0, de peso fi0.=fi1.+fi2., entonces la distancia respecto de cada punto permanece invariante. En efecto, como que para todo j se cumple f i1 j fi j = 2 f i1 f i2 entonces:
Angel Igelmo Ganzo
45
f i1 j + f i2 j = f i0 j no quedando afectados los pesos fila y dejando invariante la distancia. De este modo la agregacin de categoras muy prximas tendr poca influencia sobre el resultado final. Como que tenemos una nube de q puntos: Y1 = ( y11 , , y1 p ), , Yq = ( y q1 , , y qp ) vamos a calcular el cdg, Y G = ( y1G , , y G p ) , de esta nube de puntos ponderando con los pesos columna. Para la coordenada k-sima se obtiene:
G yk = f 1 y1k + f 2 y 2 k + + f q y qk =
1 f k
(f
1k
+ f 2 k + + f qk ) =
f k
por tanto: Y G = ( f 1 , f 2 , , f p ) en consecuencia cuando la nube de puntos se expresa a travs de las variables Zk, resulta una nube de puntos centrada en el origen. Finalmente de: y ij = f ij f i f j
se sigue que:
yik
i =1
f k =
i =1
f ik =1 f i
por tanto los q puntos Y1,,Yq estn sobre el hiperplano: f 1 Y1 + f 2 Y2 + + f p Yp = 1
cuyo vector director es ( f 1 , , f p ) , y cuya distancia al origen vale 1. Adems el cdg, G, pertenece al hiperplano, ya que: f 1 f 1 f 1 + + f p f p = 1 . Este f p ) , ya que hiperplano corta a los ejes en los puntos: ( 1 ,0,...,0),, (0,...,0, 1
estos puntos pertenecen al hiperplano y a los ejes. Si se emplean las variables centradas Z1,,Zp, entonces el hiperplano pasa por el origen, como fcilmente se comprueba.
Angel Igelmo Ganzo
46
Por tanto es natural efectuar un cambio de variable de manera que las nuevas queden centradas en el c.d.g., tomando como nuevo origen: z ik = y ik f k = f ik f i f k f i f k f i f k = f ij f i f k f i f k
estas son las variables centradas, que dejan invariante la distancia definida anteriormente.
4.4.- LA MATRIZ DE VARIANZAS. EXTRACCIN DE LOS FACTORES Sea X la matriz de datos de frecuencias relativas: X = ( f ij )i , j y definimos las matrices: f 1 0 = 0 0 f 2 0 0 0 f q
D pf
La siguiente fase es entrar en el proceso de anlisis de componentes principales de la matriz de varianzas, calculadas a partir de las nuevas variables. El proceso se inicia calculando los vectores y valores propios de V, eligiendo los factores que explican la matriz de datos de acuerdo a como hemos explicado en el captulo de ACP. Una vez extrados los factores se necesitan conocer las coordenadas de cada una de las categoras con respecto a cada eje, y efectuar la correspondiente representacin plana y estudiar las asociaciones entre diferentes categoras. Estas coordenadas se obtienen de la proyeccin de la matriz de perfiles fila sobre los vectores propios. Es importante conocer que categoras son las que ms contribuyen a cada factor, es decir que peso tiene cada categora en la definicin de cada uno de los ejes. Este peso se denomina contribucin absoluta y dicho valor representa porcentualmente la importancia que tiene cada categora en la definicin de cada eje. La contribucin absoluta viene dada por: Ca (i, ) = f i i2
Angel Igelmo Ganzo
47
siendo: i una categora i-esima, el eje factorial -simo, i la coordenada de la categora i en el eje factorial , y el correspondiente valor propio. La suma de las contribuciones absolutas de cada categora fila sobre cada eje valdr 1. Tras analizar los ejes sobre la base de las categoras absolutas, tambin resulta importante calcular las contribuciones relativas de cada eje sobre cada categora. Este es un ndice que nos indica hasta que punto cada eje representa a cada una de las categoras. La suma de las distintas contribuciones relativas de cada eje sobre una categora debe ser 1, y su clculo viene dado por el cociente entre el cuadrado de la coordenada de la categora i sobre el eje y la suma de cuadrados de las coordenadas de la categora i.
Angel Igelmo Ganzo
48

Introducción Al Análisis Multivariante

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Introducción Al Análisis Multivariante

Caricato da

Copyright:

Formati disponibili

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

xn2 . . . xni . . . xnp

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

donde los primeros sumandos se pueden escribir en forma matricial: Q= 1 t X X n

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Y = (Y1 , Y2 ,  , Y p ) mediante transformaciones lineales: Y j = t1 j X 1 + t 2 j X 2 +  + t pj X p , j = 1,2, , p

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

as pues la variable error y las variables predictivas estn incorrelacionadas. De:

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Tener en cuenta que esta varianza residual es el error cuadrtico medio:

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

ECM = adems numricamente se cumple:

que tambin se puede escribir:

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

de donde resultan las relaciones:

Angel Igelmo Ganzo

ANLISIS DE DATOS MULTIVARIANTES

Introduccin al Anlisis Multivariante

Y = (Y1 , Y2 , , Y p ) mediante transformaciones lineales: Y j = t1 j X 1 + t 2 j X 2 + + t pj X p , j = 1,2, , p

en forma de matriz: t11 1 t 21 1 t 1 1 p t12 2 t 22 2 t p 2 2 t1 p p t2 p p t pp p

Fcilmente se comprueba que: Z1 F1 Z2 F2 = F Z F p p o ( Z 1 , Z 2 , , Z p ) = ( F1 , F2 , , F p ) F t y en componentes: Z i = t i1 1 F1 + t i 2 2 F2 + + t ip p F p , i = 1,2, , p de aqu se sigue que:

esta ecuacin es la ecuacin caracterstica de la matriz: h12 r21 r 1 p r12 2 h2 rp 2 r1 p r2 p 2 hp y se