Sei sulla pagina 1di 118

ANLISIS MULTIVARIADO DE DATOS

Mtodos y Aplicaciones
Javier Trejos Zelaya William Castillo Elizondo
Jorge Gonzlez Varela
Universidad de Costa Rica
Anlisis Multivariado de Datos
Mtodos y Aplicaciones
Javier Trejos Zelaya
William Castillo Elizondo
Jorge Gonzlez Varela
Editorial de la Universidad de Costa Rica
Cdigo Postal 11501-2060
Ciudad Universitaria Rodrigo Facio
San Pedro de Montes de Oca, Costa Rica
500
T Trejos Zelaya, Javier, 1961-
Anlisis Multivariado de Datos / Javier Trejos
Zelaya. -ed.- San Jos, C.R. : Editorial de la
Universidad de Costa Rica
2012.
xxx, 340 p.
ISBN FALTA
1. completar informacin
I. Ttulo
EUCR
'
&
$
%
Editorial de la Universidad de Costa Rica
Cdigo Postal 11501-2060
Ciudad Universitaria Rodrigo Facio
San Pedro de Montes de Oca, Costa Rica
iii
iv
Dedicatoria
A mi esposa Vivian, y a mis hijos Luca, Juan, Carlo, Nicole y Pablo,
J.T.Z.
A mi nieta Raquel

, a mi esposa Irene, y a mis hijos Jos Ernesto, Laura e


Ignacio,
W.C.E.
A mi madre, y a mi hijo Daniel,
J.G.V.
v
vi
Prlogo
Tuve el placer de ir por primera vez a Costa Rica en 1990, y pude constatar el
desarrollo del Anlisis de Datos en la Universidad de Costa Rica, as como la
inuencia que tiene esta universidad en la regin de Amrica Latina y el Caribe.
Luego, he regresado varias veces y he podido trabajar con el equipo de la Escuela
de Matemtica de esta universidad.
Javier Trejos, William Castillo y Jorge Gonzlez ofrecen ahora un libro, es-
crito en espaol, sobre el Anlisis de Datos. Este libro trata de tcnicas clsicas
del Anlisis de Datos tal como son conocidas en Francia, y ciertos captulos
tratan incluso de tcnicas desarrolladas en Francia, como el Anlisis de Corres-
pondencias, el Mtodo de Nubes Dinmicas y el Mtodo Statis.
Slo queda desear que el libro sea aprovechado en una regin donde servir
ciertamente a los investigadores en su trabajo de anlisis.
Jai eu le plaisir de venir au Costa Rica en 1990 pour la premire fois, et jai pu
constater le dvelopement de lAnalyse des Donnes lUniversit du Costa Rica, et le
rayonnement que cette universit a sur la rgion dAmrique Centrale et les Carabes.
Ensuite, je suis revenu plusieurs fois et jai pu travailler avec lquipe de lEcole de
Mathmatiques de cette universit.
Javier Trejos, William Castillo et Jorge Gonzlez offrent maintenant un livre en es-
pagnol sur lAnalyse des Donnes. Ce livre porte sur les techniques classiques dAnalyse
des Donnes telles quelles sont connues en France, et certains chapitres portent mme
sur des techniques dveloppes en France, telles que lAnalyse des Correspondances, la
Mthode des Nues Dynamiques et la Mthode Statis.
Il ne reste qua proter de ce livre dans une rgion o il servira certainement les
chercheurs dans leurs dmarches danalyse.
Edwin Diday
vii
viii
Prefacio
Hace muchos aos iniciamos con el proyecto de escribir un libro de texto en
espaol sobre las principales tcnicas de Anlisis Multivariado de Datos. En la
Universidad de Costa Rica se consolid un grupo de trabajo en este campo, que
ha tenido una rica experiencia en desarrollos tanto metodolgicos como en apli-
caciones a diversos campos. La bibliografa empleada estaba casi en su totalidad
en francs y en una menor parte en ingls. Debemos decir tambin que el grupo
tuvo una inuencia marcada por la Escuela Francesa de Anlisis de Datos, no
slo por los intercambios acadmicos llevados a cabo inicialmente con la Uni-
versidad Paul Sabatier, de Toulouse, y luego con otros centros acadmicos, sino
tambin por otro tipo de colaboraciones acadmicas y de investigacin con esta
escuela.
Encontrar material bibliogrco sobre el anlisis multivariado, con el en-
foque de este texto, es un poco difcil: las referencias van desde las presenta-
ciones superciales en las que no se justican los mtodos ni su uso, a las pre-
sentaciones extremadamente tericas que no tienen una aplicacin a simple vista.
Encontrar referencias tiles en espaol es an ms difcil. Por ello, quisimos
hacer un libro que tuviera un balance entre la teora y la prctica. Los mtodos
estn justicados tanto desde el punto de vista terico como prctico, habin-
dose enviado en muchas ocasiones al nal del captulo algunas demostraciones
que podran distraer al lector deseoso de ver cmo se aplica cada mtodo sobre
una base de datos real. Esperamos haber encontrado ese balance para que tanto
el estudioso de los mtodos encuentre, desde el inters terico, una respuesta al
por qu de cada mtodo, como el aplicador que desea saber cmo funciona en la
prctica la tcnica.
Consecuentemente, cada captulo est organizado de manera que inicial-
mente se presenta el objetivo del mtodo, enseguida se desarrolla el mtodo
con sus propiedades de la mano de un ejemplo de ilustracin, dejndose las de-
ix
x
mostraciones de algunas propiedades tericas para el nal del captulo, cuando
no son esenciales para la comprensin del mtodo. Adems, cada captulo con-
tiene varios ejemplos completos de aplicacin junto con sus resultados e inter-
pretaciones. Al nal se presentan ejercicios tanto tericos como prcticos para
que el lector pueda ejercitarse en la comprensin de la teora y la prctica. En
la medida de lo posible, hemos presentado las tablas de datos completos. De
cualquier forma, si algn lector quiere usarlas y no desea transcribirlas, puede
dirigirse a los lectores para que se las enviemos por va electrnica.
Nuestra intencin es que el presente libro sirva como material de referencia
para investigadores que necesiten la herramienta del anlisis multivariado. No se
ha incluido ningn aspecto relativo al uso de software, ya que existen diversos
paquetes computacionales que realizan los clculos de las tcnicas aqu expues-
tas. Cada paquete tiene su manual de uso y all el lector podr ver la manera
de utilizarlo, pero lo importante es que con este libro de texto el uso de esas
tcnicas debera ser ms claro y el lector podr usar conscientemente cualquier
tcnica multivariada cubierta en el texto.
El libro est organizado en nueve captulos. El primero sirve de introduccin
general y recordatorio de la Estadstica Descriptiva, jndose algunos trminos
que se usarn a lo largo del texto. El segundo captulo introduce el Anlisis
Multidimensional, con los elementos de base para todo el desarrollo terico que
se hace en los captulos posteriores, como los trminos de espacios vectoriales
usados y las mtricas asociadas. En el captulo tres se expone la principal tcnica
multivariada, como es el Anlisis en Componentes Principales, la cual es til
no slo en s misma para realizar anlisis de tablas de datos cuantitativos, sino
tambin como tcnica de base para los dems temas de Anlisis Multivariado.
Estos tres primeros captulos son de lectura obligatoria para la comprensin del
resto del texto.
Enseguida, en los captulos 5 y 6, se desarrollan dos tcnicas importantes,
como el Anlisis Factorial de Correspondencias y el Anlisis de Corresponden-
cias Mltiples. Se trata de tcnicas especializadas en el anlisis de datos cua-
litativos, la primera de ellas cuando los datos estn dispuestos en una tabla de
contingencia, y la segunda es para tratar el caso general de varias variables cua-
litativas.
Se sigue con un captulo dedicado a diversas tcnicas de Clasicacin
Automtica, o Anlisis de Conglomerados. El captulo inicia con una intro-
duccin a los conceptos de similutudes y distancias, tanto entre objetos como
entre grupos, para pasar luego a exponer las dos principales familias de mtodos
J. Trejos W. Castillo J. Gonzlez xi
de clasicacin: los mtodos jerrquicos y los mtodos de particionamiento. A
pesar de lo amplio de este tema, se cubren las principales tcnicas: clasicacin
jerrquica ascendente, mtodo de las kmedias y mtodos de nubes dinmicas.
El captulo 7 est dedicado a la Discriminacin Descriptiva, como es el anli-
sis factorial discriminante. Se decidi no cubrir los temas de discriminacin
decisional pues escapan al contexto de este libro y pueden ser objeto de una
publicacin que trate tambin de temas de estimacin estadstica.
El captulo 8 est enteramente dedicado al Anlisis de Tablas Mltiples. Para
ello se escogi exponer con detalle el Mtodo Statis, uno de los ms completos y
bien justicados para este tipo de anlisis. Se decidi incluir en el captulo prc-
ticamente todos los detalles del mtodo, tanto en el caso clsico como en el caso
dual, ya que es difcil encontrar este tipo de justicaciones en la bibliografa, an
en la ms especializada.
Se naliza con un captulo que presenta brevemente las tendencias modernas
del Anlisis Multivariado de Datos, para lo cual se escogieron tres temas: la
optimizacin de los mtodos, el anlisis de datos simblicos, y la minera de
datos.
Hubo que decidir dejar por fuera algunas tcnicas que pudieron haber for-
mado parte del libro, como la Regresin, el Anlisis Cannico, o el Escalamiento
Multidimensional. La primera de ellas, si bien tiene una fuerte componente geo-
mtrica, como la mayora de tcnicas incluidas en este libro, tambin tiene una
fuerte componente de estimacin estadstica, y muchas veces la prctica de la re-
gresin cae ms en el campo de la Estadstica Inferencial que en el de la Estads-
tica Descriptiva. En cuanto al Anlisis Cannico, tiene un gran inters terico
pues generaliza muchas de las tcnicas aqu expuestas, pero no se usa mucho en
la prctica, por lo que su inclusin hubiese alargado innecesariamente el texto.
Finalmente, el escalamiento tambin es muy importante, pero en realidad se trata
de una familia de tcnicas que quizs ameritan un libro solo para ellas.
Como se dijo anteriormente, los captulos 1, 2 y 3 son necesarios para la
comprensin de cualquier captulo posterior. Enseguida, los captulos son inde-
pendientes entre s, con excepcin del 4 y 5, que necesariamente se deben cubrir
en ese orden.
La mayor parte del material ha sido probado a lo largo de los aos en di-
versos cursos de Licenciatura y Maestra de la Universidad de Costa Rica, por
lo que agradecemos a los estudiantes y profesores que lo han usado ya que sus
sealamientos y comentarios nos han ayudado a mejorar sustancialmente el texto
xii
inicial. Versiones previas del libro tambin han sido utilizadas en diversos cursos
que hemos impartido en la regin, como en la Universidad de San Carlos y en la
del Valle de Guatemala, la Universidad Nacional Autnoma de Honduras, la Uni-
versidad Nacional Autnoma de Nicaragua Len, y la Universidad de Panam.
En Mxico, en la Universidad Autnoma Metropolitana Unidad Iztapalapa, la
Benemrita Universidad Autnoma de Puebla, el Instituto Tecnolgico y de Es-
tudios Superiores de Monterrey, campus Monterrey y Guadalajara, el Centro de
Investigaciones y Estudios Avanzados del Instituto Politcnico Nacional, y en el
Foro Nacional de Estadstica de Mxico. Tambin fuera de la regin mesoame-
ricana, en la Universidad de Pinar del Ro y Universidad Central de Las Villas,
Cuba, y en la Universidad de Copiap, Chile. Desde luego, la responsabilidad
del material incluido en el texto, y los posibles errores que salgan publicados,
son entera responsabilidad de los autores.
Deseamos agradecer a la Vicerrectora de Docencia de la Universidad de
Costa Rica por su apoyo durante el inicio de la redaccin de este material, as
como a la Escuela de Matemtica por las facilidades prestadas durante varios
semestres. Al Programa de Estudios de Posgrado en Matemtica por habernos
permitido dictar cursos relacionados con el material publicado, lo cual hizo que
se lograra mejorar sustancialmente el texto inicial. Los resultados numricos pre-
sentados en este libro han sido obtenidos a partir de programas elaborados por
los autores o bien con el paquete PIMAD3.0, elaborado por nuestro colega Olde-
mar Rodrguez. Algunos planos principales y crculos de correlaciones fueron
tambin hechos a partir de este paquete, y los rboles de clasicacin fueron
elaborados a partir de la programacin de nuestro colega Alex Murillo. Final-
mente, tambin agradecemos a colegas que han facilitado el uso de datos reales,
cuyo anlisis forma una parte muy importante en este libro. Algunos de ellos
son Patricia Snchez, por los datos sobre fabes asturianas; Antonio Banichevivh
y Javier Bonatti, por los datos meteorolgicos sobre concentracin del CO2;
Franklin Rosales, Luis Pocasangre y el equipo de Bioversity, por los datos so-
bre calidad y salud de suelos bananeros; y Edith Guevara, por los datos sobre el
comedor del Instituto Tecnolgico de Costa Rica.
Tabla de Contenidos
1 Estadstica Descriptiva 1
1.1 Elementos de Estadstica . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Individuos o unidades estadsticas . . . . . . . . . . . . 2
1.1.2 Las variables de la estadstica . . . . . . . . . . . . . . 4
1.2 Tablas de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Tablas de individuos variables . . . . . . . . . . . . . 8
1.2.2 Tablas de variables variables . . . . . . . . . . . . . . 10
1.2.3 Tablas de individuos individuos . . . . . . . . . . . . 12
1.3 Anlisis estadsticos univariados y bivariados . . . . . . . . . . 14
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Introduccin a la Estadstica Multidimensional 23
2.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Los espacios vectoriales asociados a las tablas de datos . . . . . 24
2.3 Nubes de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Inercia en un punto . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . . 33
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
xiii
xiv
3 Anlisis en Componentes Principales 37
3.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Objetivo del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Solucin del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1 A.C.P. normado . . . . . . . . . . . . . . . . . . . . . . 41
3.3.2 Diagonalizacin de R . . . . . . . . . . . . . . . . . . . 46
3.3.3 Vectores principales . . . . . . . . . . . . . . . . . . . 47
3.3.4 Componentes principales . . . . . . . . . . . . . . . . . 47
3.3.5 Propiedades de las componentes principales . . . . . . . 48
3.4 Representaciones grcas . . . . . . . . . . . . . . . . . . . . . 49
3.4.1 Planos principales . . . . . . . . . . . . . . . . . . . . 49
3.4.2 Crculos de correlaciones . . . . . . . . . . . . . . . . . 50
3.5 Indices de calidad . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5.1 Calidad global . . . . . . . . . . . . . . . . . . . . . . 51
3.5.2 Calidad particular . . . . . . . . . . . . . . . . . . . . . 54
3.5.3 Nmero de componentes principales . . . . . . . . . . . 57
3.6 Interpretacin de los resultados . . . . . . . . . . . . . . . . . . 58
3.7 Elementos suplementarios . . . . . . . . . . . . . . . . . . . . 60
3.7.1 Individuos suplementarios . . . . . . . . . . . . . . . . 60
3.7.2 Variables suplementarias . . . . . . . . . . . . . . . . . 61
3.8 Casos de aplicacin . . . . . . . . . . . . . . . . . . . . . . . . 61
3.8.1 Anlisis de la concentracin de CO
2
. . . . . . . . . . . 61
3.8.2 Anlisis de fabes asturianas . . . . . . . . . . . . . . . 68
3.8.3 Encuestas de opinin pblica . . . . . . . . . . . . . . . 78
J. Trejos W. Castillo J. Gonzlez xv
3.8.4 Opinin sobre un servicio de comedor . . . . . . . . . . 78
3.9 El A.C.P. general . . . . . . . . . . . . . . . . . . . . . . . . . 83
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4 Anlisis Factorial de Correspondencias 99
4.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.2 Conceptos bsicos y objetivos del A.F.C. . . . . . . . . . . . . . 99
4.2.1 Concepto de independencia entre dos variables
cualitativas . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2.2 Objetivos del A.F.C. . . . . . . . . . . . . . . . . . . . 102
4.3 Perles, distancias y algunas propiedades . . . . . . . . . . . . 103
4.3.1 Perles-la y sus pesos . . . . . . . . . . . . . . . . . . 103
4.3.2 Perles-columna y sus pesos . . . . . . . . . . . . . . . 105
4.3.3 Distancia entre perles . . . . . . . . . . . . . . . . . . 107
4.3.4 Equivalencia distribucional . . . . . . . . . . . . . . . . 107
4.3.5 Relacin entre la inercia y la cantidad
2
. . . . . . . . 109
4.4 Ejes factoriales, coordenadas y
representacin grca de perles . . . . . . . . . . . . . . . . . 109
4.4.1 A.C.P. de la nube de perles-la . . . . . . . . . . . . . 110
4.4.2 A.C.P. de la nube de perles-columna . . . . . . . . . . 111
4.4.3 Relaciones de transicin . . . . . . . . . . . . . . . . . 112
4.4.4 Representacin de modalidades suplementarias . . . . . 115
4.4.5 Acerca del centraje en A.F.C. . . . . . . . . . . . . . . 115
4.5 Interpretacin de un A.F.C.: algunos ndices . . . . . . . . . . . 116
4.5.1 Contribucin absoluta . . . . . . . . . . . . . . . . . . 116
4.5.2 Contribucin relativa . . . . . . . . . . . . . . . . . . . 117
xvi
4.5.3 Seleccin de ejes . . . . . . . . . . . . . . . . . . . . . 118
4.5.4 Seleccin de perles . . . . . . . . . . . . . . . . . . . 119
4.5.5 Ejemplo ilustrativo: tipos de vehculos . . . . . . . . . . 120
4.5.6 Aplicacin en Biologa . . . . . . . . . . . . . . . . . . 125
4.6 Propiedades del Anlisis Factorial de
Correspondencias . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5 Anlisis de Correspondencias Mltiples 137
5.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.2 La tabla de datos en A.C.M. . . . . . . . . . . . . . . . . . . . 137
5.2.1 Cdigo disyuntivo completo . . . . . . . . . . . . . . . 138
5.2.2 Mrgenes de X . . . . . . . . . . . . . . . . . . . . . . 139
5.3 Objetivos de un A.C.M. . . . . . . . . . . . . . . . . . . . . . . 140
5.3.1 Los individuos . . . . . . . . . . . . . . . . . . . . . . 140
5.3.2 Las modalidades . . . . . . . . . . . . . . . . . . . . . 140
5.3.3 El A.C.M. y otros mtodos . . . . . . . . . . . . . . . . 140
5.4 Perles y distancias en A.C.M. . . . . . . . . . . . . . . . . . . 141
5.4.1 Perles-la y distancia . . . . . . . . . . . . . . . . . . 141
5.4.2 Perles-columna y distancia . . . . . . . . . . . . . . . 142
5.5 Ejes factoriales y coordenadas factoriales en A.C.M. . . . . . . 143
5.5.1 Coordenadas factoriales de los individuos . . . . . . . . 143
5.5.2 Coordenadas factoriales de las modalidades . . . . . . . 144
5.5.3 Relaciones de transicin entre coordenadas . . . . . . . 144
5.5.4 Elementos suplementarios . . . . . . . . . . . . . . . . 145
J. Trejos W. Castillo J. Gonzlez xvii
5.6 Interpretaciones en A.C.M. . . . . . . . . . . . . . . . . . . . . 147
5.6.1 Ejemplo: datos mdicos . . . . . . . . . . . . . . . . . 148
5.6.2 Ejemplo: datos sociolgicos . . . . . . . . . . . . . . . 149
5.7 Relacin del A.C.M. con otros mtodos . . . . . . . . . . . . . 160
5.7.1 Matriz de Burt: sus propiedades . . . . . . . . . . . . . 160
5.7.2 Anlisis de una matriz de Burt . . . . . . . . . . . . . . 162
5.8 Inercia de algunas nubes de puntos . . . . . . . . . . . . . . . . 165
5.8.1 Inercia total . . . . . . . . . . . . . . . . . . . . . . . . 165
5.8.2 Inercia de nubes de modalidades . . . . . . . . . . . . . 165
5.8.3 Inercia proyectada . . . . . . . . . . . . . . . . . . . . 166
5.9 Pruebas de algunas propiedades del A.C.M. . . . . . . . . . . . 168
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
6 Clasicacin Automtica 175
6.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6.2 Medidas de Semejanza . . . . . . . . . . . . . . . . . . . . . . 177
6.2.1 Distancias y disimilitudes . . . . . . . . . . . . . . . . 177
6.2.2 Similitudes . . . . . . . . . . . . . . . . . . . . . . . . 177
6.2.3 Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . 181
6.2.4 Agregaciones . . . . . . . . . . . . . . . . . . . . . . . 188
6.3 Clasicacin Jerrquica . . . . . . . . . . . . . . . . . . . . . . 189
6.3.1 Jerarquas . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.3.2 Clasicacin jerrquica ascendente . . . . . . . . . . . 191
6.3.3 Ejemplo de las notas escolares . . . . . . . . . . . . . . 197
6.3.4 Observaciones sobre la clasicacin jerrquica . . . . . 199
xviii
6.4 Clasicacin por Particiones . . . . . . . . . . . . . . . . . . . 199
6.4.1 Problema combinatorio . . . . . . . . . . . . . . . . . . 200
6.4.2 Criterio de la inercia . . . . . . . . . . . . . . . . . . . 201
6.4.3 Mtodo de k-medias . . . . . . . . . . . . . . . . . . . 202
6.4.4 Mtodos de nubes dinmicas . . . . . . . . . . . . . . . 206
6.4.5 Mtodo de Fisher . . . . . . . . . . . . . . . . . . . . . 210
6.4.6 Anlisis de las formas fuertes . . . . . . . . . . . . . . 210
6.4.7 Uso de heursticas modernas de optimizacin . . . . . . 213
6.4.8 Aplicaciones del particionamiento . . . . . . . . . . . . 213
6.5 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.5.1 Clasicacin en Meteorologa . . . . . . . . . . . . . . 215
6.5.2 Clasicacin de variables sociolgicas . . . . . . . . . . 219
6.5.3 Clasicacin de fabes asturianas . . . . . . . . . . . . . 219
6.6 Prueba de algunos resultados tericos . . . . . . . . . . . . . . 222
6.6.1 Frmula de recurrencia de Lance & Williams . . . . . . 222
6.6.2 Propiedad de Fisher para la descomposicin de la inercia 227
6.6.3 Convergencia del mtodo de k-medias . . . . . . . . . . 228
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
7 Anlisis Discriminante Descriptivo 235
7.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
7.2 Los datos y notaciones . . . . . . . . . . . . . . . . . . . . . . 236
7.2.1 Caracterizacin de las funciones discriminantes . . . . . 243
7.2.2 Clculo de las funciones discriminantes . . . . . . . . . 244
7.2.3 Representaciones en Anlisis Discriminante Descriptivo 247
J. Trejos W. Castillo J. Gonzlez xix
7.3 Ejemplo sobre el embalse La Garita . . . . . . . . . . . . . . . 252
7.4 Cociente de Rayleigh . . . . . . . . . . . . . . . . . . . . . . . 259
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
8 Anlisis de Tablas Mltiples 267
8.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
8.2 Fundamentos del mtodo Statis . . . . . . . . . . . . . . . . . . 268
8.2.1 Objetivos de los mtodos Statis y Statis Dual . . . . . . 269
8.2.2 Producto interno y teorema de aproximacin . . . . . . 269
8.2.3 Imagen Eucldea asociada a una tabla de productos es-
calares . . . . . . . . . . . . . . . . . . . . . . . . . . 270
8.2.4 Construccin de una imagen Eucldea para la nube (O, )271
8.2.5 Imagen Eucldea centrada . . . . . . . . . . . . . . . . 272
8.3 Statis: individuos jos . . . . . . . . . . . . . . . . . . . . . . 272
8.3.1 La interestructura . . . . . . . . . . . . . . . . . . . . . 274
8.3.2 El compromiso . . . . . . . . . . . . . . . . . . . . . . 280
8.4 La intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . 283
8.4.1 Individuo visto por todas las tablas (individuos promedio) 284
8.4.2 Imagen Eucldea para los individuos de las tablas X
k
. . 285
8.5 Correlaciones de las variables con los ejes del compromiso . . . 287
8.6 Anlisis evolutivo de una encuesta de opinin . . . . . . . . . . 291
8.6.1 Construccin de la tabla de datos . . . . . . . . . . . . . 292
8.6.2 Anlisis de la interestructura . . . . . . . . . . . . . . . 292
8.6.3 Anlisis de la intraestructura . . . . . . . . . . . . . . . 293
8.7 Statis Dual: las mismas variables en los m instantes . . . . . . . 297
xx
8.7.1 La interestructura . . . . . . . . . . . . . . . . . . . . . 298
8.8 El compromiso . . . . . . . . . . . . . . . . . . . . . . . . . . 302
8.9 Intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
8.9.1 Representacin de las variables . . . . . . . . . . . . . 304
8.9.2 Relacin entre la interestructura y las trayectorias de las
variables . . . . . . . . . . . . . . . . . . . . . . . . . 308
8.9.3 Representacin de los individuos . . . . . . . . . . . . . 308
8.10 Aproximacin ptima de matrices . . . . . . . . . . . . . . . . 308
8.11 Datos del Proyecto Angostura . . . . . . . . . . . . . . . . . . 310
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
9 Nuevas Tendencias en Anlisis Multivariado 321
9.1 Optimizacin y anlisis de datos . . . . . . . . . . . . . . . . . 321
9.2 Anlisis de datos simblicos . . . . . . . . . . . . . . . . . . . 323
9.3 Minera de datos . . . . . . . . . . . . . . . . . . . . . . . . . 324
Bibliografa 327
Indice de Figuras
1.1 El coeciente de correlacin lineal muestra el tipo de relacin
entre dos variables cuantitativas . . . . . . . . . . . . . . . . . 17
2.1 Caso de variables centradas: la norma es una varianza y la co-
rrelacin es un coseno. . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Tres situaciones tpicas para la correlacin entre dos variables
centradas x
j
y x
k
. . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 La media como una proyeccin y la desviacin estndar como
una medida del error, para variables no centradas. . . . . . . . . 30
2.4 El esquema de dualidad. . . . . . . . . . . . . . . . . . . . . . 34
3.1 Proyeccin de un puntoindividuo sobre un subespacio y su com-
plemento ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2 Primer plano principal para la tabla de notas escolares, generado
por las dos primeras componentes principales. . . . . . . . . . . 50
3.3 Crculo de correlaciones para la tabla de notas escolares gene-
rado por las dos primeras componentes principales. . . . . . . . 52
3.4 Proyeccin de dos puntos individuos en el plano principal. . . . 54
3.5 Descomposicin del coseno cuadrado segn el teorema de Pit-
goras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6 Plano principal generado por las dos primeras componentes prin-
cipales del A.C.P. de los datos sin ltrado. . . . . . . . . . . . . 63
xxi
xxii
3.7 Crculo de correlaciones generado por las dos primeras compo-
nentes principales del A.C.P. de los datos sin ltrado. . . . . . . 64
3.8 Crculo de correlaciones generado por las dos primeras compo-
nentes principales del A.C.P. de los datos ltrados. . . . . . . . 66
3.9 Plano principal generado por las dos primeras componentes prin-
cipales del A.C.P. de los datos sin ltrado. . . . . . . . . . . . . 67
3.10 Fabes asturianas: plano principal y crculo de correlaciones 1-2. 75
3.11 Fabes asturianas: plano principal y crculo de correlaciones 1-3. 76
3.12 Fabes asturianas: plano principal y crculo de correlaciones 1-4. 77
3.13 Crculo de correlaciones y proyeccin de las modalidades de
sealizacin como individuos suplementarios en el primer plano
principal para los datos del comedor del I.T.C.R. . . . . . . . . 82
3.14 Esquema de dualidad en el caso del A.C.P. general. . . . . . . . 88
4.1 Componentes de una tabla de contingencia. . . . . . . . . . . . 100
4.2 Componentes de una tabla de frecuencias. . . . . . . . . . . . . 101
4.3 Tabla de perles-la. . . . . . . . . . . . . . . . . . . . . . . . 104
4.4 Tabla de perles-columna. . . . . . . . . . . . . . . . . . . . . 106
4.5 Primer plano factorial de los perles-la de la Tabla 4.1. . . . . 112
4.6 Primer plano factorial de los perles-columna de la Tabla 4.1. . 113
4.7 Primer plano factorial: todos los perles de la Tabla 4.1. . . . . 114
4.8 Valores propios del A.F.C. de la Tabla 4.4. . . . . . . . . . . . . 121
4.9 Representacin simultnea de los perles de la Tabla 4.4 en el
primer plano factorial (65.59% de inercia). . . . . . . . . . . . . 122
4.10 Representacin simultnea de los perles de la Tabla 4.4 en el
plano factorial 1-3 (% Inercia 50.91). . . . . . . . . . . . . . . . 124
4.11 Plano principal del A.F.C. de eptas y helechos (82.6% de inercia).126
4.12 Plano principal del A.F.C. de eptas y niveles (74.82% de inercia).127
J. Trejos W. Castillo J. Gonzlez xxiii
5.1 Primer plano factorial: perles de las modalidades de la Tabla
5.3, datos mdicos (66.42% de inercia). . . . . . . . . . . . . . 150
5.2 A.C.M. de las diez variables de opinin: plano principal (25%
de inercia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.3 A.C.M. de los temas empresa privadalibertad: plano princi-
pal (49% de inercia explicada). . . . . . . . . . . . . . . . . . . 157
5.4 Trayectoria seguida por las modalidades de var8 y var9 en el
plano generado por los ejes 1 y 3 (43% de inercia). . . . . . . . 158
5.5 Grco de los valores propios del A.F.C. de la matriz de Burt
correspondiente a los datos de la Tabla 5.7. . . . . . . . . . . . 163
5.6 Primer plano factorial del A.F.C. de la Matriz de Burt corres-
pondiente a los datos de la Tabla 5.7: centros de las modalidades
(18.72% de inercia). . . . . . . . . . . . . . . . . . . . . . . . . 164
6.1 Agrupacin natural de puntos del plano en 3 clases. . . . . . . . 191
6.2 Ejemplo de rbol jerrquico . . . . . . . . . . . . . . . . . . . . 192
6.3 Arbol de clasicacin obtenido al usar la agregacin del salto
mnimo en el Ejemplo 4. . . . . . . . . . . . . . . . . . . . . . 195
6.4 Arbol de clasicacin obtenido al usar la agregacin del salto
mximo en el Ejemplo 5. . . . . . . . . . . . . . . . . . . . . . 196
6.5 Arbol de clasicacin obtenido al usar la agregacin del salto
promedio en el Ejemplo 6. . . . . . . . . . . . . . . . . . . . . 197
6.6 Arbol de clasicacin obtenido al usar la agregacin del salto
promedio (Ejemplo 7). . . . . . . . . . . . . . . . . . . . . . . 199
6.7 Jerarqua obtenida sobre las formas fuertes con el mtodo de
conexidad descendente. . . . . . . . . . . . . . . . . . . . . . . 214
6.8 Arbol de clasicacin jerrquica de los instantes. . . . . . . . . 220
6.9 Arbol de clasicacin para las variables de opinin. . . . . . . . 222
6.10 Arbol jerrquico de las variedades de fabes asturianas usando
cuatro criterios de agregacin. . . . . . . . . . . . . . . . . . . 223
xxiv
6.11 Fabes asturianas: rbol jerrquico de las variables. . . . . . . . . 224
7.1 Plano principal de representacin de los centros de los sitios de
banano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
7.2 Plano principal de representacin de los individuos, como suple-
mentarios, en el plano de los centros de los sitios de banano (con
b se representan los individuos del sitio bueno, con m los de sitio
medio y con p los de sitio pobre). . . . . . . . . . . . . . . . . . 250
7.3 Crculo de correlaciones entre las variables explicativas origi-
nales y las variables discriminantes. . . . . . . . . . . . . . . . 252
7.4 Representacin suplementaria de los individuos en los ejes dis-
criminantes v
1
, v
2
. . . . . . . . . . . . . . . . . . . . . . . . . 256
7.5 Representacin de los individuos como elementos suplementar-
ios en los ejes discriminantes v
1
, v
3
. . . . . . . . . . . . . . . . 257
7.6 Correlacin entre variables y variables discriminantes z
1
, z
2
. . . 257
7.7 Correlacin entre variables y variables discriminantes z
1
, z
3
. . . 258
8.1 Proyecto Angostura: interestructura. . . . . . . . . . . . . . . . 278
8.2 Proyecto Angostura: interestructura centrada. . . . . . . . . . . 279
8.3 Proyecto Angostura: Individuos promedio, ejes 12. . . . . . . . 285
8.4 Trayectorias de los meses. . . . . . . . . . . . . . . . . . . . . 287
8.5 Proyecto Angostura: correlaciones de las variables Mg, Ca, DBO,
ST, PO
4
y Cal en el plano principal 12. . . . . . . . . . . . . . 288
8.6 Proyecto Angostura: concentracin mensual. . . . . . . . . . . 290
8.7 Interestructura para la evolucin de la opinin. . . . . . . . . . . 293
8.8 Correlacin entre variables y los ejes del compromiso para la
evolucin de la opinin. . . . . . . . . . . . . . . . . . . . . . . 293
8.9 Grupos sociales promedio: Escolaridad, Edad, Ingreso Familiar
y Provincia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
J. Trejos W. Castillo J. Gonzlez xxv
8.10 Grupos sociales promedio: partidos polticos. . . . . . . . . . . 295
8.11 Trayectorias de los grupos de edad ms opuestos. . . . . . . . . 296
8.12 Trayectorias de los escolaridad ms opuestos. . . . . . . . . . . 296
8.13 Caa de azcar: interestructura normalizada (94% de inercia). . 301
8.14 Caa de azcar: interestructura centrada (79% de inercia). . . . 302
8.15 Caa de azcar: variables activas (75% de inercia). . . . . . . . 305
8.16 Caa de azcar: variables suplementarias. . . . . . . . . . . . . 307
xxvi
Indice de Tablas
1.1 Tabla de datos de las notas escolares con peso y estatura. . . . . 9
1.2 Parte de una tabla de datos proveniente de una encuesta. . . . . . 9
1.3 Tabla de contingencia que cruza el nivel de salario con el nivel
de estudios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Tabla de Burt entre 4 de las variables acerca del servicio de
comedor del ITCR. . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Tabla de datos con la distancia entre algunas ciudades. . . . . . 13
1.6 Tabla de datos: sociomatriz en que 10 estudiantes de sexto grado
calican la anidad hacia cada uno de sus compaeros. . . . . . 14
3.1 Tabla de datos de las notas escolares. . . . . . . . . . . . . . . . 40
3.2 Correlaciones entre las materias de la tabla de notas escolares. . 47
3.3 Dos primeras componentes principales para la tabla de notas es-
colares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4 Cosenos cuadrados y calidad de la representacin para la tabla
de notas escolares. . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5 Tabla de datos para las fabes asturianas. . . . . . . . . . . . . . 70
3.6 Principales estadsticas univariadas para las fabes asturianas. . . 70
3.7 Matriz de correlaciones para las fabes asturianas. . . . . . . . . 71
xxvii
xxviii
3.8 Valores propios y porcentajes de inercia para la tabla de las fabes
asturianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.9 Fabes asturianas: cuatro primeras componentes principales. . . . 72
3.10 Fabes asturianas: correlaciones principales (con negrita se han
destacado los valores mayores para cada componente principal). 73
3.11 Fabes asturianas: comunalidades. . . . . . . . . . . . . . . . . . 74
3.12 Frecuencias relativas de las categoras en el estudio de opinin
sobre el comedor del I.T.C.R. . . . . . . . . . . . . . . . . . . . 80
3.13 Comedor del I.T.C.R.: frecuencias de las variables de sealizacin. 81
3.14 Comedor del I.T.C.R.: valores propios del A.C.P. . . . . . . . . 81
3.15 Los datos de los peces de Amiard. . . . . . . . . . . . . . . . . 94
3.16 Datos sobre las causas de muerte en algunos pases occidentales. 95
3.17 Datos sobre el consumo de protenas en Europa en 1981. . . . . 96
3.18 Importaciones provenientes de Mxico de los pases de Cen-
troamrica, entre 1979 y 1988. . . . . . . . . . . . . . . . . . . 97
4.1 Cantidad de estudiantes matriculados en universidades estatales
segn su procedencia, 1989. . . . . . . . . . . . . . . . . . . . 100
4.2 Perles-la correspondientes a la Tabla 4.1. . . . . . . . . . . . 105
4.3 Perles-columna correspondientes a la Tabla 4.1. . . . . . . . . 106
4.4 Cantidad de gasolina regular comprada, por marca y tipo de ve-
hculo, entre agosto y noviembre de 1996. . . . . . . . . . . . . 120
4.5 Valores propios del A.F.C. de la Tabla 4.4. . . . . . . . . . . . . 121
4.6 Contribuciones absolutas y cosenos cuadrados de las marcas de
vehculos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.7 Contribuciones absolutas y cosenos cuadrados de los tipos de
vehculos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
J. Trejos W. Castillo J. Gonzlez xxix
4.8 Nmero de eptas por especie sobre 4 especies de helechos
(primera parte de la tabla) y en cinco niveles (segunda parte de
la tabla). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.9 Respuestas segn el sexo. . . . . . . . . . . . . . . . . . . . . . 132
4.10 Respuestas segn la profesin. . . . . . . . . . . . . . . . . . . 133
4.11 Exportaciones no tradicionales de Costa Rica. . . . . . . . . . . 134
5.1 Tres variables cualitativas observadas en 10 individuos. . . . . . 138
5.2 Cdigo disyuntivo completo de los datos de la Tabla 5.1. . . . . 139
5.3 Datos mdicos de incontinencia: cdigos de las modalidades de
las variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.4 Valores propios del A.C.M. de la Tabla 5.3, datos mdicos. . . . 150
5.5 Frecuencias para las variables socioeconmicas. . . . . . . . . . 154
5.6 Frecuencias de las variables de opinin. . . . . . . . . . . . . . 155
5.7 Cantidad de profesores de la Universidad de Costa Rica dis-
tribuidos por AO-SEXO, AO-CRA y SEXO-CRA. . . . . . 163
5.8 Primeros 4 valores propios del A.F.C. de la matriz de Burt co-
rrespondiente a los datos de la Tabla 5.7 . . . . . . . . . . . . . 164
5.9 Tabla de datos de las razas de perros. . . . . . . . . . . . . . . . 175
6.1 Resultados de 25 corridas del mtodo de k-medias sobre la tabla
de las notas escolares. . . . . . . . . . . . . . . . . . . . . . . . 207
6.2 Clasicacin de las estaciones de observacin, usando el mtodo
de Ward. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
6.3 Clasicacin de los instantes de observacin, usando el mtodo
de Ward. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
7.1 Extracto de una tabla de las ncas bananeras con las variables
que describen la productividad. . . . . . . . . . . . . . . . . . . 237
7.2 Tabla de datos centrados de las ncas bananeras (extracto). . . . 240
xxx
7.3 Variables discriminantes del anlisis discriminante de los sitios
de banano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
7.4 Correlaciones entre las variables explicativas originales y las va-
riables discriminantes. . . . . . . . . . . . . . . . . . . . . . . 251
7.5 Tabla de datos del embalse La Garita. . . . . . . . . . . . . . . 254
7.6 Matriz C
t
g
de los centros de gravedad. . . . . . . . . . . . . . . 255
7.7 Vectores propios de la matriz V
B
V
1
. . . . . . . . . . . . . . . 255
7.8 Valores propios de la matriz V
B
V
1
. . . . . . . . . . . . . . . 256
7.9 Cosenos cuadrados de los centros de gravedad con las funciones
discriminantes. . . . . . . . . . . . . . . . . . . . . . . . . . . 256
7.10 Tabla de reses charolais y ceb. . . . . . . . . . . . . . . . . . . 265
8.1 Proyecto Angostura: matriz S de coecientes RV . . . . . . . . 277
8.2 Proyecto Angostura: valores propios de la interestructura. . . . . 278
8.3 Proyecto Angostura: calidad de la representacin de la interes-
tructura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
8.4 Proyecto Angostura: valores propios de la interestructura centrada.280
8.5 Proyecto Angostura: calidad de la interestructura centrada. . . . 280
8.6 Proyecto Angostura: valores propios de WD. . . . . . . . . . . 285
8.7 Caa de azcar: calidad de la representacin plana. . . . . . . . 301
8.8 Caa de azcar: pesos del compromiso. . . . . . . . . . . . . . 304
8.9 Proyecto Angostura: Reventazn 1 y Reventazn 3. . . . . . . . 311
8.10 Proyecto Angostura: Tus 4, Tus 5 y Turrialba2. . . . . . . . . . 312
8.11 Proyecto Hidroelctrico VentanasGarita: Verano. . . . . . . . . 316
8.12 Proyecto hidroelctrico VentanasGarita: VeranoInvierno. . . . 317
8.13 Proyecto hidroelctrico VentanasGarita: Invierno. . . . . . . . 318
8.14 Proyecto hidroelctrico VentanasGarita: InviernoVerano. . . . 319
ccxxxvi
Captulo 7
Anlisis Discriminante
Descriptivo
7.1 Introduccin
Se designa con el nombre de Anlisis Discriminante a una familia de tcnicas
utilizadas para describir y clasicar individuos caracterizados por ciertas varia-
bles, ms precisamente se trata de explicar una variable cualitativa con r mo-
dalidades con base en p variables cuantitativas llamadas variables explicativas
o predictores. Cada individuo asume una sola modalidad, denindose as una
particin del conjunto de individuos en r clases denominadas grupos a priori, o
simplemente grupos.
Se distinguen dos objetivos fundamentales que pueden ser complementarios:
1. Descriptivo: determinar cuales son las combinaciones lineales de las p va-
riables observadas que permiten diferenciar lo mejor posible (discriminar)
los r grupos. Este objetivo es de carcter descriptivo y se relaciona con
el Anlisis en Componentes Principales. Es natural entonces que se d la
mayor importancia a la construccin de representaciones bidimensionales
de los individuos, de las variables y de los grupos a priori.
2. Decisional: construir reglas de clasicacin reglas decisionales para
asignar un nuevo individuo, del cual se conocen los valores de los predic-
tores, a uno de los grupos a priori. Este objetivo es de carcter
235
236 7.2 Los datos y notaciones
decisional y su nexo es con los mtodos probabilsticos. Esencial a este
nfasis es la construccin de reglas de decisin y los procedimientos para
su evaluacin.
Los ejemplos ms clsicos de anlisis discriminante pertenecen al dominio
mdico. Suponiendo que se ha logrado un diagnstico fundamentado en una se-
rie de anlisis y exmenes realizados sobre un conjunto de pacientes, se pretende
realizar un diagnstico sobre un nuevo paciente al cual se le han practicado los
mismos exmenes y anlisis. El anlisis discriminante intentar, a partir de esta
informacin y de sus interrelaciones, prever el diagnstico ms probable.
Este captulo trata el Anlisis Discriminante solo en relacin con el primer
objetivo. Es decir, desde un punto de vista descriptivo, por eso se llama Anlisis
Discriminante Descriptivo.
7.2 Los datos y notaciones
Se consideran p variables continuas (variables explicativas) x
1
, . . . , x
p
obser-
vadas en una muestra de n individuos. Cada individuo i E se identica
con su vector (la) de mediciones en R
p
, x
t
i
= (x
i1
, . . . , x
ip
) y cada variable
x
j
con su vector (columna) de valores asumidos x
j
= (x
1j
, x
2j
, . . . , x
nj
)
t
. La
variable cualitativa y (a explicar) determina una particin P = C
1
, . . . , C
r
,
del conjunto de individuos en r grupos.
Se denota como:
X la matriz de tamao n p la cual se supone centrada en sus columnas.
Como es usual sus columnas son las variables explicativas x
j
(previamente
centradas) y los individuos x
t
i
son sus las.
D=diag(p
i
) es la matriz de pesos del conjunto de individuos .
A cada clase C
s
se le asigna el peso q
s
y centro de gravedad g
s
para
s = 1, . . . , r donde
q
s
=

iCs
p
i
y g
s
=
1
q
s

iCs
p
i
x
i
.
Se escribe D
q
= diag(q
j
) la matriz diagonal de los pesos de las r clases
J. TREJOS W. CASTILLO J. GONZLEZ 237
Adems, se denota como C
g
la matriz cuyas las son los centros de gra-
vedad g
t
s
.
Ejemplo 1 En un estudio sobre la calidad y salud de suelos bananeros en la
Cuenca del Caribe, se estudiaron varias variables fsicas, qumicas y biolgicas
que caracterizan la produccin de los cultivos. En particular, tambin se estudi
la productividad de las ncas a travs de tres variables cuantitativas:
Circunferencia de la madre (CircMadr): se llama madre a una palmera
de banano adulta, que produce un racimo prximo a la recoleccin; la
circunferencia de la mata es medida a un metro de altura del suelo, en
centmetros.
Altura del hijo (AltHijo): al lado de una madre nacen varios hijos, pero
solo uno se deja para la prxima cosecha, aqul que tiene mayor robustez
al momento de hacer la inspeccin; a ste se le llama el hijo y se mide su
altura del suelo en centmetros.
Nmero de manos (#Manos): es el nmero de grupos de frutas, llamadas
manos, que tiene el racimo; es un nmero entero, generalmente menor o
igual a 10.
Como parte del estudio mencionado, se hicieron mediciones en ms de 40
ncas de 4 pases latinoamericanos. Por ejemplo, en la tabla 7.1 se presenta una
muestra extrada de una de las tablas creadas para el estudio, correspondiente
a una de las ncas en Costa Rica (la tabla tiene realmente 220 objetos, pero por
razones didcticas utilizamos una muestra de 36 plantas de banano). Los sitios
de donde se toman los valores han sido clasicados a priori por el nquero, con
base en su experiencia, como buenos, medios y pobres, segn la productividad
histrica.
Se quiere hacer un anlisis discriminante para determinar si la clasicacin
a priori dada por el nquero con base en su experiencia, es vlida y puede servir
de base para un estudio posterior que usar todas las variables fsicas, qumicas
y biolgicas, as como esa separacin en clases para realizar los contrastes entre
los tipos de suelos.
Las clases estn denidas por:
C
1
= 3, 10, 17, 22, 40, 44, 47, 49, 58, 63, 71, 75.
238 7.2 Los datos y notaciones
Objeto CircMadr AltHijo #manos Sitio
3 101 210 9 bueno
10 93 245 9 bueno
17 83 225 8 bueno
22 94 245 8 bueno
40 84 260 9 bueno
44 92 247 9 bueno
47 86 187 8 bueno
49 82 214 9 bueno
58 84 240 9 bueno
63 90 205 9 bueno
71 94 233 9 bueno
75 92 237 10 bueno
81 78 195 8 medio
84 71 196 8 medio
96 81 203 8 medio
104 86 126 6 medio
121 81 173 7 medio
131 63 180 6 medio
136 83 232 7 medio
142 82 230 7 medio
148 83 205 7 medio
153 82 190 7 medio
155 75 220 7 medio
157 85 180 8 medio
158 82 270 8 medio
170 54 120 5 pobre
172 59 280 4 pobre
177 65 167 6 pobre
189 62 122 5 pobre
193 62 146 6 pobre
195 60 165 5 pobre
202 65 140 6 pobre
209 64 175 4 pobre
210 63 135 5 pobre
211 59 125 5 pobre
216 59 180 6 pobre
Tabla 7.1: Extracto de una tabla de las ncas bananeras con las variables que describen
la productividad.
J. TREJOS W. CASTILLO J. GONZLEZ 239
C
2
= 81, 84, 96, 104, 121, 131, 136, 142, 148, 153, 155, 157, 158.
C
3
= 170, 172, 177, 189, 193, 195, 202, 209, 210, 211, 216.
El centro de gravedad total de la nube de puntos, es decir, el vector de
medias, es
g = (77.19, 197.31, 7.14)
mientras que los centros de gravedad de las clases son
g
1
= (89.58, 229.00, 8.83),
g
2
= (79.38, 200.00, 7.23),
g
3
= (61.09, 159.55 5.18).
Finalmente, se tiene D = diag(1/36) y los pesos de las clases son
q
1
= 12/36 = 0.33, q
2
= 13/36 = 0.36, q
3
= 11/36 = 0.31.
Como se supone que las variables son centradas entonces el centro de grave-
dad del conjunto de todos los individuos es g = 0 y la matriz de covarianza
(total) V, de las p variables calculadas sobre es
V = X
t
DX =
n

i=1
p
i
x
i
x
t
i
=
r

s=1

iCs
p
i
x
i
x
i
t
.
Sea V
s
la matriz de covarianza de las p variables, calculada sobre los indivi-
duos de la s-sima clase,
V
s
=
1
q
s

iCs
p
i
(x
i
g
s
)(x
i
g
s
)
t
.
El promedio de estas matrices se dene como la matriz de covarianza de
todas las clases y se denomina matriz de covarianza intraclase y se denota como
V
W
,
V
W
=
r

s=1
q
s
V
s
=
r

s=1

iCs
p
i
(x
i
g
s
)(x
i
g
s
)
t
.
Finalmente la matriz V
B
de covarianza correspondiente a las p variables
calculadas sobre los centros de gravedad, se denomina matriz de covarianza in-
terclase, la cual es igual a,
V
B
=
r

s=1
q
s
g
s
g
t
s
= C
t
g
D
q
C
g
.
240 7.2 Los datos y notaciones
Ejemplo 2 Para los datos del ejemplo 1, la tabla de datos centrada tiene la
forma mostrada en la tabla 7.2.
Una vez centrados los datos se tiene g = (0, 0, 0) y
g
1
= (12.39, 31.69 1.69),
g
2
= (2.19, 2.69, 0.09),
g
3
= (16.10, 37.76, 1.96).
Por su parte, se tienen las siguientes matrices de varianzascovarianzas:
V =
_
_
158.93 318.83 17.36
318.83 1882.32 41.54
17.36 41.54 2.56
_
_
V
B
=
_
_
132.13 317.86 17.14
317.86 1745.10 40.49
17.14 40.49 2.46
_
_
.
V
W
= 0.33
_
_
30.74 2.92 0.68
2.92 411.67 3.17
0.68 3.17 0.31
_
_
+
+0.36
_
_
37.47 0.69 0.76
0.69 1108.00 10.62
0.76 10.62 0.49
_
_
+
+0.31
_
_
9.90 3.96 0.53
3.96 1871.52 12.83
0.53 12.83 0.51
_
_
=
_
_
26.80 0.97 0.23
0.97 137.22 1.06
0.23 1.06 0.10
_
_
.
Ntese que la correlacin entre la circunferencia del tallo (variable 2) y el
nmero de manos (variable 3) es muy alta, lo cual puede afectar los resulta-
dos.
J. TREJOS W. CASTILLO J. GONZLEZ 241
Objeto CircMadr AltHijo #manos
3 1.8882928 0.2925948 1.1622769
10 1.2537208 1.0993112 1.1622769
17 0.4605055 0.6383304 0.5377698
22 1.3330421 1.0993112 0.5377698
40 0.539827 1.4450468 1.1622769
44 1.1743991 1.1454093 1.1622769
47 0.69847 -0.2375332 0.5377698
49 0.381184 0.3847909 1.1622769
58 0.539827 0.984066 1.1622769
63 1.0157561 0.1773496 1.1622769
71 1.3330421 0.8227227 1.1622769
75 1.1743991 0.9149189 1.7867839
81 0.0638979 -0.0531409 0.5377698
84 -0.4913527 -0.0300918 0.5377698
96 0.3018624 0.1312515 0.5377698
104 0.69847 -1.6435246 -0.7112443
121 0.3018624 -0.5602198 -0.0867372
131 -1.1259249 -0.3988765 -0.7112443
136 0.4605055 0.7996737 -0.0867372
142 0.381184 0.7535756 -0.0867372
148 0.4605055 0.1773496 -0.0867372
153 0.381184 -0.1683861 -0.0867372
155 -0.1740667 0.5230852 -0.0867372
157 0.6191485 -0.3988765 0.5377698
158 0.381184 1.6755372 0.5377698
170 -1.8398186 -1.781819 -1.3357513
172 -1.443211 1.9060276 -1.9602584
177 -0.9672819 -0.698514 -0.7112443
189 -1.2052464 -1.7357209 -1.3357513
193 -1.2052464 -1.1825439 -0.7112443
195 -1.3638895 -0.7446121 -1.3357513
202 -0.9672819 -1.3208381 -0.7112443
209 -1.0466033 -0.5141217 -1.9602584
210 -1.1259249 -1.4360833 -1.3357513
211 -1.443211 -1.6665736 -1.3357513
216 -1.443211 -0.3988765 -0.7112443
Tabla 7.2: Tabla de datos centrados de las ncas bananeras (extracto).
242 7.2 Los datos y notaciones
El siguiente teorema muestra que la covarianza total se puede descomponer
en la suma de la covarianza intraclase ms la covarianza interclase.
Teorema 7.1 Sean V, V
B
, V
W
las matrices de covarianza total, interclase e
intraclase, respectivamente, entonces
1. V = V
B
+V
W
.
2.

r
s=1
q
s
g
s
= 0. Es decir rang (C
g
) r 1.
3. rang (C
g
) = rang (V
B
).
DEMOSTRACIN:
Para demostrar 1, se calcula primeramente

iCs
p
i
(x
i
g
s
)(x
i
g
s
)
t
=

iCs
(p
i
x
i
x
t
i
p
i
g
s
x
t
i
p
i
x
i
g
t
s
+p
i
g
s
g
t
s
)
=

iCs
p
i
x
i
x
t
i
g
s

iCs
p
i
x
t
i

iCs
p
i
x
i
g
t
s
+
g
s
g
t
s

iCs
p
i
=

iCs
p
i
x
i
x
t
i
q
s
g
s
g
t
s
q
s
g
s
g
t
s
+q
s
g
s
g
t
s
=

iCs
p
i
x
i
x
t
i
q
s
g
s
g
t
s
.
Sustituyendo esta ltima expresin en V
B
+V
W
se tiene
V
B
+V
W
=
r

s=1
(q
s
g
s
g
t
s
+

iCs
p
i
(x
i
g
s
)(x
i
g
s
)
t
)
=
r

s=1
(q
s
g
s
g
t
s
+

iCs
p
i
x
i
x
t
i
q
s
g
s
g
t
s
)
=
r

s=1

iCs
p
i
x
i
x
i
t
= V.
La prueba de 2. sigue de sustituir el valor de g
s
en

r
s=1
q
s
g
s
, en efecto
r

s=1
q
s
g
s
=
r

s=1

iCs
p
i
x
i
=
n

i=1
p
i
x
i
= g = 0.
J. TREJOS W. CASTILLO J. GONZLEZ 243
Para demostrar 3., ntese que las matrices V
B
y C
g
tienen el mismo ncleo
1
y
por lo tanto el mismo rango; en efecto, sea x R
r
, se tiene
V
B
x = 0 x
t
C
g
t
D
q
C
g
x = 0 (C
g
x)
t
D
q
C
g
x = 0 C
g
x = 0.
Adems
C
g
x = 0 V
B
x = 0.
En el ejemplo 2 puede comprobarse que, en efecto, se cumple
V = V
B
+V
W
sobre estos datos.
7.2.1 Caracterizacin de las funciones discriminantes
En el primer objetivo descriptivo se plantea la necesidad de encontrar funciones
que permitan separar lo mejor posible las r categoras. Desde este punto de vista
el problema que se propone resolver el anlisis discriminante puede formularse
en los siguientes trminos: entre todas las combinaciones lineales de las p varia-
bles, buscar aquellas que tienen una varianza interclase mxima (para resaltar las
diferencias entre las clases) y una varianza intraclase mnima (baja dispersin al
interior de las clases). Estas combinaciones lineales sern las llamadas funciones
discriminantes, se denotan como z
1
, . . . , z
m
y se caracterizan ms precisamente
como sigue:
1. Cada funcin discriminante z R
p
es una combinacin lineal de las p
variables originales. Esto es,
z =
p

j=1
u
j
x
j
= Xu, con u R
p
.
Como cada una de las p variables es centrada, z tambin lo es y su varianza
es
var (z) = (Xu)
t
D
p
Xu = u
t
X
t
D
p
Xu = u
t
Vu.
De acuerdo con la parte 1 del teorema 7.1 se tiene que
var (z) = u
t
Vu = u
t
V
W
u +u
t
V
B
u. (7.1)
Esta ltima igualdad muestra que la varianza de la variable z se descom-
pone en varianza al interior de las clases (intra) y varianza entre las clases
(inter), por lo que para z = Xu se denen:
1
El ncleo de una matriz Aes el conjunto de vectores x tales que Ax = 0.
244 7.2 Los datos y notaciones
Varianza intraclase de z
intra(z) = u
t
V
W
u.
Varianza interclase de z
inter(z) = u
t
V
B
u
2. Como la idea es denir mfunciones discriminantes z
1
, . . . , z
m
, es natural
plantear que ellas sean D
p
ortonormadas, es decir, no correlacionadas y
de varianza uno.
3. Los valores de cada variable z
j
en los individuos de un mismo grupo,
deben ser lo ms prximos posible. Es decir, se debe minimizar intra(z
j
),
la varianza intraclase.
4. Los valores de cada variable z
j
en los individuos pertenecientes a clases
distintas, deben ser lo ms diferentes posible. Esto es, se debe maximizar
inter(z
j
), la varianza interclase.
7.2.2 Clculo de las funciones discriminantes
Si se pide que u cumpla con u
t
Vu = 1, entonces de acuerdo con la ecuacin
(7.1)
var(z) = u
t
Vu = u
t
V
B
u +u
t
V
W
u = 1
se ve que las propiedades 3. y 4. de las funciones discriminantes son equiva-
lentes:
max
_
u
t
V
B
u

u
t
Vu = 1
_
min
_
u
t
V
W
u

u
t
Vu = 1
_
.
Luego es suciente que la funcin z = Xu satisfaga
max
_
u
t
V
B
u

u
t
Vu = 1
_
. (7.2)
Sea rang (X) = p, como
u
t
V
B
u = u
t
VV
1
V
B
u = u, V
1
V
B
u)
V
y la matriz V
1
V
B
es V-simtrica, se tiene que el mximo de (7.2) es
1
y se
alcanza en u = u
1
vector propio de la matriz V
1
V
B
asociado al primer valor
propio
1
(ver el teorema de Rayleigh en la seccin 7.4), pgina 259.
J. TREJOS W. CASTILLO J. GONZLEZ 245
La primera funcin discriminante es por lo tanto z
1
= Xu
1
. La segunda
funcin discriminante z
2
= Xu
2
se obtiene entre las que el vector u
2
satisfa-
ce la relacin (7.2) y adems es V ortogonal con u
1
. Continuando de esta
manera se tiene que la k-sima funcin discriminante z
k
= Xu
k
, est denida
por el vector u
k
el cual es solucin del problema de mximo:

k
= u
t
k
V
B
u
k
= maxu
t
V
B
u[u
t
Vu = 1, u
t
Vu
s
= 0, s = 1, . . . , k 1. (7.3)
donde los u
1
, . . . , u
k1
corresponden a las funciones discriminantes z
1
, . . . , z
k1
previamente calculadas.
De acuerdo con la parte 1 del teorema de Rayleigh (ver la seccin 7.4) u
k
es vector propio de V
1
V
B
asociado al k-simo valor propio
k
. As
k
es la
inercia interclases de la ksima variable discriminante. Ntese que
k
[0, 1] .
Los resultados anteriores indican que el problema de encontrar las funciones
discriminantes se reduce al clculo de los valores y vectores propios de la matriz
V
1
V
B
.
El siguiente teorema muestra que las variables z
j
tambin se pueden calcular
a partir de un A.C.P., lo cual permite obtener representaciones bidimensionales
de los individuos, de las clases (en planos principales) y de las variables (en
crculos de correlaciones), como se present en el captulo 3 sobre el Anlisis
en Componentes Principales. Estas representaciones ayudan a vericar si las
variables discriminan las clases a priori y si es posible describirlas en trminos
de las variables originales.
Teorema 7.2 Sea X de rango p, es decir, V es invertible. Si v
1
, . . . , v
t
son los
vectores propios del A.C.P. de la nube de centros de gravedad
^
g
= (C
g
, V
1
, D
q
), ortonormados segn la mtrica V
1
, con valores pro-
pios correspondientes
1
>
2
> . . . >
t
, entonces las variables discrimi-
nantes son z
j
= XV
1
v
j
= Xu
j
, j = 1, . . . , t.
DEMOSTRACIN:
En este caso los vectores v
1
, . . . , v
t
son vectores propios de la matriz
C
g
t
D
q
C
g
V
1
= V
B
V
1
, de donde sigue que para j = 1, . . . , t, u
j
= V
1
v
j
es un vector propio de V
1
V
B
con valor propio correspondiente
j
. Adems,
los vectores propios u
1
, . . . , u
t
son Vortonormados. Se tiene entonces que las
componentes principales z
j
= Xu
j
= XV
1
v
j
, j = 1, . . . , t, son las funciones
discriminantes.
246 7.2 Los datos y notaciones
Cada valor propio
i
se llama poder discriminante y el vector propio corres-
pondiente v
i
, eje discriminante. Los ejes discriminantes son entonces los ejes de
mxima inercia de la nube de centros de gravedad (baricentros). En este sentido
se dice que son los ejes que ms discriminan los grupos a priori.
Ejemplo 3 Dando continuacin al ejemplo 2, se tiene
V
1
=
_
_
0.02 0.00 0.16
0.00 0.00 0.01
0.16 0.01 1.58
_
_
.
Al diagonalizar V
B
V
1
se obtienen los valores propios
1
= 0.89 y
2
=
0.03, que explican respectivamente 97% y 3% de la inercia de la nube de cen-
tros ^
g
. Los vectores propios respectivos son: v
1
= (0.65, 0.08, 0.76)
t
,
v
2
= (0.50, 0.80, 0.35)
t
. Las variables discriminantes se muestran en la
tabla 7.3.
J. TREJOS W. CASTILLO J. GONZLEZ 247
Objeto Comp.1 Comp.2
3 -1.593 -8.632
10 -1.355 -0.890
17 -0.580 1.035
22 -1.082 -8.730
40 -1.025 7.505
44 -1.319 0.047
47 -0.605 -2.191
49 -0.825 8.732
58 -0.973 7.246
63 -1.129 1.326
71 -1.365 -1.956
75 -1.607 6.846
81 -0.298 5.202
84 -0.013 11.594
96 -0.441 2.572
104 0.181 -16.837
121 -0.050 -4.744
131 0.984 4.819
136 -0.284 -5.803
142 -0.237 -4.918
148 -0.214 -6.153
153 -0.134 -5.436
155 0.075 1.331
157 -0.546 -1.370
158 -0.655 2.528
170 1.821 5.315
172 1.519 -4.099
177 0.935 2.828
189 1.488 -1.949
193 1.112 5.290
195 1.460 0.430
202 1.005 2.479
209 1.584 -10.014
210 1.414 -2.692
211 1.604 0.824
216 1.148 8.464
Tabla 7.3: Variables discriminantes del anlisis discriminante de los sitios de banano.
248 7.2 Los datos y notaciones
El teorema 7.3, cuya prueba se deja como ejercicio, tiene un inters prctico
en la implementacin computacional del Anlisis Discriminante Descriptivo. Se
sabe que el proceso de diagonalizacin de una matriz representa un esfuerzo
computacional signicativo. Para lograr ms eciencia en ese proceso se debe
procurar diagonalizar siempre una matriz simtrica del menor tamao posible,
an cuando posteriormente se deban hacer ciertas transformaciones. El teorema
7.3 garantiza que esto siempre es posible ya que as es suciente diagonalizar
una matriz r r lo cual es ventajoso si r < p.
Teorema 7.3 Sea C = C
g
t
D
q
1
2
, p r. Entonces
1. V
B
= CC
t
.
2. Si e
1
, . . . , e
t
son vectores propios I
r
-ortonormados de C
t
V
1
C, asocia-
dos respectivamente a los valores propios no ceros,
1
, . . . ,
t
. Entonces
v
1
, . . . , v
t
son vectores propios V
1
-ortonormados de V
B
V
1
asocia-
dos a los mismos valores propios
j
, donde v
j
=
Ce
j

j
.
7.2.3 Representaciones en Anlisis Discriminante
Descriptivo
A partir de los resultados obtenidos con el teorema 7.2, se pueden construir las
siguientes representaciones bidimensionales para el caso de ms de dos grupos
a priori, es decir, r > 2.
Representacin de los grupos a priori
Se ha visto que el Anlisis Discriminante Descriptivo se puede interpretar como
la bsqueda de los ejes (en R
p
) ms discriminantes de los grupos a priori, en el
sentido de maximizacin de la inercia interclases. Estos ejes son los vectores
propios del A.C.P. de ^
g
=
_
C
g
, V
1
, D
q
_
(ver teorema 7.2), lo que permite al
mismo tiempo calcular las funciones discriminantes. Para obtener las representa-
ciones bidimensionales de los centros de gravedad de los grupos, se proyectan
stos, V
1
ortogonalmente sobre los planos principales del A.C.P.
De lo anterior sigue que la coordenada del centro de gravedad g
s
del grupo
C
s
, sobre el eje j simo es: coord
j
(g
s
) = g
t
s
V
1
v
j
. Se puede entonces hacer
una representacin grca de los centros de gravedad en un plano principal.
J. TREJOS W. CASTILLO J. GONZLEZ 249
Ejemplo 4 El plano principal de representacin de los centros de los 3 grupos o
sitios de banano se muestra en la gura 7.1. Puede verse una buena separacin
entre los centros, bien alejados entre s
Eje 2
Eje 1
6
?
-

1-BUENO

2-MEDIO

3-POBRE
Figura 7.1: Plano principal de representacin de los centros de los sitios de banano.
Representacin de las variables como son denidas por los
grupos a priori
Las columnas de la matriz C
g
, de dimensin r (el nmero de grupos), repre-
sentan las variables tal como son descritas por los grupos a priori ya que cada
columna y
j
de C
g
es el vector (g
1j
, . . . , g
rj
), donde g
sj
es el promedio de la
variable explicativa x
j
en el grupo C
s
. Se les llamar variables promedio.
Por las frmulas de dualidad del A.C.P. (ver seccin 3.9, pgina 83) se sabe
que las columnas de la matriz (v
1
. . . v
t
) D

son las coordenadas de las colum-


nas y
j
de C
g
. Es decir, coord
s
_
y
j
_
=

s
v
js
para j = 1, . . . , p y s = 1, . . . , t.
250 7.2 Los datos y notaciones
Superponiendo el grco de los grupos a priori y el de las variables prome-
dio, es posible analizar la inuencia de las variables en la determinacin de los
grupos a priori.
Representacin de los individuos
Los individuos se proyectan en suplementario sobre los ejes discriminantes, es
decir, sobre los ejes principales del A.C.P. de la nube de centros
^
g
= (C
g
, V
1
, D
q
). Sea x
i
el isimo individuo, su coordenada sobre el
j simo eje es:
coord
j
(x
i
) = x
t
i
V
1
v
j
.
Es claro que el vector de coordenadas de los individuos sobre el jsimo
eje es la funcin discriminante z
j
= Xu
j
.
Ejemplo 5 El plano principal de representacin de los individuos, como puntos
suplementarios en el plano de los centros de los 3 grupos o sitios de banano, se
muestra en la gura 7.2. Se aprecia que, en general, los puntos de cada sitio
estn agrupados entre s y bien separados de los puntos de los otros sitios. Solo
hay tres excepciones para algunos puntos del sitio medio, que se mezclan con
los sitios vecinos.
Representacin de las variables
Las variables explicativas originales se representan en el sistema D
p
ortonor-
mado determinado por las variables discriminantes. La coordenada de la
variable x
j
(columna j sima de X) sobre el eje s simo es: coord
s
_
x
j
_
=
(x
j
)
t
D
p
z
s
= v
js
. En efecto, como z
s
= XV
1
v
s
entonces el vector de
coordenadas de las variables en la direccin de la variable discriminante z
s
es,
X
t
D
p
z
s
= X
t
D
p
XV
1
v
s
= v
s
.
Si las variables son estandarizadas (varianza igual a 1) entonces la coordenada
est dada por la correlacin coord
s
_
x
j
_
= r
_
x
j
, z
s
_
y las variables se pueden
representar como en el A.C.P. normado, en un crculo de correlaciones.
J. TREJOS W. CASTILLO J. GONZLEZ 251
Eje 2
Eje 1
6
?
-
b
b
b
b
b
b
b
b
b
b
b
b
m
m
m
m
m
m
m
m
m
m
m
m
m
p
p
p
p
p
p
p
p
p
p
p

Figura 7.2: Plano principal de representacin de los individuos, como suplementarios,


en el plano de los centros de los sitios de banano (con b se representan los
individuos del sitio bueno, con m los de sitio medio y con p los de sitio
pobre).
Ejemplo 6 En el caso de los datos de banano que se han venido exponiendo, las
correlaciones entre las componentes principales y las variables originales, todas
con 36 dimensiones, se muestran en la tabla 7.4. El crculo de correlaciones
respectivo se presenta en la gura 7.3.
El caso de dos grupos a priori
Cuando solo hay dos grupos a priori, las representaciones se simplican ya que el
rango de V
B
(y por tanto el de V
B
V
1
) vale 1. En este caso, si q
1
, q
2
denotan
los pesos de cada grupo, g
2
g
1
es un vector propio de V
B
V
1
asociado al
nico valor propio q
1
q
2
|g
2
g
1
|
V
1 (ver ejercicio 4). En consecuencia, las
252 7.2 Los datos y notaciones
Variable Comp.1 Comp.2
CircMadre -0.961 -0.269
AltHijo -0.676 0.083
#Manos -0.961 0.258
Tabla 7.4: Correlaciones entre las variables explicativas originales y las variables dis-
criminantes.
representaciones tanto de los individuos, los centros de gravedad y las variables,
se hacen sobre una recta.
Indices de calidad
La calidad de la discriminacin en un subespacio principal de dimensin q es el
porcentaje de inercia explicada:
100

q
j=1

j
Inercia Total
= 100

q
j=1

t
j=1

j
donde t es el nmero de valores propios positivos del A.C.P. de la nube
^
g
=
_
C
g
, V
1
, D
q
_
.
La calidad de la representacin de los centros de gravedad de la clase l-sima
y del i-simo individuo sobre el s-simo eje discriminante se mide por medio de
los cosenos cuadrados de la misma forma como se hace en A.C.P. Las frmulas
para el clculo de estos cosenos son:
Centro de gravedad de la clase l:
cos
2
(g
l
, s) =
|Pr
s
(g
l
)|
2
V
1
|g
l
|
2
V
1
=
_
_
_
g
t
l
V
1
v
s
_
v
s
_
_
2
V
1
g
t
l
V
1
g
l
=
(g
t
l
V
1
v
s
)
2
g
t
l
V
1
g
l
.
Individuos:
cos
2
(i, s) =
|Pr
s
(x
i
)|
2
V
1
|x
i
|
2
V
1
=
_
_
_
x
t
i
V
1
v
s
_
v
s
_
_
2
V
1
x
t
i
V
1
x
i
=
(x
t
i
V
1
v
s
)
2
x
t
i
V
1
x
i
.
donde Pr
s
(g
l
) denota la proyeccin del vector g
l
a lo largo del vector v
s
que
dene el s-simo eje discriminante.
J. TREJOS W. CASTILLO J. GONZLEZ 253
6
-
?

Eje 1
Eje 2

CircMadr
AltHijo
#manos
Figura 7.3: Crculo de correlaciones entre las variables explicativas originales y las va-
riables discriminantes.
7.3 Ejemplo sobre el embalse La Garita
Los siguientes datos son tomados del anlisis de la calidad del agua realizado
por el Instituto Costarricense de Electricidad (ICE) en el complejo hidrolctrico
Ventanas Garita.
La tabla de datos est conformada por las mediciones de 12 variables rela-
cionadas con la contaminacin de los ros y un ndice de calidad obtenido con
algunas de ellas. Las mediciones son mensuales y se hicieron durante un ao en
nueve puntos de muestreo, uno en cada ro que llega al embalse (cinco en total),
tres en el embalse y una a la salida de ste.
Las variables estn medidas en unidades de concentracin, salvo la Calidad
que es un ndice entre cero y cien y son las siguientes (entre parntesis se coloca
el nombre abreviado de la variable): Nitratos (NIT), Fosfatos (FOS), Cali-
dad del agua (CAL), Slidos totales (STT), potencial Hidrgeno (PH), Man-
ganeso (MN), Zinc (ZN), Slidos Sedimentables (SS), Alcalinidad (ALC),
254 7.3 Ejemplo sobre el embalse La Garita
Cloro (CL), Caudal (CAU), Demanda Bioqumica de Oxgeno (DBO) y Por-
centaje de Saturacin de Oxgeno (PSO).
Los 9 puntos de muestreo son (entre parntesis se coloca el nombre abre-
viado del punto de muestreo): Presa (P), Alajuela (A), Ciruelas (C), Virilla (V)
y Quebrada Soto (Q), Embalse Orilla (EO), Embalse Centro (EC), Embalse
Salida (ES) y Desfogue (D). Los datos se pueden ver en la tabla 7.5.
El objetivo es utilizar el Anlisis Factorial Discriminate para investigar la
relacin entre la contaminacin de los ros y la estacin del ao, que en Costa
Rica son cuatro: Verano (V), transicin Verano-Invierno (VI), Invierno (I) y tran-
sicin Invierno-Verano (IV).
Para satisfacer este objetivo se organiza la informacin de la manera si-
guiente: X es la matriz de tamao 36 13, donde cada la es un sitio-estacin
que corresponde al sitio de muestreo y la estacin del ao en que se realiz la
medicin, de esta manera cada punto de muestreo aporta cuatro las, por ejem-
plo para el Virilla son VV, VVI, VI, VIV(el nombre se forma con la etiqueta
del punto de muestreo seguida de la etiqueta de la estacin). Las columnas estn
formadas por el promedio de cada variable sobre los meses correspondientes a
cada estacin.
Se asigna a todos los individuos (sitio-estacin) el mismo peso, es decir
p
i
=
1
36
para i = 1, . . . 36. De esta manera los cuatro grupos V,VI,I,IV, tie-
nen el mismo peso q
i
=
1
4
y estan formados por:
Grupos Individuos
G1: V PV DV EOV ESV ECV AV CV QV VV
G2: VI PVI DVI EOVI ESVI ECVI AVI CVI QVI VVI
G3: I PI DI EOI ESI ECI AI CI QI VI
G4: IV PIV DIV EOIV ESIV ECIV AIV CIV QIV VIV
La matriz C
t
g
cuyas columnas son los centros de gravedad calculados de la
matriz X centrada y reducida, se muestra en la Tabla 7.6.
La matriz de covarianza de los centros de gravedad es V
B
=
1
4
C
t
g
C
g
y la
matriz de Covarianza de las variables denidas por la tabla Xes, en este caso, la
matriz de correlaciones. Los vectores y valores propios (positivos) de la matriz
de rango 3, V
B
V
1
se muestran respectivamente en las tablas 7.7 y 7.8.
J. TREJOS W. CASTILLO J. GONZLEZ 255
Sitio/
NIT FOS CAL STT PH MN ZN SS ALC CL CAU DBO PSO
Estacin
PV 1.44 0.78 58.25 126.75 7.29 0.21 0.02 0.66 120.50 3.92 17.85 25.00 53.25
PVI 2.70 1.13 62.50 195.00 7.50 0.20 0.02 1.15 104.50 4.10 28.20 90.70 77.00
PI 3.89 0.35 79.25 176.50 7.41 0.37 0.28 0.62 80.25 3.35 53.27 3.77 89.75
PIV 1.87 0.48 68.00 171.00 7.50 0.18 0.66 0.75 97.50 3.05 46.75 26.60 72.50
AV 2.36 0.43 69.00 156.50 8.41 0.06 0.03 0.20 150.75 7.85 0.45 16.70 87.25
AVI 1.88 0.96 68.50 230.00 8.10 0.16 0.16 0.95 116.50 17.70 0.90 46.35 84.00
AI 2.13 0.24 80.25 176.25 7.74 0.25 0.07 0.62 104.75 5.90 1.64 4.47 86.00
AIV 1.06 0.46 73.00 180.50 8.05 0.12 0.25 0.45 135.00 10.55 1.21 8.90 79.00
EOV 0.83 0.63 53.25 169.00 7.70 0.18 0.26 0.70 136.75 3.60 12.00 22.17 76.50
EOVI 2.31 1.20 60.50 224.50 7.27 0.16 0.06 0.95 97.00 4.10 12.00 24.25 61.00
EOI 3.96 0.27 81.25 160.50 7.17 0.36 0.05 0.32 158.00 3.25 20.00 1.32 82.00
EOIV 1.37 0.36 66.50 158.00 7.30 0.14 0.21 0.85 99.50 2.60 20.00 6.60 49.50
ECV 1.06 0.69 55.50 177.25 7.21 0.18 0.02 0.72 127.75 3.70 12.00 13.55 58.25
ECVI 2.57 1.21 58.50 288.00 7.25 0.41 0.05 0.65 95.00 4.25 12.00 22.45 57.00
ECI 3.86 0.27 81.50 168.00 7.16 0.17 0.48 0.46 78.75 3.35 20.00 1.35 81.75
ECIV 1.11 0.45 60.50 157.50 7.25 0.16 0.07 1.00 99.50 2.75 20.00 9.65 41.50
ESV 0.91 0.66 59.00 160.25 7.25 0.18 0.03 0.49 125.75 3.37 12.00 14.02 43.25
ESVI 2.52 1.10 61.50 217.00 7.35 0.21 0.10 0.85 98.00 4.25 12.00 21.65 64.00
ESI 4.14 0.25 82.75 152.25 7.26 0.20 0.09 0.37 79.50 3.35 20.00 1.45 84.50
ESIV 1.05 0.37 64.50 156.50 7.30 0.14 0.16 0.45 101.50 2.75 20.00 8.10 47.00
QV 2.14 0.55 71.25 188.25 8.36 0.03 0.02 0.20 165.00 3.60 0.14 3.27 66.50
QVI 2.42 1.58 68.50 209.00 8.20 0.04 0.03 0.35 153.00 4.55 0.35 20.10 85.50
QI 2.66 0.40 82.25 186.50 8.00 0.02 0.06 0.16 162.50 3.42 0.61 1.75 85.25
QIV 2.22 0.75 78.00 185.50 8.30 0.00 0.15 0.20 178.50 2.90 0.36 1.50 85.50
CV 3.60 0.52 72.25 184.75 8.44 0.03 0.01 0.42 149.50 8.12 1.37 4.77 88.25
CVI 3.73 1.39 63.50 232.50 8.05 0.12 0.04 0.75 128.50 9.30 3.04 46.00 70.00
CI 3.71 0.37 80.00 190.25 7.75 0.22 0.05 0.46 113.25 7.07 4.68 1.85 83.00
CIV 4.76 0.83 72.50 159.00 8.05 0.08 0.15 0.40 105.00 6.65 3.58 3.50 84.50
VV 7.64 1.19 58.50 335.50 8.05 0.28 0.06 1.85 182.25 12.90 16.67 21.50 83.50
VVI 5.72 1.91 57.00 404.00 8.05 0.31 0.07 1.75 153.50 12.85 17.25 116.9 86.50
VI 6.09 0.87 67.00 321.25 7.80 0.28 0.11 1.27 136.00 9.05 50.05 9.35 90.50
VIV 4.65 0.76 73.00 254.00 8.05 0.20 0.32 0.95 144.50 7.80 42.20 6.50 88.00
DV 0.88 0.70 61.00 172.25 7.31 0.19 0.02 0.55 129.00 3.75 19.90 11.07 48.50
DVI 2.32 0.90 64.00 227.50 7.40 0.26 0.16 0.95 101.00 4.10 37.10 54.15 68.50
DI 4.08 0.27 81.25 169.00 7.32 0.17 0.04 0.70 85.75 3.27 59.75 1.92 84.50
DIV 1.05 0.32 67.00 134.00 7.30 0.17 0.03 0.70 103.50 2.90 62.25 8.10 51.00
Tabla 7.5: Tabla de datos del embalse La Garita.
256 7.3 Ejemplo sobre el embalse La Garita
Variable G1 G2 G3 G4
FOS -0.30 0.07 0.64 -0.42
NIT -0.07 1.36 -0.85 -0.44
CAL -0.73 -0.65 1.28 0.10
STT -0.23 0.84 -0.17 -0.45
PH 0.28 0.05 -0.37 0.03
MN -0.31 0.30 0.50 -0.49
ZN -0.51 -0.33 0.10 0.73
SS -0.12 0.62 -0.36 -0.13
ALC 0.74 -0.21 -0.39 -0.14
CL 0.03 0.49 -0.26 -0.26
CAU -0.46 -0.27 0.40 0.32
DBO -0.17 1.23 -0.65 -0.41
PSO -0.37 -0.02 0.81 -0.42
Tabla 7.6: Matriz C
t
g
de los centros de gravedad.
Vector propio
v
1
v
2
v
3
1 0.36 0.18 0.20
2 0.56 0.68 0.13
3 0.84 0.09 0.18
4 0.13 0.50 0.15
5 0.23 0.05 0.04
6 0.27 0.29 0.21
7 0.17 0.12 0.59
8 0.22 0.32 0.00
9 0.30 0.26 0.30
10 0.18 0.24 0.12
11 0.30 0.04 0.30
12 0.42 0.64 0.10
13 0.47 0.16 0.19
Tabla 7.7: Vectores propios de la matriz V
B
V
1
.
J. TREJOS W. CASTILLO J. GONZLEZ 257
Valor propio Inercia % explicado % acumulado

1
0.8834 38.65% 38,65%

2
0.8705 38.08% 76.73%

3
0.5320 23.27% 100.00%
Tabla 7.8: Valores propios de la matriz V
B
V
1
.
Eje 2
Eje 1
6
?
-

PV-1

PVI-2

P -3

PIV-4

AV-1
AVI-2

AI-3

AIV-4

EOV-1
EOVI-2

EOI-3

EOIV-4

ECV-1

ECVI-2

ECI-3

ECIV-4
ESV-1

ESVI-2

ESI-3

ESIV-4

QV-1

QVI-2

QI-3

QIV-4

CV-1

CVI-2

CI-3

CIV-4

VV-1

VVI-2

VI-3

VIV-4

DV-1

DVI-2

DI-3

DIV-4
G1
G 2

G3

G4
Figura 7.4: Representacin suplementaria de los individuos en los ejes discriminantes
v
1
, v
2
.
cos
2
(g
l
, 1) cos
2
(g
l
, 2) cos
2
(g
l
, 3) Total
G1 0.241 0.332 0.427 1
G2 0.128 0.870 0.002 1
G3 0.949 0.000 0.051 1
G4 0.016 0.131 0.853 1
Tabla 7.9: Cosenos cuadrados de los centros de gravedad con las funciones discrimi-
nantes.
258 7.3 Ejemplo sobre el embalse La Garita
Eje 3
Eje 1
6
?
-
PV-1
PVI-2

PI-3

PIV-4

AV-1

AVI-2

AI-3

AIV-4

EOV-1
EOVI-2

EOI-3

EOIV-4

ECV-1

ECVI-2

ECI-3

ECIV-4
ESV-1

ESVI-2

ESI-3

ESIV-4

QV-1

QVI-2

QI-3

QIV-4

CV-1

CVI-2

CI -3
CIV-4

VV-1
VVI-2

VI-3

VIV-4

DV-1

DVI-2

DI -3

DIV-4

G-1

G-2

G-3

G-4
Figura 7.5: Representacin de los individuos como elementos suplementarios en los
ejes discriminantes v
1
, v
3
.
6
-
?

Eje 2
Eje 1

NIT

FOS

CAL

STT

PH

MN

ZN

SS

ALC

CL

CAU

DBO

PSO
Figura 7.6: Correlacin entre variables y variables discriminantes z
1
, z
2
.
J. TREJOS W. CASTILLO J. GONZLEZ 259
6
-
?

Eje 3
Eje 1

NIT

FOS

CAL

STT

PH

MN

ZN

SS

ALC

CL

CAU

DBO

PSO
Figura 7.7: Correlacin entre variables y variables discriminantes z
1
, z
3
.
De la observacin de los grcos de planos y crculos, adems de las tablas
de vectores propios y cosenos cuadrados, se puede decir lo siguiente:
El primer eje discriminante separa el grupo 3 (Invierno) de los restantes.
El segundo eje separa el grupo 2 (n del Verano ) y el tercer eje opone el
grupo 1 (Verano) al grupo 4 (n del Invierno).
La variable discriminante z
1
est determinada por una mayor contribucin
(mayor peso absoluto en la combinacin lineal) de las variables Caudal,
Porcentaje de saturacin de oxgeno, Alcalinidad y pH, todas ellas de im-
portancia en la calidad del agua. El grupo 3 corresponde a la poca llu-
viosa, con los mayores caudales, mejor oxigenacin del agua. y por ende
un mayor ndice de calidad. La variable z
2
, denida fundamentalmente
por las variables STT, SS, DBO y FOS, indicadores de la presencia de
slidos, minerales y contaminacin con desechos rganicos contribuye a
la separacin del grupo 2, poca del n del verano, caracterizada por el
bajo caudal, alta DBO y gran presencia de slidos, todo lo cual contribuye
a un bajo ndice de calidad del agua. La variable discriminante z
3
denida
en mayor grado por las variables ZN, ALC y Caudal, separa el grupo 4 (n
del Invierno) del grupo 1 (inicio del Verano). El grupo 4 tiene una mayor
260 7.4 Cociente de Rayleigh
presencia de Zinc que el grupo 1.
No se ha puesto el grco de las variables denidas sobre los cuatro grupos,
por el hecho que en este ejemplo, el valor propio
1
es aproximadamente igual a

2
, por lo que la representacin en el crculo de correlaciones es similar al de las
variables denidas sobre el total de individuos (ver la Tabla 7.8 y la Figura 7.6).
7.4 Cociente de Rayleigh
Sea Muna mtrica sobre el espacio R
n
y sea Aun operador M-simtrico, es de-
cir, tal que el producto interno denido por Mcumple Ax, y)
M
= x, Ay)
M
=
x
t
A
t
My, para todo par de vectores x, y R
n
(o, lo que es equivalente matri-
cialmente, cumple que (MA)
t
= MA). Si x R
n
, x ,= 0, la expresin
R(x) =
Ax, x)
M
|x|
2
M
se denomina cociente de Rayleigh y tiene, entre otras, las propiedades que se
enuncian en los dos teoremas que siguen.
Teorema 7.4 (Teorema de Rayleigh) Sean Aun operador Msimtrico sobre
R
n
, x R
n
, x ,= 0, B = u
1
, . . . , u
n
la base de R
n
de vectores propios
de A, Mortonormados, asociados a los valores propios ordenados en orden
decreciente
1

2
. . .
n
.
Si E
k
= Clu
1
, . . . , u
k
denota el subespacio de R
n
generado por los vec-
tores propios correspondientes a los k primeros valores propios y E

k
denota el
complemento M-ortogonal de E
k
, entonces
1.
k
= max
xE

k1
R(x) = min
xE
k
R(x) con x ,= 0, k = 2, . . . , n 1.
2.
1
= max
xR
n R(x) y
n
= min
xR
n R(x), con x ,= 0.
J. TREJOS W. CASTILLO J. GONZLEZ 261
DEMOSTRACIN:
Expresando x R
n
en trminos de la base B se tiene:
x =
n

j=1
x, u
j
)
M
u
j
;
A(x) =
n

i=1
x, u
i
)
M
A(u
i
)
=
n

i=1

i
x, u
i
)
M
u
i
.
Luego
Ax, x)
M
=
n

i=1

i
x, u
i
)
M
u
i
,
n

j=1
x, u
j
)
M
u
j
)
M
=
n

i=1
n

j=1

i
x, u
i
)
M
x, u
j
)
M
u
i
, u
j
)
M
=
n

i=1

i
x, u
i
)
2
M
(por ortonormalidad de B).
Si x E

k1
se tiene que x, u
i
)
M
= 0 por i = 1, . . . , k 1. Adems como
para k i se tiene que
k

i
se sigue que:
Ax, x)
M
=
n

i=1

i
x, u
i
)
2
M
=
n

i=k

i
x, u
i
)
2
M

k
n

i=k
x, u
i
)
2
M

k
|x|
2
M
.
Por otra parte si x E
k
se tiene x, u
i
)
M
= 0 para i = k + 1, . . . , n
Ax, x)
M
=
n

i=1

i
x, u
i
)
2
M
=
k

i=1

i
x, u
i
)
2
M

k
k

i=1
x, u
i
)
2
M
=
k
|x|
2
M
.
Como R(u
k
) =
k
y u
k
E

k1
, u
k
E
k
, se tiene que:
max
xE

k1
R(x) =
k
min
xE
k
R(x) =
k
262 7.4 Cociente de Rayleigh
si x E se tiene que:

n
|x|
2
M
Ax, x)
M

1
|x|
2
M
Luego:

n
R(x)
1
.
Teorema 7.5 Sea A un operador Msimtrico sobre R
n
, B = u
1
, . . . , u
n

una base M-ortonormal de R


n
formada de vectores propios de A asociados a

1
. . .
n
respectivamente.
Si x
1
, . . . , x
k
un subconjunto arbitrario de vectores de R
n
, M-ortonor-
males, entonces
k

j=1
Ax
j
, x
j
)
M

k

j=1

j
.
La igualdad se tiene para x
1
, . . . , x
k
= u
1
, . . . , u
k
, los vectores propios
de Aasociados a
1
. . .
k
.
DEMOSTRACIN:
x
j
=
n

i=1
x
j
, u
i
)
M
u
i
Ax
j
, x
j
)
M
=
n

i=1

i
x
j
, u
i
)
M
u
i
,
n

i=1
x
j
, u
i
)
M
u
i
)
M
=
n

i=1

i
x
j
, u
i
)
2
M
k

j=1
Ax
j
, x
j
)
M
=
k

j=1
n

i=1

i
x
j
, u
i
)
2
M
=
n

i=1

i
k

j=1
x
j
, u
i
)
2
M
=
n

i=1

i
C
i
,
J. TREJOS W. CASTILLO J. GONZLEZ 263
con C
i
=

k
j=1
x
j
, u
i
)
2
M
. Adems vase que

n
i=1
C
i
= k:
n

i=1
C
i
=
n

i=1
k

j=1
x
j
, u
i
)
2
M
=
k

j=1
n

i=1
x
j
, u
i
)
2
M
=
k

j=1
|x
j
|
2
M
= k.
Finalmente,
k

j=1
Ax
j
, x
j
)
M
=
n

i=1

i
C
i
=
k1

i=1

i
C
i
+
n

i=k

i
C
i

k1

i=1

i
C
i
+
k
n

i=k
C
i
=
k1

i=1

i
C
i
+
k
(k
k1

i=1
C
i
)
=
k1

i=1
(
i

k
)C
i
+
k
k
k

i=1

i
.
La ltima desigualdad sigue del hecho que C
i
1. En efecto, se puede comple-
tar una base x
i
[i = 1, , n y |u
i
|
2
M
=

n
j=1
x
j
, u
i
)
2
M
= 1.
Ejercicios
1. Demostrar que si u es vector propio de V
1
V
B
asociado a ,= 1, en-
tonces u es vector propio de W
1
V
B
asociado a =

1
.
2. Para el caso de dos grupos a priori de centros de gravedad g
1
, g
2
.
Demuestre que:
(a) Solamente hay una variable discriminante y en tal caso el eje dis-
criminante est determinado por el vector v = g
1
g
2
.
(b) Si q
1
, q
2
son los pesos de las clases (q
1
g
1
+q
2
g
2
= 0 y q
1
+q
2
= 1);
demuestre que
V
B
= q
1
g
1
(g
t
1
g
t
2
)
V
B
= q
2
g
2
(g
t
1
g
t
2
).
264 7.4 Cociente de Rayleigh
3. Use el ejercicio 2 para demostrar que V
B
= q
1
q
2
(g
1
g
2
)(g
1
g
2
)
t
.
4. Demuestre que u = V
1
(g
1
g
2
) es vector propio de V
1
V
B
asociado
al valor propio = q
1
q
2
(g
1
g
2
)
t
V
1
(g
1
g
2
), y adems u es vec-
tor propio de W
1
V
B
asociado al valor propio =

1
= q
1
q
2
(g
1

g
2
)
t
W
1
(g
1
g
2
).
Nota: estos resultados muestran que en el A.C.P. de la nube de centros de
gravedad se pueden utilizar como mtricas indistintamente V
1
o V
1
W
,
esta ltima se llama mtrica de Mahalanobis.
5. Demuestre el teorema 7.3, pgina 247.
6. En un experimento realizado por J.C. Amiard, 23 peces se distribuyeron
en tres acuarios sometidos a diferentes niveles de contaminacin. Haga
un Anlisis Discriminante Descriptivo para determinar en qu medida la
contaminacin de los peces est ligada a la intensidad de la radiocontami-
nacin.
Use la tabla de tamao 2315 denida en el ejercicio 10, pgina 92, cap-
tulo 3, sin incluir en el anlisis a la variable x
7
: radiacin de los riones.
Los primeros 8 peces estuvieron en la pecera nmero 1, los siguientes 8
peces en la pecera nmero 2, y los ltimos 7 peces (con las etiquetas 18 a
24) estuvieron en la pecera nmero 3. Cada pecera recibi cantidades dife-
rentes de redioactividad y por espacios de tiempo diferentes. Use entonces
la variable pecera como la variable cualitativa a explicar.
7. Considere la siguiente tabla de datos con dos variables cuantitativas x
1
,
x
2
, con 10 individuos separados en dos clases.
Obs x
1
x
2
Clase
1 0 3 1
2 2 1 1
3 4 5 1
4 6 9 1
5 8 7 1
6 5 2 2
7 7 0 2
8 9 4 2
9 11 8 2
10 13 6 2
J. TREJOS W. CASTILLO J. GONZLEZ 265
(a) Calcule los centros de gravedad de cada grupo (llamados g
1
y g
2
) y
el centro de gravedad total.
(b) Calcule las matrices de varianzascovarianzas V, V
W
y V
B
.
(c) Compruebe la relacin V = V
W
+V
B
.
(d) Calcule la inversa de V, para lo cual puede usar una hoja electrnica,
un paquete informtico o la bien conocida frmula simple para in-
vertir matrices 2 2, usando el determinante: si A =
_
a b
c d
_
entonces A
1
=
1
det(A)
_
d b
c a
_
.
(e) Considere un nuevo elemento dado por los valores x = (7, 5.2).
Usando como mtrica la matriz V
1
calculada en el punto anterior,
calcule las distancias de x a los centros de las clases: d
V
1(x, g
1
) y
d
V
1(x, g
2
). De cul centro de clase est ms prximo el punto x?
8. En un estudio zootcnico realizado en Cuba en 1970, acerca del inters
por cruzar reses de raza charolais y ceb, se llevaron a cabo medidas de 6
variables, que representan distintos pesos del animal. La muestra contiene
23 reses, de las cuales 12 son charolais y 11 son ceb. Las variables son:
x
1
: peso de la res viva,
x
2
: peso de la piel,
x
3
: peso de la carne de primera calidad,
x
4
: peso de la carne total,
x
5
: peso de la grasa,
x
6
: peso de los huesos.
El grupo 1 est formado por las reses charolais mientras que el grupo 2
por las ceb.
Los datos se muestran en la Tabla 7.10.
Se quiere obtener una funcin discriminante para diferenciar las dos razas.
(a) Calcule los centros de gravedad de cada clase y el centro de gravedad
total.
(b) Calcule la funcin discriminante. Cul es la calidad de esta
discriminacin?
266 7.4 Cociente de Rayleigh
Res x
1
x
2
x
3
x
4
x
5
x
6
Grupo
1 395 224 35.1 79.1 6 14.9 1
2 410 232 31.9 73.4 9.7 16.4 1
3 405 233 30.7 76.5 7.5 16.5 1
4 405 240 30.4 75.3 8.7 16 1
5 390 217 31.9 76.5 7.8 15.7 1
6 405 243 32.1 77.4 7.1 15.5 1
7 390 229 32.1 78.4 4.6 17 1
8 405 240 31.1 76.5 8.2 15.3 1
9 420 234 32.4 76 7.2 16.8 1
10 390 223 33.8 77 6.2 16.8 1
11 415 247 30.7 75.5 8.4 16.1 1
12 400 234 31.7 77.6 5.7 18.7 1
13 400 224 28.2 73.5 11 15.5 2
14 395 229 29.4 74.5 9.3 16.1 2
15 395 219 29.4 72.8 8.7 18.5 2
16 395 224 28.6 73.7 8.7 17.3 2
17 400 223 28.5 73.1 9.1 17.7 2
18 400 224 27.8 73.2 12.2 14.6 2
19 400 221 26.5 72.3 13.2 14.5 2
20 410 233 25.9 72.3 11.1 16.6 2
21 402 234 27.1 72.1 10.4 17.5 2
22 400 223 26.8 70.3 13.5 16.2 2
23 400 213 25.8 70.4 12.1 17.5 2
Tabla 7.10: Tabla de reses charolais y ceb.
Captulo 8
Anlisis de Tablas Mltiples
8.1 Introduccin
El estudio de tablas mltiples de datos nace con el propsito de generalizar a
varias tablas, las principales tcnicas del Anlisis de Datos. Numerosos mto-
dos factoriales se han desarrollado en los ltimos aos para el estudio de varias
matrices de datos de tipo cuantitativo y cualitativo. Todos tienen como punto
de partida un conjunto de m tablas y como objetivo la bsqueda de un subes-
pacio de baja dimensin donde representar simultneamente los individuos de
las diferentes tablas y anlogamente para las variables. Estos mtodos dieren
segn el tipo de tablas de que se trate. As, por ejemplo, a partir de los aos 70
Carroll y Chang [18] desarrollaron los mtodos IndScal e IdioScal para el caso
de m tablas de proximidades, generalizando el escalamiento multidimensional.
Carlier, en 1977, propuso por su parte un mtodo para m tablas de contingen-
cia [17] y para el caso de m tablas cuantitativas de individuos por variables.
Escoer y Pags [38] propusieron un mtodo general, llamado Anlisis Facto-
rial Mltiple, basado en una ponderacin de las tablas de datos a partir de un
primer anlisis en componentes principales, pasando luego a anlisis globales y
especcos. Escouer propuso en 1976 el mtodo STATIS (Anlisis Estadstico
de Tablas con Tres Indices), mtodo que se desarrollar en este captulo por ser
el mejor justicado y ms utilizado.
Para facilitar la comprensin de esta temtica se har referencia, durante su
desarrollo, al siguiente ejemplo.
267
268 8.2 Fundamentos del mtodo Statis
Ejemplo 1 Proyecto Hidrolctrico Angostura. Con el objetivo de construir
una planta Hidroelctrica en Costa Rica se utilizarn las aguas de tres ros.
Para analizar la calidad del agua y la agresividad de sta a los diferentes mate-
riales necesarios para la construccin de la represa, se denieron cinco puntos
de muestreo llamados: Reventazn1 (R1), Turrialba2 (T2), Reventazn3 (R3),
Tuis4 (T4) y Tuis5 (T5). Durante cuatro aos (Marzo de 1995-Diciembre
de 1998) se realizaron muestreos mensuales para obtener mediciones de 19
variables, las cuales son: potencial hidrgeno (pH), temperatura en grados
centgrados (Temp), sodio (Na), potasio (K), calcio (Ca), magnesio (Mg),
silicones (SiO
2
), oxgeno disuelto (OD), demanda bioqumica de oxgeno
(DBO), slidos sedimentables (SD), slidos totales (ST), fosfatos (PO
4
),
cloro (Cl), nitratos (NO
3
), sulfatos (SO
4
), bicarbonatos (HCO
3
), dureza to-
tal (DT), porcentaje de oxgeno disuelto (POD), y CAL, donde este ltimo es
un ndice de calidad del agua expresado con un nmero entre 0 y 100, obtenido
como una funcin (no lineal) de algunas de las variables anteriores.
8.2 Fundamentos del mtodo Statis
Se supone que se tienen m tablas de individuos por variables X
1
, . . . , X
m
que
corresponden a mmediciones de un mismo fenmeno. Puede presentarse alguna
de las dos situaciones siguientes:
1. Los individuos son los mismos en las m mediciones, pero las variables no
necesariamente son las mismas.
2. Las variables son las mismas en las m mediciones, pero los individuos
pueden cambiar.
Suponiendo que cada tabla X
k
est provista con una mtrica M
k
en el
espacio de los individuos y con una mtrica de pesos D
k
en el espacio de
las variables, se tiene en el primer caso un conjunto de m nubes de puntos
o tripletes del tipo ^
k
= (X
k
, M
k
, D) y en el segundo caso nubes del tipo
^
k
= (X
k
, M, D
k
). Como es usual, en adelante se har referencia al k-simo
triplete como el k-simo estudio o la k-sima nube (ver la seccin 2.3, 31, sobre
la construccin de nubes de puntos).
1
Los datos fueron aportados por la Lic. Vania Morales G. del Laboratorio Qumico del Instituto
Costarricense de Electricidad (I.C.E.).
J. TREJOS W. CASTILLO J. GONZLEZ 269
La estrategia en cada situacin es diferente, en la primera se privilegian los
individuos y en la segunda las variables. Ambas estrategias se denominan Statis
y Statis Dual respectivamente.
8.2.1 Objetivos de los mtodos Statis y Statis Dual
En cualquiera de las dos situaciones anteriores, el objetivo es realizar un estudio
comparativo de las mtablas, distinguiendo para ello tres fases denominadas:
interestructura, compromiso e intraestructura.
1. Interestructura. Esta fase tiene como objetivo comparar globalmente los
m estudios, como si fueran paquetes sin abrir". Para ello se dene un ob-
jeto O
k
que represente a cada estudio y una mtrica que permite calcu-
lar distancias entre estos objetos. Esta mtrica tiene asociado un producto
interno y una distancia, que tambin se denotarn . Posteriormente se
encuentra una imagen Eucldea para ellos, esto es un conjunto de m pun-
tos de un subespacio de baja dimensin (casi siempre un plano) de modo
que la distancia Eucldea usual entre estos puntos es aproximadamente la
distancia entre los O
k
.
2. Compromiso. En esta fase se construye un escenario que permita rep-
resentar simultneamente a los individuos en Statis, y a las variables en
Statis Dual, de todas las tablas. De esta manera es posible seguir la trayec-
toria de un individuo en el caso de Statis, y de la correlacin entre variables
en el caso de Statis Dual, al moverse de una tabla a otra.
3. Intraestructura. Con la ayuda del compromiso se buscan los individuos o
las variables, segn corresponda, causantes de la diferenciacin observada
en la interestructura. Adems se representan las trayectorias de los indivi-
duos (o de las correlaciones entre variables) que ayudan a este propsito.
8.2.2 Producto interno y teorema de aproximacin
En esta seccin se dene el producto interno de Hilbert-Schmidt para el caso
particular que aqu se estudia y se presenta un teorema a partir del cual se de-
duce la optimalidad de las imgenes Eucldeas aproximadas que se construyen
en Statis. Una denicin ms general de este producto y el teorema de aproxi-
macin correspondiente se encuentra en la seccin 8.10.
270 8.2 Fundamentos del mtodo Statis
Denicin 8.1 Sean el espacio Eucldeo (R
n
,
D
) y X,Y matrices de tamao
n n. El producto escalar de Hilbert-Schmidt
D
, entre las matrices Xy Y se
dene como X, Y)

D
= tr
_
X
t
DYD
_
.
El teorema siguiente es consecuencia del corolario 8.1 de la seccin 8.10.
Teorema 8.1 Sea S una matriz de tamao mm, de rango q, simtrica, semide-
nida positiva; una matriz diagonal de pesos de tamao mmy u
1
, . . . , u
q

un conjunto -ortonormal de vectores propios de Sasociados a los q prime-


ros valores propios positivos
1

q
>
q+1
=
m
= 0. Entonces
1. Se puede escribir
S =
q

k=1

k
u
k
u
t
k
= U

U
t
donde U = (u
1
, . . . , u
q
) es la matriz cuyas columnas son los vectores
propios u
1
, . . . , u
q
y

= diag(
1
, . . . ,
q
) es la matriz diagonal de los
valores propios.
2. Para toda matriz Qde tamao m m, simtrica, semidenida positiva y
de rango r = rng (Q) q, se tiene que
min
rng(Q)=r
|S Q|

=
q

k=r+1

2
k
y el mnimo se alcanza en Q =

r
k=1

k
u
k
u
t
k
.
8.2.3 Imagen Eucldea asociada a una tabla de productos escalares
Denicin 8.2 Sean O = O
1
, . . . , O
m
un conjunto de m objetos entre los
cuales hay denido un producto escalar (tambin llamado producto interno) ,
y S la matriz simtrica de tamao mm cuyas entradas estn denidas como
s
kl
= O
k
, O
l
)

.
Sea (E, M) un espacio vectorial Eucldeo de dimensin r.
J. TREJOS W. CASTILLO J. GONZLEZ 271
El conjunto

O =

O
1
, . . . ,

O
m
de m puntos de E constituye una imagen
Eucldea para O asociada a la tabla S, si los productos internos M entre los
puntos de

O reproducen los productos internos entre los objetos de O:
O
k
, O
l
)

O
k
,

O
l
)
M
, para k, l 1, . . . , m.
Si esta ltima igualdad se da en trminos aproximados se dir que se tiene
una imagen Eucldea aproximada.
La denicin es anloga si en lugar de una matriz de productos internos S
se tiene una matriz de distancias D.
Usualmente se usa una base B, M-ortonormal de vectores de E para denir
un sistema de ejes (O, B) y representar en este sistema la imagen Eucldea, para
ello los puntos

O =

O
1
, . . . ,

O
m
se expresan en trminos de sus coordenadas
en la base B que se denota
q
k
= [

O
k
]
B
= (q
k1
, . . . , q
kr
)
t
.
Se tiene entonces
O
k
, O
l
)

O
k
,

O
l
)
M
= q
t
k
q
l
=
r

s=1
q
ks
q
ls
.
8.2.4 Construccin de una imagen Eucldea para la
nube (O, )
Sea = diag(t
k
) una matriz de pesos correspondientes a los m objetos
O = O
1
, . . . , O
m
. Por abuso de lenguaje se le llamar nube al par (O, ).
Como se vio antes, las entradas s
kl
de la matriz S son los productos internos
entre los objetos de O (S resulta usualmente semidenida positiva):
s
kl
= O
k
, O
l
)

.
Por la parte 1. del teorema 8.1 se sabe que una imagen Eucldea para la nube
(O, ) se obtiene diagonalizando la matriz -simtrica S. Esto es,
S =
q

k=1

k
u
k
u
t
k
= U

U
t
= QQ
t
272 8.3 Statis: individuos jos
donde Q = U

y q es el rango de S.
Luego las las de la matriz Q son las coordenadas, en la base de vectores
propios, de los puntos que constituyen una imagen Eucldea para la nube (O, ).
Si solo se toman los primeros r < q vectores propios para denir la matriz
U
(r)
= (u
1
, . . . , u
r
) y la correspondiente matriz Q
(r)
, se obtiene una imagen
Eucldea aproximada ptima (en el sentido del teorema 8.1) para la nube (O, ).
8.2.5 Imagen Eucldea centrada
Una imagen Eucldea centrada para la nube (O, ) se obtiene centrando pre-
viamente las las y columnas de la matriz S con la matriz de centraje J, esto
es
S
c
= JSJ
t
, donde J = I
m
1
m
1
t
m
y 1
t
m
= (1, . . . , 1) R
m
.
La nube (

O, ) resulta con centro de gravedad en el origen.


En las secciones 8.3 hasta 8.6 se analiza en detalle el mtodo Statis, y poste-
riormente se presenta el Statis Dual en las secciones 8.7 hasta 8.9.
8.3 Statis: individuos jos
En este caso se supone que los individuos son los mismos en las m matrices,
pero las variables no necesariamente, por lo tanto se dispone de un conjunto de
m estudios o nubes (X
1
, M
1
, D), . . . , (X
m
, M
m
, D) donde X
k
es una matriz
de n individuos y p
k
variables cuantitativas centradas.
Se asume que las tablas estn centradas respecto a la mtrica de pesos
D = diag(w
i
), la misma en todas las tablas denida por los pesos asignados
a los n individuos, con

n
i=1
w
i
= 1. Se tienen mtricas M
k
en los espacios
de los individuos R
p
k
. Ntese que se ha denotado w
i
el peso del i-simo indi-
viduo, para evitar usar la notacin p
i
que se ha usado hasta ahora, con el n de
evitar confusiones con el nmero de variables en cada tabla de datos, denotada
p
k
. Esta notacin w
i
ser la que se usar a lo largo de este captulo para el peso
del individuo i.
J. TREJOS W. CASTILLO J. GONZLEZ 273
Adems se usarn las siguientes notaciones:
X
k
para la k-sima tabla,
x
ki
para el individuo i de la k-sima tabla,
x
j
k
para la variable j de la k-sima tabla,
x
kij
para la entrada ij de la k-sima tabla,
W
k
ij
= x
ki
, x
kj
)
M
k
= x
t
ki
M
k
x
kj
es el producto interno con mtrica
M
k
, de los individuos i, j de la k-sima tabla,

_
x
i
k
, x
j
k
_
D
= (x
i
k
)
t
Dx
j
k
= cov
D
(x
i
k
, x
j
k
) es la covarianza entre las varia-
bles i, j de la k-sima tabla.
Ejemplo 2 En los datos presentados en el Ejemplo 1, del proyecto hidroelc-
trico Angostura, la situacin es la siguiente.
Para cada uno de los aos 1995, 1996, 1997 y 1998, se dispone de una tabla
de individuos por variables, una por cada punto de muestreo, cuatro de ellas de
tamao 12 19 y Turr2 (T2) de tamao 12 17 (los slidos SD y ST no se
midieron). Cada una de estas matrices es el resultado de promediar los valores
mensuales de cada variable en los cuatro aos de muestreo. Cada una de las
12 las (una por cada mes) representa el valor que cada una de las variables
asumi en promedio (en los cuatro aos) ese mes. Por otro lado, cada una de las
columnas (una por cada variable) representa el valor promedio que la variable
correspondiente asumi en cada uno de los 12 meses. Las variables (columnas)
se denotan con su nombre, son vectores en R
12
. Los individuos son vectores las
en R
19
y R
17
, se denotan: En, Fe, Mz, Ab, My, Jn, Jl, Ag, Se, Oc, No, Di.
En la situacin descrita se tienen cinco tablas en las cuales los individuos
son los mismos (12 meses). Los datos se muestran en la seccin 8.11, pgina
310. Si se usa la mtrica identidad se tiene que para los primeros cuatro espacios
de individuos la mtrica es M
k
= M = I
19
con k = 1, . . . 4 y M
5
= I
17
para
el ltimo (Turr2), D =
1
12
I
12
la mtrica de pesos en los cinco espacios de
variables. Se dispone entonces de los estudios o nubes
(X
1
, I
19
, D), (X
2
, I
19
, D), (X
3
, I
19
, D), (X
4
, I
19
, D), (X
5
, I
17
, D).
274 8.3 Statis: individuos jos
8.3.1 La interestructura
Eleccin de O
k
Se elige como objeto O
k
representante de cada estudio a la matriz
W
k
= X
k
M
k
X
t
k
, por las siguientes razones:
1. El tamao de las matrices W
k
es independiente de k, cada W
k
es una
matriz n n.
2. Se sabe que los vectores y valores propios de W
k
Dpermiten escribir:
W
k
D =
n

i=1

ki
c
ki
c
t
ki
= C

C
t
con c
ki
vector propio de W
k
D asociado a
ki
y c
t
ki
Dc
kj
=
ij
, el delta
de Kronecker.
3. Adems (ver ejercicio 6 del captulo 3), se pueden reconstruir las distan-
cias entre los individuos de la ksima tabla:
|x
ki
x
kj
|
2
M
k
= |x
ki
|
2
M
k
2 x
ki
, x
kj
)
M
k
+|x
kj
|
2
M
k
= W
k
ii
2W
k
ij
+W
k
jj
.
La distancia entre los W
k
Como W
k
es una matriz n n, se usa en el espacio de las matrices de n n el
producto interno de Hilbert-Schmidt
D
:
W
k
, W
l
)

D
= tr (W
k
DW
l
D) .
En este espacio se pueden calcular las distancias entre estos objetos y adems
construir una representacin aproximada de estas distancias, es decir una imagen
Eucldea en un subespacio E
q
de R
m
de dimensin q, que es el nmero de ejes
elegidos, usualmente q = 2. Lo anterior se logra diagonalizando el operador
S, donde la matriz S de productos internos y la matriz de pesos asignados
a los objetos W
i
se denen como:
s
kl
= W
k
, W
l
)

D
y = diag (t
k
) .
J. TREJOS W. CASTILLO J. GONZLEZ 275
Con los vectores propios u
1
, . . . u
q
de S, - ortonormados, asociados
a los q primeros valores propios
1

2
. . .
q
, se construye una imagen
Eucldea (aproximada o exacta)

W
1
, . . . ,

W
m
con

W
i
E
q
, para el conjunto
W
1
, . . . , W
m
, donde q rng (S). Si q = rng (S) se verica que el producto
interno entre dos puntos

W
i
,

W
j
es igual al producto interno
D
entre los
W
k
, W
l
:
W
k
, W
l
)

D
=
_

W
k
,

W
l
_

,
lo que en trminos de distancias es:
|W
k
W
l
|

D
= |

W
k


W
l
|

donde las coordenadas de



W
k
en la base u
1
, . . . u
q
de vectores propios de S
es igual a la i-sima la de la matriz U

i
, con U = (u
1
, . . . , u
q
)
mq
y

i
= diag(

i
).
El nmero de ejes q se selecciona con los mismos criterios del A.C.P. (ver
seccin 3.5.3, pgina 57).
Algunas propiedades que ayudan a la lectura de la imagen Eucldea, son:
1. Si W = XMX
t
y para todo i 1, . . . , n,
i
es un valor propio de
WD, entonces
|W|
2

D
=

i,j
w
i
w
j
(W
ij
)
2
=

i,j
w
i
w
j
(x
i
, x
j
)
M
)
2
=
n

i=1

2
i
|W|
2

D
=

i,j
w
i
w
j
(W
ij
)
2
=

i
w
i
|w
i
|
2
D
(8.1)
donde w
i
es el peso del individuo i-simo, W
ij
es la entrada ij de la matriz
Wy w
i
es la la i-sima de la matriz W.
2. Si W
k
= X
k
M
k
X
t
k
, W
l
= X
l
M
l
X
t
l
entonces
|W
k
W
l
|
2

D
=

i,j
w
i
w
j
(W
k
ij
W
l
ij
)
2
=

i,j
w
i
w
j
(x
ki
, x
kj
)
M
k
x
li
, x
lj
)
M
l
)
2
=

i,j
w
i
w
j
(W
k
ij
W
l
ij
)
2
=

i
w
i
|w
ki
w
li
|
2
D
(8.2)
276 8.3 Statis: individuos jos
donde w
i
es el peso i-simo, W
k
ij
es la entrada (i, j) de la matriz W
k
y
w
ki
es la la i-sima de la matriz W
k
.
3. Si se usa la mtrica identidad para todas las tablas M
k
= I
p
k
entonces
W
k
, W
l
)

D
=
p
k

j=1
p
l

=1
_
x
j
k
, x
j

l
_
2
D
(8.3)
donde
_
x
j
k
, x
j

l
_
2
D
es la covarianza entre las variables j, j

de las tablas
k, l respectivamente.
4. Si para todo k, M
k
= I
p
k
y W
k
, W
l
)

D
= 0, entonces las variables
de la tabla k son D-ortogonales con las variables de la tabla l (covarianza
nula).
Se omiten las demostraciones a todas estas propiedades para no hacer demasiado
pesada la lectura de este captulo, pero se pueden encontrar en [64].
Adems de los criterios usados en la lectura de un grco de individuos en
el A.C.P., las propiedades anteriores establecen que:
a) La distancia entre dos puntos es una medida de la diferencia de los pro-
ductos internos entre los individuos de sus respectivas tablas. Dos puntos
bien representados y prximos signica conguraciones similares en las
nubes de individuos de ambas tablas.
b) Si se usa la mtrica identidad, el ngulo entre dos vectores

W
k
y

W
l
de la
imagen Eucldea es una medida de las covarianzas de las variables de la
tabla k con las variables de la tabla l. Si los vectores son perpendiculares
indica covarianzas nulas entre las variables de ambas tablas.
Coeciente RV de asociacin entre dos conguraciones
Para medir el grado de asociacin entre dos conguraciones (k, l), Robert y
Escouer [89] introdujeron en 1976 el coeciente RV , que es la correlacin
vectorial entre W
k
y W
l
:
RV (k, l) =
_
W
k
|W
k
|
D
,
W
l
|W
l
|
D
_

D
=
tr(W
k
DW
l
D)
_
tr(W
k
D)
2
tr(W
l
D)
2
.
J. TREJOS W. CASTILLO J. GONZLEZ 277
Algunas propiedades importantes de este coeciente son:
1. d(W
k,
W
l
) = |W
k
W
l
|

D
=
_
2(1 RV (k, l)), con W
k
y W
l
normados.
2. Si RV (k, l) = 1, entonces W
k
= W
l
con =
W
k

W
l

.
3. Si M
k
= I
n
y RV (k, l) = 0, entonces las variables de la tabla k son
D-ortogonales con las de la tabla l.
Observacin. En la prctica los W
k
pueden tener normas muy diferentes,
afectando con ello la interpretacin de los resultados, por lo que es recomen-
dable normalizarlos previamente, esto es sustituirlos por
W
k
W
k

D
y en tal caso
S
k,l
= s
kl
= RV (k, l).
Ejemplo 3 En el ejemplo del proyecto hidroelctrico Angostura, se calcula la
matriz S de productos internos entre los W
k
normalizados, esto es s
kl
=
RV (k, l) (ver Tabla 8.1).
Rev1 Rev3 Tuis4 Tuis5 Turr2
Rev1 1 0.7 0.51 0.64 0.63
Rev3 0.7 1 0.70 0.65 0.61
Tuis4 0.51 0.70 1 0.68 0.47
Tuis5 0.64 0.65 0.68 1 0.52
Turr2 0.63 0.61 0.47 0.52 1
Tabla 8.1: Proyecto Angostura: matriz S de coecientes RV .
Se toma como matriz de pesos de los estudios a =
1
5
I
5
(todos los pesos
iguales). La diagonalizacin de la matriz S da una imagen Eucldea para la
nube de los cinco estudios, la cual se representa en la Figura 8.1 considerando
los dos primeros ejes.
Sus coordenadas en estos ejes son deducidas a partir de los dos prime-
ros vectores y valores propios de S, esto es Q
(2)
= (

1
u
1
,

2
u
2
) con
|u
1
|

= 1 = |u
2
|

. Los valores propios se muestran en la tabla 8.2.


Al observar la Figura 8.1 y la Tabla 8.3 se concluye que los puntos de
muestreo estn bien representados y que los puntos ms distantes son Turr2 y
Tuis4, lo que signica una diferencia signicativa en las posiciones relativas de
278 8.3 Statis: individuos jos
6
-
?

Rev1

Rev3

Tuis4

Tuis5

Turr2
Figura 8.1: Proyecto Angostura: interestructura.
Ejes Valor propio % Inercia % Inercia acumulada
1 0.693 69% 69%
2 0.121 12% 81%
3 0.078 8% 89%
4 0.070 7% 96%
5 0.038 4% 100%
Tabla 8.2: Proyecto Angostura: valores propios de la interestructura.
los meses, y bajas correlaciones entre las variables de una y otra tabla, por el
contrario los puntos ms cercanos son Tuis5 y Rev3 lo que se interpreta como
conguraciones similares entre los meses y altas correlaciones. El punto de
muestreo Turr2 es el que presenta en todos los meses los ms bajos ndices de
calidad, en oposicin al punto Tuis4 que es el menos contaminado.
Con el objeto de tener una visin ms global de las proximidades entre los
estudios, se calcula una imagen Eucldea centrada, la cual se obtiene al sustituir
la matriz S por la matriz centrada S
c
= JSJ
t
.
En la Figura 8.2 se presentan las imgenes Eucldeas planas en los ejes 12
y 13, cuyas calidades de representacin estn en la tabla 8.5. Para cada punto
se ha calculado la calidad de su representacin como el cociente de la norma
J. TREJOS W. CASTILLO J. GONZLEZ 279
Ro Norma de W
k
Norma Proyectada de

W
k
cos
2
Rev1 1 0.89 0.789
Rev3 1 0.89 0.797
Tuis4 1 0.94 0.876
Tuis5 1 0.88 0.773
Turr2 1 0.91 0.839
Tabla 8.3: Proyecto Angostura: calidad de la representacin de la interestructura.
6
-
?

Rev1

Rev3

Tuis4

Tuis5

Turr2
Figura 8.2: Proyecto Angostura: interestructura centrada.
proyectada entre la norma:
|W
k
|
M
|

W
k
|
=
_
(S
c
)
kk
|Q
(2)
c
(k)|
,
donde Q
(2)
c
(k) es la la k de Q
(2)
c
, matriz de coordenadas de la imagen Eucldea
obtenida de S
c
.
280 8.3 Statis: individuos jos
Ejes Valor propio % Inercia % Inercia acumulada
1 0.394 39% 39%
2 0.254 26% 65%
3 0.226 23% 88%
4 0.125 12% 100%
Tabla 8.4: Proyecto Angostura: valores propios de la interestructura centrada.
Ro Plano 1-2 Plano 1-3
Rev1 0.91 0.5
Rev3 0.20 0.77
Tuis4 0.90 0.83
Tuis5 0.53 0.93
Turr2 0.98 0.80
Tabla 8.5: Proyecto Angostura: calidad de la interestructura centrada.
8.3.2 El compromiso
Consiste en encontrar un objeto W de dimensin n n de la misma forma de
los objetos W
k
y que los represente adecuadamente, en el sentido de que recoja
las propiedades comunes a todos ellos. El objetivo es utilizar Wpara denir un
escenario comn para los individuos de todas las tablas y por Dualidad para las
variables de todas las tablas.
Suponiendo que los W
k
se han normalizado, se quiere que Wtenga la forma
W =

m
k=1

k
W
k
= a

m
k=1

k
W
k
, donde = a, y tal que el vector

t
= (
1
, . . . ,
m
) y la constante de normalizacin a > 0 sean elegidos de
modo que se satisfagan las siguientes propiedades:
1. W sea de la misma naturaleza que la de los W
k
, esto es que la norma
de Wsea el promedio ponderado de las normas de los W
k
con matriz de
pesos = diag(t
k
)
|W|

D
=
m

k=1
t
k
|W
k
|

D
= 1.
2. W = a

m
k=1

k
W
k
es la combinacin lineal de los W
k
, que est ms
correlacionada con los W
k
, en el sentido que variando R
m
, con
J. TREJOS W. CASTILLO J. GONZLEZ 281
[[[[

1 = 1, maximiza
m

k=1
t
k
RV (W(a, ) , W
k
)
2
=
m

k=1
t
k
W(a, ) , W
k
)
2

D
(8.4)
con W(a, ) = a

m
k=1

k
W
k
, [[W(a, )[[

D
= 1, [[W
k
[[

D
= 1.
Clculo de
Sea S una matriz m m de productos internos entre los W
k
, tal que
s
kl
= W
k
, W
l
)

D
.
Desarrollando (8.4) y quitando la constante a, pues no interviene en el cl-
culo de , se tiene:
m

k=1
t
k
_
m

l=1

l
W
l
, W
k
_
2

D
=
m

k=1
t
k
_
m

l=1

l
W
l
, W
k
)

D
_
2
=
m

k=1
t
k
_
m

l=1
s
kl

l
_
2
=
m

k=1
t
k
(s
k
)
2
k
= |S|
2

=
t
SS
= SS, )

1 .
Se sabe por el Teorema de Rayleigh (ver seccin 7.4, pgina 259) (seccin
7.4, pgina 259) que esta ltima expresin alcanza su mximo cuando es vector
propio de SS asociado al mayor valor propio
1
, con ||

1 = 1. Adems
se satisfacen las siguientes propiedades:
1. S y SS tienen los mismos espacios propios.
Adems se tiene la siguiente relacin entre los rangos de las matrices
rang (SS) = rang (SS) = rang (S) = rang (S).
2. Es costumbre disgonalizar la matriz Sen lugar de S. Para eso se hace
la siguiente transformacin: como es vector propio de S asociado
282 8.3 Statis: individuos jos
a
1
, con ||

1 = 1, entonces =
1
es vector propio de S
asociado a
1
, con ||

= 1.
Lo anterior sigue de las siguientes equivalencias
S =
1
S =
1
S =
1
,

1
= 1
t
= 1.
Clculo de la constante a
Se calcula la constante a de modo que el compromiso tenga norma igual a uno:
1 = |W(a, )|
2

D
=
_
a
m

k=1

k
W
k
, a
m

l=1

l
W
l
_

D
= a
2
m

k=1
m

l=1

l
s
kl
= a
2

t
S = a
2

t
S
=
1
a
2

t
=
1
a
2
.
Luego a =
1

1
.
Expresin nal del compromiso
Se sabe que los elementos s
kl
de la matriz S son no negativos y por ende tambin
los de S. Luego, por el teorema de Frobenius [1], el primer valor propio
1
de
S es real, no negativo y se puede elegir un vector propio
1
de S, asociado
a
1
, tal que tenga todos sus elementos no negativos
1
. Esta eleccin unida a
los resultados de toda la seccin permite nalmente denir el compromiso de la
siguiente manera.
1
El teorema de Frobenius arma que, si A es una matriz n n tal que todos sus elementos
aij son no negativos, entonces su primer valor propio 1 es real y no negativo. Adems, existe un
vector propio u1 asociado a 1, el cual tiene todos sus elementos no negativos
J. TREJOS W. CASTILLO J. GONZLEZ 283
Sean = diag(t
k
) la matriz de pesos de los W
k
, vector propio de S
con todas sus entradas no negativas y asociado al mayor valor propio
1
, y con
||

= 1. En este caso el compromiso Wse expresa como:


W =
1

1
m

k=1
t
k

k
W
k
. (8.5)
Ejemplo 4 En el ejemplo (2) que se ha venido desarrollando sobre el proyecto
hidroelctrico Angostura, el vector = a del compromiso

5
k=1

k
W
k
es

t
= (0.244, 0.257, 0.233, 0.243, 0.222). Como se puede observar las entradas
del vector son similares, de donde se concluye que el compromiso representa
adecuadamente a todos los W
k
, teniendo la ms alta correlacin (en el sentido
del coeciente RV) con el punto de muestreo Rev3, como se puede observar en
la Figura 8.1, en la cual el compromiso est sobre el primer eje a la distancia 1
del origen.
8.4 La intraestructura
El objetivo de esta fase es obtener representaciones simultneas de los individuos
y las variables de las diferentes tablas, cuestin que se logra diagonalizando el
operador WD, correspondiente al A.C.P. de la nube ^ = (X, M, D) donde W
es el compromiso, D la matriz de pesos de los individuos, X y M se denen
como sigue:
X = (

1
X
1
,

2
X
2
, . . . ,

m
X
m
)
np
, con p =
m

k=1
p
k
M =
_
_
_
_
_
M
1
0 0
0 M
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 M
m
_
_
_
_
_
.
Ntese que la matriz Wde productos internos entre individuos denida por
el A.C.P. de (X, M, D) corresponde al compromiso W :
W = XMX
t
=
m

k=1

k
X
k
M
k
X
t
k
=
m

k=1

k
W
k
.
284 8.4 La intraestructura
La diagonalizacin del operador WDpermite obtener una imagen Eucldea
de las las de la matriz X. Cada una de estas las puede interpretarse como
visiones de un individuo a travs de las diferentes tablas, lo que se llama indi-
viduos promedios". Estas armaciones se justican a continuacin.
8.4.1 Individuo visto por todas las tablas (individuos
promedio)
Sean C = (c
1
, . . . , c
n
) la matriz cuyas columnas son los vectores propios
Dnormalizados del operador WD y

= diag (
i
) la matriz de los valo-
res propios correspondientes,

= diag(

i
). Entonces,
W =
_
C

__
C

_
t
=
n

i=1

i
c
i
c
t
i
y
Q = C

= WDC 1

.
Las las de Q : q
1
, . . . , q
n
son las coordenadas en la base de vectores pro-
pios, de los puntos que forman una imagen Eucldea ptima para los individuos
de la tabla X, es decir:
q
i
, q
j
) = x
i
, x
j
)
M
= W
ij
donde x
i
es la isima la de X y q
i
, q
j
) es el producto interno con matriz
identidad.
Adems, si W
k
ij
denota la entrada (i, j) de la tabla W
k
= X
k
M
k
X
t
k
se
tiene:
|q
i
q
j
|
2
= |q
i
|
2
2q
t
i
q
j
+|q
j
|
2
= W
ii
2W
ij
+W
jj
=
m

k=1

k
W
k
ii
2
m

k=1

k
W
k
ij
+
m

k=1

k
W
k
jj
=
m

k=1

k
|x
ki
x
kj
|
2
M
k
= |x
i
x
j
|
2
M
.
La ltima igualdad signica que la distancia entre los individuos de la tabla
X, es igual a la distancia compromiso" entre los correspondientes individuos
de las diferentes tablas.
J. TREJOS W. CASTILLO J. GONZLEZ 285
-
6
?

En
Fe
Mz
Ab
My
Jn
Jl Ag
Se
Oc
No
Di
Figura 8.3: Proyecto Angostura: Individuos promedio, ejes 12.
Ejemplo 5 En la Tabla 8.6 se presentan los resultados obtenidos de la diagona-
lizacin del operador WDdenido en el ejemplo 2, del proyecto hidroelctrico
Angostura.
Ejes Inercia % Inercia % Inercia Acumulada
1 0.8131 34.27% 34.27%
2 0.3521 14.84% 49.11%
3 0.3074 12.96% 62.06%
4 0.2097 8.84% 70.90%
Tabla 8.6: Proyecto Angostura: valores propios de WD.
Los individuos promedio correspondientes a este ejemplo, para todas las
tablas, se representan en la Figura 8.3.
8.4.2 Imagen Eucldea para los individuos de las
tablas X
1
, . . . , X
m
Como se vio, las las de Q = WDC 1

son las coordenadas de una imagen


Eucldea ptima para la nube de individuos promedios (las de X). La igualdad
anterior muestra que las coordenadas q
i
de la imagen en una base, del individuo
promedio x
i
es la D-proyeccin de la la w
i
de la matriz W sobre los ejes
286 8.4 La intraestructura
del compromiso (columnas de C) multiplicada por un factor de dilatacin
1

i
.
Se generaliza esta idea y se denen las coordenadas de una imagen Eucldea
suplementaria para los individuos de la tabla X
k
como la D-proyeccin de las
las de la matriz W
k
sobre los ejes del compromiso corregida por un factor de
dilatacin, esto es
W
k
DC 1

= Q
k
.
Las coordenadas de la imagen Eucldea suplementaria de las las x
ki
de X
k
denida por las las q
ki
de Q
k
, no verican la relacin
q
ki
, q
kj
)
I
= x
ki
, x
kj
)
M
k
= W
k
ij
, pues las columnas de C no son vectores
propios de W
k
D. Sin embargo se tienen las siguientes propiedades:
1. La norma cumple:
|w
ki
w
li
|
2
D
=
n

j=1

j
_
q
k
ij
q
l
ij
_
2
|w
ki
|
2
D
=
n

j=1

j
_
q
k
ij
_
2
.
2. Como |W
k
W
l
|

D
=

n
i=1
w
i
|w
ki
w
li
|
2
D
(ver relacin (8.2)) y
de la relacin (1.) se puede concluir que cuando los primeros h valores
propios no son muy diferentes y despreciendo los ltimos n h valores
propios, se tiene |w
ki
w
li
|
2
D
h
1

h
j=1
(q
k
ij
q
l
ij
)
2
, y por tanto
la distancia entre los estudios k, l se debe a las trayectorias que en los
instantes k, l presenten mayor distancia.
Denicin 8.3 Se entiende por trayectoria del individuo x
i
, la lnea que une los
puntos q
ki
[k = 1, . . . , m, de la representacin del individuo x
i
en los ejes
del compromiso, a travs de las m tablas.
Ejemplo 6 En el ejemplo 2, del proyecto hidroelctr4ico Angostura, las trayec-
torias de los individuos (meses) corresponden a una poligonal de cinco puntos,
uno por cada punto de muestreo. La longitud de las trayectorias est directa-
mente relacionada con la distancia entre los puntos de muestreo representada
en la interestructura (ver Figuras 8.4). Los meses con trayectorias ms largas
son: Enero, Marzo, Abril, Setiembre y Octubre y Diciembre, son por lo tanto
los meses en los que hay una mayor diferencia en los valores de algunas de las
variables. Ntese adems que el punto T2 (Turr2) es el que se separa ms del
J. TREJOS W. CASTILLO J. GONZLEZ 287
resto, esto es interpretado como el ro que se diferencia de los otros. Las obser-
vaciones anteriores pueden vericarse en las siguientes guras de algunas de
las trayectorias.
-
6
?

R1
R3
T4 T5
T2
Oc

R1
R3
T4
T5
T2
Ab

R1
R3
T4
T5
T2 Di
(a) Octubre, Abril y Diciembre.
-
6
?

R1
R3
T4
T5
T2
Se

R1
R3
T4
T5
T2
Jl

R1
R3
T4
T5
T2
En
(b) Setiembre, Julio y Enero.
-
6
?

R1
R3 T4
T5
T2
My

R1
R3
T4
T5
T2
Mz

R1
R3
T4
T5
T2
Jn
(c) Mayo, Marzo y Junio.
Figura 8.4: Trayectorias de los meses.
8.5 Correlaciones de las variables con los ejes del com-
promiso
Los vectores propios del operador WD corresponden a las componentes prin-
cipales del A.C.P. de la nube ^ = (X, M, D), por lo que se pueden calcular
288 8.5 Correlaciones de las variables con los ejes del compromiso
las correlaciones de las variables de las diferentes tablas con estas componentes.
Si c
r
es la r-sima componente y x
j
k
es la j-sima variable de la k-sima tabla,
entonces la covarianza de esta variable con el eje r es
x
j
k
, c
r
)
D
= (x
j
k
)
t
Dc
r
.
Las correlaciones de las diferentes variables se representan en un grco en
el cual la variable x
j
k
es un punto cuya coordenada sobre el eje r es x
j
k
, c
r
)
D
.
El estudio del grco de las correlaciones es til para interpretar las trayec-
torias de los individuos.
Ejemplo 7 Para el ejemplo del proyecto Angostura, las correlaciones corres-
pondientes al ejemplo 2 de algunas de las variables se muestran en la Figura
8.5 (donde se han superpuesto las trayectorias de los individuos).
-
6
?
Ca

R1
R3
T4

T5

T2
ST
R1

R3

T4

T5

T2
Cal

R1

R3

T4

T5

T2
DBO

R1

R3

T4

T5

T2
Mg
R1
R3
T4

T5

T2
PO4
R1

R3

T4
T5

T2
Figura 8.5: Proyecto Angostura: correlaciones de las variables Mg, Ca, DBO, ST, PO
4
y Cal en el plano principal 12.
J. TREJOS W. CASTILLO J. GONZLEZ 289
Del grco de las correlaciones de las variables se observa que el eje 1
est determinado en su parte negativa por las variables Mg y Ca.El eje 2 est
inuenciado en su parte negativa por las variables ST y PO4, en su lado posi-
tivo por el ndice de calidad CAL.
Contrastando las trayectorias de los meses con esta situacin se puede con-
jeturar que: el mes de Octubre se caracteriza por la presencia de slidos y al-
tos valores en la concentracin de fsforo (PO4), Abril presenta una situacin
anloga y adems concentraciones altas de manganeso y calcio. Diciembre, en
cambio, presenta bajas concentraciones de Mg, Ca, ST y PO4 y valores altos
en la calidad. Finalmente los grcos de las variables mencionadas anterior-
mente ayudan a corroborar en alguna medida estas observaciones (ver Figuras
8.6).
290 8.5 Correlaciones de las variables con los ejes del compromiso
Rev1; Rev3; Tuis4; Tuis5; Turr2
en mz
my jl
se no
0.0
0.96
1.92

(a) PO4.
Rev1; Rev3; Tuis4; Tuis5;
en mz
my jl
se no
0
140
280

(b) ST.
Rev1; Rev3; Tuis4; Tuis5; Turr2
en mz
my jl
se no
0.0
7.5
15.0

(c) Mn.
Rev1; Rev3; Tuis4; Tuis5; Turr2
en mz
my jl
se no
0
11
22

(d) Ca.
Rev1; Rev3; Tuis4; Tuis5; Turr2
en mz
my jl
se no
0.0
44.5
89.0


(e) Calidad.
Figura 8.6: Proyecto Angostura: concentracin mensual.
J. TREJOS W. CASTILLO J. GONZLEZ 291
8.6 Anlisis evolutivo de una encuesta de opinin
Se ha utilizado el mtodo Statis para analizar la evolucin de la opinin pblica
de los costarricenses mayores de 18 aos.
Los datos de base corresponden a las encuestas de opinin pblica de los
aos 1988, 1989, 1990 y 1991 realizadas por el proyecto de investigacin Es-
tructuras de la Opinin Pblica de la Escuela de Matemtica de la Universidad
de Costa Rica. Estas encuestas, a escala nacional, son anuales sobre una mues-
tra de unos 1000 individuos, mayores de 18 aos, preservando cuotas por sexo,
edad y ocupacin. Los entrevistados se pronuncian sobre unas 100 armaciones
relativas a los principales conictos sociales ventilados por la prensa local [85],
[44].
Como interesa analizar la evolucin de las opiniones de los diferentes grupos
sociales se seleccionan aquellas preguntas que se repitieron en los cuatro aos,
las cuales son:
El seguro social debe privatizarse (SP).
Se debe propiciar la libre eleccin mdica (LM).
La democracia es el sufragio (DS).
Se debe defender la banca nacionalizada (BN).
Se debe conar en la justicia (CJ).
Se debe aumentar el presupuesto en seguridad (PS).
Ya no nos sentimos seguros (IS).
Los enfermos de sida deben aislarse (SD).
Los entrevistados deben responder una de las siguientes alternativas, codi-
cadas en una escala de 1 a 5 (llamadas escalas de Likert):
En total desacuerdo.
Bastante en desacuerdo.
Podra estar de acuerdo.
Bastante de acuerdo.
Totalmente de acuerdo.
292 8.6 Anlisis evolutivo de una encuesta de opinin
8.6.1 Construccin de la tabla de datos
Para analizar la evolucin de la opinin se ha considerado la opinin promedio
de los grupos sociales determinados por las siguientes variables:
Provincia: San Jos (Sjos), Alajuela (Ala), Cartago (Car), Guanacaste
(Gua), Puntarenas (Aren), Limn (Lim) y Heredia (Her).
Edad, codicada en las siguientes clases: de 18 a 25 aos (A18), de 25 a
35 (A25), de 35 a 45 (A35), de 45 a 55 (A45) y ms de 55 aos (A55).
Escolaridad: Ninguna (EN), Primaria (EP), Secundaria (ES), Tcnica (ET),
Universitaria incompleta (EUI) y Universitaria completa (EUC).
Partido poltico: Partido Liberacin Nacional (PLN), Partido Unidad
Social Cristiana (PUSC), Izquierda (Izq), Otros partidos (Potr) y Ningn
partido (Pnin).
Ingreso Familiar: Ingresos Bajos (IB), Ingresos Medios (IM) e Ingresos
Altos (IA).
Tambin se dispona de informacin sobre el Sexo y la Profesin, pero no se
presentan aqu.
Las tablas de datos se construyeron usando los centros de gravedad como
las (individuos), para obtener as cuatro matrices de tamao 42 8 (una por
cada ao).
Los resultados obtenidos se presentan a continuacin.
8.6.2 Anlisis de la interestructura
La Figura 8.7 muestra la evolucin global de la opinin anual en el periodo
1988-1991 en el primer plano principal el cual explica un 85% de la inercia
total. Los puntos representativos de cada encuesta se encuentran muy prximos
a la circunferencia de radio uno, lo que garantiza una buena representacin de la
realidad descrita por las variables tomadas en cuenta en este estudio.
Se observa una estabilidad de la opinin en los aos 89, 90, 91 diferencin-
dose de la estructura de la opinin en 1988. Esta diferenciacin se analiz en el
contexto de la intraestructura.
J. TREJOS W. CASTILLO J. GONZLEZ 293
6
-
?

Eje 2
Eje 1
(% Inercia 85.00)

1988

1989

1990

1991
Figura 8.7: Interestructura para la evolucin de la opinin.
8.6.3 Anlisis de la intraestructura
La Figura 8.8 corresponde a la representacin de las variables en el crculo de
correlaciones generado por los dos primeros ejes, los cuales explican el 58% de
la inercia total. A la etiqueta de cada variable se le agrega un 1, 2, 3 4 para
indicar el ao 1988, 1989, 1990, 1991 respectivamente.
6
-
?

Eje 2
Eje 1
% Inercia 57.89

SP1

LM1

DS1

BN1

CJ1

PS1

IS1

SD1

SP2

LM2

DS2

BN2

CJ2

PS2

IS2

SD2

SP3

LM3

DS3

BN3

CJ3

PS3

IS3

SD3

SP4

LM4

DS4

BN4

CJ4

PS4

IS4

SD4
Figura 8.8: Correlacin entre variables y los ejes del compromiso para la evolucin de
la opinin.
294 8.6 Anlisis evolutivo de una encuesta de opinin
Se observa que las variables SD, DS, SP y en menor grado BN y CJ, corre-
lacionan con el primer eje. Por otra parte las variables LM e IS lo hacen con
el segundo eje. En el caso de las variables BN y CJ se observa una evolucin
(movimiento) sobre el primer eje que es explicada en parte por la diferenciacin
del ao 88 con respecto a los restantes.
En las Figuras 8.9 y 8.10 se representan algunos grupos sociales promedio
en los ejes del compromiso y en las Figuras 8.11 y 8.12 las trayectorias de los
grupos de edad y escolaridad ms opuestos. Se nota que el nivel de escolaridad es
un factor claramente discriminante en cuanto a la opinin. Los grupos de mayor
escolaridad, EUCarriba en el segundo cuadrante, se oponen a los grupos sociales
de menor escolaridad (EP) que son a su vez los de ms bajos ingresos (IB).
Asociadas con estos grupos se encuentran, respectivamente, las provincias de
mayor desarrollo como San Jos y Alajuela, en oposicin a Limn y Guanacaste.
Las diferencias de opinin ms claras derivan de las variables que determinan
en mayor grado esas direcciones. Es as como a partir de las observaciones
anteriores se puede decir lo siguiente:
En los grupos sociales de ms alta escolaridad, como EUC, se nota una
evolucin en el sentido de disminuir su conanza en la justicia, aumen-
tar su deseo de que se invierta ms presupuesto en seguridad y cada ao
el sentimiento de inseguridad es mayor. Respecto a la enfermedad del
sida estos grupos sociales son cada vez ms tolerantes. En los sectores de
menos escolaridad, como EP y EN, esta tendencia es menos pronunciada
y ms irregular.
Hay una diferenciacin de la opinin entre los grupos de menor edad con
respecto a los de mayor edad, la cual se expresa en grado creciente de
desconanza en la justicia de parte de los jvenes que a su vez son ms
tolerantes respecto al sida, que las personas de mayor edad (ver Figuras
8.8 y 8.9).
En relacin con los grupos de liacin poltica, se ve que la diferenciacin
proviene de los grupos minoritarios fuera del PLN y del PUSC. Estos dos
ltimos partidos son indistinguibles desde el ngulo de la opinin respecto
de las variables analizadas, como lo ponen en evidencia las representa-
ciones en la Figura 8.10
J. TREJOS W. CASTILLO J. GONZLEZ 295
Eje 2
Eje 1
6
?
-
% Inercia 57.89

SJOS

ALAJ

GUAN

LIM

A18

A25

A35

A45

A55

EN

EP

ES

ET

EUI

EUC

IB

IM

IA
Figura 8.9: Grupos sociales promedio: Escolaridad, Edad, Ingreso Familiar y Provin-
cia.
Eje 2
Eje 1
6
?
-
% Inercia 57.89
PLN
PUSC

PIZQ

PNIN

POTR
Figura 8.10: Grupos sociales promedio: partidos polticos.
296 8.6 Anlisis evolutivo de una encuesta de opinin
Eje 2
Eje 1
6
?
-
% Inercia 57.89

A181
A451

A551

A182

A452
A552

A183

A453

A553

A184

A454

A554
Figura 8.11: Trayectorias de los grupos de edad ms opuestos.
Eje 2
Eje 1
6
?
-
% Inercia 57.89

EN1

EP1

EUC1

EN2

EP2

EUC2

EN3

EP3

EUC3

EN4

EP4

EUC4
Figura 8.12: Trayectorias de los escolaridad ms opuestos.
J. TREJOS W. CASTILLO J. GONZLEZ 297
8.7 Statis Dual: las mismas variables en los m instantes
Como se seal al inicio del captulo, el mtodo Statis Dual se usa en el caso en
que, en los mestudios, las variables medidas son las mismas, pero los individuos
son posiblemente diferentes al pasar de una tabla a otra.
Precisando, se supone que estn dados m estudios (X
k
, M, D
k
);
k = 1, . . . , m donde X
k
es la matriz de datos n
k
p generada a partir de la
medicin de p variables cuantitativas sobre n
k
individuos, en la ocasin k-sima.
En adelante se supondr que cada X
k
es centrada respecto de la correspondiente
matriz diagonal D
k
= diag(w
i
) de m
k
pesos de los individuos, y que Mes una
mtrica Eucldea en el espacio de los individuos (R
p
).
En este caso se usa la matriz de varianza-covarianza V
k
= X
t
k
D
k
X
k
como
objeto representativo del estudio (X
k
, M, D
k
), por razones anlogas a las men-
cionadas en Statis. Ntese que las matrices V
k
son todas matrices p p.
Situaciones como la anterior se encuentran cuando, usando los datos del
ejemplo 1, se quiere estudiar la evolucin de un punto de muestreo particular
a lo largo de los cuatro aos. Se dispone por lo tanto de cuatro matrices, una
por cada ao, la primera de tamao 10 17 (no se dispone de los meses enero
y febrero) y las tres restantes de tamaos 12 17, se est en presencia de tablas
con las mismas variables, pero con individuos diferentes.
Ejemplo 8 Para ilustrar el mtodo Statis Dual, se examinar el crecimiento de
la caa de azcar en la variedad
1
cp 722086, para lo cual se realizaron durante
once meses desde marzo de 1995 a enero de 1996, mediciones mensuales de
cinco variables en 30 matas seleccionadas al azar mes a mes. Las mediciones de
las variables implican la destruccin de la mata, por lo que no hay trayectorias
de los individuos. Se tiene entonces once tablas de datos de tamao 305. Las
siguientes son las variables consideradas:
AFV: Area Foliar verde (cm
2
).
Altura: Altura de los tallos (cm).
PSHF: Peso seco de las hojas verdes (grs).
PSCO: Peso seco de los cogollos (grs).
1
Los datos fueron aportados por los profesores Walter Marn y Fermn Subirs de la Escuela
de Biologa de la Universidad de Costa Rica.
298 8.7 Statis Dual: las mismas variables en los m instantes
PSTA: Peso seco de los tallos (grs).
8.7.1 La interestructura
La mtrica de Hilbert-Schmidt para el caso de los operadores V
k
es:
V
k
, V
l
)

M
= tr (V
k
MV
l
M)
Sea = diag (t
k
)
mm
la matriz diagonal de los pesos dados a los operado-
res V
1
, . . . , V
m
. La imagen Eucldea de los operadores V
k
con pesos se
obtiene diagonalizando la matriz - simtrica S; donde s
kl
= V
k
, V
l
)

M
.
Sean u
1
, . . . , u
r
los vectores propios ortonormados de S, asociados a los
valores propios
1

r
> 0.
La matriz S se expresa como
S =
r

j=1

j
u
j
u
t
j
= U

U
t
= (U

)(U

)
t
donde U = [u
1
, , u
r
]
mr
y

= diag(
j
).
Representacin bidimensional de la interestructura
Una representacin ptima de la interestructura en el plano se obtiene, segn el
teorema 8.1, por medio de las las de la matriz U

, tomando solamente los


dos primeros vectores propios. Las m matrices V
k
estn representadas en el
plano por mpuntos cuyas coordenadas en los dos primeros ejes u
1
, u
2
son las
las de la matriz Q
2
= (

1
u
1
,

2
u
2
).
La distancia entre dos puntos

V
k
y

V
l
(las k y l de Q
2
) es la que mejor
aproxima la distancia del producto escalar de Hilbert-Schmidt entre V
k
y V
l
que en este caso se dene como V
k
, V
l
)

M
= tr
_
V
t
k
V
l

_
. Se tiene la
siguiente aproximacin:
_
_
_

V
k


V
l
_
_
_
2
=
_
_
_

V
k
_
_
_
2
+
_
_
_

V
l
_
_
_
2
2

V
k


V
l

= |V
k
|
2

M
+|V
l
|
2

M
2 V
k
, V
l
)

M
= |V
k
V
l
|
2

M
.
El error en que se incurre por esta aproximacin es cuanticado por

r
j=3

2
j
.
J. TREJOS W. CASTILLO J. GONZLEZ 299
Interpretacin de la interestructura
Se desarrollan algunos resultados que ayudan a comprender el signicado de las
proximidades entre los operadores V
k
.
Relacin entre distancias y correlaciones. Si las tablas X
k
son centradas y
reducidas, entonces V
k
= R
k
que es la matriz de correlaciones de las columnas
de la tabla X
k
. Es claro que si M = I, entonces
|R
k
|
2

M
=
p

j=1
|r
kj
|
2
=
p

j=1
p

=1
_
r
_
x
j
k
, x
j

k
__
2
donde r
kj
es la la j de R
k
. En consecuencia
d
2

M
(R
k
, R
l
) =
p

j=1
p

=1
[r(x
j
k
, x
j

k
) r(x
j
l
, x
j

l
)]
2
.
Observaciones:
1. De lo anterior se concluye que la proximidad entre puntos observada en el
plano de la interestructura se interpreta como estabilidad en la estructura
de correlaciones para las mediciones efectuadas en las ocasiones k y l.
2. Si en la frmula de d
2

M
(R
k
, R
l
) se sustituye R
l
por R
k
, se tiene:
d
2

M
(R
k
, R
k
) = (
2
1)|R
k
|
2

M
= (
2
1)
p

j=1
p

=1
[r(x
j
k
, x
j

k
)]
2
.
Por lo tanto la comparacin entre dos puntos homotticos tales que
R
l
= R
k
depende de la magnitud de las correlaciones y de
2
1.
3. En caso que las matrices x
k
no sean reducidas, se tiene
|V
k
|
2

M
= V
k
, V
k
)

M
=
p

j=1
p

=1
[r(x
j
k
, x
j

k
]
2
var(x
j
k
)var(x
j

k
).
As entonces, cuando hay estabilidad de las correlaciones entre dos ins-
tantes k y l (k < l) y las normas |V
k
|

M
y |V
l
|

M
son muy diferentes,
se ha producido un aumento o una disminucin en las varianzas de las va-
riables de un instante al otro. Dependiendo de la naturaleza del problema
analizado, puede ser interesante identicar los factores responsables de
dichas variaciones.
300 8.7 Statis Dual: las mismas variables en los m instantes
Otras propiedades
1. Supngase que V
k
M = V
l
Mentonces :
(a) Los A.C.P. de los tripletes (X
k
, M, D
k
) y (X
l
, M, D
l
), tienen los
mismos vectores y valores propios y, las componentes principales,
en ambos casos, son combinaciones lineales de las mismas variables
con los mismos pesos. Es decir, tienen la misma interpretacin.
(b) Si las matrices X
k
, X
l
son reducidas entonces las correlaciones de
las variables con las componentes principales en el instante k, son
iguales a las correlaciones de las variables con las componentes prin-
cipales en el instante l.
2. En el caso V
l
M = V
k
M, entonces hay proporcionalidad en la estruc-
tura de correlaciones.
La demostracin de estas dos propiedades es sencilla y se deja como ejercicio
(ver ejercicio 4).
Ejemplo 9 Para hacer el clculo de la interestructura para los datos de caa de
azcar, se centran y reducen las variables de las once tablas por lo que el objeto
representativo de cada tabla es la matriz de correlaciones R
k
= X
t
k
D
k
X
k
donde la mtrica de pesos de los individuos es D
k
=
1
30
I
30
(todos los individuos
con el mismo peso), adems se usar como mtrica en el espacio de individuos a
la identidad M= I
5
y como matriz de pesos para los once estudios =
1
11
I
11
.
La matriz de productos internos S est denida por
s
kl
= R
k
, R
l
)

M
= tr(R
k
MR
l
M) = tr(R
k
R
l
).
Se construye una imagen Eucldea plana, primeramente con la matriz de
coecientes RV denotada Sn (Figura 8.13) y luego con la matriz Sc centrada
(Figura 8.14), donde
Sn = diag(
1

s
kk
) S diag(
1

s
kk
)
S
c
= JSJ
t
, J = I
11
1
11
1
t
11
.
J. TREJOS W. CASTILLO J. GONZLEZ 301
En el crculo de la Figura 8.13 se pueden observar aproximadamente las
relaciones entre las matrices de correlaciones a travs del RV -coeciente
denido como RV (R
k
, R
l
) =
R
k
,R
l

R
k
R
l

.
6
-
?

en
mz
ab
my
jn
jl
ag
se
oc no
di
Figura 8.13: Caa de azcar: interestructura normalizada (94% de inercia).
Por otro lado, en la Figura 8.14 se tiene una representacin aproximada de
las distancias entre las matrices de correlaciones. As entonces, la proximidad
de dos puntos bien representados observada en el crculo y en la Figura 8.14,
signica que las matrices de correlacin correspondientes son aproximadamente
iguales.
Como ayuda en la lectura de la Figura 8.14 se construye una tabla con
las normas y la calidad de la representacin de cada matriz, denida como el
cociente de la norma de su proyeccin ortogonal entre la norma de la matriz
(ver Tabla 8.7).
Mes mar abr may jun jul ago
100 Cal 98 18 99 95 86 69
Mes sep oct nov dic ene
100 Cal 97 87 77 68 96
Tabla 8.7: Caa de azcar: calidad de la representacin plana.
302 8.8 El compromiso
Eje 2
Eje 1
6
?
-


en
mz
ab
my
jn
jl
ag
se
oc
no
di
Figura 8.14: Caa de azcar: interestructura centrada (79% de inercia).
De ambos grcos se puede observar lo siguiente:
1. Los meses de enero, setiembre y mayo son los puntos ms alejados, cues-
tin que muestra cambios importantes (relativamente) en algunas de las
variables.
2. Abril y noviembre estn muy prximos, pero no es concluyente, puesto que
hay una mala representacin del mes de abril (18%).
3. {Marzo, junio, julio}, {Agosto, octubre, noviembre, diciembre} son gru-
pos estables, en el sentido que la estructura de correlaciones se mantiene
aproximadamente igual.
8.8 El compromiso
El compromiso en Statis Dual se dene de manera anloga al compromiso en el
mtodo Statis, teniendo en cuenta que al ser las matrices X
k
centradas y reduci-
das los objetos de estudio son las matrices de correlaciones. Las propiedades
J. TREJOS W. CASTILLO J. GONZLEZ 303
son las misma de Statis, slo varan las interpretaciones, las cuales se resumen a
continuacin.
El compromiso Res
R =
m

k=1

k
R
k
.
donde es vector propio de S asociado al mayor valor propio
1
y

m
i=1

i
=
1; R verica las siguientes propiedades:
1. R es el objeto ms correlacionado con los R
k
, en el sentido de que R es
el que maximiza el promedio del cuadrado de las correlaciones de R con
los R
k
. Es decir, Rmaximiza el cociente

m
k=1
t
k

m
l=1

l
R
l
, R
k
)
2
|R|
2
al variar R
m
.
2. Si X
t
=
_

1
X
t
1
,

2
X
t
2
, . . . ,

m
X
t
m
_
pn
con n =

m
k=1
n
k
y
D = diag(D
k
)
nn
entonces R = X
t
DX. Adems las variables denidas
por las columnas de Xson centradas y reducidas respecto a D, por lo que
se puede interpretar el compromiso como una matriz de correlaciones.
3. r
D
(x
j
, x
j

) =

m
k=1

k
r
D
k
(x
j
k
, x
j

k
) donde x
j
, x
j

son las variables de la


matriz X(columnas j-sima, j

-sima de X) y x
j
k
, x
j

k
son las correspon-
dientes variables de la matriz X
k
(columnas j-sima y j

-sima de X
k
).
Puede notarse que la Dcorrelacin entre dos variables de Xes el prome-
dio de las D
k
correlaciones entre las correspondientes variables de X
k
.
4. Si todos los R
k
son iguales entonces
k
= t
k
para todo k, es decir el
compromiso es el promedio de los R
k
5. Si algn R
k
es muy diferente a los dems (es decir, R
k
, R
l
) = 0 , para
todo l ,= k), ste no participa del compromiso (
k
= 0).
6. Si se eligen todos los pesos de los R
k
iguales, esto es =
1
m
I
m
, entonces
los mayores
k
corresponden a los R
k
que en promedio correlacionan ms
con el resto de los R
l
.
Se puede armar de estas propiedades que el compromiso rescata lo que es
comn a las diferentes conguraciones y descarta las diferencias. Las pruebas
de esas propiedades se encuentran en [64].
304 8.9 Intraestructura
Ejemplo 10 Se dene S y como sigue:
S
k,l
= RV (k, l) =
R
k
|R
k
|
,
R
l
|R
l
|
), =
1
11
I
11
.
El vector propio asociado al mayor valor propio
1
de la matriz S dene
los pesos del compromiso C =

m
k=1

k
R
k
R
k

(ver Tabla 8.8).


R
k
mar abr may jun jul ago
100
k
9.38 9.00 9.17 9.51 9.54 9.55
R
k
sep oct nov dic ene
100
k
9.10 9.27 9.60 9.06 6.84
Tabla 8.8: Caa de azcar: pesos del compromiso.
Como se observ en las guras 8.13 y 8.14 el mes de enero es el que ms
diere y segn las propiedades del compromiso enumeradas anteriormente este
mes debera tener un bajo peso en la formacin del compromiso, lo que se cor-
robora en la tabla anterior (peso de 6.84).
8.9 Intraestructura
El estudio de la intraestructura involucra la representacin en un subespacio de
baja dimensin (usualmente dos) de las trayectorias (por alusin al tiempo) de las
variables y, eventualmente, de los individuos. Ello permite explicar las desvia-
ciones entre tablas de datos observadas en la interestructura, por medio de las
desviaciones individuales de las variables en las trayectorias.
Sea X
t
=
_

1
X
t
1
. . .

m
X
t
m

y D = diag (D
k
)
nn
. Si u
1
, . . . , u
p
son
los vectores propios M-ortonormados del A.C.P. de (X, M, D), asociados a los
valores propios
1
. . .
p
> 0, entonces los u
i
son vectores propios
de RM donde R = X
t
DX es el compromiso. Se denotan con c
1
, . . . c
p
las
componentes principales correspondientes de este A.C.P..
8.9.1 Representacin de las variables
Se consideran representaciones de las variables denidas por las columnas de la
tabla X (variables activas) y de las variables denidas por las columnas de las
tablas X
k
ponderadas por un factor
k
(variables suplementarias).
J. TREJOS W. CASTILLO J. GONZLEZ 305
Variables activas
Por denicin X
t
Dc
s
=
1

s
RMu
s
, luego
coord
cs
(x
j
) = (x
j
)
t
)Dc
s
=
1

s
r
j
Mu
s
=
m

k=1

s
(r
j
k
)
t
Mu
s
donde r
j
k
es la columna j de R
k
y r
j
es la la j de R. Esta representacin
corresponde a una imagen Eucldea ptima de rango q p, asociada a R.
Ejemplo 11 La Figura 8.15 muestra la representacin de las variables activas
(variables promedio) en los dos primeros ejes del compromiso correspondiente
al ejemplo 8.
6
-
?

Altura
PSTA
PSCO
PSHF
AFV
0.6
0.6
Figura 8.15: Caa de azcar: variables activas (75% de inercia).
Como se puede observar, el primer eje del compromiso (57.4%) est deter-
minado fundamentalmente por la variable peso seco de los cogollos (PSCO) y en
menor grado por la variable peso seco de los tallos (PSTA). Se hace referencia
a l como Eje de los gramos.
El segundo eje, con un porcentaje de Inercia del 17.5%, est denido por
la variable Altura de los tallos (Altura) y en menor grado por la variable Area
foliar verde (AFV). Se le denomina Eje de los centmetros.
306 8.9 Intraestructura
Variables suplementarias
Para hacer una representacin, se identica la variable x
j
k
con la variable su-
plementaria ( x
j
k
)
t
= [0 . . . 0, (

k
x
j
k
)
t
, 0 . . . 0]
1n
, luego su coordenada en la
componente c
s
es:
coord
cs
( x
j
k
) = ( x
j
k
)
t
Dc
s
=
1

s
(x
j
k
)
t
D
k
X
k
Mu
s
=

k

s
(r
j
k
)
t
Mu
s
.
Ntese que las coordenadas de las variables observadas en el perodo entero son
iguales al promedio de las variables correspondientes en cada instante, salvo por
la constante 1/m:
coord
cs
(x
j
) =
m

k=1
coord
cs
( x
j
k
).
Vanse las guras 8.16, donde se ilustra este tipo de representacin por medio
de variables suplementarias. Se muestran los siguientes casos:
(a) AFV: rea foliar verde.
(b) Altura: Altura de los tallos.
(c) PSHF: Peso seco de las hojas verdes.
(d) PSCO: Peso seco de los cogollos.
(e) PSTA: Peso seco de los tallos.
J. TREJOS W. CASTILLO J. GONZLEZ 307
6
?
-

mz
ab
my
jn
jl
ag
se
oc
no
di
en
(a) AFV.
6
?
-

mz
ab
my
jn
jl
ag
se
oc
no
di
en
(b) Altura.
6
?
-

mz
ab
my
jn
jl
ag
se
oc
no
di
en
(c) PSHF.
6
?
-

mz ab
my
jn
jl
ag
se
oc
no
di
en
(d) PSCO.
6
?
-

mz
ab
my
jn
jl
ag
se
oc
no
di
en
(e) PSTA.
Figura 8.16: Caa de azcar: variables suplementarias.
308 8.10 Aproximacin ptima de matrices
8.9.2 Relacin entre la interestructura y las trayectorias de las va-
riables
Se trata de identicar las variables que explican las desviaciones observadas en
la interestructura. Se sabe que los R
k
mejor representados en el compromiso
corresponden a los de mayor
k
. Por lo tanto interesan fundamentalmente las
cantidades |R
k
R
l
|
2
, donde
k
y
l
son grandes y si adems
k

l
y
M= I se tiene que
|R
k
R
l
|
2

j=1
p

s=1

s
_
coord
cs
( x
j
k
) coord
cs
( x
j
l
)
_
2
.
Se ve que mientras ms grande sea el desplazamiento de una variable j entre los
instantes k y l, ms aporta esta variable a la distancia entre R
k
y R
l
.
Ejemplo 12 En el caso del crecimiento de la caa de azcar, como se observa
en la interestructura, los meses de enero, mayo y setiembre son lo ms alejados,
las trayectorias de las variables muestran que los aportes fundamentales a esta
separacin corresponden a las variables: Altura, PSHF, PSCO y PSTA para el
mes de enero; Altura, AFV y PSHF para el mes de mayo; Altura y PSCO para
el mes de setiembre.
8.9.3 Representacin de los individuos
La representacin de un individuo x
i
es la usual del A.C.P., es decir su coorde-
nada en el eje u
j
es: coord
u
j
(x
i
) = x
t
i
Mu
j
.
x
i
=
r

j=1
x
i
, u
j
)
M
u
j
=
r

j=1
_
x
t
i
Mu
j
_
u
j
.
En el ejemplo de crecimiento de la caa no es posible analizar trayectorias de
individuos, pues stos se destruyen mes a mes.
8.10 Aproximacin ptima de matrices
En esta seccin se presentan los resultados matemticos a partir de los cuales se
deduce la optimalidad de las imgenes Eucldeas aproximadas que se construyen
en Statis.
J. TREJOS W. CASTILLO J. GONZLEZ 309
Denicin 8.4 Sean R
p
y R
n
espacios vectoriales provistos de mtricas M y
N, respectivamente. El producto escalar de Hilbert Schmidt se dene como
X, Y)
M,N
= tr
_
X
t
NYM
_
para todas las matrices X, Y de tamao n p.
Teorema 8.2 Sea X una matriz n p de rango mayor o igual que q. Una
solucin del problema
min
Y
_
|XY|
2
M,N
[ rng (Y) = q
_
es XMHH
t
con H = [v
1
. . . v
q
] , v
1
. . . v
q
vectores propios Mortonormados
de X
t
NXM, donde rng (Y) denota el rango de Y.
DEMOSTRACIN:
Es claro que expresando M = L
t
1
L
1
y N = L
t
2
L
2
se tiene
X, Y)
M,N
=

L
2
XL
t
1
, L
2
YL
t
1
_
Ip,In
y
|XY|
M,N
=
_
_
L
2
XL
t
1
L
2
YL
t
1
_
_
Ip,In
.
Sean x
1
, . . . , x
n
las las de la matriz X. Se sabe que
min
_
_
_
L
2
XL
t
1
L
2
YL
t
1
_
_
Ip,In
[ rng (Y) = q
_
=
=
_
_
L
2
XL
t
1
L
2
XL
t
1
UU
t
_
_
Ip,In
=
n

i=1
|x
i
|
2

k=1
u
t
k
_
L
2
XL
t
1
_
t
L
2
XL
t
1
u
k
con U = [u
1
. . . u
q
] , u
1
. . . u
q
vectores propios I
p
ortonormados de L
1
X
t
NXL
t
1
asociados a
1

q
> 0 (ver [33]).
Sea u
j
= L
1
v
j
entonces se deduce que v
1
. . . v
q
son vectores propios
Mortonormados de X
t
NXMasociados a
1

q
> 0.
Por otra parte, como L
1
H = Uentonces
L
2
XL
t
1
UU
t
= L
2
XMHH
t
L
t
1
de donde
_
_
L
2
XL
t
1
L
2
XL
t
1
UU
t
_
_
Ip,In
=
_
_
XXMHH
t
_
_
M,N
.
310 8.11 Datos del Proyecto Angostura
Corolario 8.1 Se tiene:
1. min|XY|
2
M,N
[ rng (Y) q = min|XY|
2
M,N
[ rng (Y) = q.
2. Sea M = N y X = S simtrica. Entonces se tiene que
min|S Y|
2
M,M
[ rng (Y) = q se alcanza en
SMHH
t
=
q

j=1

j
v
j
v
t
j
donde v
1
. . . v
q
son vectores propios Mortonormados de SMasociados
a
1

q
> 0.
3. min|S Y|
M,M
[ rng (Y) = q =

r
j=q+1

2
j
con r = rng (S).
DEMOSTRACIN:
1. Sea Y de rango q
1
q y sean x
1
, . . . , x
n
las las de X; entonces
|XY|
2
M,N
min|XZ|
2
M,N
[ rng (Z) = q
1

=
n

i=1
|x
i
|
2

q
1

k=1
u
t
k
(L
2
XL
t
1
)
t
L
2
XL
t
1
u
k

i=1
|x
i
|
2

k=1
u
t
k
(L
2
XL
t
1
)
t
L
2
XL
t
1
u
k
= min|XZ|
2
M,N
[ rng (Z) = q.
2. Se tiene X
t
NXM= SMSM. Sean v
1
. . . v
q
vectores propios Morto-
normados de SM asociados a
1

q
> 0, luego tambin lo son
de SMSM asociados a
2
1

2
q
> 0. Por lo tanto SMHH
t
=
HD

H
t
=

q
k=1

k
v
k
v
t
k
.
3. Como S =

r
k=1

k
v
k
v
t
k
entonces S SMHH
t
=

r
k=q+1

k
v
k
v
t
k
.
Ahora, en vista de que

v
k
v
t
k
, v
l
v
t
l
_
M,M
=
kl
(el delta de Kronecker) se
deduce que |S SMHH
t
|
2
=

r
k=q+1

2
k
.
8.11 Datos del Proyecto Angostura
En las tablas 8.9 y 8.10 se presentan los datos que corresponden al Proyecto
Hidroelctrico Angostura.
J. TREJOS W. CASTILLO J. GONZLEZ 311
R
e
v
1
p
H
T
e
m
p
N
a
K
C
a
M
g
S
i
O
2
O
D
D
B
O
S
D
S
T
P
O
4
C
l
N
O
3
S
O
4
H
C
O
3
D
T
P
O
D
C
a
l
E
n
7
.
3
7
2
0
.
0
7
6
.
5
6
2
.
1
6
1
5
.
3
0
6
.
0
8
2
9
.
8
0
7
.
9
4
2
.
0
0
1
2
8
.
6
7
1
4
9
.
3
3
0
.
2
8
2
.
8
7
2
.
1
6
8
.
5
2
7
7
.
9
7
6
3
.
7
3
9
2
.
8
7
8
6
.
0
0
F
e
7
.
2
3
2
0
.
4
7
5
.
6
7
1
.
9
3
1
4
.
4
3
3
.
8
8
2
4
.
2
7
7
.
6
6
2
.
8
9
8
8
.
0
0
1
1
4
.
6
7
0
.
2
1
2
.
4
9
2
.
2
6
8
.
1
5
6
7
.
6
0
5
3
.
4
7
8
9
.
9
0
8
4
.
8
0
M
z
7
.
4
9
2
0
.
4
3
6
.
1
9
1
.
9
2
1
5
.
3
0
4
.
1
7
2
6
.
3
0
8
.
4
5
2
.
0
0
8
6
.
0
0
1
0
8
.
6
7
0
.
2
7
2
.
6
9
2
.
0
6
8
.
3
9
7
1
.
4
7
5
5
.
6
7
9
9
.
2
0
8
6
.
4
3
A
b
7
.
8
7
2
1
.
8
7
7
.
0
0
2
.
3
2
1
6
.
2
7
5
.
2
3
2
5
.
5
7
8
.
1
7
2
.
1
4
1
2
3
.
3
3
1
4
4
.
0
0
0
.
3
1
3
.
0
6
1
.
7
4
9
.
8
3
8
1
.
2
0
6
4
.
3
3
9
8
.
8
0
8
4
.
9
0
M
y
7
.
3
6
2
1
.
6
0
5
.
5
9
1
.
7
8
1
4
.
6
7
3
.
7
6
2
6
.
1
0
8
.
2
0
2
.
2
9
9
4
.
0
0
2
0
2
.
0
0
0
.
7
2
2
.
7
5
2
.
6
3
8
.
7
8
6
7
.
0
0
5
4
.
3
7
9
8
.
6
7
8
1
.
1
7
J
n
7
.
2
1
2
0
.
3
0
5
.
0
4
1
.
7
6
1
2
.
6
3
3
.
3
1
2
2
.
5
7
8
.
2
0
3
.
1
4
9
4
.
0
0
1
7
6
.
6
7
0
.
5
2
2
.
1
9
2
.
5
3
7
.
7
7
6
0
.
8
7
4
8
.
0
0
9
5
.
8
3
8
3
.
5
3
J
l
7
.
4
0
2
0
.
6
0
4
.
8
0
1
.
6
3
1
2
.
2
0
3
.
7
6
1
9
.
9
3
8
.
2
2
2
.
1
2
9
6
.
0
0
1
9
6
.
3
3
0
.
3
3
1
.
9
5
2
.
0
5
6
.
3
9
5
8
.
5
3
4
7
.
5
7
9
7
.
1
0
8
5
.
0
0
A
g
7
.
4
7
2
0
.
6
3
4
.
9
8
1
.
6
7
1
2
.
8
3
3
.
3
5
2
4
.
3
3
8
.
0
0
2
.
4
4
9
6
.
6
7
1
3
6
.
0
0
0
.
2
9
1
.
8
0
1
.
6
2
5
.
8
5
5
8
.
2
7
4
8
.
4
7
9
4
.
4
0
8
5
.
4
0
S
e
7
.
3
4
2
1
.
3
0
4
.
8
2
1
.
8
3
1
2
.
7
3
3
.
3
2
2
4
.
2
0
8
.
4
0
2
.
3
6
1
1
4
.
6
7
2
1
7
.
3
3
0
.
6
9
2
.
2
6
2
.
3
7
6
.
4
9
5
6
.
1
0
4
7
.
0
7
1
0
0
.
7
0
8
1
.
0
7
O
c
7
.
1
9
2
0
.
8
0
5
.
2
2
1
.
8
8
1
3
.
2
7
3
.
5
1
3
3
.
1
0
8
.
2
9
2
.
4
1
1
0
4
.
0
0
2
6
7
.
3
3
0
.
9
3
2
.
2
4
2
.
1
6
7
.
4
7
6
1
.
3
7
4
9
.
2
7
9
7
.
9
7
7
8
.
9
3
N
o
7
.
3
2
1
9
.
9
7
5
.
0
9
1
.
5
8
1
2
.
3
6
3
.
1
7
2
7
.
6
3
8
.
3
2
2
.
0
5
8
4
.
6
7
1
9
9
.
3
3
1
.
2
0
1
.
9
6
1
.
9
1
6
.
6
8
5
6
.
9
0
4
5
.
6
3
9
6
.
5
7
7
9
.
1
0
D
i
7
.
3
3
1
9
.
8
7
5
.
2
4
1
.
8
1
1
2
.
9
3
3
.
7
5
2
5
.
6
0
8
.
2
3
2
.
2
1
9
4
.
9
7
1
7
4
.
6
7
0
.
6
0
2
.
1
6
2
.
0
4
7
.
2
3
6
1
.
9
7
4
9
.
0
3
9
5
.
6
3
8
2
.
7
3
R
e
v
3
p
H
T
e
m
p
N
a
K
C
a
M
g
S
i
O
2
O
D
D
B
O
S
D
S
T
P
O
4
C
l
N
O
3
S
O
4
H
C
O
3
D
T
P
O
D
C
a
l
E
n
7
.
0
0
2
2
.
8
3
4
.
7
2
1
.
0
4
1
5
.
4
0
3
.
1
0
2
0
.
0
0
7
.
6
1
3
.
5
4
8
0
.
0
0
1
1
3
.
3
3
0
.
2
2
1
.
0
3
0
.
2
9
3
.
7
0
7
3
.
5
0
5
1
.
7
7
9
5
.
3
3
8
3
.
8
0
F
e
7
.
1
7
2
4
.
0
7
5
.
5
1
1
.
5
1
1
5
.
9
0
3
.
4
7
1
9
.
1
0
6
.
9
3
3
.
4
9
8
8
.
0
0
1
0
6
.
0
0
0
.
3
2
2
.
1
3
0
.
8
6
7
.
1
3
6
9
.
4
0
5
5
.
5
0
8
8
.
9
3
8
2
.
0
3
M
z
7
.
1
3
2
2
.
3
0
5
.
7
7
1
.
5
9
1
7
.
0
7
4
.
0
9
2
1
.
9
7
7
.
9
0
2
.
8
4
9
5
.
3
3
1
2
2
.
6
7
0
.
3
3
2
.
0
5
1
.
0
3
1
0
.
6
2
7
4
.
7
0
6
1
.
1
0
9
7
.
7
7
8
5
.
2
7
A
b
6
.
5
7
2
3
.
2
0
7
.
0
7
2
.
0
3
1
5
.
7
7
3
.
9
1
2
1
.
7
3
7
.
4
5
7
.
5
7
1
0
7
.
3
3
1
4
2
.
6
7
0
.
3
4
3
.
1
1
2
.
0
8
1
3
.
4
0
7
0
.
6
0
5
6
.
6
7
9
4
.
0
7
7
4
.
5
0
M
y
6
.
8
4
2
2
.
3
0
4
.
5
2
1
.
2
8
1
3
.
5
7
2
.
8
7
2
3
.
5
0
7
.
6
2
2
.
8
7
7
6
.
0
0
1
5
8
.
6
7
0
.
5
5
1
.
7
0
1
.
6
2
6
.
9
6
6
1
.
1
3
4
6
.
4
7
9
4
.
4
7
8
1
.
6
3
J
n
7
.
0
4
2
1
.
5
7
4
.
1
9
3
.
2
7
1
3
.
7
0
2
.
7
1
2
1
.
8
7
7
.
9
7
3
.
9
4
8
6
.
0
0
1
1
8
.
6
7
0
.
4
8
1
.
3
4
0
.
5
6
6
.
0
2
6
0
.
9
0
4
8
.
5
7
9
7
.
9
3
8
2
.
6
3
J
l
7
.
1
9
2
1
.
6
7
4
.
4
3
1
.
1
1
1
3
.
0
7
2
.
8
1
2
0
.
2
0
7
.
5
1
3
.
4
2
8
0
.
0
0
1
5
0
.
6
7
0
.
3
3
2
.
6
1
0
.
6
0
5
.
1
2
5
8
.
0
0
4
5
.
3
3
9
2
.
1
0
8
4
.
5
3
A
g
7
.
3
6
2
2
.
6
3
4
.
8
1
1
.
3
6
1
3
.
2
7
3
.
0
2
1
9
.
9
3
7
.
8
9
2
.
0
7
9
1
.
3
3
1
2
5
.
3
3
0
.
4
2
1
.
5
6
1
.
1
9
5
.
9
0
6
0
.
0
7
4
6
.
8
0
9
8
.
3
3
8
5
.
8
0
S
e
7
.
1
0
2
2
.
8
7
4
.
4
9
1
.
3
7
1
2
.
7
7
2
.
9
1
2
0
.
3
7
7
.
9
4
2
.
0
9
9
0
.
0
0
1
7
2
.
0
0
0
.
5
7
1
.
9
0
2
.
2
1
5
.
2
4
5
3
.
5
3
4
5
.
4
0
9
9
.
7
0
8
2
.
7
0
O
c
7
.
1
2
2
0
.
9
7
4
.
5
9
1
.
4
5
1
2
.
6
3
2
.
8
6
3
0
.
1
0
7
.
8
5
2
.
2
1
1
1
0
.
0
0
2
7
8
.
0
0
0
.
8
7
1
.
9
3
2
.
5
2
7
.
4
7
5
5
.
6
3
4
6
.
2
0
9
5
.
1
0
8
1
.
7
0
N
o
7
.
4
2
2
0
.
6
7
4
.
5
0
1
.
3
5
1
1
.
9
3
2
.
8
3
2
5
.
1
3
8
.
5
4
2
.
0
0
7
3
.
3
3
1
4
2
.
6
7
0
.
3
4
1
.
3
2
1
.
4
8
5
.
2
4
5
4
.
3
3
4
2
.
6
0
1
0
2
.
7
3
8
6
.
5
3
D
i
7
.
0
4
2
0
.
2
0
4
.
5
6
1
.
4
2
1
1
.
9
3
2
.
8
5
2
0
.
9
3
8
.
5
4
2
.
0
0
9
3
.
6
7
1
2
7
.
6
7
0
.
4
8
0
.
6
9
0
.
7
3
1
.
7
7
5
7
.
8
0
4
2
.
2
3
1
0
2
.
2
7
8
5
.
7
3
Tabla 8.9: Proyecto Angostura: Reventazn 1 y Reventazn 3.
312 8.11 Datos del Proyecto Angostura
T
u
i
s
4
p
H
T
e
m
p
N
a
K
C
a
M
g
S
i
O
2
O
D
D
B
O
S
D
S
T
P
O
4
C
l
N
O
3
S
O
4
H
C
O
3
D
T
P
O
D
C
a
l
E
n
7
.
4
4
2
2
.
0
7
4
.
1
8
1
.
5
2
1
0
.
3
7
3
.
4
0
2
9
.
4
3
7
.
9
5
2
.
0
0
8
8
.
6
7
9
2
.
0
0
0
.
2
2
0
.
8
9
0
.
4
6
0
.
7
7
6
2
.
9
0
4
3
.
0
7
9
8
.
1
3
8
8
.
7
3
F
b
7
.
4
9
2
3
.
5
3
4
.
9
2
1
.
7
3
1
5
.
4
0
4
.
2
5
3
1
.
3
7
7
.
7
8
3
.
2
7
9
6
.
6
7
1
0
0
.
6
7
0
.
2
2
1
.
0
8
1
.
1
5
3
.
2
8
8
0
.
7
3
6
3
.
3
0
9
8
.
2
7
8
4
.
4
3
M
z
7
.
6
5
2
2
.
6
7
5
.
4
5
1
.
8
0
1
4
.
4
6
4
.
4
4
3
1
.
1
3
8
.
4
9
2
.
2
4
8
2
.
0
0
9
2
.
0
0
0
.
3
8
1
.
3
4
1
.
1
6
2
.
6
9
8
0
.
1
3
5
8
.
3
7
1
0
6
.
9
7
8
6
.
7
7
A
b
7
.
7
8
2
2
.
3
7
4
.
6
3
1
.
8
6
1
0
.
8
4
3
.
7
2
3
6
.
2
3
7
.
8
8
2
.
4
6
9
9
.
3
3
2
3
3
.
3
3
0
.
9
1
0
.
8
7
0
.
6
2
0
.
9
0
6
6
.
9
7
4
4
.
1
7
9
8
.
1
0
8
0
.
8
0
M
y
7
.
3
2
2
2
.
6
3
3
.
5
1
1
.
3
3
8
.
9
6
2
.
8
1
2
8
.
9
0
7
.
9
0
2
.
7
6
6
0
.
6
7
1
0
4
.
0
0
0
.
3
1
0
.
8
0
0
.
7
9
0
.
8
3
5
4
.
5
7
3
8
.
4
7
9
8
.
5
0
8
6
.
2
3
J
n
7
.
5
5
2
1
.
8
7
5
.
3
0
2
.
5
3
1
0
.
0
0
2
.
4
4
3
2
.
5
3
8
.
1
2
2
.
0
8
7
2
.
6
7
7
5
.
3
3
0
.
2
3
0
.
8
5
1
.
5
6
5
.
1
7
5
7
.
3
7
3
7
.
7
0
9
9
.
8
3
8
8
.
3
3
J
l
7
.
4
1
2
3
.
0
7
3
.
6
0
2
.
0
8
9
.
1
5
3
.
0
8
2
5
.
0
0
7
.
8
2
2
.
3
2
7
0
.
3
3
8
0
.
6
7
0
.
1
9
0
.
8
7
0
.
4
8
1
.
0
1
5
6
.
0
7
3
9
.
3
3
9
8
.
6
7
8
8
.
2
7
A
g
7
.
4
0
2
3
.
4
0
3
.
8
0
1
.
5
1
1
0
.
1
2
3
.
1
2
2
8
.
8
3
7
.
0
9
2
.
4
5
8
5
.
3
3
9
8
.
0
0
0
.
4
0
0
.
7
9
0
.
4
7
1
.
1
9
5
8
.
6
7
4
0
.
0
7
9
0
.
0
3
8
5
.
3
7
S
e
6
.
9
5
2
3
.
7
3
3
.
4
0
2
.
6
7
9
.
1
3
2
.
8
7
2
6
.
8
3
7
.
6
0
2
.
0
9
9
6
.
6
7
1
0
7
.
3
3
0
.
4
2
1
.
0
3
0
.
7
9
1
.
3
8
5
0
.
7
7
3
5
.
1
3
9
7
.
1
3
8
2
.
9
7
O
c
7
.
2
3
2
2
.
0
0
3
.
6
1
1
.
4
4
9
.
4
9
2
.
8
5
3
5
.
0
0
8
.
3
3
3
.
2
0
8
5
.
3
3
9
1
.
3
3
0
.
4
2
0
.
8
5
0
.
7
3
1
.
9
0
5
3
.
3
7
3
7
.
4
7
1
0
2
.
8
0
8
4
.
5
3
N
o
7
.
3
9
2
1
.
8
0
3
.
5
2
1
.
3
6
9
.
4
9
3
.
0
4
2
4
.
4
0
8
.
2
7
2
.
0
0
6
9
.
3
3
7
6
.
6
7
0
.
5
6
0
.
7
4
1
.
0
6
0
.
7
8
5
7
.
5
3
4
0
.
9
3
1
0
1
.
9
3
8
7
.
7
3
D
i
7
.
1
2
2
0
.
5
3
3
.
4
9
1
.
4
7
9
.
7
4
3
.
1
9
3
2
.
2
3
8
.
5
7
2
.
0
0
7
9
.
6
7
8
7
.
0
0
0
.
3
3
0
.
8
2
0
.
8
2
1
.
0
1
5
6
.
7
3
3
7
.
9
0
1
0
3
.
1
3
8
7
.
6
3
T
u
i
s
5
p
H
T
e
m
p
N
a
K
C
a
M
g
S
i
O
2
O
D
D
B
O
S
D
S
T
P
O
4
C
l
N
O
3
S
O
4
H
C
O
3
D
T
P
O
D
C
a
l
E
n
7
.
4
4
2
1
.
9
7
4
.
3
0
1
.
5
9
1
0
.
8
7
3
.
5
3
2
9
.
1
3
7
.
7
8
2
.
0
0
8
7
.
3
3
9
7
.
3
3
0
.
2
6
0
.
8
3
0
.
4
7
0
.
7
4
6
4
.
3
7
4
2
.
2
0
9
6
.
0
3
8
7
.
4
0
F
b
7
.
4
5
2
3
.
6
3
3
.
9
7
1
.
5
2
1
0
.
8
4
3
.
4
6
3
0
.
5
7
7
.
5
8
4
.
7
8
7
5
.
3
3
1
3
4
.
0
0
0
.
4
2
1
.
0
1
1
.
0
6
0
.
9
3
6
4
.
1
3
4
4
.
0
3
9
6
.
6
7
8
1
.
1
3
M
z
7
.
8
8
2
2
.
8
0
4
.
3
4
1
.
6
8
1
1
.
5
8
3
.
6
7
3
2
.
3
3
8
.
1
2
2
.
0
0
9
2
.
6
7
1
1
2
.
0
0
0
.
4
0
0
.
8
9
1
.
3
0
1
.
3
9
6
0
.
2
0
4
4
.
8
0
1
0
1
.
8
3
8
5
.
2
3
A
b
8
.
2
5
2
2
.
8
0
4
.
7
2
1
.
9
9
1
1
.
5
0
3
.
9
2
3
2
.
3
7
8
.
1
8
3
.
4
5
9
8
.
0
0
1
1
4
.
0
0
0
.
3
6
0
.
9
8
0
.
5
6
1
.
5
2
6
5
.
8
0
4
5
.
2
3
1
0
2
.
9
3
8
1
.
3
3
M
y
7
.
3
8
2
3
.
2
7
3
.
5
1
1
.
4
5
9
.
0
8
2
.
9
5
2
8
.
5
0
7
.
7
5
3
.
1
3
6
3
.
3
3
1
3
0
.
6
7
0
.
3
6
0
.
8
5
0
.
9
6
0
.
9
8
5
3
.
8
7
3
7
.
7
3
9
8
.
3
0
8
4
.
4
7
J
n
7
.
4
2
2
1
.
6
3
3
.
4
6
1
.
3
5
9
.
2
3
2
.
8
3
2
8
.
1
7
7
.
8
1
2
.
4
3
7
4
.
6
7
1
0
6
.
6
7
0
.
3
4
0
.
7
5
0
.
4
1
0
.
9
6
5
1
.
2
3
3
6
.
7
3
9
5
.
6
0
8
6
.
3
7
J
l
7
.
1
3
2
2
.
6
7
3
.
8
7
1
.
4
8
9
.
4
9
3
.
3
2
2
6
.
3
0
7
.
4
1
2
.
0
3
9
6
.
6
7
1
1
4
.
2
0
0
.
6
9
1
.
0
0
0
.
5
5
1
.
4
0
5
8
.
1
7
3
8
.
7
0
9
2
.
7
0
8
5
.
2
0
A
g
7
.
2
7
2
3
.
2
3
3
.
8
2
1
.
6
0
9
.
9
9
3
.
1
5
2
9
.
1
7
7
.
0
8
2
.
8
8
8
6
.
6
7
1
4
9
.
3
3
0
.
5
4
0
.
6
3
0
.
5
4
1
.
4
4
5
5
.
8
3
3
9
.
6
7
8
9
.
4
7
8
1
.
9
7
S
e
6
.
7
4
2
3
.
9
0
3
.
3
4
2
.
2
9
9
.
2
0
2
.
9
1
2
8
.
3
7
7
.
1
9
4
.
2
4
8
6
.
0
0
1
7
4
.
0
0
0
.
9
7
0
.
9
0
0
.
6
4
0
.
5
4
5
3
.
4
3
3
5
.
7
3
9
2
.
1
7
7
5
.
8
3
O
c
7
.
1
3
2
1
.
9
3
3
.
4
4
1
.
5
6
9
.
1
1
2
.
8
5
3
4
.
0
7
7
.
8
5
2
.
3
0
9
5
.
3
3
1
0
0
.
6
7
0
.
8
0
1
.
0
2
0
.
7
5
1
.
6
8
5
2
.
3
7
3
6
.
3
3
9
7
.
1
3
8
3
.
8
0
N
o
7
.
1
0
2
2
.
0
3
3
.
6
6
1
.
6
2
9
.
5
9
3
.
2
0
3
0
.
2
3
7
.
7
2
2
.
4
5
7
2
.
6
7
7
7
.
3
3
0
.
5
9
0
.
7
0
0
.
7
8
0
.
7
0
6
0
.
2
3
3
7
.
6
0
9
5
.
9
3
8
6
.
3
0
D
i
7
.
0
3
2
1
.
8
3
3
.
7
1
1
.
5
7
1
0
.
0
7
3
.
2
8
3
5
.
7
7
8
.
0
1
2
.
3
5
9
9
.
0
0
1
1
6
.
0
0
0
.
3
8
0
.
8
1
0
.
9
8
0
.
9
5
6
1
.
1
7
3
9
.
3
3
9
8
.
7
7
8
5
.
8
7
T
u
r
r
2
p
H
T
e
m
p
N
a
K
C
a
M
g
S
i
O
2
O
D
D
B
O
P
O
4
C
l
N
O
3
S
O
4
H
C
O
3
D
T
P
O
D
C
a
l
E
n
7
.
6
1
2
1
.
1
3
9
.
7
5
4
.
9
1
1
8
.
0
0
1
1
.
6
7
5
0
.
1
7
7
.
8
2
1
.
8
4
0
.
5
5
4
.
0
5
5
.
2
4
1
4
.
1
7
1
2
1
.
6
7
9
3
.
3
0
9
5
.
3
3
8
0
.
7
0
F
b
7
.
7
4
2
1
.
7
3
9
.
4
8
4
.
6
9
1
9
.
7
7
1
1
.
4
7
4
4
.
3
3
7
.
7
6
1
.
7
5
0
.
4
6
4
.
1
4
5
.
0
1
1
3
.
2
1
1
2
0
.
6
3
9
7
.
4
3
9
5
.
6
0
8
1
.
3
6
M
z
8
.
0
7
2
2
.
3
3
1
0
.
0
4
5
.
4
8
1
9
.
7
7
1
2
.
3
0
3
7
.
8
0
7
.
9
5
2
.
2
6
0
.
5
9
5
.
7
1
6
.
0
1
1
4
.
6
7
1
2
1
.
3
3
1
0
2
.
0
0
9
9
.
0
0
7
8
.
2
6
A
b
7
.
8
6
2
2
.
0
7
1
1
.
7
0
5
.
5
0
2
1
.
7
0
1
4
.
9
0
4
4
.
0
0
7
.
8
4
2
.
5
8
0
.
8
7
5
.
3
8
5
.
7
2
1
7
.
5
0
1
3
7
.
6
7
1
1
6
.
6
7
9
6
.
6
7
7
5
.
5
9
M
y
7
.
5
9
2
3
.
6
7
8
.
6
0
3
.
9
2
1
6
.
8
7
1
0
.
2
5
4
6
.
4
0
7
.
7
0
1
.
3
1
0
.
4
3
4
.
3
0
6
.
7
0
1
2
.
5
0
1
0
7
.
3
3
8
6
.
8
0
9
8
.
3
3
8
1
.
8
5
J
n
7
.
5
6
2
2
.
0
7
6
.
5
4
3
.
2
2
1
2
.
9
2
6
.
8
4
4
4
.
4
7
8
.
0
7
1
.
5
6
0
.
4
9
2
.
3
6
3
.
3
5
7
.
2
3
8
6
.
9
3
6
1
.
2
7
9
9
.
9
3
8
3
.
2
5
J
l
7
.
5
9
2
2
.
1
3
8
.
4
4
4
.
4
6
1
6
.
3
3
1
0
.
7
3
4
2
.
1
0
7
.
6
9
3
.
5
9
0
.
5
0
3
.
4
8
4
.
8
8
1
0
.
2
3
1
0
4
.
6
7
8
7
.
0
3
9
5
.
5
3
7
8
.
7
3
A
g
7
.
7
9
2
2
.
9
7
8
.
6
6
4
.
7
1
1
6
.
4
0
9
.
9
1
4
5
.
7
0
7
.
7
3
3
.
7
5
0
.
6
1
3
.
4
5
4
.
4
9
9
.
9
4
1
0
2
.
0
0
8
5
.
4
3
9
7
.
2
3
7
8
.
1
2
S
e
7
.
3
1
2
2
.
4
0
8
.
5
0
4
.
8
6
1
6
.
9
3
1
0
.
1
7
4
3
.
7
0
7
.
8
2
3
.
3
2
1
.
2
9
4
.
3
2
5
.
3
5
1
2
.
4
7
1
0
5
.
6
7
8
6
.
5
0
9
5
.
7
7
7
5
.
0
1
O
c
7
.
3
4
2
1
.
5
3
8
.
5
4
4
.
9
3
1
6
.
4
7
9
.
7
2
4
6
.
5
0
8
.
1
4
4
.
1
7
1
.
9
2
4
.
3
7
4
.
4
9
1
3
.
4
0
1
0
7
.
7
3
8
5
.
2
0
9
9
.
8
7
6
1
.
5
9
N
o
7
.
2
1
2
0
.
8
3
8
.
8
4
5
.
4
7
1
7
.
0
3
1
0
.
5
3
4
9
.
6
0
7
.
7
3
1
0
.
9
2
1
.
1
0
2
.
8
1
3
.
7
1
8
.
5
1
1
1
4
.
3
3
8
7
.
5
7
9
3
.
3
3
7
4
.
5
2
D
i
7
.
3
8
2
0
.
4
3
7
.
2
3
4
.
2
4
1
3
.
5
7
8
.
4
4
4
5
.
9
0
8
.
8
0
2
.
6
3
0
.
3
7
2
.
8
7
4
.
0
9
8
.
7
9
9
2
.
9
7
7
0
.
6
0
1
0
5
.
3
3
8
2
.
7
0
Tabla 8.10: Proyecto Angostura: Tus 4, Tus 5 y Turrialba2.
J. TREJOS W. CASTILLO J. GONZLEZ 313
Ejercicios
1. Demuestre que la matriz S del mtodo Statis cuyas entradas son
s
kl
= W
k
, W
l
)

D
es semidenida positiva, donde W
k
= X
k
M
k
X
t
k
y X
k
es una matriz de individuos por variables de rango completo por
columnas para k = 1, . . . m.
2. En el mtodo Statis, sea =
1
m
I
m
la matriz de pesos (todos iguales),
s
kl
= W
k
, W
l
)

D
. Demuestre que la imagen Eucldea

W
1
, . . . ,

W
m

se puede obtener diagonalizando S en lugar de S.


Indicacin: Demuestre que
(a) Si u es vector propio de S asociado al valor propio , con |u| = 1,
entonces

mu es vector propio de S asociado al valor propio
1
m
con |

mu|

= 1.
(b) La imagen Eucldea para W
1
, . . . , W
m
obtenida con los vectores
propios |u
i
| = 1 de S, es la misma que se obtiene con los vectores
propios |u
i
|

= 1 de S.
3. Demuestre las siguientes propiedades del compromiso del mtodo Statis:
(a) Si todos los W
k
son iguales entonces el compromiso es la media
aritmtica de los W
k
.
(b) Si algn W
k
es muy diferente de los dems (es decir, es tal que
W
k
, W
l
)

D
= 0, todo l), ste no participa del compromiso
(
k
= 0).
(c) Si se eligen todos los pesos de los W
k
iguales, esto es =
1
m
I
m
,
entonces los mayores
k
corresponden a los W
k
que en promedio
tienen un mayor RVcoeciente con el resto de los W
i
.
(d) En la imagen Eucldea no centrada de la interestructura, el compro-
miso se encuentra sobre el primer eje a la distancia de [[W[[

D
.
(e) Demuestre las dos propiedades dadas en la subseccin denominada
otras propiedades de la seccin 8.7.1, pgina 300.
4. En el contexto del mtodo Statis Dual.
(a) Supngase que V
k
M = V
l
Mentonces :
314 8.11 Datos del Proyecto Angostura
i. Los A.C.P. de los tripletes (X
k
, M, D
k
) y (X
l
, M, D
l
), tienen
los mismos vectores y valores propios y, las componentes prin-
cipales, en ambos casos, son combinaciones lineales de las mis-
mas variables con los mismos pesos. Es decir, tienen la misma
interpretacin.
ii. Si las matrices X
k
, X
l
son reducidas entonces las correlaciones
de las variables con las componentes principales en el instante
k, son iguales a las correlaciones de las variables con las com-
ponentes principales en el instante l.
(b) En el caso V
k
M = V
l
M, entonces hay proporcionalidad en la
estructura de correlaciones.
5. Para estudiar la contaminacin en un proyecto hidroelctrico en Costa
Rica
2
se dispone de la observacin de 13 variables en 9 puntos de muestreo
durante 4 estaciones climticas.
Las variables son:
Nit: concentracin de nitratos.
Fos: concentracin de fosfatos.
Cal: ndice de calidad del agua (funcin no lineal de los parmetros).
Sto: concentracin de slidos totales.
pH: potencial hidrgeno.
Mn: concentracin de manganeso.
Zn: concentracin de zinc.
SS: concentracin de slidos sedimentables.
Alc: alcalinidad.
Cl: concentracin de cloro.
Cau: caudal.
DBO: demanda bioqumica de oxgeno (ppm).
Por: porcentaje de saturacin de oxgeno.
Los sitios de muestreo son:
Alajuela: ro Alajuela.
2
Los datos fueron aportados por la Lic. Vania Morales G. del Laboratorio Qumico del Instituto
Costarricense de Electricidad (I.C.E.).
J. TREJOS W. CASTILLO J. GONZLEZ 315
Ciruelas: ro Ciruelas.
Desf: desfogue.
Embcen: embalse centro.
Embori: embalse orilla.
Embsal: embalse salida.
Presa: presa.
QSoto: ro Quebrada Soto.
Virilla: ro Virilla.
Las 4 tablas de datos, que corresponden a estaciones climticas, son:
V: verano (enero, febrero, marzo, abril).
VI: transicin veranoinvierno (mayo).
I: invierno (junio, julio, agosto, setiembre, octubre).
IV: transicin inviernoverano (noviembre).
Los datos son mostrados en las tablas 8.11, 8.12, 8.13 y 8.14. Aplique el
mtodo Statis para analizar estos datos.
En vista de que se tiene que la posibilidad de aplicar tambin el mtodo
Statis Dual, cmo cree que se comportarn los resultados del anlisis?
316 8.11 Datos del Proyecto Angostura
P
u
n
t
o
N
i
t
F
o
s
C
a
l
S
t
o
p
H
M
n
Z
n
S
S
A
l
c
C
l
C
a
u
D
B
O
P
o
r
m
u
e
s
t
r
e
o
A
l
a
j
u
e
l
a
2
.
3
6
0
.
4
3
6
9
.
0
0
1
5
6
.
5
0
8
.
4
1
0
.
0
6
0
.
0
3
0
.
2
0
1
5
0
.
7
5
7
.
8
5
0
.
4
5
1
6
.
7
0
8
7
.
2
5
C
i
r
u
e
l
a
s
3
.
6
0
0
.
5
3
7
2
.
2
5
1
8
4
.
7
5
8
.
4
4
0
.
0
4
0
.
0
1
0
.
4
2
1
4
9
.
5
0
8
.
1
2
1
.
3
7
4
.
7
8
8
8
.
2
5
D
e
s
f
o
g
u
e
0
.
8
9
0
.
7
0
6
1
.
0
0
1
7
2
.
2
5
7
.
3
1
0
.
1
9
0
.
0
2
0
.
5
5
1
2
9
.
0
0
3
.
7
5
1
9
.
9
0
1
1
.
0
7
4
8
.
5
0
E
m
b
c
e
n
t
1
.
0
6
0
.
6
9
5
5
.
5
0
1
7
7
.
2
5
7
.
2
1
0
.
1
8
0
.
0
2
0
.
7
2
1
2
7
.
7
5
3
.
7
0
1
2
.
0
0
1
3
.
5
5
5
8
.
2
5
E
m
b
o
r
i
0
.
8
3
0
.
6
3
5
3
.
2
5
1
6
9
.
0
0
7
.
7
0
0
.
1
8
0
.
2
6
0
.
7
0
1
3
6
.
7
5
3
.
6
0
1
2
.
0
0
2
2
.
1
8
7
6
.
5
0
E
m
b
s
a
l
0
.
9
2
0
.
6
6
5
9
.
0
0
1
6
0
.
2
5
7
.
2
5
0
.
1
8
0
.
0
3
0
.
4
9
1
2
5
.
7
5
3
.
3
7
1
2
.
0
0
1
4
.
0
2
4
3
.
2
5
P
r
e
s
a
1
.
4
4
0
.
7
8
5
8
.
2
5
1
6
7
.
5
0
7
.
2
9
0
.
2
1
0
.
0
3
0
.
6
6
1
2
0
.
5
0
3
.
9
2
1
7
.
8
5
2
5
.
0
0
5
3
.
2
5
Q
S
o
t
o
2
.
1
4
0
.
5
5
7
1
.
2
5
1
8
8
.
2
5
8
.
3
6
0
.
0
3
0
.
0
2
0
.
2
0
1
6
5
.
0
0
3
.
6
0
0
.
1
4
3
.
2
7
6
6
.
5
0
V
i
r
i
l
l
a
7
.
6
5
1
.
1
9
5
8
.
5
0
3
3
5
.
5
0
8
.
0
5
0
.
2
8
0
.
0
6
1
.
8
5
1
8
2
.
2
5
1
2
.
9
0
1
6
.
6
8
2
1
.
5
0
8
3
.
5
0
Tabla 8.11: Proyecto Hidroelctrico VentanasGarita: Verano.
J. TREJOS W. CASTILLO J. GONZLEZ 317
P
u
n
t
o
N
i
t
F
o
s
C
a
l
S
t
o
p
H
M
n
Z
n
S
S
A
l
c
C
l
C
a
u
D
B
O
P
o
r
m
u
e
s
t
r
e
o
A
l
a
j
u
e
l
a
1
.
8
9
0
.
9
6
6
8
.
5
0
2
3
0
.
0
0
8
.
1
0
0
.
1
6
0
.
1
6
0
.
9
5
1
1
6
.
5
0
1
7
.
7
0
0
.
9
0
4
6
.
3
5
8
4
.
0
0
C
i
r
u
e
l
a
s
3
.
7
4
1
.
3
9
6
3
.
5
0
2
3
2
.
5
0
8
.
0
5
0
.
1
2
0
.
0
4
0
.
7
5
1
2
8
.
5
0
9
.
3
0
3
.
0
5
4
6
.
0
0
7
0
.
0
0
D
e
s
f
o
g
u
e
2
.
3
2
0
.
9
0
6
4
.
0
0
2
2
7
.
5
0
7
.
4
0
0
.
2
6
0
.
1
6
0
.
9
5
1
0
1
.
0
0
4
.
1
0
3
7
.
1
0
5
4
.
1
5
6
8
.
5
0
E
m
b
c
e
n
t
2
.
5
8
1
.
2
1
5
8
.
5
0
2
8
8
.
0
0
7
.
2
5
0
.
4
2
0
.
0
5
0
.
6
5
9
5
.
0
0
4
.
2
5
1
2
.
0
0
2
2
.
4
5
5
7
.
0
0
E
m
b
o
r
i
2
.
3
1
1
.
2
1
6
0
.
5
0
2
2
4
.
5
0
7
.
2
8
0
.
1
6
0
.
0
6
0
.
9
5
9
7
.
0
0
4
.
1
0
1
2
.
0
0
2
4
.
2
5
6
1
.
0
0
E
m
b
s
a
l
2
.
5
2
1
.
1
0
6
1
.
5
0
2
1
7
.
0
0
7
.
3
5
0
.
2
1
0
.
1
0
0
.
8
5
9
8
.
0
0
4
.
2
5
1
2
.
0
0
2
1
.
6
5
6
4
.
0
0
P
r
e
s
a
2
.
7
1
1
.
1
3
6
2
.
5
0
1
9
5
.
0
0
7
.
5
0
0
.
2
0
0
.
0
2
1
.
1
5
1
0
4
.
5
0
4
.
1
0
2
8
.
2
0
9
0
.
7
0
7
7
.
0
0
Q
S
o
t
o
2
.
4
2
1
.
5
8
6
8
.
5
0
2
0
9
.
0
0
8
.
2
0
0
.
0
4
0
.
0
3
0
.
3
5
1
5
3
.
0
0
4
.
5
5
0
.
3
5
2
0
.
1
0
8
5
.
5
0
V
i
r
i
l
l
a
5
.
7
3
1
.
9
1
5
7
.
0
0
4
0
4
.
0
0
8
.
0
5
0
.
3
1
0
.
0
7
1
.
7
5
1
5
3
.
5
0
1
2
.
8
5
1
7
.
2
5
1
1
6
.
9
5
8
6
.
5
0
Tabla 8.12: Proyecto hidroelctrico VentanasGarita: VeranoInvierno.
318 8.11 Datos del Proyecto Angostura
P
u
n
t
o
N
i
t
F
o
s
C
a
l
S
t
o
p
H
M
n
Z
n
S
S
A
l
c
C
l
C
a
u
D
B
O
P
o
r
m
u
e
s
t
r
e
o
A
l
a
j
u
e
l
a
2
.
1
3
0
.
2
4
8
0
.
2
5
1
7
6
.
2
5
7
.
7
4
0
.
2
5
0
.
0
7
0
.
6
2
1
0
4
.
7
5
5
.
9
0
1
.
6
4
4
.
4
7
8
6
.
0
0
C
i
r
u
e
l
a
s
3
.
7
1
0
.
3
7
8
0
.
0
0
1
9
0
.
2
5
7
.
7
5
0
.
2
2
0
.
0
5
0
.
4
6
1
1
3
.
2
5
7
.
0
8
4
.
6
8
1
.
8
5
8
3
.
0
0
D
e
s
f
o
g
u
e
4
.
0
8
0
.
2
7
8
1
.
2
5
1
6
9
.
0
0
7
.
3
3
0
.
1
7
0
.
0
4
0
.
7
0
8
5
.
7
5
3
.
2
7
5
9
.
7
5
1
.
9
3
8
4
.
5
0
E
m
b
c
e
n
t
3
.
8
6
0
.
2
7
8
1
.
5
0
1
6
8
.
0
0
7
.
1
6
0
.
1
7
0
.
4
8
0
.
4
6
7
8
.
7
5
3
.
3
5
2
0
.
0
0
1
.
3
5
8
1
.
7
5
E
m
b
o
r
i
3
.
9
6
0
.
2
7
8
1
.
2
5
1
6
0
.
5
0
7
.
1
7
0
.
3
6
0
.
0
5
0
.
3
3
1
5
8
.
0
0
3
.
2
5
2
0
.
0
0
1
.
3
3
8
2
.
0
0
E
m
b
s
a
l
4
.
1
4
0
.
2
5
8
2
.
7
5
1
5
2
.
2
5
7
.
2
6
0
.
2
0
0
.
0
9
0
.
3
7
7
9
.
5
0
3
.
3
5
2
0
.
0
0
1
.
4
5
8
4
.
5
0
P
r
e
s
a
3
.
9
0
0
.
3
5
7
9
.
2
5
1
7
6
.
5
0
7
.
4
1
0
.
3
7
0
.
2
8
0
.
6
2
8
0
.
2
5
3
.
3
5
5
3
.
2
7
3
.
7
7
8
9
.
7
5
Q
S
o
t
o
2
.
6
6
0
.
4
0
8
2
.
2
5
1
8
6
.
5
0
8
.
0
0
0
.
0
3
0
.
0
6
0
.
1
6
1
6
2
.
5
0
3
.
4
2
0
.
6
1
1
.
7
5
8
5
.
2
5
V
i
r
i
l
l
a
6
.
0
9
0
.
8
7
6
7
.
0
0
3
2
1
.
2
5
7
.
8
0
0
.
2
8
0
.
1
1
1
.
2
7
1
3
6
.
0
0
9
.
0
5
5
0
.
0
5
9
.
3
5
9
0
.
5
Tabla 8.13: Proyecto hidroelctrico VentanasGarita: Invierno.
J. TREJOS W. CASTILLO J. GONZLEZ 319
P
u
n
t
o
N
i
t
F
o
s
C
a
l
S
t
o
p
H
M
n
Z
n
S
S
A
l
c
C
l
C
a
u
D
B
O
P
o
r
m
u
e
s
t
r
e
o
A
l
a
j
u
e
l
a
1
.
0
6
0
.
4
6
7
3
.
0
0
1
8
0
.
5
0
8
.
0
5
0
.
1
2
0
.
2
5
0
.
4
5
1
3
5
.
0
0
1
0
.
5
5
1
.
2
1
8
.
9
0
7
9
.
0
0
C
i
r
u
e
l
a
s
4
.
7
7
0
.
8
4
7
2
.
5
0
1
5
9
.
0
0
8
.
0
5
0
.
0
8
0
.
1
5
0
.
4
0
1
0
5
.
0
0
6
.
6
5
3
.
5
8
3
.
5
0
8
4
.
5
0
D
e
s
f
o
g
u
e
1
.
0
6
0
.
3
3
6
7
.
0
0
1
3
4
.
0
0
7
.
3
0
0
.
1
7
0
.
0
3
0
.
7
0
1
0
3
.
5
0
2
.
9
0
6
2
.
2
5
8
.
1
0
5
1
.
0
0
E
m
b
c
e
n
t
1
.
1
1
0
.
4
6
6
0
.
5
0
1
5
7
.
5
0
7
.
2
5
0
.
1
6
0
.
0
7
1
.
0
0
9
9
.
5
0
2
.
7
5
2
0
.
0
0
9
.
6
5
4
1
.
5
0
E
m
b
o
r
i
1
.
3
7
0
.
3
7
6
6
.
5
0
1
5
8
.
0
0
7
.
3
0
0
.
1
5
0
.
2
1
0
.
8
5
9
9
.
5
0
2
.
6
0
2
0
.
0
0
6
.
6
0
4
9
.
5
0
E
m
b
s
a
l
1
.
0
6
0
.
3
7
6
4
.
5
0
1
5
6
.
5
0
7
.
3
0
0
.
1
5
0
.
1
6
0
.
4
5
1
0
1
.
5
0
2
.
7
5
2
0
.
0
0
8
.
1
0
4
7
.
0
0
P
r
e
s
a
1
.
8
7
0
.
4
8
6
8
.
0
0
1
7
1
.
0
0
7
.
5
0
0
.
1
8
0
.
6
6
0
.
7
5
9
7
.
5
0
3
.
0
5
4
6
.
7
5
2
6
.
6
0
7
2
.
5
0
Q
S
o
t
o
2
.
2
3
0
.
7
6
7
8
.
0
0
1
8
5
.
5
0
8
.
3
0
0
.
0
0
0
.
1
5
0
.
2
0
1
7
8
.
5
0
2
.
9
0
0
.
3
6
1
.
5
0
8
5
.
5
0
V
i
r
i
l
l
a
4
.
6
5
0
.
7
6
7
3
.
0
0
2
5
4
.
0
0
8
.
0
5
0
.
2
1
0
.
3
2
0
.
9
5
1
4
4
.
5
0
7
.
8
0
4
2
.
2
0
6
.
5
0
8
8
.
0
0
Tabla 8.14: Proyecto hidroelctrico VentanasGarita: InviernoVerano.
Indice Alfabtico

2
, 18

2
, 18
algoritmo voraz, 324
algoritmos genticos, 324
anlisis bivariado, 15
anlisis de correspondencias, 102, 328
anlisis de correspondencias mlti-
ples, 137, 140
anlisis de datos simblicos, 325
anlisis discriminante, 237
anlisis discriminante decisional,
238
anlisis discriminante descriptivo,
237
anlisis en componentes principales,
110
anlisis factorial de correspondencias,
102, 141
anlisis univariado, 14
atributos, 6
cdigo disyuntivo completo, 138
categoras, 6
centro de gravedad, 104, 106, 141,
142
chi-cuadrado, 18
cociente de correlacin, 19
cociente de Rayleigh, 262
codicacin, 6, 10
coeciente RV , 278
coeciente de contingencia
2
, 18
coeciente de correlacin, 16
colonias de hormigas, 324
compromiso, 271, 282
comunalidad, 56
coordenada factorial, 110
coordenadas factoriales, 143
covarianza, 16
datos, 1
desigualdad de Cauchy-Schwartz, 26
desviacin estndar, 15
distancia, 24
distancia de chi-cuadrado, 107,
141, 143
distancia Eucldea clsica, 25,
26
efecto talla, 62, 91
eje factorial, 85, 110
enjambres de partculas, 325
equivalancia distribucional, 107, 134
escalas de Likert, 78, 293
espacio de individuos, 24
espacio de variables, 24
Estadstica, 1
frmulas de transicin, 130, 173
igualdad de Fisher, 204
imagen Eucldea, 271
independencia, 102
indicadoras, 7
indicatrices, 7
339
340 Indice alfabtico
ndice de chi-cuadrado, 102, 109
individuo, 2
inercia, 109, 165
inercia inter-clases, 204
inercia intra-clases, 204
inercia total, 33, 204
interestructura, 271, 276
intraestructura, 271, 285
k-medias, 208, 324
mtodo de nubes dinmicas, 208
mtodo Statis, 270
mtodo Statis dual, 299
mtrica, 26, 270
mtrica de los inversos de las
varianzas, 35
mtrica de Mahalanobis, 266
mtrica de pesos, 27, 270
mtrica identidad, 26, 30, 35
matriz de Burt, 12, 160, 162, 170
matriz de covarianzas, 28
matriz de varianzas-covarianzas, 28
media, 15
minera de datos, 326
modalidades, 6
muestra, 2
multiparticin, 212
norma, 25
nubes dinmicas, 208
objeto, 2
optimizacin, 215, 323
particionamiento, 201, 215, 324
perles columna, 105, 142
perles la, 103, 141
pesos de los individuos, 3
poblacin, 2
ponderacin, 3
producto escalar de Hilbert-Schmidt,
272
recocido simulado, 324
relaciones de transicin, 112, 144
sobrecalentamiento simulado, 324
Statis, 270
Statis dual, 299
tablas de datos, 8
tabla de Burt, 12, 160, 162, 170
tabla de contingencia, 11, 17,
100, 328
tabla de frecuencias, 101
tabla individuos variables, 8
tablas individuos individuos,
12
tablas variables variables, 10
teorema de Rayleigh, 262
trayectorias, 288
trayectoria de un individuo, 288
trayectorias de las variables, 306
unidad de medida, 5
unidad estadstica, 2
variable, 4
variable binaria, 6
variable categrica, 5
variable continua, 5
variable cualitativa, 5
variable cuantitativa, 4
variable de conteo, 5
variable de presencia-ausencia,
6
variable dicotmica, 6
variable discreta, 5
variable nominal, 6
variable numrica, 4
variable ordinal, 6
varianza, 15

Potrebbero piacerti anche