Sei sulla pagina 1di 25

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/216881311

Componentes principales y coordenadas


principales: estudio comparativo basado en una
aplicacin a la taxonoma numrica

Article January 2009

CITATIONS READS

0 332

4 authors, including:

Osvaldo Arce
National University of Tucuman
24 PUBLICATIONS 29 CITATIONS

SEE PROFILE

All content following this page was uploaded by Osvaldo Arce on 03 October 2017.

The user has requested enhancement of the downloaded file.


10 46 (12):
Lilloa O. E. A. Arce et
1033, 10
al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica
2009

Componentes principales y coordenadas principales:


estudio comparativo basado en una aplicacin a la
taxonoma numrica
Arce, Osvaldo E. A. 1 ; Nora E. De Marco 1 ; Mara R. Santilln 2
1Facultad de Agronoma y Zootecnia.
2Facultad de Ciencias Econmicas.
Universidad Nacional de Tucumn. E-mail: ova.arce@gmail.com

R e s u m e n Arce, Osvaldo E. A.; Nora E. De Marco; Mara R. Santilln. 2009.


Componentes principales y coordenadas principales: estudio comparativo basado en una
aplicacin a la taxonoma numrica. Lilloa 46 (1-2). El objetivo del trabajo es realizar un es-
tudio comparativo de las ordenaciones obtenidas mediante la aplicacin de componentes prin-
cipales y coordenadas principales a una matriz de datos mixtos correspondiente a los taxones
argentinos del gnero Echinochloa (Poaceae), bajo diferentes condiciones de aplicacin. Se uti-
lizaron los datos sin estandarizar y estandarizados por desvo estndar o rango. En coorde-
nadas principales se usaron: distancia Euclidiana, disimilaridades Manhattan, Bray Curtis,
Canberra y el coeficiente de similaridad de Gower. Para la comparacin de resultados obte-
nidos se emplearon varias tcnicas. Los anlisis se corrieron en el paquete NTSys. En los
casos que fueron necesarios se aplicaron correcciones por autovalores negativos por los
mtodos de Lingoes y Cailliez. El uso de los diagramas de Shepard y correlaciones entre
matrices result muy til para juzgar las ordenaciones. La estandarizacin result el elemento
ms importante para la obtencin de ordenaciones apropiadas. El coeficiente de Gower ma-
nej apropiadamente la naturaleza mixta de las variables. La presencia de autovalores nega-
tivos no introdujo distorsiones importantes en espacios de dimensin reducida.
Palabras claves: ordenacin, Echinochloa, estadstica multivariada, autovalores negativos,
diagramas de Shepard, NTSys, coeficiente de Gower.

A b s t r a c t Arce, Osvaldo E. A.; Nora E. De Marco; Mara R. Santilln. 2009.


Principal components and principal coordinates: a comparative study based on an implemen-
tation to numerical taxonomy. Lilloa 46 (1-2). The objective of the present paper is to com-
pare ordinations obtained from principal components and principal coordinates using a mixed
data matrix corresponding to the Argentinean taxa of Echinochloa (Poaceae) under different
application conditions. The following coefficients were used in principal coordinates: Euclidean
distance, Manhattan, Bray Curtis and Canberra dissimilarities, and Gower similarity coeffi-
cient. Unstandardized and range or standard deviation standardized data were used. Ordina-
tion comparisons were accomplished using several techniques. All the analyses were run on
the package NTSys. Corrections for negative eigenvalues were applied when necessary by
means of Lingoes and Cailliez methods. Using Shepard diagrams and matrix to matrix corre-
lations was very useful in order to judge ordinations. Standardization was the most important
element to obtain appropriate ordinations. Gower coefficient handled appropriately the vari-
ables mixed nature. No important distortions in reduced dimensionality spaces were obtained
when negative eigenvalues were present.
Keywords: Ordination, Echinochloa, multivariate statistics, negative eigenvalues, Shepard
diagrams, NTSys, Gower coefficient.

INTRODUCCIN el adelanto tecnolgico permiti la movili-


dad de un lugar a otro del planeta el nme-
La diversidad de los organismos biolgi- ro de seres vivos conocidos se fue incremen-
cos despert la curiosidad del hombre desde tando y surgi la necesidad de reunirlos en
sus inicios. En un principio se comenzaron a grupos definidos.
observar y diferenciar los animales y plan- As es como surge la Taxonoma (palabra
tas. Luego se les pusieron nombres. Cuando de origen griego que significa ley o norma
de ordenacin), que es la ciencia de la cla-
Recibido: 21/08/08 Aceptado: 27/07/09 sificacin (De La Sota, 1982).
Lilloa 46 (12): 1033, 2009 11

Una doctrina dentro de esta ciencia es el 2002; Legendre y Legendre, 1998; Legendre
feneticismo, el cual se basa en el estudio de y Anderson, 1998; Jobson, 1992; Jolliffe,
las relaciones taxonmicas fenticas, enten- 1986; Seber, 1984; Gower y Digby, 1981;
dindose como tales a aquellos arreglos por Gower, 1966) han sido ampliamente usados.
similitud total basados en todos los caracte- Otras tcnicas han sido utilizadas tambin,
res disponibles para los objetos u organis- aunque en menor grado, como ser anlisis
mos bajo estudio sin una ponderacin de los de factores, escalas multidimensionales no
mismos (Crisci y Lpez Armengol, 1983; De mtricas y anlisis cannico.
la Sota, 1982; Sneath y Sokal, 1973). En taxonoma numrica estas tcnicas se
Debido a que los caracteres empleados usan para obtener grupos a partir de repre-
en estudios de este tipo deben ser cuantifica- sentaciones grficas bi y/o tridimensionales,
dos con precisin es que al enfoque feneti- es decir, se usan como una alternativa al
cista de la taxonoma se le ha llamado taxo- anlisis de conglomerados (cluster anli-
noma numrica. Esta taxonoma emplea sis) y con fines clasificatorios.
entonces tcnicas numricas, entendindose La calidad de las representaciones grfi-
como tales, aqullas que mediante operacio- cas obtenidas a partir de los mtodos de or-
nes matemticas calculan la afinidad entre denacin ha sido motivo de numerosos tra-
unidades taxonmicas a base del estado de bajos. Al ser dichas representaciones en es-
sus caracteres. pacios de dimensin reducida el elemento
Al trabajar con caracteres cuantitativos o que el investigador tomar en cuenta para
cualitativos codificados es que la taxonoma extraer conclusiones vlidas sobre su traba-
debi valerse de las tcnicas proporcionadas jo, es que se debe asegurar que stas sean lo
por la estadstica. Por otra parte, como cada ms fieles posibles a las matrices de proxi-
entidad est caracterizada por mltiples midades en las que stos se basan.
atributos, es la estadstica multivariada la Moss (1968) fue uno de los primeros au-
principal proveedora de herramientas de tores en plantear que la aplicacin de dife-
anlisis para estudios taxonmicos de tipo rentes tcnicas puede conducir a resultados
numrico. diferentes y, en consecuencia, a conclusiones
Las tcnicas clasificatorias basadas en taxonmicas distintas. Realiza estudios com-
informacin estrictamente numrica comen- parativos aplicando diferentes tcnicas
zaron a desarrollarse a mediados del siglo (componentes principales, coordenadas
XX. Sin embargo el gran auge de las mismas principales y escalas multidimensionales no
se da con la difusin masiva de las compu- mtricas) a los mismos datos.
tadoras a fines de los 80. Numerosos pa- Las primeras presentaciones de estos m-
quetes estadsticos han sido desarrollados todos y discusin de sus propiedades se pre-
desde entonces, lo cual ha puesto estas herra- sentan en el clsico libro de Sneath y Sokal
mientas de anlisis a disposicin de toda la (1973).
comunidad cientfica y tcnica. Rohlf (1972) trabaja en la comparacin
Entre todas las tcnicas usadas en taxo- de distintos mtodos de ordenacin y usa al-
noma numrica, los mtodos basados en gunos datos simulados muy simples. Su inte-
autovalores y autovectores (ordenacin) tales rs radica principalmente en el efecto de los
como componentes principales (Pea, 2002; datos faltantes. Propone algunas medidas
Hair et al., 1999; Legendre y Legendre, que pueden ser usadas para evaluar la cali-
1998; Gnanadesikan, 1997; Jobson, 1992; dad de las representaciones grficas.
Johnson y Wichern, 1992; Everitt y Dunn, Thorpe (1980) trabaja sobre razas de la
1991; Jolliffe, 1986; Anderson, 1984; Dillon serpiente Natrix natrix y compara varios
y Goldstein, 1984; Seber, 1984; Karson, mtodos de ordenacin: componentes princi-
1982; Mardia et al., 1979; Morrison, 1967), pales, coordenadas principales, escalas mul-
y coordenadas principales (tambin llamado tidimensionales no mtricas. Los datos con
escalado multidimensional mtrico) (Pea, los que trabaja representan un modelo taxo-
12 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

nmico conocido. Llega a la conclusin que En trabajos posteriores (Pea, 2002; Le-
la estandarizacin es recomendable. gendre y Legendre, 1998; Gower y Legendre,
Pimentel (1981) realiza un trabajo simi- 1986; Gower, 1985) se comenz a dar im-
lar al de Thorpe para especies de Abronia. portancia a las propiedades matemticas de
Trabaja con componentes principales, coor- las matrices obtenidas a partir de distintos
denadas principales, escalas multidimensio- coeficientes de disimilaridad o similaridad,
nales no mtricas y mapeo linear. Aplica el ya que la metricidad y euclinidad de los mis-
coeficiente de Gower. mos son esenciales para la obtencin de re-
Hartmann (1988) compara mtodos de presentaciones apropiadas de los datos en
ordenacin empleando datos de dientes de espacios de dimensin reducida. Se discute
Homnidos. Analiza el efecto de la estandari- asimismo como la estandarizacin por ran-
zacin de datos y propone comparar el ajuste go puede llevar a la euclinidad a ciertos co-
entre diferentes mtodos usando coeficientes eficientes de disimilaridad.
de correlacin entre matrices de distancias y Legendre y Legendre (1998) proponen
matrices derivadas a partir de los puntos en dos mtodos, Cailliez (1983) y Lingoes
los espacios de dimensin reducida. (1971), para corregir la presencia de auto-
En todos los casos se concluye que las valores negativos y asegurar la euclinidad
diferentes combinaciones de tipos de datos, de disimilaridades y similaridades no mtri-
estandarizacin, coeficientes de disimilari- cas. Legendre y Anderson (1998), desarro-
dad / similaridad y tcnica empleada pue- llan un paquete de software (DistPCoA) para
den producir distintos resultados. aplicar estas correcciones.
En los trabajos mencionados previamente Bramardi (2000) y Rohlf (1990) presen-
los autores trabajaron con variables de tipo tan la tcnica del rbol de distancia mnima
mixto, es decir, datos con variables cuantita- (minimum-length spanning tree) como
tivas y cualitativas codificadas. Segn Thor- una manera adicional de evaluar la calidad
pe (1980) la codificacin otorga a los datos de las representaciones grficas al superpo-
no numricos un carcter de numricos y nerlo sobre la representacin obtenida a par-
propone estandarizarlos como si se trataran tir de cualquier ordenacin.
de variables de este tipo. Pimentel (1981) Rohlf (2009) desarrolla la versin 2.2 del
realiza su estudio sobre Abronia aplicando paquete NTSys-pc para su aplicacin en pro-
un concepto similar. blemas de taxonoma numrica incorporan-
Crisci y Lpez Armengol (1983) aplican do todos los procedimientos que aparecen en
componentes principales a una matriz de la bibliografa sobre el tema desde los men-
especies del gnero Bulnesia constituida por cionados por Sneath y Sokal (1973) hasta
23 variables cuantitativas y 20 categricas los ms modernos, como anlisis de pro-
codificadas. Tambin trabajan con las varia- crustes.
bles codificadas como si se trataran de va- En este trabajo se realizaron todos los
riables numricas. El uso de matrices de da- anlisis con dicho paquete estadstico.
tos que contienen variables de tipo mixto es El objetivo general del presente trabajo es
muy comn en estudios de taxonoma num- realizar un estudio comparativo de las orde-
rica, no habindose dado la importancia que naciones obtenidas mediante la aplicacin
el tema tiene en la bibliografa existente so- de las tcnicas de componentes principales y
bre anlisis estadstico multivariado. coordenadas principales a una matriz de
Componentes principales y la mayora de datos correspondiente a los taxones argenti-
las medidas de di/similaridad existentes, nos del gnero Echinochloa (Poaceae: Pani-
empleadas en coordenadas principales, no coideae: Paniceae), bajo diferentes condicio-
han sido diseadas para manejar matrices de nes de aplicacin.
datos mixtos. Gower (1971) presenta una Los objetivos parciales son:
alternativa, la nica encontrada por los au- Analizar el efecto de la estandarizacin
tores, para manejar datos de este tipo. de datos por desvo estndar o rango sobre
Lilloa 46 (12): 1033, 2009 13

todas las variables y slo sobre variables Los caracteres exomorfolgicos analiza-
cuantitativas en una matriz de datos mixtos. dos y considerados como relevantes para deli-
Estudiar distintos coeficientes de disimi- mitar taxones, determinaron la existencia de
laridad y similaridad y su efecto en las re- dos grandes grupos, el primero de los cuales
presentaciones grficas obtenidas. se encuentra constituido por las siguientes
Evaluar los resultados obtenidos al entidades: E. colona (C), E. crusgalli var. crus-
aplicar las tcnicas de componentes princi- galli (VC), var. mitis (VM), E. cruspavonis
pales y coordenadas principales. (CR), E. chacoensis (CH); y el segundo confor-
Comparar los resultados obtenidos a mado por E. oryzoides (O), E. helodes (H), E.
partir de distintos mtodos de correccin de polystachya var. polystachya (VP) y var. spec-
autovalores negativos. tabilis (VS). Los caracteres de separacin
Evaluar las soluciones obtenidas en es- para estos grupos son: la propagacin vege-
pacios de dimensin reducida, a partir de la tativa que es cespitosa o rizomatosa, el ciclo
aplicacin, a la matriz de datos, de diferen- de la planta que es anual o perenne y la lon-
tes combinaciones de centrado, estandariza- gitud de la espiguilla que vara de 2-5 mm o
cin, coeficientes de disimilaridad / simila- de (4,5) 5-7 mm de longitud.
ridad y tcnica de anlisis empleada. El anlisis de otros caracteres como la
forma de la espiguilla, su longitud y el pice
METODOLOGA de la lemma inferior permiten delimitar los
siguientes subgrupos dentro del primer gran
Las evaluaciones metodolgicas general- grupo: El subgrupo (C), evidencia uniformi-
mente involucran simulaciones hechas con dad y est definido claramente el carcter
computadoras o el estudio a partir de datos predominante que es la presencia de lemma
reales que tienen una estructura taxonmica mtica o mucronada. El subgrupo (CR) se
conocida. La importancia de evaluaciones manifiesta en forma homognea y separado
del ltimo tipo radica en el hecho de que del anterior, los caracteres que contribuyeron
modelos matemticos generados no produ- son la forma de la espiguilla, que es lanceo-
cen informacin que pueda ser justificada lada y la lemma inferior aristada. El otro
biolgicamente (Pimentel, 1981). subgrupo est formado por las entidades VC
Thorpe (1980) dice que si se parte de y VM que no se separan claramente por los
datos generados por computadora, las tcni- caracteres exomorfolgicos, lo cual sugiere
cas bajo estudio sern la nica base para la que pudo haber procesos de hibridacin entre
construccin del modelo taxonmico crean- ellos.
do de esta manera una lgica circular. Dentro del segundo gran grupo se encuen-
Por este motivo se trabaj con datos rea- tra los siguientes subgrupos: el subgrupo O en
les con una estructura taxonmica conocida. el que los caracteres que contribuyeron a su
En este estudio el modelo taxonmico cono- separacin son la longitud de la espiguilla y
cido corresponde a De Marco (2002), es de- lemma inferior con arista hasta de 3 cm de
cir, la estructura de agrupamientos en la longitud. El subgrupo H presenta uniformi-
matriz de datos se conoca con anterioridad dad, con sus espiguillas lanceoladas, lemma
a su anlisis estadstico. inferior aristada y su inflorescencia linear y
nutante. Los subgrupos formados por las enti-
Modelo taxonmico. El gnero Echino- dades VP y VS, en donde caracteres como el
chloa en la Argentina (De Marco, 2006; Zu- de nudos y vainas glabras, nudos setosos-hir-
loaga et al., 1994), se encuentra representa- sutos y vainas hirsutas los delimitan. Sin em-
do por 7 especies y 2 variedades: E. colona, bargo, a pesar de que poseen caracteres dife-
E. crusgalli var. crusgalli, E. crusgalli var. renciales, son muy similares entre s.
mitis, E. cruspavonis, E. chacensis, E. helo- Puesto que VC y VM no se diferencian cla-
des, E. oryzoides, E. polystachya var. polysta- ramente, a los fines de este trabajo se los
chya, E. polystachya var. spectabilis. considerar como un grupo nico. Por lo
14 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

tanto el nmero de grupos en estudio es de 8. Para estos casos existen dos mtodos de
Se evaluaron 10 individuos de cada uno correccin disponibles que permiten obte-
de los 9 taxones. Se midieron 9 variables ner una representacin eucldea en todos
cuantitativas, 11 binarias y 10 cualitativas los casos.
multiestado. La descripcin de las variables
se encuentra en De Marco (2002). Las varia- Mtodo de Lingoes:
bles cualitativas fueron codificadas mediante
cdigos numricos.
En los grficos de ordenacin las referen-
cias de los taxones correspondientes son las donde c es el valor absoluto del autovalor
siguientes: VS, * VP, o C, + O, H, CR, negativo ms grande de la corrida del anli-
VC, VM, CH. sis de coordenadas principales (Lingoes,
A lo largo de este trabajo se adoptar la 1971).
convencin de asignar los individuos a las n
filas de la matriz y las variables a las p co- Mtodo de Cailliez:
lumnas.
El anlisis de componentes principales se
aplic a datos centrados, en todos los casos,
tal como lo sugieren Legendre y Legendre donde c es el mayor autovalor de una matriz
(1998). Se trabaj con los datos sin estanda- no simtrica especial (Cailliez, 1983).
rizar y estandarizados por desvo estndar o Detalles sobres estos mtodos se encuen-
rango. El coeficiente de correlacin es la co- tran en Legendre y Legendre (1998) y se in-
varianza de las variables centradas y estanda- cluyen en el paquete estadstico DistPCoA
rizadas por desvo estndar (Johnson y Wi- (Legendre y Anderson, 1998).
chern, 1992), razn por la cual calcular la
covarianza de variables as estandarizadas o Para la evaluacin de ordenaciones se
la correlacin de variables no estandarizadas utilizaron las siguientes tcnicas:
proporcionar la misma matriz de asocia-
cin y, por lo tanto, idnticos autovalores. Autovalores y porcentaje de varianza explica-
La estandarizacin fue aplicada a todas da. Esta es la tcnica ms usada y amplia-
las variables primero y luego slo a las va- mente recomendada en la bibliografa (Hair
riables cuantitativas. Los siguientes coefi- et al., 1999; Legendre y Legendre, 1998;
cientes fueron aplicados: varianza-covarian- Gnanadesikan, 1997; Jobson, 1992; Johnson
za y correlacin, en componentes principa- y Wichern, 1992; Everitt y Dunn, 1991; Jolli-
les; y coeficiente de similaridad general de ffe, 1986; Anderson, 1984; Dillon y Golds-
Gower (Bramardi, 2000; Gower, 1971) y tein, 1984; Seber, 1984; Karson, 1982; Mar-
distancias Euclidiana, disimilaridades Man- dia et al., 1979; Morrison, 1967) para eva-
hattan, Bray Curtis y Canberra (Gower y Le- luar representaciones grficas obtenidas a
gendre, 1986; Gower, 1985), en coordena- partir de un anlisis de componentes princi-
das principales. pales.
Es equivalente al coeficiente de determi-
Autovalores negativos. Autovalores ne- nacin r2 empleado en anlisis de regresin.
gativos pueden generarse al usar medidas de Si se consideran un espacio de dimensin
distancia semimtricas o no mtricas. Tam- m, con m << p, su expresin ser:
bin pueden encontrarse durante el anlisis
de algunas distancias mtricas que no ga-
rantizan una completa representacin Eucli-
diana (Gower y Legendre, 1986). El proble-
ma que surge aqu es que los correspondien-
tes ejes de ordenacin sern imaginarios.
Lilloa 46 (12): 1033, 2009 15

e indica el porcentaje de la variabilidad total Grficos en 2 dimensiones con rboles de re-


explicada por los primeros m autovalores. corrido mnimo superpuestos. El rbol de
Normalmente se considera que una repre- recorrido mnimo se calcula a partir de una
sentacin es apropiada si los dos o tres pri- matriz de disimilaridades o similaridades.
meros autovalores explican un alto porcen- Es til para su superposicin sobre ordena-
taje de la variabilidad total. ciones para ayudar a detectar distorsiones
Legendre y Legendre (1998) indican que locales, es decir, pares de puntos que se ven
esta es tambin una medida vlida en el prximos en un grfico pero que en realidad
caso de coordenadas principales ya que, al- estn separados si otras dimensiones son to-
gunas veces, los autovalores obtenidos a par- madas en cuenta (Rohlf, 2009). Tambin se
tir de coordenadas principales son los mis- utilizan para una ms fcil identificacin de
mos (excepto por un factor de escala) que agrupamientos.
los obtenidos a partir de componentes prin- Gower y Ross (1969) muestran que este
cipales. rbol equivale a obtener un agrupamiento
Pea (2002) establece que esta medida (clustering) no jerrquico de los objetos
indica el grado de bondad de ajuste de la por el mtodo de agrupamiento simple.
representacin grfica en el caso de coorde- NTSys incluye estos rboles en el procedi-
nadas principales, ya que en esta tcnica los miento MST.
autovalores no corresponden a varianzas.
El mdulo EIGEN de NTSys brinda esta Diagramas de Shepard. Estos diagramas
informacin. fueron originalmente propuestos por Kruskal
(1964). Consisten en graficar una matriz
Congruencia entre el modelo taxonmico es- contra la otra, elemento a elemento, igno-
tudiado previamente y el obtenido mediante rando las diagonales.
ordenaciones. Esta metodologa fue utili- McCune y Grace (2002), Gnanadesikan
zada por Hartman (1988), Pimentel (1981) y (1997) y Everitt y Dunn (1991) indican que
Thorpe (1980). en estos diagramas puede observarse si existe
El esquema 1 resume el procedimiento una relacin montona entre las matrices,
usado. lo cual indica una apropiada configuracin
La congruencia se evalu determinando de puntos en el espacio de dimensin reduci-
si el nmero de grupos obtenidos mediante da. La monotonicidad asegura que las dis-
las ordenaciones concordaba con el nmero tancias interpuntos recuperadas concuerden
presente en el modelo taxonmico conocido. con las disimilaridades originales, o sea,
16 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

cuanto mayor sea la disimilaridad entre dos dica que las posiciones relativas recuperadas
objetos, mayor ser la distancia interpunto han sufrido una distorsin.
en la representacin euclidiana de estos ob- Estos diagramas estn incluidos en el
jetos. Dicho en otras palabras, las relaciones procedimiento MXCOMP de NTSys.
de orden entre las distancias interpuntos en
la representacin euclidiana est en exacta Correlacin entre matrices. Es una medida
concordancia con las relaciones de orden de la correspondencia entre los elementos de
entre las disimilaridades originales. Si lo dos matrices. Esta tcnica es recomendada
que se compara es una medida de similari- por Rohlf (1972) para evaluar cun prxima
dad con la distancia, la relacin que se bus- es la configuracin de puntos en espacios de
ca es la inversa a la anterior, es decir, a dimensin reducida en relacin a la configu-
mayor distancia, menor similaridad. racin de los mismos en el espacio original
Tambin se puede observar qu tan p-dimensional.
prxima o similar es la matriz de disimilari- Legendre y Legendre (1998) sugieren utili-
dades o similaridades derivada con respecto zar la distancia Eucldea en el espacio origi-
a la original. Legendre y Legendre (1998) nal y en el reducido en el caso de componentes
muestran que cuanto ms prxima est la principales. En coordenadas principales y es-
nube de puntos a la diagonal del diagrama, calas multidimensionales no mtricas acon-
ms parecidas sern ambas configuraciones. sejan calcular las distancias Eucldeas entre
Adems si la nube de puntos est prxima los objetos en el espacio reducido y comparar-
a la diagonal y sigue una tendencia lineal, las las con las disimilaridades o similaridades en
posiciones relativas de los puntos habrn sido las cuales se bas la ordenacin.
recuperadas con precisin. A veces la relacin Este procedimiento tambin fue utilizado
entre ambos espacios no es lineal, lo cual in- por Hartman (1988) con el fin de evaluar
Lilloa 46 (12): 1033, 2009 17

las correspondencias entre las configuracio- Concordancia entre el espacio original y el


nes obtenidas a partir de distintos anlisis de derivado para una ordenacin en particu-
los mismos datos y con el fin de comparar la lar. Los esquemas 2 y 3 resumen los proce-
similitud entre los resultados obtenidos. dimientos utilizados.
NTSys permite calcular estas correlacio- En el caso de componentes principales se
nes en el procedimiento MXCOMP. trabaj de la manera indicada en el esquema 2.

Correlacin
Coeficiente % Var. Grupos
Estandarizacin Autovalores orig.deriv.
Codificacin explicada identificados
en 2 y 3 dim.

varcov centrado 234.2879 72.7269 0.97882 0


varne 36.9095 84.1843 0.98947
22.3580 91.1246

varcov* centrado 10.9144 36.3815 0.90527 8


varde desvo estndar 5.2534 53.8928 0.93862
todas las variables 3.3983 65.2203

varcov centrado 8.7915 40.3805 0.92172 8


vardec desvo estndar slo 3.6024 56.9266 0.95762
variables cuantitativas 2.5782 68.7684

varcov centrado 1.8088 41.6909 0.91065 8


varrg rango todas la variables 0.7888 59.8711 0.95244
0.4958 71.2983

varcov centrado 6.4281 47.4834 0.90657 10


varrgc rango slo variables 2.2339 63.9853 0.97270
cuantitativas 1.7291 76.7580

Tabla 1. Autovalores, porcentaje de varianza explicada, correlacin entre espacio euclidiano


original y derivado en 2 dimensiones, dem en 3 dimensiones, y nmero de grupos identificados
en la representacin bidimensional bajo distintas condiciones de estandarizacin. Palabras en
cursiva corresponden a la codificacin empleada en otras tablas y figuras. varcov = varianza
covarianza; corr = correlacin; (*) esta opcin es equivalente a la correlacin entre variables.
18 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

varne varde vardec varrg varrgc

varne 1
varde 0.20884 1
vardec 0.28319 0.92527 1
varrg 0.12544 0.97792 0.89460 1
varrgc 0.16950 0.79844 0.92389 0.89032 1

Tabla 2. Correlaciones entre distancias Euclidianas en espacios derivados en dos dimensiones.


Referencias en Tabla 1.

En coordenadas principales se trabaj tal arithmetic average clustering), mediante el


como lo muestra el esquema 3. mdulo SAHN de NTSys. El procedimiento se
indica en el esquema 4.
Concordancia entre espacios derivados me- Hartman (1988) utiliz este procedi-
diante distintos anlisis aplicados a la mis- miento aunque realiz una ordenacin sobre
ma matriz de datos. Se correlacionaron las matrices de correlaciones. En este trabajo
las matrices de distancia Euclidiana obteni- se obtuvieron mejores resultados con el an-
das a partir de espacios bidimensionales, lisis de conglomerados.
para las distintas combinaciones estudiadas,
a fin de juzgar la similitud entre las solucio- RESULTADOS
nes obtenidas (mdulo MXCOMP en NTSys).
A las matrices de correlaciones obtenidas se C OMPONENTES P RINCIPALES
les aplic anlisis de conglomerados por el Se observa en la tabla 1 que el centrado
mtodo UPGMA (unweighted pair-group sin estandarizacin no permiti la identifica-
Lilloa 46 (12): 1033, 2009 19

cin de los 8 grupos. La estandarizacin ya derivado bidimensional vs. las mismas dis-
sea por rango (todas las variables) o desvo tancias en el espacio p-dimensional original
estndar (todas las variables y slo cuantita- con estandarizacin de todas las variables.
tivas) permiti una correcta identificacin de La figura mencionada muestra que los espa-
grupos. La estandarizacin por rango slo cios original y derivado no manifestaron una
de variables cuantitativas no result apro- relacin lineal pero s montona, generndo-
piada. se una distorsin importante en distancias
La tabla 2 muestra que la correlacin medias y bajas, aunque las relaciones de or-
entre los espacios euclidianos derivados a den se mantuvieron, por lo que los valores
partir de datos estandarizados por desvo de correlacin entre espacios no represen-
estndar y rango presentaron un valor de tan, en este caso, un buen indicador de la
concordancia elevado (r = 0.97792) indi- calidad de las representaciones obtenidas.
cando que las ordenaciones obtenidas fueron La gran estructura de agrupamientos (dis-
muy similares cuando se estandariz todas tancias grandes) est representada con preci-
las variables. La ordenacin con estandari- sin en la figura 5. Pero aquellos puntos que
zacin por rango slo de variables cuantita- se encuentran prximos en el espacio p-di-
tivas es la que menor concordancia present mensional, se vern ms prximos en el es-
con las dems. La relacin entre espacios pacio bidimensional de lo que estaban origi-
result fuertemente lineal para valores de r nalmente.
> 0.9. Como ejemplo se presenta un diagra- La figura 2 muestra que al estandarizar
ma de Shepard en la figura 1. slo las variables cuantitativas, por desvo
La figura 2 presenta una comparacin estndar, la relacin entre los espacios es
entre distancias Euclidianas en el espacio aproximadamente lineal por lo que las dis-

Figura 1. Diagrama de Shepard que muestra la concordancia entre la distancia Euclidiana en


espacio bidimensional obtenida por componentes principales de una matriz de correlaciones
(Ordenacin 1) e igual distancia a partir de una matriz de datos estandarizados por rango (todas
las variables). r = 0.97792
20 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

tancias se recuperaron con ms exactitud en que el porcentaje de varianza explicada no


2 dimensiones es, por s mismo, un buen indicador de la ca-
Arce (2002, 2003) realiz un estudio si- lidad de las representaciones grficas.
milar al presente slo con variables cuanti- El anlisis de los porcentajes de varianza
tativas y encontr que las relaciones entre explicada y de las figuras 4 y 5 muestra que
espacios fueron fuertemente lineales. La in- este no es un buen criterio para juzgar la
clusin de variables cualitativas codificadas, calidad de las representaciones grficas,
tratadas como si se trataran de variables como est ampliamente recomendado en la
numricas, seguramente est produciendo bibliografa. Las mejores ordenaciones se
este efecto de no linealidad entre espacios. obtuvieron con proporciones menores de va-
Las correlaciones entre espacios origina- rianza explicada. Se debe tener en cuenta
les y derivados en 3 dimensiones (tabla 1) que, en los datos utilizados, las variables
resultaron en todos los casos mayores que en estuvieron medidas en diferentes escalas de
2 dimensiones, ya que al ir aumentando di- medida y, por lo tanto, sus varianzas fueron
mensiones nos aproximamos cada vez ms muy distintas, alterando los resultados obte-
al espacio original p-dimensional. nidos. La estandarizacin apareci aqu
Al analizar los porcentajes de varianza como un elemento clave a tener en cuenta al
explicados por los tres primeros autovalores realizar un anlisis de componentes principa-
en la tabla 1 pudo verse que la estandariza- les. Si todas las variables hubieran estado
cin produjo una reduccin importante en medidas en iguales unidades y, por lo tanto,
esos valores. Sin embargo, esto no fue un fac- sus varianzas hubieran sido similares, la
tor determinante en la identificacin de los mejor ordenacin habra sido la de varian-
ocho grupos en estudio. Esto est indicando zacovarianza de datos no estandarizados ya

Figura 2. Distancia Euclidiana en espacio derivado bidimensional vs. igual distancia en espacio
p-dimensional para componentes principales derivados a partir de una matriz de varianzacova-
rianza de datos estandarizados (todas las variables) por desvo estndar. r = 0.90527.
Lilloa 46 (12): 1033, 2009 21

Correlacin
% Varianza Grupos
Codificacin Estandarizacin Autovalores euc.euc.
explicada identificados
en 2 y 3 dim.

eucne ninguna 20852.6227 72.7269 0.97882 0


3285.9533 84.1843 0.98947
1989.8586 91.1245

eucde desvo 971.3848 36.3815 0.90257 8


estndar 467.5525 53.8928 0.93862
302.4450 65.2203

eucdec desvo estndar 782.4438 40.3805 0.92172 8


slo cuantitativas 320.6091 56.9266 0.95762
229.4570 68.7684

eucrg rango 160.9807 41.6909 0.91065 8


70.1990 59.8711 0.95244
44.1238 71.2983

eucrgc rango 572.0997 47.4834 0.90657 10


slo cuantitativas 198.8215 63.9853 0.97570
153.8913 76.7580

Tabla 3. Autovalores, proporcin de varianza explicada, correlaciones entre espacios euclidia-


nos original y derivado en 2 y 3 dimensiones y nmero de grupos identificados al aplicar coor-
denadas principales a matrices de distancia Euclidiana. Palabras en cursiva corresponden a la
codificacin empleada en otras tablas y figuras.

que, como se observa en la tabla 1, es la presentaron configuraciones muy distintas a


condicin que mejor preserv el espacio ori- las de las opciones con estandarizacin (r <
ginal (rs prximos a 1). 0.62).
Esto se nota claramente en las figuras 4 y
5. La ordenacin a partir de varianza-cova- C OORDENADAS P RINCIPALES
rianza de datos no estandarizados, que es la Distancia Euclidiana. Existe dualidad en-
que mayor porcentaje de varianza explicada tre los resultados obtenidos a partir de com-
present, no logra separar los 8 grupos. La ponentes principales y coordenadas principa-
figura 4 muestra el efecto de la estandariza- les sobre una matriz de distancias euclidia-
cin, en la cual se identifican los 8 grupos an nas. La comparacin de las tablas 3 y 1
con menor porcentaje de varianza explicada. muestra lo mencionado. Los autovalores re-
Los rboles de distancia mnima super- sultan diferentes pero los porcentajes de va-
puestos a las ordenaciones mostraron clara- riabilidad explicada son los mismos y tam-
mente la estructura de agrupamiento de las bin las ordenaciones obtenidas. Por este
cinco poblaciones en las figuras 4 y 5 y per- motivo, todo lo enunciado en componentes
mitieron detectar las distorsiones que se pro- principales es vlido para este caso.
dujeron en las posiciones relativas de algu- Las posiciones relativas de los objetos re-
nos puntos prximos. sultaron idnticas, no as sus posiciones ab-
Las estandarizaciones por desvo estndar solutas. El grfico de ordenacin estuvo rota-
y por rango (todas las variables) generaron do 180 con respecto al de componentes
ordenaciones casi idnticas (valores muy principales. No se presenta el grfico de la
prximos a 1 en la tabla 2), al comparar los ordenacin de coordenadas principales, pero
espacios derivados en dos dimensiones para s el de disimilaridad Manhattan que fue si-
opciones con desvo estndar vs. aqullas milar. La comparacin de las figuras 5 y 7
con rango. Las opciones no estandarizadas permite verificar esta situacin.
22 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

Aut. negativos Correlacin


Estanda- % Varianza (autovalor manh-euc Grupos
Codificacin Autovalores en 2 y 3
rizacin explicada ms pequeo) identificados
dimensiones

manhne ninguna 77.1890 47.3160 si 0.91653 0


45.5673 75.2483 (-6.6148) 0.95017
21.8463 88.6390

manhde desvo estndar 27.7460 54.6451 si 0.94691 8


10.5028 75.3302 (-0.8935) 0.98749
5.1645 85.5015

manhdec desvo estndar 18.8519 55.1748 si 0.94022 8


slo cuantit. 6.1158 73.0743 (-0.6585) 0.96792
3.4929 83.2973

manhrg rango 4.1112 57.9395 si 0.94963 8


1.4699 78.6547 (-0.1454) 0.98074
0.6892 88.3679

manhrgc rango 10.7183 60.3417 si 0.94909 8


slo cuantit. 2.9134 76.7435 (-0.4959) 0.97164
1.8804 87.3297

Tabla 4. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,


correlacin entre distancia original y derivada en 2 y 3 dimensiones, correlacin entre distancia
original y distancia Euclidiana derivada en 2 y 3 dimensiones y correlacin entre distancia Eucli-
diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y nmero de grupos identi-
ficados en la representacin bidimensional bajo distintas condiciones de estandarizacin. Pala-
bras en cursiva corresponden a la codificacin empleada en otras tablas y figuras.

Disimilaridad Manhattan o City Block. La ra autovalores negativos), y con datos no


columna 6 de la tabla 4 indica la concor- centrados. Esta medida de disimilaridad no
dancia entre el espacio euclidiano original y tolera el centrado, produciendo resultados
la disimilaridad Manhattan en el espacio p- absurdos en ese caso tal como fue estudiado
dimensional, que fue razonablemente buena por Arce (2003). La ordenacin slo pudo
(r > 0.90) para los casos con variables es- identificar 2 grupos (tabla 6). La autonor-
tandarizadas. malizacin incluida en este coeficiente no
La tabla 5 muestra que las correcciones fue suficiente para lograr una correcta iden-
por autovalores negativos produjeron orde- tificacin de grupos, como se observa en la
naciones similares a las opciones no corregi- figura 8. La ordenacin obtenida fue similar
das (r prximo a 1). En la tabla 4 se ve que a la que se obtiene cuando no se estandari-
los autovalores negativos tomaron valores zan las variables.
muy pequeos en relacin a los tres primeros
valores propios positivos, razn por la cual Disimilaridad Canberra. La disimilaridad
los efectos de la correccin son mnimos. Canberra, autonormalizada al igual que la
Las figuras 6 y 7 ponen en evidencia el disimilaridad de Bray Curtis, gener un espa-
efecto de la estandarizacin en la identifica- cio similar al de las variables estandarizadas.
cin de los grupos. Para la identificacin de los 8 grupos fue ne-
cesario usar 3 dimensiones (figuras 9 y 10).
Disimilaridad de Bray Curtis. Se traba- El diagrama de Shepard correspondiente
j slo con la transformacin a raz cuadra- no se incluye por ser muy similar a los pre-
da, que tiene propiedades mtricas (no gene- sentados anteriormente.
Lilloa 46 (12): 1033, 2009 23

Figura 3. Distancia Euclidiana en espacio derivado bidimensional vs. igual distancia en espacio
p-dimensional para componentes principales derivados a partir de una matriz de varianzacova-
rianza de datos estandarizados por desvo estndar slo para variables cuantitativas. r =
0.92172.

De nuevo las correcciones por autovalo- una medida de similaridad con una de disi-
res negativos no mostraron cambios impor- milaridad. El coeficiente de Gower gener
tantes con respecto a la ordenacin sin co- un espacio similar al de las variables estan-
rreccin (tabla 7). darizadas.
Los diagramas de Shepard no se incluyen
Coeficiente de similaridad de Gower. En porque son similares a los presentados con
la tabla 8 los valores de correlacin nega- anterioridad.
tivos se deben a que se est comparando Al igual que en la disimilaridad Canberra,

Figura 4. Ordenacin de componentes principales obtenidos a partir de una matriz de varianza


covarianza de datos no estandarizados.
24 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

manhde manhdec manhrg manhrgc

manhde 1
manhde_lg 0.99980
mandeh_cl 0.98490
manhdec 1
manhdec_lg 0.99883
manhdec_cl 0.99687
manhrg 1
manhrg_lg 0.99760
manrgh_cl 0.97905
manhrgc 1
manhrgc_lg 0.99962
manrghc_cl 0.99569

Tabla 5. Correlaciones entre espacios euclidianos bidimensionales obtenidos por coordenadas


principales de una matriz de disimilaridad Manhattan sobre datos estandarizados por desvo es-
tndar y rango, con y sin correcciones por autovalores negativos. Referencias en tabla 5. (lg
= correccin de Lingoes; cl = correccin de Calliez).

Figura 5. Ordenacin de componentes principales obtenidos a partir de una matriz de varianza


covarianza de datos centrados y estandarizados por desvo estndar (slo variables cuantitativas).
Lilloa 46 (12): 1033, 2009 25

Correlacin
Estanda- % Varianza bray-euc Grupos
Codificacin Autovalores Aut. negativos
rizacin explicada en 2 y 3 identificados
dimensiones

rcbray ninguna 24.7733 24.7783 no 0.85353 2


14.8198 39.5932 0.90017
9.4153 49.0084

Tabla 6. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,


correlacin entre distancia original y derivada en 2 y 3 dimensiones, correlacin entre distancia
original y distancia Euclidiana derivada en 2 y 3 dimensiones y correlacin entre distancia Eucli-
diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y nmero de grupos identi-
ficados en la representacin bidimensional. Palabras en cursiva corresponden a la codificacin
empleada en otras tablas y figuras. (rcbray = Bray Curtis).

la adicin de una tercera dimensin mejor estandarizadas, como se observa en el grupo


la representacin grfica (figuras 11 y 12). de la parte superior (desde varne hasta rc-
bray). En este grupo est incluida la disimi-
C OMPARACIN DE RESULTADOS laridad Bray Curtis, que pese a ser auto nor-
DE COMPONENTES PRINCIPALES malizada, gener resultados similares a los
Y COORDENADAS PRINCIPALES de opciones sin estandarizar. Todas las op-
El dendrograma (figura 13) muestra cla- ciones en este grupo fracasaron en la sepa-
ramente la poca concordancia entre configu- racin de los grupos en estudio.
raciones con variables estandarizadas y no El grupo ubicado en el sector medio (des-

Figura 6. Ordenacin de coordenadas principales a partir de una matriz de disimilaridad Man-


hattan de datos no estandarizados.
26 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

Aut. negativos Correlacin


Estanda- % Varianza (autovalor ms can-euc Grupos
Codificacin Autovalores en 2 y 3
rizacin explicada pequeo) identificados
dimensiones

can ninguna 2.7156 55.2353 si 0.93154 8


1.1163 77.9412 (-2.1004) 0.98410
0..5990 90.1248

canlg ninguna 2.8160 20.3312 no 0.94475 8


correc. Lingoes 1.2161 29.1157 0.97341
0.6994 34.1651

cancl ninguna 5.6082 33.0526 no 0.92897 8


correc. Calliez 2.5286 47.9553 0.98416
1.5509 57.0955

Tabla 7. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,


correlacin entre distancia original y derivada en 2 y 3 dimensiones, correlacin entre distancia
original y distancia Euclidiana derivada en 2 y 3 dimensiones y correlacin entre distancia Eucli-
diana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y nmero de grupos identi-
ficados en la representacin bidimensional. Palabras en cursiva corresponden a la codificacin
empleada en otras tablas y figuras.

de varde hasta manhdec_cl) muestra todas las La disimilaridad Manhattan produjo re-
opciones con resultados similares y que per- sultados similares a los de distancia Eucldea.
mitieron la identificacin de los 8 grupos. La autonormalizacin incluida en la di-

Figura 7. Ordenacin de coordenadas principales a partir de una matriz de disimilaridad Man-


hattan de datos estandarizados por rango (todas las variables).
Lilloa 46 (12): 1033, 2009 27

Correlacin
Estanda- % Varianza Autovalores gower-euc Grupos
Codificacin Autovalores en 2 y 3
rizacin explicada negativos identificados
dimensiones

gower ninguna 13.4788 34.5496 no 0.92484 8


6.1171 50.2294 0.95880
4.2227 61.0532

Tabla 8. Autovalores, porcentaje de varianza explicada, presencia de autovalores negativos,


correlacin entre distancia original y distancia Euclidiana derivada en 2 y 3 dimensiones y corre-
lacin entre distancia Euclidiana original y distancia Euclidiana derivada en 2 y 3 dimensiones, y
nmero de grupos identificados en la representacin bidimensional. Palabras en cursiva corres-
ponden a la codificacin empleada en otras tablas y figuras.

similaridad Canberra result equivalente a la originada por la opcin sin correccin.


las estandarizaciones realizadas en otros Pero se debe destacar que en los casos estu-
coeficientes. diados los valores propios negativos resulta-
El coeficiente de similaridad de Gower, ron muy prximos a 0 o con valores absolu-
diseado especficamente para variables tos muy pequeos en relacin a los tres pri-
mixtas, produjo ordenaciones similares a las meros con valores positivos
de otros coeficientes con estandarizacin. En el grupo inferior (desde vardec hasta
Se observa que las dos tcnicas de co- eucrgc) se encuentran las opciones con estan-
rreccin por autovalores negativos genera- darizacin solo de variables cuantitativas. Al
ron ordenaciones casi idnticas entre s y a aparecer juntas en el dendrograma indica

Figura 8. Ordenacin de coordenadas principales a partir de una matriz de disimilaridad Bray


Curtis.
28 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

Figura 9. Ordenacin de coordenadas principales, en 2 dimensiones, a partir de una matriz de


disimilaridad Canberra.

Figura 10. Ordenacin de coordenadas principales, en 3 dimensiones, a partir de una matriz


de disimilaridad Canberra.
Lilloa 46 (12): 1033, 2009 29

Figura 11. Ordenacin de coordenadas principales, en 2 dimensiones, a partir de una matriz


de coeficiente de Gower.

Figura 12. Ordenacin de coordenadas principales, en 3 dimensiones, a partir de una matriz


de coeficiente de Gower.
30 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

Figura 13. Anlisis de agrupamientos por ligamiento promedio realizado para la matriz de
correlaciones entre los espacios euclidianos derivados bidimensionales para todos los coeficien-
tes, estandarizaciones y las dos tcnicas en estudio. Referencias en tablas 1, 3, 4, 6, 7 y 8.

que fueron similares, sin embargo como se variables cuantitativas, en el caso de compo-
vio anteriormente la estandarizacin por nentes principales, o por variables binarias,
rango solo de variables cuantitativas condujo categricas multiestado o cuantitativas en el
a una sobreidentificacin de grupos. caso de coordenadas principales.
Tambin se observa la dualidad de com- Numerosos trabajos de aplicacin de es-
ponentes principales y coordenadas principa- tas tcnicas pueden encontrarse en la litera-
les con distancia Euclidiana. tura cientfica (Hartmann, 1988; Pimentel,
1981; Thorpe, 1980; Crisci y Lpez Armen-
DISCUSIN gol, 1983; Sneath y Sokal, 1973; Moss,
1968). En la mayora de ellos se aplican las
La mayora de la bibliografa referida a tcnicas multivariadas sin tener en cuenta la
anlisis estadstico multivariado presenta las naturaleza mixta de los datos. La interpreta-
dos tcnicas mencionadas para situaciones cin de los ejes, en este caso, resulta poco
de aplicacin en las que se dispone de varia- clara ya que las correlaciones entre varia-
bles de un solo tipo (Pea, 2002; Hair et al., bles numricas y categricas codificadas o
1999; Gnanadesikan, 1997; Jobson, 1992; entre los cdigos numricos de las variables
Johnson y Wichern, 1992; Jolliffe, 1986; categricas carecen de sentido.
Anderson, 1984; Dillon y Goldstein, 1984; Con respecto a la rotacin en 180 de las
Seber, 1984; Karson, 1982; Mardia et al., ordenaciones de componentes principales y
1979; Morrison, 1967). Se asume que la coordenadas principales, Legendre y Legen-
matriz bsica de datos est constituida por dre (1998) dicen lo siguiente; las elecciones
Lilloa 46 (12): 1033, 2009 31

de signos de los autovectores son arbitrarias resuelto computacionalmente por Legendre y


durante la ejecucin de los algoritmos de Anderson (1998). No se encontr un efecto
computadora. Por lo tanto, esta rotacin no importante de las correcciones porque el va-
es una caracterstica propia de la tcnica lor absoluto de los autovalores negativos re-
sino del algoritmo incluido en el paquete con sult muy pequeo en relacin a los prime-
el que se est trabajando En el caso de ros tres autovalores positivos. Pero se trabaj
NTSys la multiplicacin de los dos primeros empricamente con un solo conjunto de da-
autovectores de coordenadas principales por tos. Esto no necesariamente ser siempre as
(-1) generar ordenaciones con posiciones por lo que debera verificarse el efecto de las
similares a las de componentes principales. correcciones siempre que se obtienen auto-
En este trabajo se pretendi comparar las valores negativos
ordenaciones obtenidas usando el coeficien- Se intent presentar una metodologa
te de Gower, apropiado para variables mix- que incluyera varias tcnicas para juzgar
tas, y evaluar la robustez de las tcnicas de ordenaciones. Se observ en los resultados
componentes principales y coordenadas prin- que el uso de la ms usada (porcentaje de
cipales cuando se aplican coeficientes que varianza explicada) no es suficiente por s
no son apropiados para matrices con varia- misma y que incluso puede conducir a le
bles de distintos tipos. eleccin de una ordenacin inapropiada.
El uso de los diagramas de Shepard (Mc- El uso del coeficiente de Gower debiera
Cune y Grace, 2002; Gnanadesikan, 1997; extenderse. Se ha visto empricamente en
Everitt y Dunn, 1991; Legendre, 1998; Krus- este trabajo, que su uso en la matriz de da-
kal, 1964) result muy til para evaluar las tos de Echinochloa result satisfactorio. Pi-
relaciones entre espacios originales y deriva- mentel (1981) y Bramardi (2000) mencionan
dos, ya que permitieron observar el tipo, di- tambin su efectividad en este tipo de matri-
reccin y magnitud de las distorsiones obte- ces. Este coeficiente no se encuentra como
nidas. Estas relaciones son lineales cuando una alternativa disponible en el software de
se trabaja con variables cuantitativas sola- uso comn. En NTSys no est incluido pero
mente (Arce y Santilln, 2002; Arce, 2003) se lo puede calcular de manera sencilla
Es posible que la inclusin de variables no usando las operaciones de matrices inclui-
numricas codificadas haya producido las das en el mdulo TRANSF. Recientemente ha
relaciones no lineales observadas entre los sido incluido en el paquete cluster de R (R
espacios original y derivados. Por este moti- Development Core Team, 2009), mediante el
vo cabe esperar mayores distorsiones al tra- procedimiento DAISY (Kaufman y Rous-
bajar con datos mixtos que cuando slo se seeuw, 1990).
utilizan variables cuantitativas. En los traba- Tambin se observ que el uso de com-
jos mencionados con anterioridad no se hace ponentes principales y coordenadas principa-
mencin a este efecto de no linealidad. La les, al ser empleados sin considerar la natu-
inclusin en NTSys de estos grficos resulta raleza mixta de las variables, present ro-
muy apropiada, como as tambin el clculo bustez, es decir, ordenaciones apropiadas.
de correlacin entre matrices. Pero en este caso se trabaj con una sola
La superposicin de rboles de recorrido matriz de datos por lo que los resultados
mnimo a las ordenaciones (Gower y Ross, obtenidos no deberan generalizarse para
1969) result muy til para detectar distor- toda matriz de datos mixtos.
siones en la representacin de los puntos en
el espacio de dimensin reducida. Bramardi CONCLUSIONES
(2000) tambin analiza en su trabajo la uti-
lidad de esta herramienta de evaluacin de En la matriz de datos estudiada se cono-
ordenaciones en este sentido. ca la estructura de agrupamientos con ante-
El efecto de la autovalores negativos ha rioridad a su anlisis estadstico, es decir, el
sido tratado por Gower y Legendre (1986) y modelo taxonmico era conocido. La utili-
32 O. E. A. Arce et al.: Estudio comparativo basado en una aplicacin a la taxonoma numrica

zacin de ambas tcnicas, bajo diferentes de Ciencias Econmicas, Universidad Nacional de


condiciones de aplicacin, permiti verificar Tucumn, 149 pp.
Bramardi, S. 2000. Estrategias para el anlisis de
si el modelo taxonmico conocido poda ser datos en la caracterizacin de recursos fitoge-
reproducido o no en espacios de dimensin nticos. Tesis doctoral. Valencia, Universidad
reducida. El nmero de grupos identificados Politcnica, 390 pp.
en algunos casos fue nulo, en otros fue el Cailliez, F. 1983. The analytical solution of the additive
correcto y en unos pocos result menor que constant problem. Psychometrika, 48: 305-308.
Crisci, J. y M. F. Lpez Armengol. 1983. Introduccin
el nmero original. Esto indica que algunas a la teora y prctica de la taxonoma numrica.
condiciones de aplicacin pueden llevar al Monografa N 26. Washington, Organizacin de
investigador a obtener conclusiones taxon- Estados Americanos, 132 pp.
micas errneas. De La Sota, E. 1982. La taxonoma y la revolucin en
Excepto en los casos especiales de duali- las ciencias biolgicas. Monografa N 3. Was-
hington, Organizacin de Estados Americanos,
dad mencionados, el anlisis de componen- 86 pp.
tes principales no tiene una relacin directa De Marco, N. 2006. Echinochloa. En A. Molina y Z.
con el de coordenadas principales. R. de Agrasar (editores). Coleccin cientfica del
El anlisis de las dos tcnicas mostr que INTA 23. INTA, Buenos Aires, pp. 493-510.
ambas son robustas, ya que en la mayora De Marco, N. 2002. Estudio sistemtico y fitogeogr-
fico de las especies del gnero Echinochloa
de los casos produjeron resultados muy simi- (Poaceaea: Panicoideae: Paniceae) para la Argen-
lares y concordantes con el modelo taxon- tina. Tesis doctoral. Tucumn, Facultad de Agro-
mico conocido. noma y Zootecnia, Universidad Nacional de Tu-
La condicin fundamental para obtener cumn, 178 pp.
ordenaciones que reprodujeron el modelo Dillon, W y M. Goldstein. 1984. Multivariate analysis.
Methods and applications. New York, Wiley, 287 pp.
taxonmico original fue la estandarizacin Everitt, B. y G. Dunn. 1991. Applied multivariate data
de los datos y no la seleccin de coeficientes analysis. London, Arnold, 304 pp.
determinados. Gnanadesikan, R. 1997. Methods for statistical data
No debiera utilizarse componentes princi- analysis of multivariate observations. 2 nd edi-
pales con datos de naturaleza mixta debido a tion. New York, Wiley, 353 pp.
Gower, J. 1966. Some distance properties of latent
la no linealidad que se genera entre los espa- roots and vector methods used in multivariate
cios original y derivado, que produce distor- analysis. Biometrika, 53: 325-338.
siones en la representacin bidimensional. Gower, J. 1971. A general coefficient of similarity and
Se observ que coordenadas principales some of its properties. Biometrics, 27: 857-74.
fue capaz de forzar un modelo euclidiano a Gower, J. 1985. Measures of similarity, dissimilarity
and distance. Encyclopedia of statistical sciences,
una matriz cualquiera de disimilaridades o 5: 397-405.
similaridades, lo que indicara que se puede Gower, J. y N. Digby. 1981. Expressing complex rela-
aplicar a cualquier tipo de datos usando tionships in two dimensions. En V. Barnett (edi-
medidas de di/similaridad apropiadas. El tor). Interpreting multivariate data . Wiley, UK,
coeficiente de Gower surge como una alter- pp 83-118.
Gower, J. y P. Legendre. 1986. Metric and euclidean
nativa interesante. properties of dissimilarity coefficients. Journal of
Classification, 3: 5-48.
Gower, J. y G. Ross. 1969. Minimum spanning trees
BIBLIOGRAFA and single linkage cluster analysis. Applied sta-
tistics, 18: 54-64.
Anderson, T. 1984. An introduction to multivariate
Hair, J., R. Anderson, R. Tatham y W. Black. 1999.
statistical analysis. 3 rd edition. New York, Wiley,
Anlisis multivariante. 5 edicin. Madrid, Pren-
752 pp.
tice Hall Iberia, 799 pp.
Arce, O y M. Santilln. 2002. A comparative study of
Hartman, S. 1988. Evaluation of some alternative
two ordination techniques based on simulated
procedures used in numerical systematic. Syste-
multivariate normal data. Biocell, 26 (1): 159.
matic zoology, 37 (1): 1-18.
Arce, O. 2003. Componentes principales y coordena-
Jobson, J. 1992. Applied multivariate data analysis.
das principales: estudio comparativo con aplica-
Volume II: Categorical and multivariate methods.
ciones a la taxonoma numrica. Tesis de Maes-
New York, Springer-Verlag, 768 pp.
tra en Estadstica Aplicada. Tucumn, Facultad
Lilloa 46 (12): 1033, 2009 33

Johnson, R y W. Wichern.1992. Applied multivariate PimenteL, R. 1981. A comparative study of data and
statistical analysis. 3 rd edition. New Jersey, ordination techniques based on a hybrid swarm
Prentice Hall, 642 pp. of sand verbenas (Abronia Juss.). Systematic
Jolliffe, I. 1986. Principal component analysis. Heidel- zoology, 30 (3): 250-267.
berg, Springer-Verlag, 271 pp. R Development Core Team. 2009. R: A language and
Karson, M. 1982. Multivariate statistical methods. An environment for statistical computing. R Founda-
introduction. Iowa, Iowa State University Press, tion for Statistical Computing, Vienna, Austria.
307 pp. ISBN 3-900051-07-0, URL http://www.R-
Kaufman, L y P. Rousseeuw. 1990. Finding groups in project.org (consultado el 21 de octubre de
data. An introduction to cluster analysis. New 2009).
York, Wiley-Interscience, 342 pp. Rohlf, F. 1972. And empirical comparison of three
Kruskal, J. 1964. Multidimensional scaling by optimi- ordination techniques in numerical taxonomy.
zing goodness of fit to a nonmetric hypothesis. Systematic zoology, 21 (3): 271-280.
Psychometrika, 29 (1): 1-27. Rohlf, F. 1990. Numerical taxonomy system of multi-
Legendre, P. y J. Anderson. 1998. Program DistPCoA. variate statistical programs. Version 1.8. New
Users manual. Montreal: Universit de Montre- York: State University at Stony Brook.
al, Dpartement de Sciences Biologiques. http:/ Rohlf, F., 2009. Numerical taxonomy system of mul-
/www.bio.umontreal.ca/casgrain/en/telechar- tivariate statistical programs. Getting started
ger/index.html#DistPCoA (consultado el 21 de guide. Version 2.2. New York: State University at
octubre de 2009). Stony Brook, 43 pp.
Legendre, P. y L. Legendre. 1998. Numerical ecology. Seber, G. 1984. Multivariate observations. New York,
2 nd Edition. Amsterdam, Elsevier, 853 pp. Wiley and Sons, 686 pp.
Lingoes, J.C. 1971. Some boundary conditions for a Sneath, P. y R. Sokal. 1973. Numerical taxonomy. The
monotone analysis of symmetric matrices. Psy- principles and practice of numerical classifica-
chometrika, 36: 195-203. tion. San Francisco, Freeman, 573 pp.
McCune, B y Grace, J. 2002. Analysis of ecological Thorpe, R. 1980. A comparative study of ordination
communities. Oregon, MJM, 300 pp. techniques in numerical taxonomy in relation to
Mardia, K., J. Kent y J. Bibby. 1979. Multivariate racial variation in the ringed snake Natrix natrix
analysis. London: Academic Press, 521 pp. (L.). Biological journal of the Linnean Society, 13:
Morrison, D. 1967. Multivariate statistical methods. 7-40.
New York, McGraw Hill, 409 pp. Zuloaga, F. O., E. G. Nicora, Z. E. Rgolo de Agrasar,
Moss, W. 1968. Experiments with various techniques O. Morrone, J. Pensiero y A. M. Cialdella.
of numerical taxonomy. Systematic Zoology, 17 1994. Catlogo de la Familia Poaceae en la
(1): 31-47. Repblica Argentina. Monographs in Systematic
Pea, D. 2002. Anlisis de datos multivariantes. Botany. Missouri Botanical Garden, 47: 1-178.
Madrid, MacGraw Hill Interamericana de Espaa,
539 pp.

View publication stats

Potrebbero piacerti anche