Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
16.2.Anlisis de agrupamiento
El objetivo de este tipo de anlisis es organizar las entidades (e.g., especies, sitios,
observaciones) en clases discretas o grupos de manera que la similitud dentro del
grupo es maximizada y la similitud entre grupos es minimizada de acuerdo a algn
criterio objetivo. Las caractersticas de los datos se usan para definir grupos.
Jerrquicos: Se determinan grupos que estn compuestos por subgrupos. Hay una
jerarqua de niveles.
Aglomerativos: Los grupos se forman desde abajo. Comienza uniendo
los dos objetos ms similares. (Cluster analysis).
Divisivos: la clasificacin comienza con la divisin de todo el grupo de
datos en dos, que luego se vuelven a dividir y as sucesivamente.
No Jerrquicos: El objetivo es formar un nmero predeterminado de grupos (K). Se
define el nmero de grupos y se acomodan los objetos para minimizar la variabilidad
dentro del grupo y maximizar la variabilidad entre los grupos.
Muestras
1 2 3 4 5
Especies
2 4 5 1 3
Agrupamiento de
Similitud entre
Transformacin muestras
muestras
1
Porcentaje de la informacin no
explicada por el dendrograma Una vez que corremos el anlisis, obtenemos el
dendrograma. El siguiente paso es decidir cuantos
100 75 50 25 0 grupos debemos considerar. En este ejemplo, podemos
definir 3, 5 o 7 grupos dependiendo de donde hagamos el
corte. Podemos decidir el nmero de grupos
subjetivamente en base a lo que parece lgico como un
buen numero de grupos. Otra alternativa es usar la
cantidad de informacin explicada o incluida en el
dendrograma. En este ejemplo, si tomamos el 50% de la
variacin explicada, consideramos 5 grupos; mientras
que si tomamos el 75% de la variacin explicada (25% no
explicada) tendremos 3 grupos.
Un mtodo alternativo y ms objetivo es aplicar un
Anlisis de Especies Indicadoras (Indicador Species
Analysis). Este anlisis se basa en randomnizaciones en
la asignacin de las entidades a los grupos y obtiene un
valor de p para los distintos nmeros de grupos posibles.
El nmero con el menor p se selecciona como el nmero
ms adecuado de grupos.
16.3.Ordenamiento
16.3.1.Reduccin de datos
Los ordenamientos son una manera de reducir los datos, esto significa resumir un set
de datos que contiene muchas variables en un set de menos nmero de variables
(sintticas) que son combinaciones de las variables originales. En contrate, los
mtodos de clasificacin reducen un set de datos multivariados en clases discretas.
2
16.3.2.Diagramas de ordenacin
F
A
C
Eje 1 H
E B
G D
Eje 2
3
se agrupan juntas y este patrn nos parece inconsistente con el efecto que
esperamos encontrar, debemos sospechar de una influencia fuerte de la
historia filogentica de las especies. En este caso debemos incluir un factor de
correccin que le quite peso y permita ver el patrn que buscamos, si es que
existe luego de la correccin.
4
Sito 2 Sitio 2 Sito 2
Sitio 4 Sitio
Sitio 5 Sitio 4 4
Sitio 5 Sitio 5
Sitio 1
+ Sitio 1
Sitio
Sitio 3 + Sitio 1
- Ladera sur
Variables + - Ladera norte
Variables continuas Humedad
Correlaciones: Los coeficientes de correlacin entre cada variable y cada eje del
ordenamiento permiten determinar la importancia de cada variable en el patrn
observado. Si la variable tiene alguna relacin linear con los ejes esta se expresa en el
coeficiente de correlacin. El cuadrado del coeficiente de correlacin expresa la
proporcin de la variacin la posicin a lo largo de un eje que es explicada por esa
variable.
Estas correlaciones se usan con propsitos descriptivos, y por lo tanto no se debe
asignar un valor de significancia para la hiptesis nula de no relacin entre la variable
y el eje.
Sito 2
Variables
Sitio 4 contnuas
Sitio 5
Humedad
Sitio 1
Sitio 3
Eje I
Eje I I
R = 0.031
R = 0.534
Tau = 0.0.45
Tau = 0.327
16.4.Tipos de ordenacin
5
16.5.Anlisis de componentes principales (PCA)
El objetivo es expresar la covariacin entre las variables en el menor nmero de
variables sintticas (componentes). Las covariaciones ms fuertes emergen el los
primeros ejes y por esto se llamn componentes principales.
PCA es una buena tcnica para usar cuando hay una relacin aproximadamente linear
entre las variables. En algunos casos se pueden hacer transformaciones para mejorar
esta linearidad. Los datos en ecologa en general no presentan relaciones lineares y
por lo tanto, el PCA no es el mtodo adecuado para estos datos. PCA interpreta los
doble ceros (dos variables con valor cero) como una relacin positiva entre las
variables y como la ordenacin es basa en las correlacin, el diagrama no refleja la
realidad de los datos. En los casos de muchos ceros en la matriz, la distribucin de
puntos en el diagrama tiene forma de herradura (horseshoe effect). PCA se aplica bien
a datos de comunidades relativamente homogneas.
Cuando corremos un PCA, adems del grfico, obtenemos una tabla con los datos de
cada eje. Lo que nos interesa ver en esta tabla es la columna del porcentaje de la
varianza explicada para poder evaluar si los dos o tres primeros ejes proveen una
buena representacin de los datos.
6
se baja el peso de las especies raras. La representacin grfica se basa en los rangos
de similitud entre las entidades.
Muestras
1 2 3 4 5
Especies 1
2
3
4
5
7
Variables Dependientes Variables independientes
(filas) (columnas)
Variable 1 Variable A
Variable 2 Variable B
Variable 3 Variable C
Por ejemplo, podemos tener una serie de sitios (variables dependientes) y una serie
de variables independientes para explicar la variacin entre los sitios (e.g., especies).
El anlisis de correlacin cannica hace una ordenacin de la matriz original de n filas
x p columnas y obtiene un grupo de ejes (k).con los respectivos valores de cada n para
esos ejes Luego hace una ordenacin de la matriz pero las filas como columnas y las
columnas como filas y obtiene una serie de ejes (k) con los respectivos valores de de
cada p para esos ejes
p especies k ejes
n sitios n sitios
8
16.8. Analisis de correspondecia cannica
Un aspecto importante es que el CCA ignora aquella parte de la estructura que no esta
relacionada con las variables de la segunda matriz (e.g., variables ambientales). El
CCA funciona bien para sets de datos donde las respuestas de las variables son
unimodales y donde la importancia de las variables ambientales ha sido medidas
(sabemos que hay una correlacin).
n sitios
n sitios
Variable 1 1
Variable 2 0.107 1
Tambin se obtienen los resmenes de los scores de los sitios y las especies para los
eje obtenidos. En base a estos scores se construye el diagrama de ordenacin
Una ventaja de este mtodo es que permite plantear hiptesis ecolgicas a priori y
testearlas con el anlisis. Tambin, al examinar la varianza no explicada se pueden
generar nuevas hiptesis.
10
Y = W1X1 + W2X2 + W3X3 +WnXn
Donde X son las variables consideradas en el modelo y W son los pesos relativos de
cada variable.
La diferencia de DFA con los otros mtodos multivariados es que los grupos son
predefinidos, y no el resultado del anlisis.
Usamos DFA para para resumir diferencias entre grupos definidos en cluster analysis,
para testear si dos o mas grupos son diferentes (multivariado), y para predecir la
asignacin a ciertos grupos.
Por ejemplo, si tenemos datos sobre medidas de machos y hembras, podemos usar
DFA para determinar si hay combinaciones de medidas que nos permitan identificar
los sexos de una especie en el campo (en especies sin dimorfismo sexual). Este
anlisis puede darnos como resultado una funcin como esta.
Una vez determinada la funcin el programa hace un test de cuan buena resulta para
discriminar los grupos aplicndola a los grupos predefinidos y nos da un porcentaje de
clasificacin correcta. Estos porcentajes nos dan una idea de cuan ltil son las
variables identificadas por el modelo para definir los grupos
Machos 4 15 83
Hembras 2 3 66
6 18
11