Sei sulla pagina 1di 3

La primera suposición es que los totales de las columnas de la Tabla 5.

6 son fijos; es decir, que las


10 especies están presentes, respectivamente, 3 veces en las 7 muestras, 6 veces, 4 veces, 3 veces
y así sucesivamente. Entonces la permutación involucrada sería simplemente mezclar
aleatoriamente los ceros y unos en cada columna para obtener una nueva matriz de presencia-
ausencia con exactamente los mismos totales de columna que antes. Al realizar la agrupación
jerárquica de vincular competir en esta matriz, se obtiene ese valor cuando se alcanza la solución
de tres clústeres, y se convierte en una observación de la distribución de permutación nula. Lo
hicimos 9999 veces, y junto con nuestro valor real observado de 0,4286, los 10000 valores se
grafican en la figura 7.9 (lo mostramos como un gráfico de barras horizontal porque solo se observan
15 valores diferentes de este valor, que se muestran aquí con sus frecuencias ) El valor que
realmente observamos es uno de los más pequeños: el número de matrices permutadas que genera
este valor o un valor menor es 26 de 10000, por lo que en este sentido, nuestros datos son muy
inusuales y la 'importancia' de los tres grupos la solución se puede cuantificar con un valor p de
0.0026. Las otras 9.974 permutaciones aleatorias conducen todas a desemejanzas entre muestras
generalmente más altas, de modo que el nivel al que se obtienen las soluciones de tres clústeres es
0.4444 o superior (0.4444 corresponde a 4 desajustes de nueve.

Exhibit 7.9: Gráfico de barras de los 10000 valores de las soluciones de tres clústers obtenidos al
permutar las columnas de los datos de presencia-ausencia, incluido el valor que observamos en la
matriz de datos original no permutada.
level frequency
0.8000 2
0.7778 35
0.7500 363
0.7143 1360
0.7000 189
0.6667 2967
0.6250 2199
0.6000 822
0.5714 1381
0.5555 207
0.5000 441
0.4444 8
0.4286 23
0.4000 2
0.3750 1

La segunda y posible suposición alternativa para el cálculo de la distribución nula podría ser que los
márgenes de la columna no son fijos, sino aleatorios; en otras palabras, relajamos el hecho de que
había exactamente 3 muestras que tenían especies sp1, por ejemplo, y asumimos una distribución
binomial para cada columna, usando la proporción observada (3 de 7 para especies sp1) y el número
de muestras ( 7) como los parámetros binomiales. Por lo tanto, puede haber 0 hasta 7 presencias
en cada columna, de acuerdo con las probabilidades binomiales para cada especie. Esto proporciona
un rango mucho más amplio de posibilidades para la distribución nula y conduce a una conclusión
diferente sobre nuestros tres grupos observados.

La distribución de permutación ahora se muestra en la figura 7.10, y ahora nuestro valor observado
de 0,4286 no parece tan inusual, ya que 917 de los 10000 valores en la distribución son menores o
iguales a él, dando un valor P estimado de 0,0917.
Exhibit 7.10 Gráfico de barras de los 10000 valores de las soluciones de tres grupos obtenidos
mediante la generación de datos binomiales en cada columna de la matriz de presencia / ausencia,
según la probabilidad de presencia de cada especie.
level frequency
0.8750 2
0.8571 5
0.8333 23
0.8000 50
0.7778 28
0.7500 201
0.7143 485
0.7000 21
0.6667 1298
0.6250 1171
0.6000 895
0.5714 1960
0.5555 468
0.5000 2299
0.4444 177
0.4286 567
0.4000 162
0.3750 107
0.3333 64
0.3000 1
0.2857 12
0.2500 3
0.2000 1

Entonces, como en muchas situaciones en las estadísticas, el resultado y la decisión dependen de


las suposiciones iniciales. ¿Podríamos haber observado la presencia de especies s1 menos o más de
3 veces en las 7 muestras (y así sucesivamente para las otras especies)? En otras palabras, según la
distribución binomial con n = 7 yp = 3/7, las probabilidades de observar k presencias de la especie
sp1 (k = 0, 1, ..., 7) son:

01234567

0.020 0.104 0.235 0.294 0.220 0.099 0.025 0.003

Si esta suposición (y otras similares para las otras nueve especies) es realista, entonces la
significación del conglomerado es 0.0917. Sin embargo, si se adopta la primera suposición (es decir,
la probabilidad de observar 3 presencias para la especie s1 es 1 y 0 para otras posibilidades),
entonces la significación es 0.0028. Nuestra sensación es que tal vez la suposición binomial es más
realista, en cuyo caso nuestra solución de clúster podría observarse en poco más del 9% de los casos
aleatorios, esto nos da una idea de la validez de nuestros resultados y si se trata de clusters reales
o no. El valor del 9% es una medida de "agrupamiento" de nuestras muestras en términos del índice
de Jaccard: cuanto más baja es esta medida, más se agrupan, y cuanto mayor es la medida, más se
encuentran las muestras en un continuo. La falta de evidencia de "agrupamiento" no significa que
la agrupación no sea útil: es posible que deseemos dividir el espacio de los datos en regiones
separadas, a pesar de que los límites entre ellos son "borrosos". Y hablando de "borroso", hay una
forma alternativa de análisis de conglomerados (análisis de conglomerados difusos, no tratado
específicamente en este libro) donde las muestras se clasifican confusamente en grupos, en lugar
de estrictamente en un grupo u otro: esta idea es similar a la codificación difusa que describimos en
el Capítulo 3.