NOTAS problemas generalmente comienzan con el último caso. Por ejemplo, existe una correla- ción positiva entre la edad de un sapo con la densidad de la población mundial. Sin embargo, USOS Y ABUSOS DE LAS esto no significa que una variable cause un efec- COIZRELACIONES EN BIOLOGIA to sobre la otra, sino que ambas están relaciona- das a una tercera que es el tiempo.
Centro de Ecologia Aplicada del Litoral, 2 ) La imposibilidad de obtener un valor prome-
C.C. 291, (3400) Corrientes, Argentina dio de los coejicientes de correlación. Los coeficientes de correlacion no se com- Los coeficientes de correlación (r) son muy portan como los números ordinarios y por lo utilizados en las investigaciones biológicas, y el tanto no obedecen a las reglas básicas de la arit- uso de los mismos se ha generalizado tanto en mética. Resulta incorrecto obtener el promedio las investigaciones de índole ecológicas como en de varios coeficientes de correlación si lo hace- las de sistemática. Sin embargo, no siempre son mos de la manera tradicional (Martin y Bateson, tenidas en cuenta las restricciones de su uso o 1993). Para hallar la media aritmética de varios aquellos requisitos necesarios para una válida coeficientes de correlación debemos primera- interpretación de los mismos. Mi intención en mente convertir a cada uno de ellos al valor esta Nota es tratar de desarrollar brevemente correspondiente después de la aplicación de la algunas de las restricciones para el uso de los transformación z de Fisher. Dicha fórmula es: coeficientes de correlación, como así también en aquellos casos en que fuera posible, la "solu- z= 112 ln[(l + r) / ( 1 - r)] ción" estadística para el correcto empleo de los donde In es igual al logaritmo natural y r es el mismos. Considero que tener conocimiento so- coeficiente de correlación. Con los valores z cal- bre esta temática seguramente redundará en la culados es posible obtener la media aritmética. calidad de las interpretaciones que se hagan de Finalmente, la media aritmética de los valores z los datos, como así también en el diseño de las debe ser reconvertida en un valor r, a través de investigaciones que se quieran realizar. la transformación inversa de dicho valor. Tablas 1) Las correlaciones signi$cativas estadística- para la transformación de r en z y viceversa mente expresan la existencia de una relación pueden ser obtenidas en varios libros de esta- lineal entre dos variables y no implican causali- dística básica (por ej., en Snedecor y Cochran. dad. 1980; Zar, 1984). En la regresión lineal simple se interpreta la Ejemplo: Se desea obtener un índice de correla- dependencia lineal de una variable (Y) con ción medio que represente la relación entre las relacion a otra considerada independiente (X). variables ancho máximo de la cabeza : longitud Sin embargo, la interpretación que podemos del cuerpo en individuos de una especie de anfi- hacer del coeficiente de correlación (r) (también bios. Para esto han sido obtenidos varios coefi- llamado coeficiente de correlación simple o coe- cientes de correlación de individuos pertene- ficiente de correlacion producto-momento de cientes a distintas poblaciones. Pearson) es que dicho valor también representa Coef. de correlación obtenidos: la relación lineal entre dos variables, pero asu- Población A 0,89 (n= 25 indiv.) miendo que ninguna es dependiente de la otra. Población B 0,92 (n= 15 indiv.) Por lo tanto, el coeficiente de correlacion es un Población C 0,93 (n= 20 indiv.) valor que representa la intensidad de asociación Población D 0,90 (n= 17 indiv.) entre dos variables y no una medida del cambio Poblacion E 0,93 (n= 22 indiv.) de una variable con respecto a la otra, lo cual implicaría causalidad. Una correlación entre dos Después de las transformaciones (z), los variables (A y B) puede ser producida porque: A valores respectivos obtenidos (considerando so- influye sobre B, B influye sobre A, o ambas lamente dos decimales) fueron: Población A: 1,42; B: 1,58; C: 1,65; D: 1,47 y E: 1,65. La utilizando un test de Student, para lo cual es media aritmética obtenida es: z= 1,55. Final- necesario calcular el error standard de r y los mente, para calcular la media aritmética de los - grados de libertad (g.1. = n 2, donde n = núme- valores de r, debemos hacer: ro de pares de datos comparados). De este m e do, al comparar dos coeficientes & correlación, ambos sigmficativos, estaremos seguro que la asociación observada entre ambas variables, La metodología explicada se utiliza con el para cada uno de los coeficientes, no se debe coeficiente de correlación el cual es un método solamente a efectos del azar o chance (Rohlf y paramétrico. La mejor manera de obtener la me- Sokal, 1969; Zar, 1984). dia aritmética de una serie de índices de corre- lación obtenidos a partir del índice de Spearman 4) Una correlación entre dos variables es váli- (método noparamétrico) es calculando la media- da si aquellas fueron obtenidas de poblacrones na de dicha serie de valores. con idénticas varianzas y normalmente disin- buidas. 3) Los coeficientes de correlación no pueden Cuando se interpreta una correlación gene- ser directamente comparados. ralmente asumimos que las variables poseen Dos coeficientes de correlación no pueden iguales varianzas o la diferencia entre ellas es ser-comparados de la misma manera como lo pequeña. Sin embargo, frecuentemente esta hacemos con datos de peso, longitudes, etc. premisa no se cumple. Esto sucede cuando en (Martin y Bateson, 1993). Por ejemplo, un un eje de coordenadas es visualizado, por coeficiente de correlación de 0,6 no representa ejemplo, un incremento de la variabilidad &l una asociación entre variables dos veces eje Y cuando se incrementa la magnitud &l eje superior que un coeficiente de 0,3. Para com- X. También en otros casos es frecuente obser- parar una serie de coeficientes de correlación, la var, una gran variabilidad entre los datos mejor manera es utilizar el cuadrado de dichos ubicados en la parte central de la distribución de coeficientes, también llamado coeficiente de de- las variables, mostrando una fuerte asociación terminación. El coeficiente de determinación solamente en los extremos de las mismas. Como (r2) es un coeficiente que representa la propor- es fácil imaginar, los coeficientes de correlación ción de la variación de una variable producida obtenidos en estos casos son de poca validez. por la variación de la otra variable. De este Una manera de comprobar si las varianzas & modo, un coeficiente de correlación de 0,6 (r2= dos variables son homogéneas (iguales) o 0,36) signiñca que el 36% de la variación en heterogéneas, es realizando una prueba de F una variable es producida por la variación de la entre ambas varianzas o el test de Bartlett, de otra. Un coeficiente de correlación de 0,3 (r2= acuerdo a los pasos propuestos por Sokal y 0,09) significa que solamente un 9% de la Rohif (1981). Lamentablemente, si bien ambos variación observada en una variable es produ- test son usados frecuentemente, estos resultan cida por la variación de la otra. Por lo tanto, y ser muy sensibles a la falta de normalidad en los volviendo a la comparación entre distintos coefi- datos de las variables. Por lo tanto, el uso de los cientes de correlación, podemos decir que una mismos es recomendado solamente en aquellos corielación de 0,6 es cuatro veces superior a una casos cuando se conoce que las variables se correlación de OJ. distribuyen en forma normal. Un test alternativo Lo anteriormente explicado tendrá una real para comprobar homogeneidad en las varianzas validez siempre que los dos coeficientes compa- es el test de Levene (1960), el cual se rados sean signiñcativos(P < 0,05), es decir que caracteriza por ser muy robusto. El mismo se ambos coeficientes fueran estadísticamente dis- basa en transformar a los &tos originales en tintos de O. Para poder establecer si existe una desviaciones absolutas con respecto a la media, correlación entre dos variables, debemos com- para luego aplicar el test de Student, con el probar las dos hipótesis posibles: Ho: r = O (no motivo de observar diferencias significativas existe correlación); HA: r # O (existe una corre- entre las medias aritméticas de las desviaciones, lación significativa). Esto se puede conocer, de las dos muestras consideradas. Sin embargo, Cuad. Herp., 8 (2) : 225 - 228,1994.
el mismo test resulta a su vez más robusto si elevado [n= 2 301).
utilizamos las desviaciones absolutas con Los test no paramétricos, en general, parten respecto a las medianas de cada variable de la premisa que las observaciones bivariadas (Schultz, 1983). Si las varianzas fueran hetero- son mutuamente independientes, proviniendo géneas, una posibilidad para la solución de este cada una de la misma población continua problema es realizar una transformación (Potvin y Roff, 1993). Esta característica explica logarítmica (decimal o natural) de una o ambas el porqué son tan utilizadas las correlaciones no variables. paramétricas en biología, en contraposición al Otra asunción de la cual se parte para una coeficiente de correlación productemomento, válida interpretación del coeficiente de correla- que describe solamente la parte lineal de la rela- ción, es considerar que ambas variables se ción entre dos variables. Al mismo tiempo, las distribuyen normalmente. En las regresiones técnicas estadísticas basadas en la clasificación uno asume que por cada valor de X (variable u ordenación por rangos (por ejemplo, el independiente) los valores de Y (variable método de Spearman o el de Kendall, entre dependiente) han sido tomados al azar de una otros) poseen además otras ventajas. En estos, población normal. A su vez, en las las varianzas estimadas basadas en rangos, son correlaciones, no solamente es asumido que menos sensibles a aquellos valores ubicados en ocurra esto último sino que, además, los valores los extremos de una distribución. Esta caracte- de X por cada valor de Y también se consideran rística no ocurre cuando las estimamos a partir haber sido tomados al azar de una población de los datos originales (Hettmansperger y normal. Por lo tanto, cuando analizamos un McKean, 1978). coeficiente de correlación asumimos que existe Un método alterni$ivo a aquellos ordenados una "distribución normal bivariada" de los por rangos, es aquel denominado "Transforma- datos. También resulta de interés aclarar que, en ción por Rangos" (Rank Transformaíion [RT]). el caso de que la distribución fuese nonormal, Este método fue propuesto por Conover e Iman los efectos adversos producidos por esto no (1981) como un puente entre los métodos para- serían compensados con un incremento en el métricos y no paramétricos. Básicamente este tamaño de la muestra. Algunas de las "solucio- consiste en reemplazar los datos originales por nes" estadísticas para resolver casos como el sus rangos, para luego aplicar un test paramé- explicado podrían ser: a) antes de realizar las trico (t test, F test, etc.). De este modo, resulta correlaciones observar si los datos en cada una más probable que se satisfaga la asunción de los de las variables se distribuyen de manera métodos paramétricos sobre la homogeneidad de normal. Si estos se distribuyen de esa manera, el las varianzas. coeficiente de correlación tendrá una real Literatura Citada validez. Si así no ocurriese, verificar nueva- mente la normalidad de los datos después de la CONOVER, W. J. & R. L. IMAN. 1981. Rank transformación de los mismos (esto es válido transformation as a bridge between para las dos variables consideradas). Una trans- parametric and nonparametric statistics. American Statistician 35: 124-133. formación logarítmica (decimal o natural), la raíz cuadrada, una transformación angular, etc, HETTMANSPERGER, T. P. & J. W. MCKEAN. 1978. Statistical inference generalmente son las más recomendadas, aun- based on ranks. Psychometrika 43: 69- que el uso de cada una de ellas sea aconsejado n /Y. para distintas situaciones; b) si las condiciones LEVENE, H. 1960. Robust tests for equaliíy of dadas en el punto (a) no ocurriesen, la manera variance: 278-292. En 1. Olkin; S. G. más adecuada para el procesamiento de los Ghurye; W. Hoeffding; W. G. Madow & datos seria la utilización de un método no H.B. Mann (eds). Contributions to paramétrico (por ej., el índice de correlación de Probability and Statistics. Stanford Univ. Spearman, o el Coeficiente de correlación de Press, California. Kendall, aunque el primero es más recomendable por su facilidad en el cálculo MARTIN, P. & P. BATESON. 1993. Meawring Behavior: an introductory guide. 2nd principalmente cuando el numero de datos es edition. Carnbridge University Press. 222 SNEDECOR, G. W. & W. G. COCHRAN. PP. 1980. Statistical Methods. 7th edition. POTVIN, C. & D. A. ROFF. 1993. Distribution- Ames, IA: Iowa State University Press. free and robust statistical methods: viable 507 pp. alternatives to parametric statistics?. SOKAL, R. R. & F. J. ROHLF. 198 1. B~omeíry. Ecology 74 (6): 1617-1628. 2nd edition. San Francisco: W.H. ROHLF, F. J. & R. R. SOKAL. 1969. Statistical Freeman. 859 pp. Tables. W.H. Freeman and Company. ZAR, J. H. 1984. Biostak~ticalAnalysis. 2nd 252 pp. edition. New York: Prentice-Hall. 7 18 SCHULTZ, B. 1983. On Levene's test and other PP. statistics of variation. Evolutionary Theory 6: 197-203.