Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Excomulgando al p 0.05
Excomulgando al p 0.05
Resumen
En este trabajo se proporciona informacin relevante sobre los errores y consecuencias que
ocasiona el realizar inferencias tomando como nico respaldo cientfico la significacin
estadstica debido a que esta se ve influenciada, al mismo tiempo que los resultados, por dos
factores importantes: el tamao muestral y la magnitud del efecto. Debido a este motivo es que
todo investigador al momento de realizar un anlisis de resultados en base a pruebas
estadsticas debe de reportar necesariamente, la estimacin de la magnitud del efecto porque a
travs de este ndice obtenemos un indicador de la diferencia o efecto de un tratamiento, as lo
recomienda el manual de la American Psychological Association incluso recomienda sustitutos
del valor p. Se presentan ejemplos de uso y aplicacin de ambas tcnicas.
Abstrac
This work provides relevant information about the errors and the consequences resulting
inferences taken as the only scientific support statistical significance because this is influenced,
while the results for two important factors: the sample size and effect size. Because of this
reason is that the researcher when performing an analysis of results based on statistical tests
necessarily must report the estimate of effect size because through this index we obtain an
indicator of the difference or effect of a treatment, as recommended by the manual of the
American Psychological Association even recommends replacement of the value p. Examples
are given of use and application of both techniques.
Uno de los principales aportes de la estadstica a las ciencias sociales y ciencias de la salud es
la prueba de hiptesis basada en el clculo del estadstico p o mejor conocidas como prueba
de significancia estadstica (PSE) las cuales nacen debido a un intento de fusionar dos
perspectivas originalmente contrapuestas, lo que dara como resultado a la prueba estadstica
de hiptesis que actualmente se conoce (Gigerenzer, 1993). Esta fusin nace de los mtodos
desarrollados por Fisher en1922, que permita valorar el grado de incompatibilidad de los datos
con una hiptesis y el otro formulado por Neyman y Pearson, en 1928, que se basaba en la
eleccin entre dos hiptesis. La fusin toma de Fisher su valor p para usarlo como un ndice
que mide la fuerza de la evidencia y toma de Neyman y Pearson el propsito de adoptar una
decisin consistente en rechazar la hiptesis nula si el valor de p es pequeo (normalmente,
cuando p<0.05) y en no rechazar la hiptesis nula, si el valor de p es ms grande.
Las opiniones respecto a las PSE son muy variadas y polmicas. Algunos (por ejemplo, Carver,
1978, 1993, Schmidt, 1996) han argumentado que las PSE es un medio usado en exceso, se
abusa de ella en la evaluacin de resultados de las investigaciones y debe ser prohibido. Otros
(por ejemplo, Cohen, 1990, 1994, Kirk, 1996;Thompson, 1999) han argumentado que estas
pruebas deben ser utilizados e interpretados correctamente, y que otros estadsticos,
especialmente los tamaos del efecto, deben recibir mayor atencin. Otros autores (por
ejemplo, Cortina y Dunlap, 1997; Frick, 1996) en oposicin han argumentado que hay poco o
nada de malo en las prcticas contemporneas de anlisis con PSE, aunque la mayora de
estos argumentos se han visto que son infundamentados y defectuosos (Hagen, 1997;
Thompson, 1998).
Para efectos de la presente investigacin se brindara informacin relevante sobre los problemas
metodolgicos inherentes a las PSE y cuales son las desventajas que ocasiona al momento de
utilizarlas en una investigacin. Tambin se presenta informacin con respecto a algunos
estadsticos que pueden ser complementarios o incluso reemplazar a las PSE.
La PSE durante mucho tiempo fue la nica evidencia de rigurosidad cientfica que los
investigadores utilizaban para reportar sus hallazgos. Esto ocurra debido a que exista la
creencia de que la ciencia solo avanzaba a travs de la inferencia inductiva y que la inferencia
inductiva se logra a travs de rechazar la hiptesis nula (cohen, 1990). Adems se llegaron a
convertir en la base de la inferencia estadstica en las ciencias del comportamiento debido a
que ofrecan un esquema mecnico, determinista y objetivo, independiente del contenido y
dirigido a claras decisiones si-no (Cohen, 1990).
A pesar de contar con un slido respaldo por los investigadores, en las ultimas dos dcadas
aument la frecuencia de publicaciones con crticas, en las diversas disciplinas que se utilizaba
la PSE, que ponan en cuestionamiento la utilizacin de la PSE (Anderson, Burnham, y
Thompson, 2000), siendo una de las principales la referida a la mala interpretacin por parte del
investigador de los valores p porque se tiende a atribuir que una prueba que tenga un resultado
estadsticamente significativo lleva una relacin de causa-efecto (Rebasa, 2003). Esta
atribucin es un grave error, sobre todo en ciencias de la salud, porque el valor p solo nos
indica que el efecto no es nulo.
Hay una gran confusin con respecto a los valores p y la Ho. En psicologa las PSE buscan
rechazar la Ho a travs de resultados p significativos o en algunos casos muy significativos.
Esto es un error recurrente. Antes de iniciar cualquier contraste de hiptesis los investigadores
deben de saber que el valor p solo nos indica la probabilidad de los datos, en el supuesto que la
hiptesis nula sea verdadera (Berger & Sellke, 1987), dicho de otra manera: los datos
obtenidos son diferentes a lo que se esperaba por intervencin del azar o son diferentes porque
algo las hace diferentes? En realidad la significacin estadstica, es decir, la comprobacin de la
hiptesis nula, slo tiene sentido cuando es razonable suponer que la hiptesis nula es
verdadera, pero no ante cualquier situacin. Para esto se debe de tener un buen respaldo
terico (Llobell, Fras y Fernando, 2004). Adems hay que tener en cuenta que rechazar una
determinada Ho no aporta ninguna base para estimar la probabilidad de que en una replica de
la investigacin de nuevo d rechazo a la Ho (Cohen, 1990).
Otra critica es que la PSE se basan en un esquema dicotmico y mecanicista (cualidad que en
su momento fue un punto a su favor), por lo que no le proporcionan al investigador los recursos
inferenciales necesarios para entender a fondo la realidad que examina (Nickerson, 2000).
Cohen (1994) tambin afirm que el ritual dicotmicos rechazar-aceptar la decisin sobre la
base de la PSE, aunque sea objetiva, no es la manera de hacer ciencia.
La significacin estadstica depende tanto de la magnitud del efecto investigado como del
nmero de sujetos incluidos en el estudio. Es lgico que los estudios realizados con muestras
demasiado pequeas tiendan a dar resultados estadsticamente no significativos a pesar de que
el efecto investigado tenga tamao suficiente para ser considerado clnicamente interesante
(Rebasa 2003). De la misma manera, estudios con muestras demasiado grandes tienden a dar
resultados estadsticamente muy significativos, aunque el tamao del efecto investigado sea
irrelevante y carezca de inters clnico. Del mismo modo cuando se plantean hiptesis triviales
desde el punto de vista terico donde la hiptesis nula es razonablemente falsa de tal modo que
rechazarla es cuestin de potencia estadstica, realizar el contraste estadstico tambin resulta
absurdo (Fras, Pascual y Garca, 2000).
El debate sobre la calidad y la pertinencia del enfoque de la PSE para la inferencia estadstica
ha motivado a investigar mtodos alternativos que pueden aadir significado prctico a los
datos (Vacha-Haase y Thompson, 2004). Esto es importante porque la investigacin en
psicologa cuenta con ciertas peculiaridades que hacen que no se ajusten a los sistemas
mecanicistas de las PSE, y es por eso que en la actualidad se plantea la necesidad de ir ms
all de las PSE. Esta bsqueda de la utilizacin de otros recursos para la investigacin cientfica
est directamente motivada por la significacin prctica (calculo de la magnitud del efecto) que
el rea de la psicologa aplicada demanda con insistencia (Aiken, West, Sechrest y Reno, 1990;
Kirk, 1996).
Un estadstico que puede ayudar al investigador a no caer en los errores mencionados
anteriormente y que adems es el producto primario de toda investigacin, en lugar de los
valores p (cohen 1990), es la magnitud del efecto (ME). Esta se define como la magnitud de un
efecto o una diferencia entre dos grupos, y es importante porque al investigador le interesa
saber en qu medida se espera este fenmeno en la poblacin (Cohen, 1992). Los valores de
la ME se pueden utilizar para informar y realizar una juicio con respecto a la importancia
prctica de los resultados del estudio (Kirk, 1996) siendo este el motivo que esta tcnica posee
inters prctico en Psicologa, no slo como complemento necesario a la pruebas de hiptesis,
sino tambin porque ofrecen una mtrica comn sobre la cual integrar los resultados de la
investigacin en estudios de meta-anlisis (Anderson, 1999).
Existen varios estimadores de la magnitud del efecto, siendo la d de cohen (Cohen, 1988,
vase Cohen 1994), el mas utilizado en las publicaciones especializadas para el calculo de la
ME y en los estudios meta-analticos (Hunter & Schmidt, 2004, vase Ledesma, Macbeth &
Cortada de Kohan, 2008).
Desviacin Estndar
La interpretacin de la ME se comprende mejor con un ejemplo. Cohen (1969, p23; vase Coe
& Merino, 2003) describe un ME de 0.2 como pequeo y lo ilustra con un ejemplo: la diferencia
entre los pesos de adolescentes de 15 y 16 aos de edad en USA corresponde a un efecto de
este tamao. Un ME de 0.5 lo describe como medio y es tan grande como para ser visto a
simple vista. Un efecto de 0.5 corresponde a la diferencia entre los pesos de dos
adolescentes de 14 y 18 aos de edad. Cohen describe un ME de 0.8 como bastante
perceptible y por lo tanto, grande y lo iguala a la diferencia entre los pesos de dos nias de 13
y 18 aos. Como ejemplo adicional, Cohen seala que la diferencia entre el CI de un postulante
a un Ph.D. y un alumno promedio de universidad en comparable a un ME de 0.8.
Para realizar la interpretacin de la ME hay que tener muy en claro que este no es un proceso
mecnico (Cohen, 1990). Esta depende de la relacin de esta con otros criterios relevantes del
razonamiento estadstico (Gigerenzer, 1993; Thompson, 1998), siendo uno de los aspectos ms
relevantes para la interpretacin la relacin con el poder estadstico (Cohen, 1994), entendido
como la probabilidad que posee una prueba de obtener resultados significativos. El poder o
potencia se define como 1 , siendo la probabilidad de aceptar errneamente la hiptesis
nula (Cohen, 1992). A su vez, el poder estadstico es una funcin matemtica que depende del
tamao de la muestra, del nivel de significacin estadstica (valor p) y de la ME. De esta
manera, el ME ha sido entendido como un complemento necesario para el anlisis de los datos
empricos en la prueba de hiptesis tradicional (Cortina & Dunlap, 1997). Cuando la potencia
aumenta, la ME se aleja de cero, lo que implica el rechazo de la hiptesis nula, esto debido a
que existe una relacin directamente proporcional entre ME y poder lo que trae como
consecuencia que se disminuya la probabilidad de cometer un error de tipo II.
Al tratarse de una estimacin del tamao del efecto en la poblacin, puede calcularse un
intervalo de confianza en tomo suyo.
Intervalos de confianza
El clculo de los intervalos de confianza (IC) es un til completo o incluso un buen sustituto, a
las PSE (Bakan, 1966; Cohen, 1990; Loftus, 1991, 1993, 1995, 1996; Loftus y Masson, 1994;
vase Valera y Snchez, 1997). El principal argumento a favor de que las pruebas de
significacin deban sustituirse por intervalos confidenciales sostiene que, mientras las PSE slo
responden a la cuestin de si unos estadsticos que representan parmetros difieren altamente,
los intervalos confidenciales, adems de esta informacin, estiman los parmetros, ofrece
informacin indicando la direccin y la magnitud de la diferencia.
Las PSE, forman parte fundamental del material que se imparte en los cursos de estadstica
inferencial dictado en las universidades en nuestro contexto y adems en la mayora de
investigaciones que se realizan en nuestro medio, observamos que estn giran alrededor de
ellas. Una vez que aprendemos a manejarlas a travs de una computadora haciendo solo un
click, el estudiante o investigador no duda en aplicarlas libremente sin ningn control, no
teniendo en cuenta toda la lgica que hay detrs de un simple click y de un simple cuadro con
resultados, olvidando que el anlisis estadstico es solo un elemento ms que ha de sumarse a
todas las evidencias cientficas y resultados de investigaciones anteriores para poder realizar
inferencias y conclusiones. Es por este motivo que se comenten muchos errores siendo el mas
grave el de convertir en una conclusin algo que no pasa de ser un resultado estadstico sin
valor alguno en la investigacin psicolgico porque esta no se puede limitar al reduccionismo
estadstico.
Aiken, L. S., West, S. G., Sechrest, L. y Reno, R. R (1990). Graduate training in statistics,
methodology and measurement in psychology. American Psychologist, 45, 721-
734.Anderson, G. (1999). The Role of Meta-Analysis in the Significance Test
Controversy. European Psychologist, 4, 2, 75-82.
Berger J, Sellke T. Testing a point null hypothesis: the irreconcilability of P-values and evidence.
J Am Stat Assoc, 82, 112.
Carver,R. (1978). The case against statistical significance testing.Harvard. Educational Review,
48, 378-399.
Carver, R. (1993). The case against statistical significance testing, revisited. Journal of
Experimental Education, 61, 287-292.
Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.
Cohen J. (1994). The earth is round (p<.05). American Psychologist; 49, 12, 997-1003.
Cortina, J. & Dunlap, W. (1997). On the Logic and Purpose of Significance Testing.
Psychological Methods, 2(2), 161-172.
Coe, R. & Merino, C. (2003) Magnitud del efecto: Una gua para investigadores y usuarios.
Revista de Psicologa PUCP, 21(1), 147-177.
Frick, R. W. (1996). The appropriate use of null hypothesis testing. Psychological Methods, 1,
379-390.
Fras, M., Pascual, J. y Garca, J. (2000). Tamao del efecto del tratamiento y significacin
estadstica. Psicothema,12,2,236-240.
Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. En G. Kereng y
C. Lewis (eds.), A handbook of data analysis in behavioral sciences: methodological
issues (pp. 311-339). Hillsdale, NJ: Lawrence Erlbaum Associates.
Hedges, L. (1981). Distribution theory for Glasss estimator of effect size and related estimators.
Journal of Educational Statistics, 6, 107128.
Kirk, R. (1996). Practical significance: a concept whose time has come. Educational and
Psychological Measurement; 56, 746-759.
Ledesma, R. , Macbeth, G. & Cortada de Kohan, N. (2008). Tamao del efecto: revisin terica
y aplicaciones con el sistema estadstico vista, Revista Latinoamericana de Psicologa,
40, 3, 425-439.
Neyman, J. & Pearson, E. (1928). On the use and interpretation of certain test criteria for
purposes of statistical inference (Part I). Biometrika, 20A:175-240.
Nickerson R. (2000). Null hypothesis significance testing: a review of an old and continuing
controversy. Psychol Meth, 5, 2, 241301.
Nasser-Abu, F. & Levy, A. (2009). Effect Size Reporting Practices in Published Articles.
Educational and Psychological Measurement, 69, 2, 245-265.
Thompson,B. (1999). Statistical significance tests, effect size reporting, and the vain pursuit of
pseudo-objectivity. Theory & Psychology, 9(2), 191-196.
Vacha-Haase, T. & Thompson, B. (2004). How to estimate and interpret various effect sizes.
Journal of Counseling Psychology, 51, 473-481.