Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Respuesta: Porque eso es lo que utilizan la comunidad cientfica y los editores de revistas.
Pregunta: Por qu tantas personas todava usan p = 0,05?
El consejo de ASA tambin fue estimulado por discusiones muy visibles durante los ltimos
aos. Por ejemplo, ScienceNews (Siegfried, 2010) escribi: "Es el secreto ms sucio de la
ciencia: el 'mtodo cientfico' de probar hiptesis por anlisis estadstico se basa en una
base dbil". En noviembre, 2013, un artculo en Phys.org Science News Wire cit
"numerosos defectos profundos" en la prueba de significacin de hiptesis nula. Un artculo
de ScienceNews (Siegfried, 2014), el 7 de febrero de 2014, dijo que "las tcnicas estadsticas
para probar hiptesis ... tienen ms defectos que las polticas de privacidad de Facebook."
Una semana ms tarde, el estadstico Jeff Leek respondi. "El problema no es que la gente
use P-valores mal", Leek escribi, "es que la gran mayora del anlisis de datos no es
realizada por personas debidamente capacitadas para realizar anlisis de datos" (Leek,
2014). Esa misma semana, la estadstica y escritora cientfica Regina Nuzzo public un
artculo en Nature titulado "Mtodo cientfico: errores estadsticos" (Nuzzo, 2014). Ese
artculo es ahora uno de los artculos ms vistos de la naturaleza, segn lo reportado por
altmetric.com (http://www.altmetric.com/details/2115792#score).
Por el contrario, la Junta consider que la declaracin de la ASA sobre los valores de p y la
significacin estadstica arrojara luz sobre un aspecto de nuestro campo que con
demasiada frecuencia es mal entendido y mal utilizado en la comunidad de investigacin
ms amplia y, en el proceso, proporciona a la comunidad un servicio. El pblico objetivo
seran investigadores, profesionales y escritores de ciencias que no son principalmente
estadsticos. Por lo tanto, esta declaracin sera muy diferente de lo que se intent
anteriormente. La Junta encarg a Wasserstein la reunin de un grupo de expertos que
representan una amplia variedad de puntos de vista. En nombre de la Junta, lleg a ms de
dos docenas de personas de este tipo, todas las cuales dijeron que estaran felices de
participar. Varios expresaron dudas sobre si se poda llegar a un acuerdo, pero los que s lo
hicieron dijeron, en efecto, que si se iba a discutir, queran participar.
A lo largo de muchos meses, los miembros del grupo discutieron qu formato deba adoptar
la declaracin, trataron de visualizar ms concretamente a la audiencia para la declaracin
y comenzaron a encontrar puntos de acuerdo. Eso result relativamente fcil de hacer, pero
fue tan fcil encontrar puntos de intenso desacuerdo.
Lleg el momento de que el grupo se reuniera para resolver estos puntos, y as en octubre
de 2015 veinte miembros del grupo se reunieron en la oficina de ASA en Alejandra, Virginia.
La reunin de dos das fue facilitada por Regina Nuzzo, y al final de la reunin se desarroll
un buen conjunto de puntos alrededor de los cuales se podra construir la declaracin.
Los tres meses siguientes vieron varias versiones de la declaracin, revisado por los
miembros del grupo, por los miembros de la Junta (en un largo debate en la reunin de la
Junta de ASA de noviembre de 2015) y por los miembros del pblico objetivo. Finalmente,
el 29 de enero de 2016, el Comit Ejecutivo de la ASA aprob la declaracin.
El proceso de elaboracin de la declaracin fue ms largo y ms controvertido de lo
previsto. Por ejemplo, hubo discusin considerable sobre la mejor manera de abordar la
cuestin de mltiples comparaciones potenciales (Gelman y Loken, 2014). Debatimos de
una cierta longitud los problemas detrs de las palabras "un p-valor cerca de 0,05 tomado
por s mismo ofrece slo pruebas dbiles contra la hiptesis nula" (Johnson, 2013). Haba
perspectivas diferentes sobre cmo caracterizar varias alternativas al valor p y en cunto
detalle tratarlas. Para mantener la declaracin razonablemente simple, no abordamos
hiptesis alternativas, tipos de error, o poder (entre otras cosas), y no todos estuvieron de
acuerdo con ese enfoque.
Para ello, se estableci contacto con un grupo de ponentes para proporcionar comentarios
sobre la declaracin. Usted puede leer sus declaraciones en el suplemento online.
Agradecemos a Naomi Altman, a Douglas Altman, a Daniel J. Benjamin, a Yoav Benjamini, a
Jim Berger, a Don Berry, a John Carlin, a George Cobb, a Andrew Gelman, a Steve Goodman,
a Sander Greenland, a John Ioannidis, a Joseph Horowitz, a Valen Johnson, a Michael Lavine,
a Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman,
Stephen Senn, Dalene Stangl, Philip Stark y Steve Ziliak por compartir sus perspicaces
perspectivas.
Aunque hubo desacuerdo sobre exactamente lo que la declaracin debe decir, hubo un alto
acuerdo de que la ASA debe estar hablando sobre estos asuntos.
Seamos claros. Nada en la declaracin de ASA es nuevo. Los estadsticos y otros han estado
sonando la alarma sobre estas materias por dcadas, a poco disponible. Esperbamos que
una declaracin de la mayor asociacin profesional de estadsticos del mundo abriera una
nueva discusin y llamara la atencin renovada y vigorosa a cambiar la prctica de la ciencia
con respecto al uso de la inferencia estadstica.
Aunque hubo desacuerdo sobre exactamente lo que la declaracin debe decir, hubo un alto
acuerdo de que la ASA debe estar hablando sobre estos asuntos.
Seamos claros. Nada en la declaracin de ASA es nuevo. Los estadsticos y otros han estado
sonando la alarma sobre estas materias por dcadas, a poco disponible. Esperbamos que
una declaracin de la mayor asociacin profesional de estadsticos del mundo abriera una
nueva discusin y llamara la atencin renovada y vigorosa a cambiar la prctica de la ciencia
con respecto al uso de la inferencia estadstica.
DeclaracindelaASAsobrelasignificacinestadsticaylosp
valores
5defebrerode2016
EditadoporRonaldL.Wasserstein,directorejecutivo
ennombredelaJuntaDirectivadelaAmericanStatisticalAssociation1
Introduccin
Elfundamentodemuchasconclusionescientficaspublicadaseselconceptodesignificacin
estadstica, normalmente evaluada mediante un ndice denominado pvalor. Ahora bien, a
pesardequeelpvalorpuedeserunamedidaestadsticatil,amenudoseempleadeforma
incorrecta y tambin se malinterpreta. Esto ha llevado a que algunas revistas cientficas
disuadan de su uso y a que algunos cientficos y estadsticos recomienden su abandono,
basndose en argumentos que esencialmente son los mismos desde que el pvalor se
introdujoporprimeravez.
En este contexto, la American Statistical Association (ASA) cree que la comunidad cientfica
podra beneficiarse de una declaracin formal que aclare algunos principios que son
ampliamente aceptados y estn implcitos en la correcta utilizacin e interpretacin del p
valor. Los aspectos considerados aqu no slo afectan a la investigacin, sino tambin a su
financiacin,alasprcticasdelasrevistas,alprogresoprofesional,alaeducacincientfica,a
laspolticaspblicas,alperiodismoyalderecho.Estadeclaracinnopretenderesolvertodas
las cuestiones relacionadas con las buenas prcticas estadsticas, ni tampoco resolver las
controversiasfundamentales.Msbienpresentaentrminosnotcnicosunabreveseleccin
deprincipiosquepodranmejorarlaprcticaylainterpretacindelacienciacuantitativa,de
acuerdoconunconsensoamplioalcanzadoenlacomunidadestadstica.
Queselpvalor?
1RonaldL.Wasserstein&NicoleA.Lazar(2016):TheASAsstatementonpvalues:context,process,andpurpose.
ReimpresoconelpermisodeTheAmericanStatistician.Copyright2016porTheAmericanStatisticalAssociation.
Todoslosderechosreservados.
ejemplo,ladiferenciadelasmediasalcomparardosgrupos)seaigualomsextremoquesu
valorobservado.
Principios
1. Lospvalorespuedenindicarhastaqupuntosonincompatibleslosdatosconunmodelo
estadsticoespecificado
2. Lospvaloresnomidenlaprobabilidaddequelahiptesisestudiadaseaverdadera,ola
probabilidaddequelosdatoshayansidoproducidassloporelazar
3. Lasconclusionescientficasylasdecisionesempresarialesopolticasnosedeberanbasar
nicamenteenelhechodequeelpvalorsobrepaseunumbralespecfico
Lasprcticasquereducenelanlisisdelosdatosolainferenciacientficaalaaplicacin
mecnica de reglas rgidas para justificar afirmaciones cientficas (cmo, por ejemplo,
p<0,05) pueden originar conclusiones errneas, o una mala toma de decisiones. Una
conclusin no se transforma de repente de cierta por un lado a falsa por otro. Los
investigadores deben considerar que para establecer una inferencia estadstica hay
muchos factores en juego que la contextualizan incluidos el diseo del estudio, la
calidaddelasmedidas,laevidenciaexternasobreelfenmenoenestudioylavalidacin
delossupuestossubyacentesbajoelanlisisdelosdatos.Porconsideracionesdeorden
prcticoamenudoesnecesariotomardecisionesbinarias(deltiposino),peroestono
significa que los pvalores aisladamente considerados puedan garantizar la correccin o
incorreccindeunadecisin.Elusogeneralizadodelconceptosignificacinestadstica
(generalmente interpretado como p0,05) para legitimar la reclamacin de un
descubrimiento cientfico (o de la verdad que est implcita) produce a una distorsin
considerabledelprocesocientfico.
4. Realizarunainferenciaapropiadarequiereuninformecompletoytransparencia
5. Unpvalor,olasignificacinestadstica,nomideeltamaodeunefectoolaimportancia
deunresultado
6. Porsmismo,unpvalornoproporcionaunabuenamedidadelaevidenciaenrelacincon
unmodeloounahiptesis
Otrasaproximaciones
Envistadelosfrecuentesmalosusosydelosmalentendidosrelativosalospvalores,algunos
estadsticosprefierencomplementar,oinclusosustituir,elpvalorporotrosprocedimientos.
Hay mtodosque enfatizanlaestimacinpor encimadelmeroponeraprueba ycontrastar,
tales como los intervalos de confianza, de credibilidad o de prediccin. Tambin se puede
recurriramtodosbayesianos,oamedidasalternativasdelaevidencia,comoporejemplola
pruebadelarazndeverosimilitudolosfactoresdeBayes.Yhaymsposibilidades,comoson
losmodelosdelateoradetomadedecisiones,olatasadefalsosdescubrimientos.Aunque
todasestasmedidasyenfoquessebasanensupuestosadicionales,podranabordardeforma
ms directa el tamao de un efecto (y su incertidumbre asociada), o la comprobacin de la
validezdeunahiptesis.
Conclusin
Las buenas prcticas estadsticas, como componente esencial del buen quehacer cientfico,
enfatizan los principios de dirigir y llevar a cabo un buen diseo de los estudios y una
realizacin adecuada, de aportar una variedad de resmenes numricos y grficos de los
datos,deentenderelfenmenoqueseestestudiando,deinterpretarlosresultadosdentro
de su contexto, de proporcionar una informacin ntegra, y de comprender de forma
adecuada,tantolgicacomocuantitativa,aquelloquesignifiquenlosresmenesdedatos.Un
ndiceniconodeberasustituirelrazonamientocientfico.
La siguiente lista no es exhaustiva, pero proporciona un buen punto de partida para las
personas que deseen explorar con mayor detenimiento las cuestiones contenidas en la
DeclaracindelaASAsobrelasignificacinestadsticaylospvalores.Losartculosaparecen
enordenalfabtico:
Altman D.G., Bland J.M. (1995), Absence of evidence is not evidence of absence, British
MedicalJournal,311:485
Altman,D.G.,Machin,D.,Bryant,T.N.,andGardner,M.J.,eds.(2000),Statisticswith
Confidence,2nded.,London:BMJBooks
Berger, J.O., and Delampady, M. (1987), "Testing precise hypotheses, Statistical Science,
2,317335
Berry,D.(2012),MultiplicitiesinCancerResearch:UbiquitousandNecessaryEvils,Journalof
theNationalCancerInstitute,104,11241132
Christensen,R.(2005),TestingFisher,Neyman,Pearson,andBayes,TheAmerican
Statistician,59,2,121126
Cox, D.R. (1982), Statistical Significance Tests, British Journal of Clinical Pharmacology, 14,
325331
Edwards,W.,Lindman,H.,andSavage,L.J.(1963),"Bayesianstatisticalinferencefor
psychologicalresearch,PsychologicalReview,70,193242
Gelman,A.,andLoken,E.(2014),TheStatisticalCrisisinScience[online]AmericanScientist,
102.Availableathttp://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis
inscience
Gelman A, Stern HS. (2006), The difference between significant and not significant is not
itselfstatisticallysignificant,TheAmericanStatistician,60:328331
GigerenzerG(2004),Mindlessstatistics,JournalofSocioeconomics,33:567606
Greenland,S.(2011),Nullmisinterpretationinstatisticaltestinganditsimpactonhealthrisk
assessment,PreventiveMedicine,53,225228
___________(2012).Nonsignificanceplushighpowerdoesnotimplysupportforthenullover
thealternative.AnnalsofEpidemiology,22:364368
Greenland,S.,andPooleC(2011),Problemsincommoninterpretationsofstatisticsin
scientificarticles,expertreports,andtestimony,Jurimetrics,51,113129
Hoenig J.M., and Heisey D.M. (2001). The abuse of power: The pervasive fallacy of power
calculationsfordataanalysis.TheAmericanStatistician,55:1924
Ioannidis,J.P.(2005),Contradictedandinitiallystrongereffectsinhighlycitedclinical
research.JournaloftheAmericanMedicalAssociation,294,218228
___________(2008),Whymostdiscoveredtrueassociationsareinflated (withdiscussion),
Epidemiology19:640658
Johnson,V.E.(2013),Revisedstandardsforstatisticalevidence,ProceedingsoftheNational
AcademyofSciences,110(48),1931319317
__________(2013),"UniformlymostpowerfulBayesiantests,AnnalsofStatistics,41,1716
1741
Lang, J., Rothman K.J., and Cann, C.I. (1998), That confounded Pvalue. (Editorial),
Epidemiology,9,78
Lavine, M. (1999), What is Bayesian Statistics and Why Everything Else is Wrong, UMAP
Journal,20:2
Lew,M.J.(2012),Badstatisticalpracticeinpharmacology(andotherbasicbiomedical
disciplines):youprobablydon'tknowP,BritishJournalofPharmacology,166:5,15591567
Phillips,C.V.(2004),Publicationbiasinsitu,BMCMedicalResearchMethodology,4:20
PooleC.(1987),Beyondtheconfidenceinterval,AmericanJournalofPublicHealth,77,195
199
Poole, C. (2001). Low Pvalues or narrow confidence intervals: Which are more durable?
Epidemiology,12,291294
Rothman, K.J. (1978), A show of confidence (Editorial), New England Journal of Medicine,
299,13621363
___________(1986),Significancequesting(Editorial),AnnalsofInternalMedicine,105,445
447
___________(2010),CurbingtypeIandtypeIIerrors,EuropeanJournalofEpidemiology,25,
223224
Rothman,K.J.,Weiss,N.S.,Robins,J.,Neutra,R.,andStellman,S.(1992),AmicusCuriaebrief
for the U. S. Supreme Court, Daubert v. Merrell Dow Pharmaceuticals, Petition for Writ of
Certiorari to the United States Court of Appeals for the Ninth Circuit, No. 92102, October
Term,1992
Rozeboom, W.M. (1960), The fallacy of the nullhypothesis significance test, Psychological
Bulletin,57:416428
Schervish, M.J. (1996), P Values: What They Are and What They Are Not, The American
Statistician,50:3,203206
Simmons,J.P.,Nelson,L.D.,andSimonsohn,U.(2011),FalsePositivePsychology:Undisclosed
Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant,
PsychologicalScience,22(11),13591366
Stang, A., and Rothman, K.J. (2011), That confounded Pvalue revisited, Journal of Clinical
Epidemiology,64(9),10471048
Stang,A.,Poole,C.,andKuss,O.(2010),Theongoingtyrannyofstatisticalsignificancetesting
inbiomedicalresearch,EuropeanJournalofEpidemiology,25(4),22530
Sterne,J.A.C.(2002)."Teachinghypothesisteststimeforsignificantchange?"Statisticsin
Medicine,21,985994
Sterne,J.A.C.andG.D.Smith(2001)."Siftingtheevidencewhat'swrongwithsignificance
tests?"BritishMedicalJournal,322,226231
Ziliak, S.T. (2010), "The Validus Medicus and a New Gold Standard, The Lancet, 376, 9738,
324325
Ziliak,S.T.,andMcCloskey,D.N.(2008),TheCultofStatisticalSignificance:HowtheStandard
ErrorCostsUsJobs,Justice,andLives,AnnArbor:UniversityofMichiganPress