Sei sulla pagina 1di 16

ESTADSTICA ESPAOLA

Vol. 44, Nm. 149, 2002, pgs. 113 a 128

El paradigma de la verosimilitud
por
JESS BESCOS SINDE
Universidad de Castilla-La Mancha

RESUMEN
El uso de las probabilidades de error de los procedimientos estadsticos de contrastacin como medida de la evidencia en favor o en
contra de las hiptesis sometidas a prueba en un contraste es, cuando menos, equvoco.
El enfoque de Neyman-Pearson a la contrastacin de hiptesis
responde a la necesidad de seguir un curso de accin tras la realizacin de un contraste (aceptar o no la hiptesis considerada), con lo
que excluye la posibilidad de que el soporte de los datos para evaluar
la idoneidad de hiptesis alternativas sea insuficiente.
Este artculo trata de destacar que la medida de evidencia adecuada para evaluar el soporte relativo de hiptesis rivales es la funcin de verosimilitud (o la razn de verosimilitud), entendida en los
trminos originalmente acuados por Fisher, quien defini el cociente
de verosimilitud como la preferencia relativa de los datos por las hiptesis consideradas en cada situacin concreta.
Adems de cuestiones de tipo lgico, se presentan los resultados
de una simulacin sencilla que muestran como, bajo ciertos requisitos
expresados en trminos de preferencia relativa medida a travs de la
razn de verosimilitud, el mecanismo de contrastacin de Neyman-

113

114

ESTADSTICA ESPAOLA

Pearson falla al apoyar hiptesis que resultan estar escasamente


sustentadas por las observaciones.
Palabras clave: verosimilitud, test de hiptesis.
Clasificacin AMS: 62F03

1. INTRODUCCIN
En el corazn de la teora de Neyman-Pearson para la determinacin de un
contraste ptimo, se encuentra el concepto de evidencia estadstica que se defiende en este artculo: la recogida en la funcin de verosimilitud de la muestra. Sin
embargo, en las interpretaciones habituales de los contrastes de hiptesis, el
concepto de evidencia barajado se relaciona con las denominadas probabilidades
de los errores de tipo I y tipo II, o a travs de los denominados p-valores cuya
utilizacin ha sido cuestionada repetidamente en la literatura estadstica (Lindsey
(1999) y Nelder (1999)).
En el presente artculo se sealan las principales inconsistencias lgicas de las
interpretaciones usuales del enfoque NP, y se pergean las lneas principales del
paradigma de la estadstica paramtrica que es consecuencia lgica de aceptar el
principio de verosimilitud. Tal aceptacin se produce de manera implcita cuando
los experimentos se disean en atencin al concepto de desvianza, o cuando se
contrastan hiptesis recurriendo a la razn de verosimilitud o sus equivalentes
asintticos: multiplicadores de Lagrange o test de Wald. Por ello parece adecuado
revisar los fundamentos de este paradigma, denominado de la verosimilitud, tratando de mejorar la comprensin de los mtodos prcticos derivados del mismo.
El articulo est estructurado en 5 apartados.
En el primero se presenta la notacin a emplear y se repasan las lneas bsicas
del enfoque de Neyman-Pearson de la contrastacin de hiptesis.
En el segundo apartado y a travs de un ejemplo sencillo se explica el papel de
la funcin de verosimilitud en la contrastacin de hiptesis, y se refiere el denominado Principio de Verosmilitud para, a continuacin discutir tericamente cmo tal
principio puede resultar incompatible con la interpretacin habitual de la contrastacin en el paradigma Neman-Pearson.
El tercer apartado se destina a proporcionar criterios para la interpretacin, a
efectos prcticos, del diferente sustento evidencial para las hiptesis en consideracin en un contraste, cuando tal sustento se expresa como cociente de verosimilitudes, y no como probabilidades de error del test.

114

EL PARADIGMA DE LA VEROSIMILITUD

115

El cuarto apartado presenta los resultados de una simulacin que ilustra las
consideraciones tericas de los apartados anteriores.
Por ltimo, el quinto apartado se destina a las principales conclusiones y a exponer las lneas que garantizan la utilidad del principio de verosimilitud a la hora de
contrastar hiptesis.

2. ENFOQUE DE NEYMAN-PEARSON PARA LA CONTRASTACIN DE HIPTESIS


A efectos de establecer el marco conceptual de referencia, supondremos que
enfrentamos un fenmeno que contiene una variabilidad, descrita por una familia de
posibles distribuciones de probabilidad {P: } , donde se denomina parmetro, y el conjunto al que pertenece el parmetro espacio paramtrico. Tal espacio
puede variar en diferentes situaciones concebibles, desde una familia de funciones
hasta un conjunto de nmeros reales, o vectores. Aqu consideraremos que el
espacio paramtrico es un subconjunto de 5r. Podemos expresar la distribucin de
probabilidad a travs de su funcin de densidad o cuanta que denotamos por p.
La probabilidad de que se produzca la observacin x se denota por p(x) o ms
brevemente p(x).
Las conjeturas (hiptesis) acerca del comportamiento del fenmeno bajo estudio, se expresan en trminos estadsticos afirmando que la variabilidad en el fenmeno se describe por un subconjunto de la familia de distribuciones de probabilidad
postulado o, alternativamente, que pertenece a un determinado subconjunto de .
Supongamos que se formulan dos hiptesis rivales simples (aquellas que especifican completamente la distribucin de probabilidades de la variable observada, x,
que toma valores en el espacio muestra, ), denotadas por H1 y H2, y tratamos de
determinar cul de las dos est mejor soportada por los datos observados, x.
La forma de proceder para determinar la regin crtica, C, ptima del test en el
paradigma de Neyman-Pearson (en adelante NP), consiste en preguntarse por la
existencia una regin C , tal que el suceso { p1(x) / p(2(x) < k} bajo H1 tenga una
probabilidad igual a un nivel predeterminado, , denominada probabilidad de error
de tipo I. En estas condiciones, el lema de NP garantiza que tal regin ser la que
presente menor probabilidad de cometer error de tipo II (consistente en elegir H1
bajo H2), denotada por , entre todas aquellas regiones cuya probabilidad de cometer error de tipo I sea menor o igual que el nivel , preestablecido.
Bajo esta perspectiva, un procedimiento de contrastacin ptimo es un mecanismo de decisin ptimo: diseado para presentar buenas propiedades a largo
plazo en el sentido de que minimice la frecuencia con que conducir a conclusiones

115

116

ESTADSTICA ESPAOLA

errneas. Pero tal y como seala Birnbaum (1962), adems del problema de tomar
una decisin acertada, est el problema inferencial de cmo debe ser la interpretacin de las observaciones en trminos de evidencia a favor de las hiptesis en
juego.
A pesar de que el enfoque original de Neyman-Pearson se centra exclusivamente en el problema decisorio, los desarrollos ulteriores y dominantes en la literatura estadstica han abordado el problema inferencial otorgando a las probabilidades de error del contraste un significado en trminos de evidencia relativa. As es
usual en la prctica estadstica entender que si se han predeterminado probabilidades de error (, ) suficientemente pequeas digamos (0.05, 0.05)-, y las observaciones ulteriores conducen al rechazo de H1 a favor de H2 , tal rechazo se realiza
sobre una supuesta evidencia fuerte o moderadamente fuerte en tal sentido,
mientras que si dichas probabilidades de error toman los valores (0.1;0.2), la evidencia con la que se rechazara H1 se considera moderada, sino dbil.
Otra interpretacin usual en la literatura consiste en atender a los valores de y
observados (o slo al observado denominado p-valor del contraste), interpretndolos en idntico sentido al sealado anteriormente: valores bajos para ambos
(,) significaran fuerte sustento evidencial del resultado del contraste.
Pues bien, uno de los propsitos de este artculo es poner de relieve que tal interpretacin es lgicamente inconsistente, lo que no constituye una novedad: Pratt
(1961 y 1977), Birnbaum (1962, 1970, 1977), Royall (1997).
En primer lugar, la forma de la regin crtica viene dada por la desigualdad,
{p1(x) / p(2(x) < k}

[1]

es decir, por la verosimilitud relativa de la muestra bajo las hiptesis alternativas.


En concreto, la regla prescribe inclinarse hacia H2 a partir de un determinado valor
k, sobre el que ms adelante volveremos, y que es el nmero de veces que es
relativamente ms verosmil H1 que H2. Dada una muestra donde k=2 significa que
H1 es 2 veces relativamente ms preferida(1) por los datos que H2, mientras que
k=1/2, expresara la situacin contraria. Por tanto, el lema de NP establece una
divisin del espacio muestra en funcin de la preferencia relativa de los resultados,
x, por las distintas hiptesis, determinando como regin crtica el subconjunto de
resultados que soporten en mayor medida relativa H2. Adems de esta condicin,
se impone el cumplimiento de (2) para que el test tenga el tamao deseado,

(1) Sobre la interpretacin de la funcin de verosimilitud como la expresin del orden


natural de preferencias de los datos por las distintas hiptesis vase Fisher (1973, pag 73)

116

EL PARADIGMA DE LA VEROSIMILITUD

P [{p1(x) / p(2(x) < k} / H1] =

117

[2]

y si hay otro ms potente que el obtenido como consecuencia de aplicar (1) y (2),
necesariamente ha de corresponder a otra probabilidad .
En definitiva, cul es el concepto de evidencia implcitamente manejado en el
anterior razonamiento?. Es decir, qu se emplea como portador de la informacin
de los datos para dilucidar entre las diferentes hiptesis? Es claro que la funcin de
verosimilitud.

3. FUNCIN DE VEROSIMILITUD Y PRINCIPIO DE VEROSIMILITUD


Antes de seguir avanzando, examinemos un ejemplo de funcin de verosimilitud.
Supongamos que se trata de determinar la probabilidad p asociada al resultado
cara al lanzar una moneda. Imaginemos que realizamos 30 lanzamientos y obtenemos 12 caras. La funcin de verosimilitud de este resultado, que denotamos por
l(x,p), es proporcional a la probabilidad de observar el resultado x cuando la
probabilidad de xito toma el valor p.
30
l(x, p) = cp (x) = c p12 (1 p)18
12

donde c es una constante de proporcionalidad, que podemos establecer como


c=

1
1
=
maxl(x, p) 30 12 12 12 18

1
{p}
12 30 30

de modo que la funcin de verosimilitud est normalizada con respecto a su


mximo, siendo su expresin final
l(x, p) =

p12 (1 p)18
12 12
12

1
30
30

18

117

118

ESTADSTICA ESPAOLA

El grfico siguiente recoge la forma de esta funcin en este caso concreto

Como se observa, la funcin de verosimilitud alcanza su mximo en 0.4, el valor


de p ms soportado por los datos (o preferido), para disminuir a medida que nos
alejamos de este punto. La ordenada de la funcin para cada valor de p es la
verosimilitud de tal valor. Si la comparacin entre la verosimilitud de dos valores
del parmetro p se realiza a travs del cociente de sus ordenadas correspondientes, es obvio que la verosimilitud relativa no queda afectada por el cambio de
escala consecuencia de normalizar, tal como se ha hecho anteriormente.
Supongamos que tuviramos inters en comparar el soporte relativo de las hiptesis H1:p=0,3; frente a H2: p=0,6. El cociente o razn de verosimilitud sera
5.78529, interpretndose como que la hiptesis H1 es soportada 5.7 veces ms, en
trminos relativos, que H2.
La preguntas inmediatas son:qu significa ser relativamente preferido 5.7 veces ms? y cul es la escala en la que se miden estas preferencias relativas?
Dada la definicin de la funcin de verosimilitud, 5.7 es el nmero de veces que la
observacin, x, resulta ms probable bajo H1 que bajo H2. La respuesta en relacin
a la escala queda, momentneamente, diferida.
Como puede apreciarse, en el caso de hiptesis simples, la observacin y
eventual tabulacin de la funcin de verosimilitud permite reflejar la intensidad con
que los datos observados soportan los diferentes valores del parmetro. Como
consecuencia lgica de tal representacin de la evidencia, surgen los intervalos de

118

EL PARADIGMA DE LA VEROSIMILITUD

119

verosimilitud, - vase por ejemplo Hudson (1971) o Edwards, (1972). En concreto,


Hudson los define como:


I( ) = : Lnl(x, ) Lnl x, Lnk

[3]

Es decir, el conjunto de valores del parmetro tales que el valor ms preferido lo


es, con respecto a ellos, k veces como mximo(2). A efectos ilustrativos, si en el
ejemplo anterior de 12 caras en 30 lanzamientos, consideramos una preferencia
relativa mxima de 3 (el mximo, p=0.4, es preferido como mucho 3 veces ms), el
intervalo que obtenemos es (0.274; 0,535)(3)
La aceptacin de tal funcin como la nica portadora de evidencia es un argumento extra-matemtico, puesto que no es derivable a partir del cuerpo de axiomas
de probabilidad. Tal argumento se formula como axioma de verosimilitud: (Edwards, 1972, pag 31): Dentro del sistema de un modelo estadstico, toda la informacin que proveen los datos en cuanto a los mritos relativos de dos hiptesis
est contenida en el cociente de verosimilitud de esas hiptesis sobre los datos, y
el cociente de verosimilitud se interpretar como el grado en que los datos soporta
una hiptesis frente a la otra.(4)
Para Lindsey (1996, pag 73), al aceptar este principio lo que hemos hecho es
utilizar la variabilidad de los posibles resultados del mecanismo generador de los
datos, especficamente, la incertidumbre sobre que el resultado observado hubiera
ocurrido, para proveer una medida de la incertidumbre sobre los parmetros del
modelo utilizado para describir ese mecanismo. Esto debe ser distinguible de
cualquier incertidumbre acerca de la eleccin del modelo (funcin) debida a la
carencia de informacin (terica), que no aparece en la verosimilitd (...) El principio
de verosimilitud no establece que la inferencia estadstica deba basarse solamente
en este principio. Es ms, es una afirmacin relativa, comparando modelos, pero
sin proveer conocimiento absoluto acerca de cualquier modelo posible. Esto es
lgico si ningn modelo puede ser cierto. Lo nico que queremos es el mejor

(2) El logartimo de la funcin de verosimilitud es denominado funcin de soporte. En


caso de considerar la funcin de verosimilitud normalizada, lo que tenemos es la expresin
de las preferencias relativas en trminos aditivos. De ah el nombre de soporte.
(3) Obsrvese que puesto que la funcin de verosimilitud toma distintos valores dentro
del intervalo de verosimilitud, no todos los valores del parmetro dentro del intervalo presentan el mismo sustento evidencial. Esto es diferente en el caso de los intervalos de confianza,
donde todos los valores del intervalo son igualmente compatibles con los datos. Adems, el
intervalo de verosimilitud del ejemplo no es simtrico respecto a 0.4.
(4) Para una discusin lgica sobre los fundamentos del principio de verosimilitud vase
Birnbaum (1962, 1977).

119

120

ESTADSTICA ESPAOLA

modelo entre los disponibles para que nos ayude a comprender cmo pueden ser
generados los datos
Admitido este axioma, es relativamente fcil comprender por qu la interpretacin de las probabilidades de error de un contraste como medida de la evidencia
pueden entrar en contradiccin con el principio de verosimilitud y, consecuentemente, no debe otorgarse a tales probabiliades un significado evidencial.
En primer lugar, puesto que en general, es la probabilidad en la cola de la distribucin bajo H2, resulta que cuanto ms potente sea el test (menor ) menos
compatibles resultaran los datos con H2 y, por tanto, ms dbil ser la evidencia
relativa de H2 contra H1, puesto que la verosimilitud es proporcional a la probabilidad de las observaciones bajo cada una de las hiptesis. Tomemos un ejemplo de
Pratt (1977, pag 65) : si x es N(0,1) bajo H1 y N(,1) bajo H2 , y x=1.645 (=0.05),
entonces H2 es ms plausible si =2 (=0.36) que si =4 (=0.009).
Adems, dado que la relacin entre las probabilidades de error observadas de
un contraste y la razn de verosimilitud es (Pratt, 1977):

1 1

(x )

-donde (x) es la razn de verosimilitud-, se sigue que si la razn de verosimilitud


es pequea debe ser pequeo, mientras que si la razn de verosimilitud es
grande debe ser grande. As para (=0.05, =0.05) - valores observados a los
que usulamente se asocia un grado de sustento evidencial fuerte - la razn de
verosimilitud puede tomar cualquier valor comprendido entre 1/19 y 19, y si tal
cociente expresa la intensidad del soporte relativo de los datos por las dos hiptesis en juego, est claro que podemos encontrarnos con muestras que soporten H1 ,
o H2 , o que carezcan de informacin para dilucidar entre ambas hiptesis.
Si las probabilidades de error se fijan de antemano, en el ms estricto sentido
del paradigma NP, entonces la razn de verosimilitud no est acotada segn la
desigualdad anterior, de modo que con mayor razn las probabilidades de error no
son necesariamente compatibles con el grado de sustento evidencial medido a
travs de (x).
Consideremos el siguiente ejemplo tomado de Royall (1996, pag16). Se trata de
dilucidar entre dos hiptesis relativas a la probabilidad de xito, , en 30 repeticiones independientes de un experimento de Bernoulli, H1: =1/4 y H2: =3/4. Cuando
el nmero observado de xitos se representa por x, la razn de verosimilitud es
p2 (x ) p1(x ) = 32x 30 (en el numerador H2). La mejor regin crtica con tamao
=0.05 contiene todos los valores de x para los cuales la razn de verosimilitud es

120

121

EL PARADIGMA DE LA VEROSIMILITUD

como mnimo k = 3 2430 = 1 729 , es decir x 12 . (Bajo H1 la probabilidad de 12


xitos o ms en 30 repeticiones es slo 0.05).
Como se ve en este ejemplo, el mejor test llama a elegir H2 cuando la evidencia favorece, de hecho, a H1: un factor k menor que la unidad. En concreto, si se
observa x=12 el test determina la eleccin de H2 cuando los datos soportan 729
veces ms a H1, en trminos relativos. De modo anlogo, los resultados x=13 y
x=14 representan evidencia bastante fuerte en favor de H1; y en cuanto a la observacin x=15, que se corresponde a una tasa de xito observada de 1/2 equidistante de las hiptesis formuladas (=1/4 y =3/4)- comprobamos que mientras el mtodo NP determina la eleccin de H2, la evidencia relativa en trminos de
verosimilitud es neutral entre las hiptesis p 2 x p 1 x = 1 .

()

()

4. LA ESCALA DE MEDIDA DE LA VEROSIMILTUD


Abordemos ahora el problema de la escala en la que medir la verosimilitud relativa. Es decir, la respuesta a la pregunta formulada anteriormente sobre cmo
interpretar que una hiptesis es 5.7 veces relativamente ms preferida que otra.
Lindsey (1996) refiere los resultados de Kass y Raftery(5) que proporcionan
una interpretacin de los valores de la funcin de verosimilitud normalizada (con
respecto a su mximo) recogida en la tabla siguiente:
Valores de la razn de verosimilitud normalizada

Evidencia

0.37 - 1

Pequea

0.05 - 0.37

Positiva

0.007-0.05

Fuerte

<0.007

Muy Fuerte

Por su parte, Royall (1996) define una escala de soporte evidencial por comparacin a un experimento que denomina cannico y que resumimos a continuacin.
Supongamos que se tienen dos hiptesis sobre las proporciones de la composicin
de colores de las bolas que integran una urna. Las dos hiptesis son: todas blancas y la mitad blancas, respectivamente. Para dilucidar entre ellas se extraen
bolas de la urna con reposicin, removiendo antes de cada extraccin.

(5) Kass y Raftery (1995) Bayes factors. Journal of the American Statistical Association,
90, 773-795

121

122

ESTADSTICA ESPAOLA

Supongamos que se extrae una bola que resulta ser blanca, a continuacin otra
blanca. Si en la tercera extraccin la bola resulta blanca, se podr caracterizar tal
situacin como evidencia bastante fuerte en favor de todas blancas frente a la
mitad blancas. La razn de verosimilitud es 2 3 = 8 .
A partir de este ejemplo construye la tabla siguiente razonando de este modo: si
observamos b blancas, la razn de verosimilitud en favor de todas blancas sobre
la mitad blancas es igual a 1 (12 ) , o 2b . Por tanto una verosimilitud relativa de k
b

corresponde a b bolas blancas consecutivas, donde k = 2b .


Razn verosimilitud

10

20

50

100

1000

3.3

4.3

5.6

6.6

10.0

Estamos ahora en condiciones de evaluar sobre una base ms objetiva, cunta


evidencia representa un factor k = 5.7 o un factor k = 729.

5. UN EJEMPLO SIMULADO
Para ilustrar convenientemente la incoherencia del paradigma NP con la interpretacin de la evidencia en trminos de la razn de verosimilitud -corazn de dicho
paradigma- hemos elaborado el siguiente ejemplo. Tomamos observaciones procedentes de una poblacin N(,2), donde la media es desconocida considerando dos
hiptesis alternativas para la varianza, H1: 2=16 y H2 : 2=49. Se consideran
muestras de tamao 20 y la regla de contraste (regin crtica) viene determinada
por

C = X :

2
_

x x > 482,28

[4]

que conduce al rechazo de H1 en favor de H2. Esta regla se ha fijado de modo


que las probabilidades de error se pueden cifrar en (0.05, 0.043), por lo que, de
acuerdo con la interpretacin al uso criticada en este artculo, cualquier resultado
que se alcance bajo estas condiciones, se considerar apoyado por evidencia
fuerte.

122

EL PARADIGMA DE LA VEROSIMILITUD

123

A continuacin se procedi a generar, mediante simulacin, 1000 muestras de


tamao 20 a partir de xN(20,4) -H1- , y otras tantas a partir de xN(20,7) -H2-(6).
Para representar la evidencia en trminos de verosimilitud, el supuesto establecido de desconocimiento de , implica que en la funcin de verosimilitud obtenida a
partir de la funcin de densidad de la distribucin normal, est presente como
parmetro de ruido, y para prescindir del mismo hemos elegido representar la
verosimilitud de la muestra sobre 2, a travs de la denominada verosimilitud
marginal (7)-obtenida a partir de la distribucin en el muestreo del estadstico (n1)s2. El logaritmo de tal funcin normalizada con respecto al mximo es:
L( 2 ) =

n 1 2
Ln
2 s 2

s 2
1+

Se aplica esta funcin, particularizndola para las dos hiptesis sobre la varianza, a cada una de las muestras, y se obtiene la razn de verosimilitud p2(x)/p1(1x),
como (x) = Exp[L(22)-L(21)].
Elegimos considerar el valor 8 de la razn de verosimilitud, como nivel de evidencia bastante fuerte -tres extracciones consecutivas de bolas blancas en el
experimento cannico de Royall- de modo que si >8 se considera evidencia fuerte
en favor de H2; si <1/8 se considera evidencia fuerte en favor de H1; y si toma
valores intermedios, se considera evidencia dbil para dilucidar entre las dos
hiptesis.
A cada una de las muestras se les aplic la regla de contrastacin derivada del
paradigma NP, tal y como se formul en (4).
La tabla de la pgina siguiente resume los principales resultados de esta simulacin y muestra como, bajo el concepto de evidencia subyacente en el cociente de
verosimilitud, las decisiones derivadas de la aplicacin de la regla NP, son incoherentes. En concreto, lo ms relevante es que muchas decisiones-NP se toman con
un nivel de evidencia dbil. Esto es especialmente importante si consideramos
que a la hora de contrastar hiptesis no sabemos, a diferencia de este ejemplo,
cul de ellas es cierta, si es que alguna lo es. Y que el verdadero problema consiste
en dilucidar qu hiptesis es relativamente ms compatible con la observacin.

(6) Tomar la media de la poblacin como 20, se ha hecho por conveniencia, para poder
generar las muestras. De hecho para realizar las inferencias a partir de la funcin de
verosimilitud, y fijar las probabilidades de error de tipo I y II, se ha operado considerando
desconocida.
(7) La idoneidad de esta eleccin descansa en que esta funcin de verosimilitud es robusta para distintos valores de la media . Tsou (1995)

123

124

ESTADSTICA ESPAOLA

La primera columna de la tabla indica el nmero de la serie correspondiente a


las 10 series de muestras (100 muestras de tamao 20 en cada serie) generadas
bajo las dos hiptesis consideradas. La segunda columna, el nmero de veces que
la regla NP condujo al rechazo de H1. La tercera, el nmero de veces que el cociente de verosimilitud favoreci H2 (el rechazo de H1) con un factor de al menos 8.
Obviamente esta evidencia es equvoca cuando los datos se generan a partir de
N(20,4)). La cuarta, el nmero de veces que el cociente de verosimilitud favoreci
H1 en un factor de al menos 8. La ltima columna el nmero de veces que la evidencia, en forma de cociente de verosimilitud, fue dbil.

DATOS GENERADOS BAJO H1: = 16


Numero de la
serie

Rechazo H1
segn NP

Evidencia fuerte
errnea en contra
de H1

Evidencia fuerte a
favor de H1

Evidencia
Dbil

1
2
3
4
5
6
7
8
9
10

5
2
4
3
5
4
6
7
4
5

1
0
0
0
0
0
0
4
1
2

85
93
88
84
79
90
84
81
87
87

14
7
12
16
21
10
16
15
12
11

Total
Porcentaje

45
0,045

8
0,008

858
0,858

134
0,134

124

125

EL PARADIGMA DE LA VEROSIMILITUD

DATOS GENERADOS BAJO H2: = 49


Rechazo H1
segn NP

Evidencia fuerte en
contra de H1

Evidencia fuerte
errnea en contra
de H2

Evidencia
Dbil

1
2
3
4
5
6
7
8
9
10

96
95
94
96
98
97
96
97
95
100

88
90
84
87
91
88
84
91
86
93

2
3
3
3
1
1
1
1
2
0

10
7
13
10
8
11
15
8
12
7

Total
Porcentaje

964
0,964

882
0.882

17
0,017

101
0,101

6. CONCLUSIONES
Como conclusines principal podemos sealar que la supuesta base evidencial
resultante de trabajar con una regla cuyo comportamiento medio es ptimo segn
cierto criterio (probabilidades de error en el paradigma NP) no es vlida. Si bien en
la simulacin anterior, se observa que al operar con probabilidades de error pequeas, es muy infrecuente que se presenten situaciones con evidencia fuerte errnea" - frecuencia del 8 por mil bajo H1 y del 1,7% bajo H2 - , la frecuencia de aparicin de evidencia dbil es muy superior: por encima del 10% bajo las dos hiptesis. Por lo tanto, de la mera aplicacin de la regla de decisin dictoma (NP) no se
puede garantizar, ni siquiera en trminos de frecuencia aceptable a largo plazo en
sucesivas repeticiones del muestreo, que la observacin soporte fuertemente tal
decisin.
Si se quiere hacer compatibles ambas visiones es necesario enfocar el problema precisamente en el orden inverso al empleado por Neyman-Pearson. Primero
determnese qu nivel de evidencia -en trminos del cociente de verosimilitud- se
desea para discernir entre diferentes hiptesis y, luego podremos, eventualmente y
siempre que interese, determinar las probabilidades de error.
Ahora bien, si empleamos la razn de verosimilitud como medida de la evidencia, sera tranquilizador, a la hora de disear un experimento, estar en condiciones

125

126

ESTADSTICA ESPAOLA

de determinar el tamao muestral necesario para discernir entre hiptesis verdaderas e hiptesis falsas con cualquier nivel de exigencia (en trminos de la razn
de verosimilitud) y con casi seguridad. En otras palabras, supongamos que X se
distribuye de acuerdo con pB, (una hiptesis que consideramos cierta) y que pA es
otra distribucin de probabilidad (la hiptesis falsa); dada una constante k>0
podemos afirmar:
1
( )
k
Pr p A X
pB (X) k

[5]

Es decir, la probabilidad de obtener evidencia equvoca en favor de la hiptesis


falsa es menor, cuanto mayor sea la fuerza de la evidencia (k) requerida.
La demostracin es inmediata. Si S es el conjunto de valores de x que producen
un cociente de verosimilitud en favor de la hiptesis A de al menos k unidades,
cuando B es cierta:
Pr(S) =

p (X) p (X)
B

k 1k

[6]

Expresin que establece la prctica imposibilidad de encontrar evidencia fuerte


en favor de una hiptesis falsa.
Pero adems, es posible demostrar (Robbins, 1970) que si Xi se distribuyen iid
n

bajo HB, y A etiqueta otra hiptesis, el cociente

(xi ) pB (xi )

converge a cero

i=1

con probabilidad 1. Lo que significa que es posible especificar cualquier nmero k


por grande que sea, tal que encontraremos un nmero n de observaciones que
con probabilidad 1, la evidencia en favor de B ser de al menos k. Es decir, para
cualquier requerimiento de evidencia en trminos de verosimilitud relativa, k, que
deseemos establecer, habr un tamao muestral que permita alcanzarlo.
Para finalizar es preciso aadir que la mayor parte de las conclusiones son
trasladables al caso de los denominados contrastes de significacin, donde la
medida de la evidencia all manejado se expresa a travs de la probabilidad de tipo
I observada. Por cuestiones de espacio no abordamos aqu este problema. Baste
sealar que, la idea subyacente bajo el paradigma de la verosimilitud es evaluar el
soporte relativo de los datos por hiptesis rivales, sin pretender aportar una media
absoluta del soporte, como se deriva de la apliacin corriente de los contrastes de
significacin.

126

127

EL PARADIGMA DE LA VEROSIMILITUD

REFERENCIAS
BIRNBAUM, A. (1962). On the Foundations of Statistical Inference, Journal of the
American Statistical Association, 57, 269-326
BIRNBAUM, A. (1970). Statistical Methods in Scientific Inference (Letter), Nature,
225,1033
BIRNBAUM, A. (1977). The Neyman-Pearson Theory as Decision Theory, and as
Inference Theory; with a Criticism of the Lindley-Savage argument for Bayesian
Theory, Synthese 36, 19-49
EDWARDS, A.W. (1972). Likelihood. Cambridge University Press.
FISHER, R.A. (1973). Statistical Methods and Scientific Inference, Hafner Press,
London
HUDSON. D.J. (1971). Interval Estimation from the Likelihood Function, Journal of
the Royal Statistical Society, B33, 256-262
LINDSEY, J.K. (1996). Parametric Statistical Inference, Clarendon Press, Oxford
LINDSEY, J.K. (1999). Statistical Heresies. The Statistician 48, 1-40
NELDER, J.A. (1999). Statistics for the Milenium. The Statistician 48, 257-269
PRATT, J.W. (1961). Review of Testing Statistical Hypotheses by E.L Lehmann,
Journal of the American Statistical Association, 56, 163-167
PRATT, J.W. (1977). Decisions as statistical evidence and Birnbaums confidence
concept. Synthese 36, 59-69
ROBBINS, H. (1970). Statistical Methods related to the law of the iterated logaritmh.
Annals of mathematical Statistics, 41, 1397-1409

ROYALL, R. (1997). Statistical Evidence. A Likelihood paradigm, Chapman & Hall


SILVEY, S.D. (1970). Statistical Inference, Chapman & Hall
TSOU , T.S. (1995). Robust Likelihood. Journal of the American Statistical Association, v 90, 429, 316-320

127

128

ESTADSTICA ESPAOLA

LIKELIHOOD PARADIGM
SUMMARY
The use of error probabilities of statistical hypothesis testing procedures as a measure of the strengh of evidence is, at least, equivocal.
The Neyman-Pearson approach is concerned with using the observations to make a choice between the hypothesis under consideration, and the evidencial interpretations of the data fall outside the scope of this theory.
This paper remarks that the concept of evidence is embodied in the
law of likelihood, as it was originally conceived by Fisher: datas preference function over the parametric space.
In addition to logical considerations, this paper includes the results
of a simple simulation showing that, under certain requierements expressed in terms of relative preference measured through the likelihood ratio between rival hypothesis, the Neyman Pearsons device fails
due to the fact that it supports hypothesis that are weakely based on
evidence.

Key words: likelihood, Hypothesis Testing


AMS Classification: 62F03

128

Potrebbero piacerti anche