Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Funciones de Verosimilitud
Métodos Numéricos
Andrea Chávez Heredia
2. Motivación y Contexto
En información obtenida a partir de experimentos biológicos, la estadística busca
ajustar modelos para interpretar datos y dar más detalles al respecto del fenómeno. Algunas
veces las funciones de densidad propuestas son complejas y resulta difícil estimar los
parámetros a partir de los datos.
En el libro de Cox & Oakes (1984), tenemos un conjunto de datos de 33 pacientes que
perecieron debido a AML. Estos datos cuentan las semanas que sobrevivieron después del
diagnóstico. Consecuentemente, una distribución que usualmente se aplica a datos de
supervivencia es la distribución Weibull de dos parámetros.
2.1 Datos
Tras el diagnóstico de AML, se midió el tiempo de supervivencia de 33 pacientes que
finalmente murieron por la enfermedad. Al momento del diagnóstico se hizo un conteo de
glóbulos blancos (leucocitos). Asimismo, se separó al grupo en dos subgrupos de acuerdo a la
morfología de sus leucocitos. Aquellos que se identificaron como positivo (o presente) fueron
aquellos en los que se identificó la presencia de bastones de Ayer y/o granulación
significativa en células leucémicas de la médula ósea. El grupo negativo (o ausente) son
aquellos en los que no se encontró ninguna de las caracterizaciones anteriores.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
A 65 156 100 134 16 108 121 4 39 143 56 26 22 1 1 5 65 56 65 17 7 16 22 3 4 2 3 8 4 3 30 4 43
B
En la tabla se muestra el juego de datos completo, donde la primera fila representa las semanas de supervivencia
y la segunda el grupo al que pertenecen (rojo = ausente, verde = presente).
En este análisis, contemplaremos los individuos del grupo “ausente”. Así, tenemos una
sucesión de n = 16 variables aleatorias independientes e idénticamente distribuidas como
Weibull(α, ß), donde α > 0 es el parámetro de escala y ß > 0 es el de forma. Luego, la función
de probabilidad Weibull tiene una densidad dada por:
α (α)
β β−1 β
x
f" (x; α, β ) = e −(x/α) x ≥ 0,
0 x < 0.
∏α (α)
n β−1
β xi β
L(α,
" β) = e −(xi /α) ,
i=1
y
n n
(xi /α) β.
∑ ∑
" l(α, β ) = n log(β ) − nβ log(α) + (β − 1) log(xi ) −
i=1 i=1
Luego calculamos las derivadas parciales de la log-verosimilitud con respecto de α y ß,
obteniendo respectivamente:
∂l nβ β n β ∂l n n n
(x /α) β log(xi /α).
α∑ ∑ ∑ i
" =− + (xi /α) y " = − n log(α) + log(si ) −
∂α α i=1
∂β β i=1 i=1
El error que consideramos es " | α (k+1) − α (k) | + | β (k+1) − β (k) | < tol, fijando iter = 100
y tol = 0.000001.
" (0) = 10.0 y β" (0) = 1.0 , obtenemos los resultados que se
Al ejecutar el código con α
muestran en la imagen siguiente.
" (k), en la
La impresión de pantalla muestra, por cada iteración k, en la primera columna α
" (k) y el la tercera, la función de log-verosimilitud evaluada en los parámetros de la
segunda β
iteración, es decir l("α (k), β (k)).
Considerando otros parámetros iniciales, veamos a continuación que el método de
Newton-Raphson es sensible a las condiciones iniciales.
̂ ) = [ 1n ∑ni=1 xiβ] .
1/β
"α(β
" ̂ ) para hacer explícito que el valor óptimo de α
Usaremos la notación α(β " depende de β
" .
̂ ), β ) para obtener una función
Ahora sustituiremos en la función de log-verosimilitud (" α(β
de un solo parámetro. Tenemos entonces que
1 n β n
(n ∑ )
̂ ), β ) = n log β − n log
∑
l" β (β ) := l(α(β xi + (β − 1) log xi − n.
i=1 i=1
Observemos que hemos reducido la dimensión del problema; pasamos de dimensión
dos a dimensión uno, lo que a priori es más sencillo de maximizar. Llamamos a l" β (β ) la log-
verosimilitud perfil de beta.
(Observación: dado que todas las funciones están en el mismo proyecto, las condiciones iniciales se dan al
momento de ejecutar el programa, sin embargo, la función NR_perfil sólo va a recibir β " y calcular α
" en
función del parámetro anterior.)
El error que consideramos es " | β (k+1) − β (k) | < tol, fijando iter = 100 y tol =
" (0) = 1.0 y obtenemos los resultados de la siguiente
0.000001. Ejecutamos el código con β
" ̂ (k)),
imagen. La primera columna, para cada iteración k, muestra en la primera columna α(β
" (k) y por último l" β (β (k)). Recordemos que la log-verosimilitud perfil de beta es
en la segunda β
una aproximación de la función de log-verosimilitud con ambos parámetros.
6.2.2 Reparametrización
(n ∑ )
b
∑
l" b(b) = n b − n log xi + (e − 1) log xi − n.
i=1 i=1
A esta transformación de β " , la llamamos una reparametrización de β " . Ahora queremos
optimizar l" b(b) con respecto de b. Notemos que dado que log(β " ) es una transformación
monótona e invencible, un punto máximo par b nos da directamente un valor máximo para β " .
Luego, como "β = e b, automáticamente obtenemos β " > 0.
Utilizando nuevamente el algoritmos de Newton-Raphson, requerimos de las
siguientes expresiones. Por tanto, la primera y segunda derivadas de la reparametrización,
están dadas, respectivamente, por las siguientes funciones
[ ]
T1
" b(b) = n 1 −
l′ + e bT3
T2
y
[ ]
T5T2 − T 42
[ ]
b
T4 − T3T2 2b
l′
" ′(b) = − ne − ne + e bT3
T2 T22
7. Conclusiones
Tras modificaciones aplicadas al método de Newton-Raphson, finalmente obtuvimos un
problema de optimización con restricciones, tal como señaló el Dr. Joaquín Peña durante mi
presentación.
El costo en operaciones de la reparametrización es mayor, sin embargo, otorga robustez
al modelo. Esta característica en problemas estadísticos es primordial, puesto que queremos
que los parámetros no sean sensibles a pequeñas alteraciones. Asimismo, nos da consistencia
con los datos de la muestra dada.
Por otra parte, podemos reducir la tolerancia a un valor más pequeño, ya que en las
últimas iteraciones de la reparametrización, la varianza es mínima.
8. Bibliografía
• G., Storivik, Numerical Optimization of Likelihoods: Additional literature for
STK2120, Universidad de Oslo, Febrero 2011.
• D. R.,Cox & D. Oakes, Analysis of Survival Data. Chapman & Hall, Londeres, 1984.
• J.G., Kalbfleisch, Probability and Statistical Inference Vol. 2, Segunda edición,
Sprinber-Verlag, Nueva York, 1985.