Sei sulla pagina 1di 17

STATGRAPHICS – Rev.

9/14/2006

Ajustando Distribución (Datos Censurados)

Resumen
El procedimiento Ajustando Distribución (Datos Censurados) ajusta cualquiera de las 45
distribuciones de probabilidad a una columna numérica de datos censurados. La censura ocurre
cuando alguno de los valores de los datos no son conocidos exactamente. Por ejemplo, cuando
medimos tiempos de falla, algunos artículos bajo estudio pueden no haber fallado cuando
termino el estudio, resultando en una cota inferior para el tiempo de falla para estos artículos.

Ejemplo StatFolio: distfit censored.sgp

Datos del Ejemplo:


El archivo absorbers.sf3 contiene n = 38 observaciones identificando el numero de kilómetros de
uso para una muestra de amortiguadores de choque del vehículo, tomadas de Meeker y Escobar
(1998). Cuando se inspecciono, algunos de los amortiguadores de choque del vehículo habían
fallado mientras que otros no. La siguiente tabla muestra una lista parcial de los datos de este
archivo:

Distance Censores
(Distancia) (Censurado)
6700 0
6950 1
7820 1
8790 1
9120 0
9660 1
9820 1
11310 1
11690 1
11850 1
11880 1
12140 1

El archivo contiene 11 observaciones que corresponden a amortiguadores de choque que han


fallado. Los datos de estos amortiguadores son tiempos de falla. El archivo también contiene 27
amortiguadores que no hay fallado. Estos datos representan información censurada por la
derecha en los tiempos de falla de estos amortiguadores, ya que la verdadera distancia de falla es
más grande que el número registrado.

Cuando analizamos datos censurados, STATGRAPHICS requiere que crees una columna con un
indicador de censura, definida por:

0 si el valor no ha sido censurado

1 si el valor es censurado por la derecha (el valor verdadero es más grande)

-1 si el valor es censurado por la izquierda (el valor verdadero es más pequeño)

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 1


STATGRAPHICS – Rev. 9/14/2006

Entrada de Datos
Los datos que serán analizados consisten de una columna numérica que contiene n observaciones
y una segunda columna que contiene indicadores de censura.

• Datos: columna que contiene las n observaciones que serán ajustadas. El número de datos no
perdidos debe ser al menos tan grande como el número de parámetros que serán estimados.

• Censura: columna que contiene los indicadores de censura. Esta columna debería contener
un 0 para cualquier renglón en el que el dato no sea censurado, un 1 si es censurado por la
derecha y -1 si es censurado por la izquierda.

Resumen del Análisis


El Resumen del Análisis muestra el número de observaciones, los rangos de los datos, y los
valores de los parámetros estimados para cada distribución que es ajustada a los datos.

Datos Censurados - Distance


Datos/Variable: Distance
Censura: Censored

38 valores con rango desde 6700.0 a 28100.0


Número de observaciones censuradas a la izquierda: 0
Número de observaciones censuradas a la derecha: 27

Distribuciones Ajustadas
Normal Valor Extremo Inferior Weibull
media = 24570.9 modo = 26896.4 forma = 3.16047
desviación estándar = 8356.32 escala = 5668.58 escala = 27718.7

Los parámetros desplegados dependen de la distribución seleccionada (ver la documentación del


procedimiento Distribuciones de Probabilidad). Los estimadores son obtenidos usando

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 2


STATGRAPHICS – Rev. 9/14/2006
Estimación de Máxima Verosimilitud (EMV). Puedes ajustar entre1 y 5 distribuciones al mismo
tiempo usando Opciones del Análisis.

En la tabla anterior, 3 distribuciones han sido ajustadas a n = 38 distancias. La distribución


normal es definida por su media y desviación estándar. La distribución de valores extremos para
mínimos es definida por su moda y el parámetro de escala. La distribución Weibull esta definida
por un parámetro de forma y un parámetro de escala.

Opciones del Análisis

• Distribución: selecciona entre 1 y 5 distribuciones para ajustar los datos. Cada distribución
es descrita en detalle en la documentación de Distribuciones de Probabilidad. Para ayudar a
determinar cual distribución ajusta, el panel Comparación de Distribuciones Alternas
descrito abajo puede ser de gran ayuda. Las siguientes tablas pueden ser también de ayuda.

Distribuciones Discretas
Distribución Rango de los Datos Uso común
Bernoulli 0o1 Modelo para eventos con solo dos posibles
resultados.
Binomial 0, 1, 2, …, m Numero de éxitos en m ensayos Bernoulli.
Uniforme Discreta a, a+1, a+2, …, b Modelo para enteros con limites fijos
Geométrica 0, 1, 2, … Numero de ensayos hasta el primer éxito
Bernoulli.
Hipergeométrica 0, 1, 2, …, m Conteo cuando se muestrea de una población
finita.
Binomial Negativa 0, 1, 2, … Numero de ensayos hasta el k-esimo éxito
Bernoulli.
Poisson 0, 1, 2, … Numero de eventos en un intervalo fijo.
© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 3
STATGRAPHICS – Rev. 9/14/2006
Distribuciones Continuas
Distribución Rango de los Datos Uso común
Beta 0≤X≤1 Distribución de una proporción aleatoria.
Beta (4-parámetros) a ≤ X ≤ b Modelo para datos con umbrales superior e
inferior.
Birnbaum-Saunders X > 0 Tempo de Fallas.
Cauchy all real X Medidas que exhiben colas pesadas.
Chi-Cuadrada X≥0 Distribución de referencia para la varianza
muestral.
Erlang X>0 Tiempo entre k arribos en un proceso Poisson.
Exponencial X>0 Tiempo entre consecutivos eventos Poisson.
Exponencial(2- X>a Tiempos de vida con umbral inferior fijo.
parms)
Exponencial power all real X Datos simétricos con kurtosis variable.
F X≥0 Razón de dos estimadores de varianzas
independientes.
Folded Normal X≥0 Valores absolutos de datos de una distribución
normal
Gamma X≥0 Modelo para medidas positivamente sesgada.
Gamma (3- X≥a Datos positivamente sesgados con umbral
parámetros) inferior.
Gamma X>0 Incluye varias distribuciones con casos
Generalizada especiales.
Logística All real x Usada para el análisis de valores extremos.
Generalizada
Normal Truncada X≥μ Datos normales doblados alrededor de su media.
Gausiana Inversa X>0 Primer paso de tiempo en el movimiento
Browniano.
Laplace todos los reales X Datos con picos pronunciados y colas pesadas.
Valores Extremos todos los reales X Valores más grandes en una muestra.
Máximos
Logistica todos los reales X Modelo de crecimiento; alternativa común a la
normal.
Loglogistica X>0 Logs de datos de una distribución logística.
Loglogistica (3- X>a Logs de datos con umbral inferior fijo.
parámetros)
Lognormal X>0 Datos positivamente sesgados.
Lognormal (3- X>a Datos positivamente sesgados con umbral
parámetros) inferior.
Maxwell X>a Velocidad de una molécula en un gas ideal.
Chi-cuadrada No X≥0 Calculo de potencia de una prueba chi-cuadrada.
central
F No central X≥0 Calculo de potencia de una prueba F.
t No central todos los reales X Calculo de potencia de una prueba t
Normal todos los reales X Datos con muchas fuentes de variabilidad.
Pareto X≥1 Cantidades socio-económicas con colas pesadas
en la derecha
Pareto (2- X≥a Cantidades socio-económicas con umbral

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 4


STATGRAPHICS – Rev. 9/14/2006
parámetros) inferior.
Rayleigh X>a Distancia entre objetos vecinos.
Valores Extremos todos los reales X Valore más pequeños en una muestra.
Mínimos
t de Student todos los reales X Distribución de referencia para la media.
Triangular a≤X≤b Modelo áspero en ausencia de datos.
Uniforme a≤X≤b Datos con la misma probabilidad sobre un
intervalo.
Weibull X≥0 Tiempo de vida de productos.
Weibull (3- X≥a Tiempo de vida de productos con umbral inferior.
parámetros)

• Ensayos Binomial – cuando se ajusta la distribución binomial, debes especificar el tamaño


de la muestra n.

• Ensayos Hypergeométrica – cuando se ajusta la distribución hypergeométrica, puedes


especificar el tamaño de la muestra n. puedes especificar el parámetro tamaño de la
población N o estimarlo de los datos.

• Ensayos Binomial Negativa– cuando se ajusta la distribución binomial negativa, puedes


especificar el parámetro k o estimarlo de los datos.

• Parámetros del umbral extendidos– cuando se ajusta distribuciones que tienen uno o mas
parámetros umbrales, puedes especificar estos parámetros o estimarlos de los datos. Las
distribuciones relevantes son:

Beta (4-parámetros) – inferior y superior


Exponencial (2-parámetros) – inferior solamente
Normal truncada (2-parámetros) – inferior solamente
Gamma (3-parámetros) – inferior solamente
loglogistica (3-parámetros) – inferior solamente
lognormal (3-parámetros) – inferior solamente
Maxwell (2-parámetros) – inferior solamente
Pareto (2-parámetros) – inferior solamente
Rayleigh (2-parámetros) – inferior solamente
Weibull (2-parámetros) – inferior solamente

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 5


STATGRAPHICS – Rev. 9/14/2006

Prueba de Bondad-de-Ajuste
El panel de Prueba de Bondad-de-Ajuste realiza hasta 7 diferentes pruebas para determinar si es
razonable que los datos provengan de la distribución ajustada. Para todas las pruebas, las
hipótesis de interés son:

• Hipótesis Nula: los datos son muestras independientes de la distribución especificada

• Hipótesis Alternativa: los datos no son muestras independientes de la distribución


especificada

La prueba que será corrida es seleccionada usando las Opciones del Panel.

Pruebas de Bondad-de-Ajuste para Distance


Prueba de Kolmogorov-Smirnov
Normal Valor Extremo Inferior Weibull
DMAS 0.0760417 0.0818301 0.0901357
DMENOS 0.0903629 0.122783 0.087023
DN 0.0903629 0.122783 0.0901357
Valor-P 0.915578 0.615589 0.917047

Las prueba de bondad-de-ajuste es descrita con detalle en la documentación de Ajustando


Distribución (Datos No Censurados). Para datos censurados, las pruebas son modificadas de
forma que dependan de cómo los datos fueron censurados. Usando las Opciones del Panel, se
puede seleccionar entre 3 tipos de censura: Aleatoria, Tipo I, o Tipo II, situadas en dicho panel.
Modificaciones para las pruebas son descritas en las secciones de cálculos al final de este
documento.

De acuerdo a la prueba desplegada en la tabla anterior, cualquiera de las 3 distribuciones ajusta


bien los datos, ya que los P-valores son iguales o no exceden 0.10.

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 6


STATGRAPHICS – Rev. 9/14/2006
Opciones del Pane
l

• Incluir: Seleccione una o mas pruebas a realizar. Para la prueba chi-cuadrada, selecciones
use clases equiprobables para agrupar los datos en clases con frecuencia esperadas iguales. .
Si esta opción no es elegida las clases serán creadas del Histograma de Frecuencias.

• Calculo de los P-Valores en la distribución específica – Si es seleccionado, los Valores-P


serán basados en tablas o formulas específicamente desarrolladas para la distribución que es
probada. De otra manera, los P-Valores serán basados en tablas o formulas generales que
aplican a todas las distribuciones. La aproximación general es mas conservadora (no rechazar
una distribución tan fácilmente) pero puede ser preferida cuando comparamos Valores-P
entre distribuciones diferentes.

• Censura – Seleccione el tipo de censura. Los tipos son definidos:

Aleatoria – Indica que los datos han sido aleatoriamente censurados. La censura aleatoria
ocurre cuando los valores son censurados por varias razones, no caen dentro de los
mecanismos Tipo I o Tipo II.

Tipo I - Indica que los datos son “censura por tiempo”, i.e., artículos han sido removidos
de una prueba en un tiempo preespecificado. Si este tipo de censura es seleccionado,
todos los valores censurados deben de ser igual o un mensaje de error será generado.

Tipo II – Indica que la prueba fue detenida después de que ocurrió un número
predeterminado de fallas. Si este tipo de censura es seleccionado, todos los valores
censurados deben de ser igual o un mensaje de error será generado.

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 7


STATGRAPHICS – Rev. 9/14/2006
Histograma de Frecuencias
El Histograma de Frecuencias muestra un histograma de los datos como un conjunto de barras
verticales, junto con la densidad de probabilidad estimada o funciones de masa.

Histograma para Distance

8 Distribución
Normal
Valor Extremo
6
Weibull
frecuencia

0
0 0.5 1 1.5 2 2.5 3
(X 10000.0)
Distance

Si los datos contienen muchas observaciones censuradas, como en la grafica anterior, las
distribuciones ajustadas pueden no parecer emparejar las barras.

Opciones del Panel

• Numero de Clases: El numero de intervalos en los cuales los datos serán divididos. Los
intervalos son adyacentes y tienen igual anchura. El numero de intervalos en los cuales los
datos serán divididos por defecto es fijado en la pestaña EDA de la caja de dialogo de
Preferencias en el menú Editar.

• Limite Inferior: Limite inferior del primer intervalo.

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 8


STATGRAPHICS – Rev. 9/14/2006
• Limite Superior: Limite superior del primer intervalo.

• Mantener: Mantiene el número de intervalos y limites iguales aunque la fuente de datos


cambie. Por defecto, el número de clases y los límites son recalculados cuando los datos
cambian. Es necesario que todas las observaciones sean desplegadas por si algún dato
actualizado cae más allá de los límites originales.

• Desplegar: La manera en la cual las frecuencias son desplegadas. Un Histograma escala las
barras de acuerdo al número de observaciones en cada clase. Un Rotograma escala las barras
de acuerdo a la raíz cuadrada del número de observaciones. Un Rotograma Suspendido
escala por la raíz cuadrada y suspende las barras de la curva. La idea de usar raíces cuadradas
es para igualar la varianza de las desviaciones entre las barras y la curva, lo cual de otra
forma incrementaría con una frecuencia creciente. La idea de suspender las barras de la curva
es permitir una comparación visual sencilla con la línea horizontal graficada en 0, ya que la
comparación visual con una línea curva puede ser engañosa.

Comparación de Distribuciones Alternas

Este panel automáticamente muestra una colección de distribuciones diferentes y las despliega en
orden de acuerdo a que tan bien ajustan los datos.

Comparación de Distribuciones Alternas


Distribución Parámetros Est. Log Verosimilitud KS D
Weibull 2 -404.991 0.0901357
Normal 2 -406.4 0.0903629
Logística 2 -408.408 0.103344
Laplace 2 -413.516 0.108477
Valor Extremo Inferior 2 -409.469 0.122783
Valor Extremo Superior 2 -405.653 0.128409
Gamma 2 -404.845 0.128419
Loglogística 2 -406.131 0.131113
Lognormal 2 -405.125 0.155015
Uniforme 2 -400.338 0.159942
Exponencial 1 -427.009 0.329046
Pareto 1 -510.249 0.448162

La tabla muestra:

• Distribución – El nombre de la distribución ajustada. Tú puedes seleccionar


distribuciones adicionales usando las Opciones del Panel.
• Parámetros Est. – El numero de parámetros estimados para esta distribución.
• Log Verosimilitud – El logaritmo natural de la función de verosimilitud. Valores
mas grandes tienden a indicar mejores ajustes de las distribuciones.
• KS D, A^2, y otras estadísticas – Valores de varias estadísticas de bondad-de-ajuste,
seleccionadas usando el botón Pruebas en la caja de dialogo de las Opciones del
Panel. Valores mas pequeños tienden a indicar mejores ajustes de las distribuciones.

Las distribuciones son ordenadas de mejor a peor de acuerdo a una de las columnas de bondad-
de-ajuste. Esta columna es seleccionada usando el botón Pruebas en la caja de dialogo de las
Opciones del Panel. La tabla anterior muestra las distribuciones ordenadas de acuerdo al valor de

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 9


STATGRAPHICS – Rev. 9/14/2006
la estadística Kolmogorov-Smirnov D. De acuerdo a esta estadística, la distribución de valores
extremos para mínimos ajusta mejor

Opciones del Panel

• Distribución: Seleccione las distribuciones que ajustaran los datos. Las distribuciones
seleccionadas actualmente son transparentadas ya que ellas siempre estarán incluidas.
• Más Común – Presionar este botón para seleccionar las distribuciones mas comúnmente
usadas (continuas).
• Todas Discretas – Presionar este botón para seleccionar todas las distribuciones discretas.
• Todas Continuas – Presionar este botón para seleccionar todas las distribuciones continuas.
• Localización-Escala – Presionar este botón para seleccionar todas las distribuciones que son
parametrizadas por un parámetro de localización (como la media) y uno de escala (como la
desviación estándar).
• Umbral - Presionar este botón para seleccionar todas las distribuciones que contienen un
parámetro umbral inferior.
• Todas – Presionar este botón para seleccionar todas las distribuciones.
• Limpiar – Presionar este botón para deseleccionar todas las distribuciones.
• Pruebas – Presionar este botón para desplegar la caja de dialogo usada para especificar las
estadísticas deseadas de bondad-de-ajuste:

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 10


STATGRAPHICS – Rev. 9/14/2006

• Incluir – Las estadísticas de bondad-de-ajuste que serán incluidas en la tabla. La lista


incluye funciones de verosimilitud y varias estadísticas desplegadas en el panel Bondad-
de-ajuste.

• Ordenar Por – Seleccione una de las estadísticas para ordenar las distribuciones de
mejor a peor.

Gráfico Cuantil
El Gráfico Cuantil muestra la fracción de observaciones en o por debajo de X, junto con la
función de distribución de acumulación de la distribución ajustada.

Gráfico Cuantil

1 Distribución
Normal
Valor Extremo Inferior
probabilidad acumulada

0.8
Weibull

0.6

0.4

0.2

0
0 0.5 1 1.5 2 2.5 3
(X 10000.0)
Distance

Para crear la grafica, los datos son ordenados del más pequeño al más grande y los valores no
censurados son graficados en las coordenadas

(Fˆ ( p ), x )
i (i ) (1)

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 11


STATGRAPHICS – Rev. 9/14/2006
donde pi son las probabilidades de Kaplan-Meier. Las probabilidades de Kaplan-Meier son
calculadas de acuerdo a

n − c +1 ⎛ n − j − c +1 ⎞
pi = 1 − ∏ ⎜ ⎟
n − 2c + 1 j∈S R ⎜⎝ n − j − c + 2 ⎟⎠
(2)
j ≤i

para todas las observaciones no censuradas mayores que el valor mas grande de los datos
censurados por la izquierda, donde SR es el conjunto de todos los valores los cuales no son
censurados por la derecha, y

n − c +1 ⎛ j−c ⎞
pi = ∏ ⎜ ⎟
n − 2c + 1 j∈S L ⎜⎝ j − c + 1 ⎟⎠
(3)
j ≥i

para todas las observaciones no censuradas menores o iguales a el valor mas grande de los datos
censurados por la izquierda, donde es el conjunto de todos los valores los cuales no son
censurados por la izquierda, y c = 0.3175.

Idealmente, los puntos deberían estar cerca de la línea de la distribución ajustada, como es el
caso en la grafica anterior

Áreas de Cola
Este panel muestra el valor de la distribución de acumulación hasta en 5 valores de X.

Áreas de Cola para Distance


Área Cola Inferior (<=)
X Normal Valor Extremo Inferior Weibull
10000.0 0.040606 0.0494898 0.0390841
20000.0 0.29219 0.256386 0.299858
30000.0 0.74206 0.822526 0.723066
40000.0 0.967583 0.999959 0.958716
50000.0 0.998829 1.0 0.998423

Área Cola Superior (>)


X Normal Valor Extremo Inferior Weibull
10000.0 0.959394 0.95051 0.960916
20000.0 0.70781 0.743614 0.700142
30000.0 0.25794 0.177474 0.276934
40000.0 0.0324166 0.000041464 0.0412835
50000.0 0.00117082 0.0 0.00157716

La tabla muestra:

• Área de Cola Inferior – La probabilidad de que la variable aleatoria sea menor o


igual a X.

• Área de Cola Superior – La probabilidad de que la variable aleatoria sea mayor o


igual a X.

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 12


STATGRAPHICS – Rev. 9/14/2006
Por ejemplo, la probabilidad de ser menor o igual a X = 10,000 para la distribución normal es
aproximadamente 0.0406.

Opciones del Panel

• Valores Críticos: Valores de X en los cuales la probabilidad acumulada será calculada.

Valores Críticos
Este panel calcula el valor de una variable aleatoria X debajo del cual yace una probabilidad
especificada.

Valores Críticos para Distance

Área Cola Inferior (<=) Normal Valor Extremo Inferior Weibull


0.01 5131.13 820.116 6466.15
0.1 13861.8 14140.0 13600.0
0.5 24570.9 24818.8 24683.6
0.9 35279.9 31624.2 36089.5
0.99 44010.6 35553.4 44939.6

La tabla muestra los valores mas pequeños de X tal que la probabilidad de ser menor o igual a X
es al menos el área de cola deseada. La tabla anterior muestra que la c.d.f. de una distribución
normal ajustada es igual a 0.01 en X = 5,131.13.

Opciones del Panel

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 13


STATGRAPHICS – Rev. 9/14/2006
• Áreas de Cola: Valores de la c.d.f. por lo menos para determinar porcentajes de las
distribuciones ajustadas.

Gráfico Cuantil-Cuantil
El gráfico Cuantil-Cuantil muestra la fracción de observaciones en o por debajo de X graficadas
versus los percentiles equivalentes de las distribuciones ajustadas.

Gráfica Cuantil-Cuantil
(X 10000.0)
3 Distribución
Normal
2.5 Valor Extremo Inferior
Weibull
2
Distance

1.5

0.5

0
0 0.5 1 1.5 2 2.5 3
(X 10000.0)
Normal distribución

Una distribución, seleccionada usando Opciones del panel, es usada para definir el eje X y es
representada por la línea diagonal. Las otras son representadas por curvas.

En la grafica anterior, la distribución ajustada normal ha sido usada para definir el eje X. Con
una muestra pequeña, es muy difícil elegir entre las distribuciones.

Opciones del Panel

• Distribución de Escala para el Eje X: La distribución usada para escalar el eje horizontal,
correspondiente a la línea diagonal.

• Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.
Incrementa este valor si las líneas no son suficientemente suaves.

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 14


STATGRAPHICS – Rev. 9/14/2006
Funciones de Distribución 1 y 2
Estos dos paneles grafica varias funciones para las distribuciones ajustadas.

Función de Densidad
(X 0.00001)
8 Distribución
Normal
Valor Extremo Inferior
6 Weibull
densidad

0
0 1 2 3 4 5 6
(X 10000.0)
Distance

Usando Opciones del Panel, se pueden graficar cualquiera de las siguientes:

1. Densidad de Probabilidad o función de masa


2. Función de Distribución Acumulada
3. Función de Supervivencia
4. Log Función de Supervivencia
5. Función de Riesgo

Para las definiciones de estas funciones, ver la documentación para Distribuciones de


Probabilidad.

Opciones del Panel

• Graficar: La función a graficar.

• Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.
Incrementa este valor si las líneas no son suficientemente suave.
© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 15
STATGRAPHICS – Rev. 9/14/2006

Cálculos

Estimación de Parámetros
Los estimadores de los parámetros son obtenido usando Estimación de Máxima Verosimilitud
(EMV), donde la función de verosimilitud es dada por

n
L = ∏ l ( xi ) (4)
i =1

⎧ F ( xi ) left − censored

l ( xi ) = ⎨ f ( xi ) if xi is uncensored (5)
⎪1 − F ( x ) right − censored
⎩ i

Prueba Chi-Cuadrada – Cuando realizamos esta prueba, después de que los intervalos iniciales
son construidos, todas las clases incluyendo la observación más grande de las censuradas por la
izquierda son combinadas en una sola clase inferior. Adicionalmente, todas las clases incluyendo
la las observación mas pequeña de las censuradas por la derecha son combinadas en una sola
clase superior. En algunos casos, esto puede no dejar suficientes clases para realizar la prueba.

Prueba EDF – Para la prueba Kolmogorov-Smirnov y otras pruebas EDF, las pruebas son
realizadas modificando la c.d.f. empírica. Para censura aleatoria, las estadísticas Kolmogorov-
Smirnov y Kuiper son calculadas remplazando la simple función de pasos i/n por el estimador
de Kaplan-Meier

Fn ( x) = 0 , x < x(1) (6)


⎛ n− j ⎞
1− ∏ ⎜⎜ n − j + 1 ⎟⎟ , x(1) ≤ x ≤ x(n) (7)
j∈S ⎝ ⎠
x( j ) ≤ x

1 x > x(n) (8)

donde S es el conjunto de todas las observaciones no censuradas. Ninguna de las otras


estadísticas son calculadas en este caso. Para la censura de Tipo I y Tipo II, la muestra de los
valores no censurados es transformada una muestra completa sobre la región no censurada
modificando la c.d.f. ajustada de acuerdo a

Fˆ ( X i ) − A
Fˆ * ( X i ) = (9)
B−A

Para la censura de Tipo I, A es la c.d.f. ajustada evaluada en los valores de censura inferior (si
hay), mientras que B es la c.d.f. ajustada evaluada en los valores de censura superior (si hay).
Para la censura de Tipo II, A es la fracción de las observaciones que son censuradas por la
izquierda, y B es la fracción de las observaciones que son censuradas por la derecha. Las

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 16


STATGRAPHICS – Rev. 9/14/2006
formulas usuales e.d.f. son entonces usadas, remplazando n por el numero de datos no
censurados y definiendo

z i = Fˆ * (xi ) (10)

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 17

Potrebbero piacerti anche