Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
9/14/2006
Resumen
El procedimiento Ajustando Distribución (Datos Censurados) ajusta cualquiera de las 45
distribuciones de probabilidad a una columna numérica de datos censurados. La censura ocurre
cuando alguno de los valores de los datos no son conocidos exactamente. Por ejemplo, cuando
medimos tiempos de falla, algunos artículos bajo estudio pueden no haber fallado cuando
termino el estudio, resultando en una cota inferior para el tiempo de falla para estos artículos.
Distance Censores
(Distancia) (Censurado)
6700 0
6950 1
7820 1
8790 1
9120 0
9660 1
9820 1
11310 1
11690 1
11850 1
11880 1
12140 1
Cuando analizamos datos censurados, STATGRAPHICS requiere que crees una columna con un
indicador de censura, definida por:
Entrada de Datos
Los datos que serán analizados consisten de una columna numérica que contiene n observaciones
y una segunda columna que contiene indicadores de censura.
• Datos: columna que contiene las n observaciones que serán ajustadas. El número de datos no
perdidos debe ser al menos tan grande como el número de parámetros que serán estimados.
• Censura: columna que contiene los indicadores de censura. Esta columna debería contener
un 0 para cualquier renglón en el que el dato no sea censurado, un 1 si es censurado por la
derecha y -1 si es censurado por la izquierda.
Distribuciones Ajustadas
Normal Valor Extremo Inferior Weibull
media = 24570.9 modo = 26896.4 forma = 3.16047
desviación estándar = 8356.32 escala = 5668.58 escala = 27718.7
• Distribución: selecciona entre 1 y 5 distribuciones para ajustar los datos. Cada distribución
es descrita en detalle en la documentación de Distribuciones de Probabilidad. Para ayudar a
determinar cual distribución ajusta, el panel Comparación de Distribuciones Alternas
descrito abajo puede ser de gran ayuda. Las siguientes tablas pueden ser también de ayuda.
Distribuciones Discretas
Distribución Rango de los Datos Uso común
Bernoulli 0o1 Modelo para eventos con solo dos posibles
resultados.
Binomial 0, 1, 2, …, m Numero de éxitos en m ensayos Bernoulli.
Uniforme Discreta a, a+1, a+2, …, b Modelo para enteros con limites fijos
Geométrica 0, 1, 2, … Numero de ensayos hasta el primer éxito
Bernoulli.
Hipergeométrica 0, 1, 2, …, m Conteo cuando se muestrea de una población
finita.
Binomial Negativa 0, 1, 2, … Numero de ensayos hasta el k-esimo éxito
Bernoulli.
Poisson 0, 1, 2, … Numero de eventos en un intervalo fijo.
© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 3
STATGRAPHICS – Rev. 9/14/2006
Distribuciones Continuas
Distribución Rango de los Datos Uso común
Beta 0≤X≤1 Distribución de una proporción aleatoria.
Beta (4-parámetros) a ≤ X ≤ b Modelo para datos con umbrales superior e
inferior.
Birnbaum-Saunders X > 0 Tempo de Fallas.
Cauchy all real X Medidas que exhiben colas pesadas.
Chi-Cuadrada X≥0 Distribución de referencia para la varianza
muestral.
Erlang X>0 Tiempo entre k arribos en un proceso Poisson.
Exponencial X>0 Tiempo entre consecutivos eventos Poisson.
Exponencial(2- X>a Tiempos de vida con umbral inferior fijo.
parms)
Exponencial power all real X Datos simétricos con kurtosis variable.
F X≥0 Razón de dos estimadores de varianzas
independientes.
Folded Normal X≥0 Valores absolutos de datos de una distribución
normal
Gamma X≥0 Modelo para medidas positivamente sesgada.
Gamma (3- X≥a Datos positivamente sesgados con umbral
parámetros) inferior.
Gamma X>0 Incluye varias distribuciones con casos
Generalizada especiales.
Logística All real x Usada para el análisis de valores extremos.
Generalizada
Normal Truncada X≥μ Datos normales doblados alrededor de su media.
Gausiana Inversa X>0 Primer paso de tiempo en el movimiento
Browniano.
Laplace todos los reales X Datos con picos pronunciados y colas pesadas.
Valores Extremos todos los reales X Valores más grandes en una muestra.
Máximos
Logistica todos los reales X Modelo de crecimiento; alternativa común a la
normal.
Loglogistica X>0 Logs de datos de una distribución logística.
Loglogistica (3- X>a Logs de datos con umbral inferior fijo.
parámetros)
Lognormal X>0 Datos positivamente sesgados.
Lognormal (3- X>a Datos positivamente sesgados con umbral
parámetros) inferior.
Maxwell X>a Velocidad de una molécula en un gas ideal.
Chi-cuadrada No X≥0 Calculo de potencia de una prueba chi-cuadrada.
central
F No central X≥0 Calculo de potencia de una prueba F.
t No central todos los reales X Calculo de potencia de una prueba t
Normal todos los reales X Datos con muchas fuentes de variabilidad.
Pareto X≥1 Cantidades socio-económicas con colas pesadas
en la derecha
Pareto (2- X≥a Cantidades socio-económicas con umbral
• Parámetros del umbral extendidos– cuando se ajusta distribuciones que tienen uno o mas
parámetros umbrales, puedes especificar estos parámetros o estimarlos de los datos. Las
distribuciones relevantes son:
Prueba de Bondad-de-Ajuste
El panel de Prueba de Bondad-de-Ajuste realiza hasta 7 diferentes pruebas para determinar si es
razonable que los datos provengan de la distribución ajustada. Para todas las pruebas, las
hipótesis de interés son:
La prueba que será corrida es seleccionada usando las Opciones del Panel.
• Incluir: Seleccione una o mas pruebas a realizar. Para la prueba chi-cuadrada, selecciones
use clases equiprobables para agrupar los datos en clases con frecuencia esperadas iguales. .
Si esta opción no es elegida las clases serán creadas del Histograma de Frecuencias.
Aleatoria – Indica que los datos han sido aleatoriamente censurados. La censura aleatoria
ocurre cuando los valores son censurados por varias razones, no caen dentro de los
mecanismos Tipo I o Tipo II.
Tipo I - Indica que los datos son “censura por tiempo”, i.e., artículos han sido removidos
de una prueba en un tiempo preespecificado. Si este tipo de censura es seleccionado,
todos los valores censurados deben de ser igual o un mensaje de error será generado.
Tipo II – Indica que la prueba fue detenida después de que ocurrió un número
predeterminado de fallas. Si este tipo de censura es seleccionado, todos los valores
censurados deben de ser igual o un mensaje de error será generado.
8 Distribución
Normal
Valor Extremo
6
Weibull
frecuencia
0
0 0.5 1 1.5 2 2.5 3
(X 10000.0)
Distance
Si los datos contienen muchas observaciones censuradas, como en la grafica anterior, las
distribuciones ajustadas pueden no parecer emparejar las barras.
• Numero de Clases: El numero de intervalos en los cuales los datos serán divididos. Los
intervalos son adyacentes y tienen igual anchura. El numero de intervalos en los cuales los
datos serán divididos por defecto es fijado en la pestaña EDA de la caja de dialogo de
Preferencias en el menú Editar.
• Desplegar: La manera en la cual las frecuencias son desplegadas. Un Histograma escala las
barras de acuerdo al número de observaciones en cada clase. Un Rotograma escala las barras
de acuerdo a la raíz cuadrada del número de observaciones. Un Rotograma Suspendido
escala por la raíz cuadrada y suspende las barras de la curva. La idea de usar raíces cuadradas
es para igualar la varianza de las desviaciones entre las barras y la curva, lo cual de otra
forma incrementaría con una frecuencia creciente. La idea de suspender las barras de la curva
es permitir una comparación visual sencilla con la línea horizontal graficada en 0, ya que la
comparación visual con una línea curva puede ser engañosa.
Este panel automáticamente muestra una colección de distribuciones diferentes y las despliega en
orden de acuerdo a que tan bien ajustan los datos.
La tabla muestra:
Las distribuciones son ordenadas de mejor a peor de acuerdo a una de las columnas de bondad-
de-ajuste. Esta columna es seleccionada usando el botón Pruebas en la caja de dialogo de las
Opciones del Panel. La tabla anterior muestra las distribuciones ordenadas de acuerdo al valor de
• Distribución: Seleccione las distribuciones que ajustaran los datos. Las distribuciones
seleccionadas actualmente son transparentadas ya que ellas siempre estarán incluidas.
• Más Común – Presionar este botón para seleccionar las distribuciones mas comúnmente
usadas (continuas).
• Todas Discretas – Presionar este botón para seleccionar todas las distribuciones discretas.
• Todas Continuas – Presionar este botón para seleccionar todas las distribuciones continuas.
• Localización-Escala – Presionar este botón para seleccionar todas las distribuciones que son
parametrizadas por un parámetro de localización (como la media) y uno de escala (como la
desviación estándar).
• Umbral - Presionar este botón para seleccionar todas las distribuciones que contienen un
parámetro umbral inferior.
• Todas – Presionar este botón para seleccionar todas las distribuciones.
• Limpiar – Presionar este botón para deseleccionar todas las distribuciones.
• Pruebas – Presionar este botón para desplegar la caja de dialogo usada para especificar las
estadísticas deseadas de bondad-de-ajuste:
• Ordenar Por – Seleccione una de las estadísticas para ordenar las distribuciones de
mejor a peor.
Gráfico Cuantil
El Gráfico Cuantil muestra la fracción de observaciones en o por debajo de X, junto con la
función de distribución de acumulación de la distribución ajustada.
Gráfico Cuantil
1 Distribución
Normal
Valor Extremo Inferior
probabilidad acumulada
0.8
Weibull
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 3
(X 10000.0)
Distance
Para crear la grafica, los datos son ordenados del más pequeño al más grande y los valores no
censurados son graficados en las coordenadas
(Fˆ ( p ), x )
i (i ) (1)
n − c +1 ⎛ n − j − c +1 ⎞
pi = 1 − ∏ ⎜ ⎟
n − 2c + 1 j∈S R ⎜⎝ n − j − c + 2 ⎟⎠
(2)
j ≤i
para todas las observaciones no censuradas mayores que el valor mas grande de los datos
censurados por la izquierda, donde SR es el conjunto de todos los valores los cuales no son
censurados por la derecha, y
n − c +1 ⎛ j−c ⎞
pi = ∏ ⎜ ⎟
n − 2c + 1 j∈S L ⎜⎝ j − c + 1 ⎟⎠
(3)
j ≥i
para todas las observaciones no censuradas menores o iguales a el valor mas grande de los datos
censurados por la izquierda, donde es el conjunto de todos los valores los cuales no son
censurados por la izquierda, y c = 0.3175.
Idealmente, los puntos deberían estar cerca de la línea de la distribución ajustada, como es el
caso en la grafica anterior
Áreas de Cola
Este panel muestra el valor de la distribución de acumulación hasta en 5 valores de X.
La tabla muestra:
Valores Críticos
Este panel calcula el valor de una variable aleatoria X debajo del cual yace una probabilidad
especificada.
La tabla muestra los valores mas pequeños de X tal que la probabilidad de ser menor o igual a X
es al menos el área de cola deseada. La tabla anterior muestra que la c.d.f. de una distribución
normal ajustada es igual a 0.01 en X = 5,131.13.
Gráfico Cuantil-Cuantil
El gráfico Cuantil-Cuantil muestra la fracción de observaciones en o por debajo de X graficadas
versus los percentiles equivalentes de las distribuciones ajustadas.
Gráfica Cuantil-Cuantil
(X 10000.0)
3 Distribución
Normal
2.5 Valor Extremo Inferior
Weibull
2
Distance
1.5
0.5
0
0 0.5 1 1.5 2 2.5 3
(X 10000.0)
Normal distribución
Una distribución, seleccionada usando Opciones del panel, es usada para definir el eje X y es
representada por la línea diagonal. Las otras son representadas por curvas.
En la grafica anterior, la distribución ajustada normal ha sido usada para definir el eje X. Con
una muestra pequeña, es muy difícil elegir entre las distribuciones.
• Distribución de Escala para el Eje X: La distribución usada para escalar el eje horizontal,
correspondiente a la línea diagonal.
• Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.
Incrementa este valor si las líneas no son suficientemente suaves.
Función de Densidad
(X 0.00001)
8 Distribución
Normal
Valor Extremo Inferior
6 Weibull
densidad
0
0 1 2 3 4 5 6
(X 10000.0)
Distance
• Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.
Incrementa este valor si las líneas no son suficientemente suave.
© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 15
STATGRAPHICS – Rev. 9/14/2006
Cálculos
Estimación de Parámetros
Los estimadores de los parámetros son obtenido usando Estimación de Máxima Verosimilitud
(EMV), donde la función de verosimilitud es dada por
n
L = ∏ l ( xi ) (4)
i =1
⎧ F ( xi ) left − censored
⎪
l ( xi ) = ⎨ f ( xi ) if xi is uncensored (5)
⎪1 − F ( x ) right − censored
⎩ i
Prueba Chi-Cuadrada – Cuando realizamos esta prueba, después de que los intervalos iniciales
son construidos, todas las clases incluyendo la observación más grande de las censuradas por la
izquierda son combinadas en una sola clase inferior. Adicionalmente, todas las clases incluyendo
la las observación mas pequeña de las censuradas por la derecha son combinadas en una sola
clase superior. En algunos casos, esto puede no dejar suficientes clases para realizar la prueba.
Prueba EDF – Para la prueba Kolmogorov-Smirnov y otras pruebas EDF, las pruebas son
realizadas modificando la c.d.f. empírica. Para censura aleatoria, las estadísticas Kolmogorov-
Smirnov y Kuiper son calculadas remplazando la simple función de pasos i/n por el estimador
de Kaplan-Meier
Fˆ ( X i ) − A
Fˆ * ( X i ) = (9)
B−A
Para la censura de Tipo I, A es la c.d.f. ajustada evaluada en los valores de censura inferior (si
hay), mientras que B es la c.d.f. ajustada evaluada en los valores de censura superior (si hay).
Para la censura de Tipo II, A es la fracción de las observaciones que son censuradas por la
izquierda, y B es la fracción de las observaciones que son censuradas por la derecha. Las
z i = Fˆ * (xi ) (10)