Sei sulla pagina 1di 27

STATGRAPHICS – Rev.

9/14/2006

Ajustando Distribución (Datos No Censurados)

Resumen
El procedimiento Ajustando Distribución (Datos No Censurados) ajusta cualquiera de las 45
distribuciones de probabilidad a una columna numérica de datos. Los datos se asumen que no
son censurados, i.e., los datos representan muestras aleatorias de la distribución seleccionada. Si
los datos han sido censurados debido al límite de detección o alguna otra causa, use el
procedimiento Ajuste de Distribución (Datos Censurados).

Ejemplo StatFolio: distfit uncensored.sgp

Datos del Ejemplo:


El archivo groundwater.sf3 contiene n = 47 medidas de concentración de uranio en agua
subterranea, muestras tomadas de una lugar en el noroeste de Texas. La tabla siguiente muestra
una lista parcial de los datos del archivo:

ppm
8.25
2.82
4.16
18.66
12.72
8.75
2.29
7.22
9.76
7.72
27.38
5.14

Se desea encontrar una distribución de probabilidad que provea un modelo adecuado para la
variación muestral que permita una referencia para comparar futuras muestras.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 1


STATGRAPHICS – Rev. 9/14/2006
Entrada de Datos
Los datos que son analizados consisten de una sola columna numérica que contiene n = 2 o mas
observaciones.

• Datos: Columna numérica que contiene los datos que serán analizados.

• Selección: Selección de un subconjunto de los datos.

Resumen del Análisis


El Resumen del Análisis muestra el número de observaciones, el rango de los datos, y los valores
de los parámetros estimados para cada distribución que es ajustada a los datos.

Datos No Censurados - ppm


Datos/Variable: ppm

47 valores con rango desde 0.74 a 47.78

Distribuciones Ajustadas
Gamma Lognormal Normal Weibull
forma = 1.56457 media = 13.7033 media = 12.8219 forma = 1.28496
escala = 0.122023 desviación estándar = 15.6921 desviación estándar = 10.445 escala = 13.8975
Escala log: media = 2.19873
Escala log: desv. est. = 0.915324

Los parámetros desplegados dependen de la distribución seleccionada (ver la documentación


para el procedimiento de Distribuciones de Probabilidad). Los estimadores son obtenidos
usando Estimación de Máxima Verosimilitud (EMV). Se puede ajustar entre 1 y 5 distribuciones
al mismo tiempo usando Opciones del Análisis.

En la tabla anterior, 4 distribuciones han sido ajustadas a los datos de agua subterránea. Las
distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las
distribuciones lognormal y normal están definidas por su media y desviación estándar. En el
caso de la distribución lognormal, la media y la desviación estándar de los logaritmos naturales
de ppm también son mostrados.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 2


STATGRAPHICS – Rev. 9/14/2006
Opciones del Análisis

• Distribución: Selecciona entre 1 y 5 distribuciones para ajustar los datos. Cada distribución
es descrita en detalle en la documentación Distribuciones de Probabilidad. Para ayudar a
determinar que distribuciones ajustan, el panel Comparación de Distribuciones Alternas
descrito enseguida puede ser de gran ayuda. Las siguientes tablas pueden ser de ayuda.

Distribuciones Discretas
Distribución Rango de los Datos Uso común
Bernoulli 0o1 Modelo para eventos con solo dos posibles
resultados.
Binomial 0, 1, 2, …, m Numero de éxitos en m ensayos Bernoulli.
Uniforme Discreta a, a+1, a+2, …, b Modelo para enteros con limites fijos
Geométrica 0, 1, 2, … Numero de ensayos hasta el primer éxito
Bernoulli.
Hypergeométrica 0, 1, 2, …, m Conteo cuando se muestrea de una población
finita.
Binomial Negativa 0, 1, 2, … Numero de ensayos hasta el k-ésimo éxito
Bernoulli.
Poisson 0, 1, 2, … Numero de eventos en un intervalo fijo.

Distribuciones Continuas
Distribución Rango de los Datos Uso común
Beta 0≤X≤1 Distribución de una proporción aleatoria.
Beta (4-parámetros) a ≤ X ≤ b Modelo para datos con umbrales superior e
inferior.
Birnbaum-Saunders X > 0 Tempo de Fallas.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 3


STATGRAPHICS – Rev. 9/14/2006
Cauchy todos los reales X Medidas que exhiben colas pesadas.
Chi-Cuadrada X≥0 Distribución de referencia para la varianza
muestral.
Erlang X>0 Tiempo entre k arribos en un proceso Poisson.
Exponencial X>0 Tiempo entre consecutivos eventos Poisson.
Exponencial(2- X>a Tiempos de vida con umbral inferior fijo.
parms)
Exponencial power todos los reales X Datos simétricos con curtosis variable.
F X≥0 Razón de dos estimadores de varianzas
independientes.
Folded Normal X≥0 Valores absolutos de datos de una distribución
normal
Gamma X≥0 Modelo para medidas positivamente sesgada.
Gamma (3- X≥a Datos positivamente sesgados con umbral
parámetros) inferior.
Gamma X>0 Incluye varias distribuciones con casos
Generalizada especiales.
Logística Todos los reales x Usada para el análisis de valores extremos.
Generalizada
Normal Truncada X≥μ Datos normales doblados alrededor de su media.
Gausiana Inversa X>0 Primer paso de tiempo en el movimiento
Browniano.
Laplace todos los reales X Datos con picos pronunciados y colas pesadas.
Valores Extremos todos los reales X Valores más grandes en una muestra.
Máximos
Logística todos los reales X Modelo de crecimiento; alternativa común a la
normal.
Loglogistica X>0 Logs de datos de una distribución logística.
Loglogistica (3- X > a Logs de datos con umbral inferior fijo.
parámetros)
Lognormal X>0 Datos positivamente sesgados.
Lognormal (3- X > a Datos positivamente sesgados con umbral
parámetros) inferior.
Maxwell X>a Velocidad de una molécula en un gas ideal.
Chi-cuadrada No X ≥ 0 Calculo de potencia de una prueba chi-cuadrada.
central
F No central X≥0 Calculo de potencia de una prueba F.
t No central todos los reales X Calculo de potencia de una prueba t
Normal todos los reales X Datos con muchas fuentes de variabilidad.
Pareto X≥1 Cantidades socio-económicas con colas pesadas
en la derecha
Pareto (2- X≥a Cantidades socio-económicas con umbral
parámetros) inferior.
Rayleigh X>a Distancia entre objetos vecinos.
Valores Extremos todos los reales X Valore más pequeños en una muestra.
Mínimos
t de Student todos los reales X Distribución de referencia para la media.
Triangular a≤X≤b Modelo áspero en ausencia de datos.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 4


STATGRAPHICS – Rev. 9/14/2006
Uniforme a≤X≤b Datos con la misma probabilidad sobre un
intervalo.
Weibull X≥0 Tiempo de vida de productos.
Weibull (3- X ≥ a Tiempo de vida de productos con umbral inferior.
parámetros)

• Ensayos Binomial – Cuando se ajusta la distribución binomial, debes especificar el tamaño


de la muestra n.

• Ensayos Hipergeométrica – Cuando se ajusta la distribución hipergeométrica, puedes


especificar el tamaño de la muestra n. puedes especificar el parámetro tamaño de la
población N o estimarlo de los datos.

• Ensayos Binomial Negativa – Cuando se ajusta la distribución binomial negativa, puedes


especificar el parámetro k o estimarlo de los datos.

• Parámetros del umbral extendidos – Cuando se ajusta distribuciones que tienen uno o mas
parámetros umbrales, puedes especificar estos parámetros o estimarlos de los datos. Las
distribuciones relevantes son:

Beta (4-parámetros) – inferior y superior


Exponencial (2-parámetros) – inferior solamente
normal truncada(2-parámetros) – inferior solamente
gamma (3-parámetros) – inferior solamente
loglogistica (3-parámetros) – inferior solamente
lognormal (3-parámetros) – inferior solamente
Maxwell (2-parámetros) – inferior solamente
Pareto (2-parámetros) – inferior solamente
Rayleigh (2-parámetros) – inferior solamente
Weibull (2-parámetros) – inferior solamente

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 5


STATGRAPHICS – Rev. 9/14/2006

Trazas de Densidad
Un buen lugar para empezar cuando se selecciona una distribución para un conjunto de datos es
las Trazas de Densidad. Las Trazas de Densidad proveen un estimador no parametrito de la
función de densidad de probabilidad de la población de la cual los datos fueron muestreados.
Esta es formada contando el número de observaciones que caen dentro de una ventana de
anchura fija movida a través del rango de los datos.

Traza de Densidad para ppm

0.03

0.025

0.02
densidad

0.015

0.01

0.005

0
0 10 20 30 40 50
ppm

La función de densidad estimada es dada por:

1 n ⎛ x − xi ⎞
f ( x) = ∑W ⎜
hn i =1 ⎝ h ⎠
⎟ (1)

Donde h es el ancho de la ventana en unidades de X y W(u) es una función de ponderación


determinada por la selección en la caja de dialogo del Panel de Opciones. Dos formas de
funciones de ponderación son disponibles:

Función Boxcar

⎧1 if u ≤ 1 / 2
W (u ) = ⎨ (2)
⎩0 otherwise

Función Coseno

⎧1 + cos(2πu ) if u < 1 / 2
W (u ) = ⎨ (3)
⎩0 otherwise

La última selección usualmente da resultados más suaves, con el valor deseado de h que depende
del tamaño de la muestra.
En el caso de datos de agua subterránea, las trazas de densidad empiezan relativamente altas en
X = 0, incrementan a u pico, y después caen lentamente en dirección positiva. Una distribución
positivamente sesgada claramente será necesaria para modelar estos datos.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 6


STATGRAPHICS – Rev. 9/14/2006

Opciones del Panel

• Método: La función de ponderación deseada. La función boxcar pondera todos los valores
dentro de la ventana igualmente. La función coseno de pesos decrecientes a las observaciones
sobre el centro de la ventana. La selección de defecto es determinada por lo fijado en la
pestaña EDA de la caja de dialogo de Preferencias accesible desde el menú Editar.

• Ancho de Intervalo: El ancho de una ventana h dentro de la cual las observaciones afectan
la densidad estimada, como un porcentaje del rango cubierto por el eje x. h = 60% no es
irrazonable para una muestra pequeña pero puede no dar mucho detalle como un valor
pequeño en una muestra mas grande.

• Resolución del Eje X: el numero de puntos en el cual la densidad será estimada.

Gráfico de Simetría
El Grafico de Simetría puede también ser usado para ayudar a saber si los datos provienen de
una distribución simétrica, i.e., una distribución que tiene una función de densidad con la misma
forma en ambos lados alrededor de la mediana.

Gráfica de Simetría para ppm

40
distancia arriba de la mediana

30

20

10

0
0 10 20 30 40
distancia abajo de la mediana

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 7


STATGRAPHICS – Rev. 9/14/2006
Para crear esta grafica, los valores de los datos son ordenados y pareados de acuerdo a su
localización con respecto a la media. Por ejemplo, con 47 observaciones, los puntos ordenados
son pareados como:

(x(23),x(25)), (x(22),x(26)), (x(21),x(27)), …, (x(1),x(47))

La distancia de cada para abajo y arriba de la mediana es graficada. Si los datos vienen de una
distribución simétrica, loa puntos deberían caer cerca de la línea de 45 grados. Si no, los puntos
se desviaran de la línea en una direccio0n particular. Los puntos de la grafica anterior se desvían
mucho sobre la diagonal, indicando una cola mas pesada a la derecha que a la izquierda.

Pruebas de Normalidad
El panel de Pruebas de Normalidad realice 4 diferentes pruebas diseñadas para determinar si los
datos podrían razonablemente venir de una distribución normal o no. Para cada prueba las
hipótesis de interés son:

• Hipótesis Nula: los datos son muestras independientes de una distribución normal

• Hipótesis Alt.: los datos no son muestras independientes de una distribución normal

Pruebas de Normalidad para ppm


Prueba Estadístico Valor-P
Chi-Cuadrado 34.5745 0.00282602
Estadístico W de Shapiro-Wilk 0.871657 0.0000283121
Puntuación Z para asimetría 2.34972 0.0187876
Puntuación Z para curtosis 1.93069 0.0535207

Las pruebas que son corridas son seleccionadas usando las Opciones del Panel. Cada prueba es
desplegada con su con su estadística de prueba asociada y su P-Valor. P-valores pequeños
permiten rechazar la hipótesis nula y así rechazar la normalidad. En la tabla anterior, los P-
valores para las pruebas Shapiro-Wilks y Chi-Cuadrada están ambos por debajo de 0.01,
permitiendo un rechazo de la normalidad para los datos en un nivel de 99% de confianza.

Las 4 pruebas disponibles están definidas como sigue:

Prueba Chi-Cuadrada – Esta prueba divide el rango de los datos en un conjunto de k


clases equiprobables, donde

{ (
k = min 100, ceiling 3.7653(n − 1)
0. 4
)} (4)

Esta calcula el número de observaciones Oi que caen en cada clase y las frecuencias
esperadas Ei basadas en la distribución ajustada. Una estadística chi-cuadrada es
calculada de acuerdo a
2
k
(Oi − Ei )
X =∑
2
(5)
i =1 Ei

y comparada a una distribución chi-cuadrada con (k-3) grados de libertad.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 8


STATGRAPHICS – Rev. 9/14/2006
Prueba Shapiro-Wilks - Esta prueba, es disponible cuando 2 ≤ n ≤ 2000, usa una
estadística derivada de calcular que tan bien los datos caen a lo largo de la línea recta en
una grafica de probabilidad normal. En el cálculo de la estadística y su P-valor,
STATGRAPHICS usa el método de Roysten como en la Sección 1.2 de Madansky
(1988).

Valor-Z para Sesgo – Calcula el sesgo muestral y determina si es significativamente


diferente de 0. El valor Z es calculado de acuerdo a la SU aproximación descrita en p.377
de D’Agostino y Stephens (1986) y es disponible solamente si n ≥ 8.

Valor-Z para curtosis – Calcula la curtosis muestral y determina si es significativamente


diferente de cero. El Z valor es calculado de acuerdo a la aproximación Anscombe y
Glynn descrita en p.388 de D’Agostino y Stephens (1986) y es disponible solamente si n
≥ 20.

Opciones del Panel

• Incluir – Selecciona las pruebas que serán incluidas en la salida. Las pruebas defecto son
definidas en la caja de dialogo de Ajuste de Dist. de la pestaña de Preferencias en el menú
Edición.

Prueba de Bondad-de-Ajuste
El panel de Prueba de Bondad-de-Ajuste realiza hasta 7 diferentes pruebas para determinar si es
razonable que los datos provengan de la distribución ajustada. Para todas las pruebas, las
hipótesis de interés son:

• Hipótesis Nula: los datos son muestras independientes de la distribución especificada

• Hipótesis Alt: los datos no son muestras independientes de la distribución especificada

La prueba que será corrida es seleccionada usando las Opciones del Panel.

Las primaras 2 pruebas en general pueden ser aplicadas a cualquier conjunto de datos:

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 9


STATGRAPHICS – Rev. 9/14/2006

Pruebas de Bondad-de-Ajuste para ppm


Prueba Chi-Cuadrada
Gamma Lognormal Normal Weibull
Chi-Cuadrada 8.53197 10.0639 34.575 8.53191
G.l. 15 15 15 15
Valor-P 0.900692 0.815699 0.00282556 0.900694

Prueba de Kolmogorov-Smirnov
Gamma Lognormal Normal Weibull
DMAS 0.077951 0.0441855 0.181741 0.0889679
DMENOS 0.0905791 0.0953022 0.123694 0.0833416
DN 0.0905791 0.0953022 0.181741 0.0889679
Valor-P 0.835346 0.786792 0.0896715 0.850863

Prueba Chi-Cuadrada – Esta prueba divide el rango de X en k intervalos y compara los


conteos observados

Oj = numero de datos observados en el intervalo j

a el numero esperado dada la distribución ajustada

Ej = numero esperado de datos en el intervalo j.

La prueba estadística es dada por

k (O − Ej )
2

χ =∑
2 j
(6)
j =1 Ej

la cual es comparada a una distribución chi-cuadrada con k-p-1 grados de libertad, donde
p es el numero de parámetros estimados cuando ajustamos la distribución seleccionada.
Para una distribución discreta, los intervalos son formados tomando cada valor único de
X y agrupando valores juntos de cada extremo, formando intervalos con valores
esperados Ej ≥ 2. Para una distribución continua, intervalos equiprobables son formados
(intervalos con igual Ej) y k se selecciona para alcanzar el mas grande numero de
intervalos con Ej ≥ 2. P-valores pequeños permiten rechazar la distribución supuesta. En
la tabla anterior, la prueba rechaza la hipótesis de una distribución normal en un nivel de
significancia del 1% ya que el P-valor is menos que 0.01. Aunque, las demás
distribuciones son candidatos razonables.

Prueba Kolmogorov-Smirnov – Esta prueba compara la distribución de acumulación de


los datos a la distribución de acumulación ajustada (como se muestra en la grafica
Cuantil enseguida). Este primero evalúa la distribución de acumulación ajustada en cada
uno de los datos:

z ( i ) = Fˆ (x( i ) ) (7)

y entonces calcula y muestra el máximo de las distancias de la c.d.f. empírica por encima
de la c.d.f. ajustada

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 10


STATGRAPHICS – Rev. 9/14/2006
⎧i ⎫ (8)
D + = max ⎨ − z (i ) ⎬
i
⎩n ⎭

y el máximo de las distancias de la c.d.f. empírica por debajo de la c.d.f. ajustada.

⎧ i − 1⎫ (9)
D − = max ⎨ z (i ) − ⎬
i
⎩ n ⎭

La estadística Kolmogorov es la más grande de las dos distancias

(
D = max D + , D − ) (10)

Un P-valor aproximado es entonces calculado. En la tabla anterior, ninguna de las


distribuciones es rechazada por la prueba en un nivel de 5% significancia.

Las otras 5 pruebas, 2 dos de las cuales son mostradas enseguida, tienen ambas una forma
estándar y una forma modificada:

D de Kolmogorov-Smirnov Modificada
Gamma Lognormal Normal Weibull
D 0.0905791 0.0953022 0.181741 0.0889679
Forma Modificada 0.633302 0.666324 1.26667 0.609933
Valor-P >=0.10* >=0.10* <0.01* >=0.10*

Anderson-Darling A^2
Gamma Lognormal Normal Weibull
A^2 0.331698 0.322124 1.87405 0.372536
Forma Modificada 0.322124 1.90586 0.383404
Valor-P * >=0.10* 0.0000734208* >=0.10*
*Indica que el Valor-P se ha comparado con tablas de valores críticos especialmente construida para ajustar la distribución
seleccionada. Otros valores-P están basados en tablas generales y pueden ser muy conservadores (excepto para la Prueba de chi-
cuadrada).

La “forma modificada” de la estadística es especificada a la distribución que es ajustada. Para


determinar si rechazamos una distribución especificada, una de las dos aproximaciones es
tomada:

1. En muchos casos, la estadística modificada es comparada a la tabla de valores críticos


que ha sido obtenida a través de estudios Monte Carlo. En tal caso, la salida desplegara
una de las siguientes:

“>=0.10” si la estadística es menor o igual al valor tabulado para α=0.10.

“<0.10” si la estadística es mayor o igual al valor tabulado para α=0.10 y menor o


igual al valor tabulado para α=0.05.

“<0.05” si la estadística es mayor o igual al valor tabulado para α=0.05 y menor o


igual al valor tabulado para α=0.01.

“<0.01” si la estadística es mayor o igual al valor tabulado para α=0.01.

2. En pocos casos, P-valores aproximados son calculados.


© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 11
STATGRAPHICS – Rev. 9/14/2006

Detalles y tablas de valores críticos pueden ser encontrados en D’Agostino y Stephens (1988).

Las estadísticas disponibles son:

Kolmogorov-Smirnov D – Esta estadística calcula la distancia máxima entre la c.d.f.


empírica y la c.d.f. ajustada, como se discutió antes.

Kuiper V - Esta estadística, es calculada de las estadísticas Kolmogorov de acuerdo a

V = D+ + D− (11)

es frecuentemente usada para mediciones de puntos los cuales están distribuidos en un


circulo.

Cramer-Von Mises W2 - Esta estadística esta relacionada a el área entre la c.d.f.


empírica y ajustada. Es calculada de acuerdo a:
2
n
⎛ 2i − 1 ⎞ 1
W 2 = ∑ ⎜ z (i ) − ⎟ + (12)
i =1 ⎝ 2 n ⎠ 12 n

Watson U2 - Esta estadística es una versión modificada de W2 diseñada para datos sobre
un círculo. Es calculada de acuerdo a:

U 2 = W 2 − n( z − 0.5) 2 (13)

Anderson-Darling A2 - Esta estadística es una medida ponderada del área entre la c.d.f.
empírica y ajustada. Es calculada de acuerdo a:

∑ ((2i − 1)ln( z ) + (2n + 1 − 2i ) ln(1 − z (i ) ) )


n

(i )
A = −n −
2 i =1 (14)
n

De acuerdo a las pruebas mostradas en la tabla anterior, cualquiera de las tres distribuciones
excepto la normal daría un modelo razonable para los datos.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 12


STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel

• Incluir: Seleccione una o mas pruebas a realizar. Para la prueba chi-cuadrada, selecciones
use clases equiprobables para agrupar los datos en clases con frecuencia esperadas iguales.
Si esta opción no es seleccionada, las clases serán creadas de acuerdo al Histograma de
Frecuencias.

• Calculo de los P-Valores en la distribución específica – Si es seleccionado, los Valores-P


serán basados en tablas o formulas específicamente desarrolladas para la distribución que es
probada. De otra manera, los P-Valores serán basados en tablas o formulas generales que
aplican a todas las distribuciones. La aproximación general es mas conservadora (no rechazar
una distribución tan fácilmente) pero puede ser preferida cuando comparamos Valores-P
entre distribuciones diferentes.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 13


STATGRAPHICS – Rev. 9/14/2006

Histograma de Frecuencias
La mejor forma para ver distribuciones ajustadas es a través del Histograma de Frecuencias.
Este panel muestra un histograma de los datos como un conjunto de barras verticales, junto con
la densidad de probabilidad estimada o más funciones.

Histograma para ppm

15 Distribución
Gamma
12 Lognormal
Normal
Weibull
frecuencia

0
0 20 40 60 80
ppm

Note que las 3 distribuciones no normales son positivamente sesgadas. Las distribuciones
gamma y Weibull son cercanamente idénticas, y la distribución lognormal tiene el pico más
grande.

Opciones del Panel

• Numero de Clases: El numero de intervalos en los cuales los datos serán divididos. Los
intervalos son adyacentes y tienen igual anchura. El numero de intervalos en los cuales los
datos serán divididos por defecto es fijado en la pestaña EDA de la caja de dialogo de
Preferencias en el menú Edición.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 14


STATGRAPHICS – Rev. 9/14/2006
• Limite Inferior: Limite inferior del primer intervalo.

• Limite Superior: Limite superior del primer intervalo.

• Mantener: Mantiene el número de intervalos y limites iguales aunque la fuente de datos


cambie. Por defecto, el número de clases y los límites son recalculados cuando los datos
cambian. Es necesario que todas las observaciones sean desplegadas por si algún dato
actualizado cae más allá de los límites originales.

• Desplegar: La manera en la cual las frecuencias son desplegadas. Un Histograma escala las
barras de acuerdo al número de observaciones en cada clase. Un Rotograma escala las barras
de acuerdo a la raíz cuadrada del número de observaciones. Un Rotograma Suspendido
escala por la raíz cuadrada y suspende las barras de la curva.

Ejemplo – Rotograma Suspendido para una Distribución Normal

Diagrama de raíz suspendido para ppm

2.8 Distribución
Normal

1.8
RAIZ(frecuencia)

0.8

-0.2

-1.2
0 20 40 60 80
ppm

La idea de usar raíces cuadradas es para igualar la varianza de las desviaciones entre las barras y
la curva, lo cual de otra forma incrementaría con una frecuencia creciente. La idea de suspender
las barras de la curva es permitir una comparación visual sencilla con la línea horizontal
graficada en 0, ya que la comparación visual con una línea curva puede ser engañosa.
Estadísticamente, hay grandes discrepancias entre el histograma y la distribución normal ajustada
en la grafica anterior.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 15


STATGRAPHICS – Rev. 9/14/2006

Comparación de Distribuciones Alternas

Este panel automáticamente muestra una colección de distribuciones diferentes y las despliega en
orden de acuerdo a que tan bien ajustan los datos.

Comparación de Distribuciones Alternas


Distribución Parámetros Est. Log Verosimilitud KS D A^2
Weibull (3-Parámetros) 3 -163.681 0.0858494 0.278173
Lognormal (3-Parámetros) 3 -164.894 0.100318 0.292702
Lognormal 2 -165.372 0.0953022 0.322124
Gamma 2 -164.4 0.0905791 0.331698
Loglogística 2 -165.949 0.0988569 0.342383
Weibull 2 -164.705 0.0889679 0.372536
Birnbaum-Saunders 2 -165.678 0.100989 0.559682
Normal Plegada 2 -165.778 0.116524 0.572653
Exponencial 1 -166.904 0.123457 0.975354
Valor Extremo Superior 2 -168.64 0.112849 1.00414
Logística 2 -175.464 0.130926 1.58494
Maxwell 2 -171.962 0.178343 1.71863
Rayleigh 2 -170.128 0.181461 1.82623
Normal 2 -176.458 0.181741 1.87405
Laplace 2 -175.979 0.16334 2.15572
Valor Extremo Inferior 2 -188.009 0.223254 3.30569
Uniforme 2 -180.997 0.414645

La tabla muestra:

• Distribución – El nombre de la distribución ajustada. Tú puedes seleccionar


distribuciones adicionales usando las Opciones del Panel.

• Parámetros Est. – El numero de parámetros estimados para esta distribución.

• Log Verosimilitud – El logaritmo natural de la función de verosimilitud. Valores


mas grandes tienden a indicar mejores ajustes de las distribuciones.

• KS D, A^2, y otras estadísticas – Valores de varias estadísticas de bondad-de-ajuste,


seleccionadas usando el botón Pruebas en la caja de dialogo de las Opciones del
Panel. Valores mas pequeños tienden a indicar mejores ajustes de las distribuciones.

Las distribuciones son ordenadas de mejor a peor de acuerdo a una de las columnas de bondad-
de-ajuste. Esta columna es seleccionada usando el botón Pruebas en la caja de dialogo de las
Opciones del Panel. La tabla anterior muestra las distribuciones ordenadas de acuerdo al valor de
la estadística Anderson-Darling A2. De acuerdo a esta estadística, la Weibull de 3-parámetros
ajusta mejor.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 16


STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel

• Distribución: Seleccione las distribuciones que ajustaran los datos. Las distribuciones
seleccionadas actualmente son transparentadas ya que ellas siempre estarán incluidas.

• Más Común: Presionar este botón para seleccionar las distribuciones mas comúnmente
usadas (continuas).

• Todas Discretas: Presionar este botón para seleccionar todas las distribuciones discretas.

• Todas Continuas: Presionar este botón para seleccionar todas las distribuciones continuas.

• Localización-Escala: Presionar este botón para seleccionar todas las distribuciones que son
parametrizadas por un parámetro de localización (como la media) y uno de escala (como la
desviación estándar).

• Umbral: Presionar este botón para seleccionar todas las distribuciones que contienen un
parámetro umbral inferior.

• Todas: Presionar este botón para seleccionar todas las distribuciones.

• Limpiar: Presionar este botón para deseleccionar todas las distribuciones.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 17


STATGRAPHICS – Rev. 9/14/2006
• Pruebas: Presionar este botón para desplegar la caja de dialogo usada para especificar las
estadísticas deseadas de bondad-de-ajuste:

• Incluir – Las estadísticas de bondad-de-ajuste que serán incluidas en la tabla. La lista


incluye funciones de verosimilitud y varias estadísticas desplegadas en el panel Bondad-
de-ajuste.

• Ordenar Por – Seleccione una de las estadísticas para ordenar las distribuciones de
mejor a peor.

Una grafica de las mejores 4 distribuciones es mostrada abajo:

Histograma para ppm

15 Distribución
Gamma
12 Lognormal
Normal
Weibull
frecuencia

0
0 20 40 60 80
ppm

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 18


STATGRAPHICS – Rev. 9/14/2006

Gráfico Cuantil
El Grafico Cuantil muestra la fracción de observaciones en o por debajo de X, junto con la
función de distribución de acumulación de la distribución ajustada.

Gráfico Cuantil

1 Distribución
Gamma
probabilidad acumulada

0.8 Lognormal
Normal
Weibull
0.6

0.4

0.2

0
0 10 20 30 40 50
ppm

Para crear la grafica, los datos son ordenados del más pequeño al más grande y graficados en las
coordenadas

⎛ j − 0 .5 ⎞ (15)
⎜ x( j ) , ⎟
⎝ n ⎠

Idealmente, los puntos deberían estar cerca de la línea de la distribución ajustada, como es el
caso en la grafica anterior menos para la normal.

Áreas de Cola
Este panel muestra el valor de la distribución de acumulación hasta en 5 valores de X.

Áreas de Cola para ppm


Área Cola Inferior (<=)
X Gamma Lognormal Normal Weibull
10.0 0.490227 0.545171 0.393514 0.48063
15.0 0.679938 0.711046 0.582594 0.66815
20.0 0.805085 0.808051 0.75403 0.797378
25.0 0.883611 0.867472 0.878177 0.88075
30.0 0.931454 0.905528 0.949976 0.931978

Área Cola Superior (>)


X Gamma Lognormal Normal Weibull
10.0 0.509773 0.454829 0.606486 0.51937
15.0 0.320062 0.288954 0.417406 0.33185
20.0 0.194915 0.191949 0.24597 0.202622
25.0 0.116389 0.132528 0.121823 0.11925
30.0 0.0685455 0.0944719 0.0500244 0.0680221

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 19


STATGRAPHICS – Rev. 9/14/2006
La tabla muestra:

• Área de Cola Inferior – La probabilidad de que la variable aleatoria sea menor o


igual a X.

• Área de Cola Superior – La probabilidad de que la variable aleatoria sea mayor o


igual a X.

Por ejemplo, la probabilidad de ser menor o igual a X = 10 para la distribución gamma es


aproximadamente 0.4902.

Opciones del Panel

• Valores Críticos: Valores de X en los cuales la probabilidad de acumulación será calculada.

Valores Críticos
Este panel calcula el valor de una variable aleatoria X debajo del cual yace una probabilidad
especificada.

Valores Críticos para ppm

Área Cola Inferior (<=) Gamma Lognormal Normal Weibull


0.01 0.547556 1.07182 -11.4769 0.387408
0.1 2.62818 2.78902 -0.563978 2.41186
0.5 10.2174 9.01355 12.8219 10.4487
0.9 26.4455 29.1299 26.2078 26.5964
0.99 47.5454 75.7997 37.1208 45.6136

La tabla muestra los valores mas pequeños de X tal que la probabilidad de ser menor o igual a X
es al menos el área de cola deseada. La tabla anterior muestra que la c.d.f. de una distribución
gamma ajustada es igual a 0.01 en X = 0.548.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 20


STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel

• Áreas de Cola: Valores de la c.d.f. por lo menos para determinar porcentajes de las
distribuciones ajustadas.

Gráfico Cuantil-Cuantil
El grafico Cuantil-Cuantil muestra la fracción de observaciones en o por debajo de X graficadas
versus los percentiles equivalentes de las distribuciones ajustadas.

Gráfica Cuantil-Cuantil

50 Distribución
Gamma
40 Lognormal
Normal
Weibull
30
ppm

20

10

0
0 10 20 30 40 50
Gamma distribución

Una distribución, seleccionada usando Opciones del panel, es usada para definir el eje X y es
representada por la línea diagonal. Las otras son representadas por curvas.

En la grafica anterior, la distribución ajustada gamma ha sido usada para definir el eje X. el
hecho de que los puntos caigan cerca de la línea diagonal confirma el hecho de que la
distribución gamma provee un buen modelo para los datos, igual la distribución Weibull. La
línea lognormal es cerca en el extremo inferior, pero se desvía mucho en los datos más grandes
de X. Evidentemente, la cola de la distribución lognormal es muy pesada. La línea para la
distribución normal completamente se desvía de los datos.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 21


STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel

• Distribución de Escala para el Eje X: La distribución usada para escalar el eje horizontal,
correspondiente a la línea diagonal.

• Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.
Incrementa este valor si las líneas no son suficientemente suaves.

Funciones de Distribución 1 y 2
Estos dos paneles grafica varias funciones para las distribuciones ajustadas.

Función de Densidad

0.08 Distribución
Gamma
Lognormal
0.06 Normal
Weibull
densidad

0.04

0.02

0
0 10 20 30 40 50
ppm

Usando Opciones del Panel, se pueden graficar cualquiera de las siguientes:

1. Densidad de Probabilidad o función de masa


2. Función de Distribución Acumulada
3. Función de Supervivencia
4. Log Función de Supervivencia
5. Función de Riesgo
© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 22
STATGRAPHICS – Rev. 9/14/2006

Para las definiciones de estas funciones, ver la documentación para Distribuciones de


Probabilidad.

Opciones del Panel

• Graficar: La función a graficar.

• Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.
Incrementa este valor si las líneas no son suficientemente suave.

Límites de Tolerancia Normal


Los limites de tolerancia estadísticos dan un rango de valores para X tal que uno puede estar
100(1-α)% confiado de que el P porcentaje de la muestras caen dentro del rango. Asumiendo
que los datos viene de una distribución normal, un limite de tolerancia de dos lados puede ser
calculado tomando la media muestral mas menos un múltiplo de la desviación estándar, de
acuerdo a

x ± Ks (16)

El Factor K del tamaño de la muestra n, el nivel de confianza (1-α), y el porcentaje especificado


P.

Límites de Tolerancia Normales parappm


Distribución Normal
Tamaño de muestra = 47
Promedio = 12.8219
Sigma = 10.445

Intervalos de tolerancia del 95.0% (intervalo) de tolerancia para 99.73% de la población


Xbarra +/- 3.66641 sigma
Superior: 51.1177
Inferior: -25.4739

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 23


STATGRAPHICS – Rev. 9/14/2006
Por ejemplo, la tabla anterior establece que uno puede estar 95% confiado de que el 99.73% de
las muestras de agua subterránea de Texas tendrán concentraciones de uranio entre –25.5 y 51.1.
Este resultado es obviamente falso, ya que los datos no vienen de una distribución normal.

Es importante notar que el intervalo anterior no es simplemente el intervalo bajo la curva normal
ajustada que contiene una área de 99.73%, el cual correspondería a ± 3 sigma. Este es mas ancho
que esto ya que permite variabilidad muestral en ambos media y desviación estándar.

Puedes seleccionar valores de α y P usando las Opciones del Panel.

Opciones del Panel

• Nivel de Confianza – Especifica el nivel de confianza para los limites de tolerancia, i.e.,
100(1-α)%.

• Proporción de la Población – Especifica el porcentaje de la población P que los límites de


tolerancia capturan

• Límites – Selecciona límites de tolerancia de dos lados o de un solo lado.

Ejemplo - Límites de un solo lado para las concentraciones de uranio


Una de las razones principales para el estudio de las concentraciones de uranio fue para
determinar una distribución de referencia en contra de la cual comparar muestras futuras. Para
ese propósito, seria usual derivar un límite en la concentración mas allá del cual una medición
pueda indicar un evento inusual. Una tolerancia superior a 99.9% daría una valor que seria
excedido solamente una vez de 1000.

En la documentación de Transformaciones de Potencia, se descubrió que ppm0.204 fue distribuido


aproximadamente normal. Para usar los límites de tolerancia normal, la caja de dialogo de
entrada seria editada como se muestra abajo:

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 24


STATGRAPHICS – Rev. 9/14/2006

El Histograma de Frecuencias verifica que los valores transformados son aproximadamente


normales:

Histograma para ppm^0.204

10 Distribución
Normal
8
frecuencia

0
0.8 1.2 1.6 2 2.4
ppm^0.204

Requiriendo un limite de tolerancia superior normal de 99.9%, resulta en

Límites de Tolerancia Normales parappm^0.204


Distribución Normal
Tamaño de muestra = 47
Promedio = 1.59219
Sigma = 0.28628

Limites de tolerancia del 95.0% (cota) de tolerancia para 99.9% de la población


Xbarra + 3.79169 sigma
Superior: 2.67767

El limite establece que nosotros podemos estar 95% confiados de que el 99.9% de todas las
muestras de agua subterránea tendrán valores de ppm0.204 no mayores que 2.67767. Invirtiendo la
transformación resulta el siguiente límite superior en la métrica original:

2.677671/0.204 = 124.98

Concentraciones de 125 o mas grandes podrían ser considerados como eventos inusuales.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 25


STATGRAPHICS – Rev. 9/14/2006
Límites de Distribución Libre
Los valores k-ésimo mas pequeño y k-ésimo más grande en una muestra de datos pueden ser
usados para construir un límite de tolerancia para la población sin asumir alguna distribución
específica. Los limites de tolerancia resultantes dan un rango de valores para X tal que uno puede
estar 100(1-α)% confiado de que al menos el P por ciento de la población cae dentro del rango.
El intervalo puede ser absolutamente conservador, con el porcentaje actual es mucho más largo
que el ya establecido.

Límites de Tolerancia de Distribución Libre para ppm


Resumen de datos
Cuenta = 47
Máximo = 47.78
Mediana = 9.44
Mínimo = 0.74

Intervalos de tolerancia del 95.0% (intervalo) de tolerancia para 90.2933% de la población


Superior: 47.78
Inferior: 0.74
(Basándose en un intervalo de profundidad = 1)

Por ejemplo, la tabla anterior toma los valores mas extremos de ppm y establece que uno puede
estar 95% confiado de que al menos el 90.2933% de todas las muestras tendrían concentraciones
entre 0.74 y 47.78.

En este procedimiento, puedes seleccionar Opciones del Panel para elegir el nivel de confianza
100(1-α) o el porcentaje de la población P, pero no ambos.

Opciones del Panel

• Entrada – Especifica el nivel de confianza para el intervalo 100(1-α) o el porcentaje de la


población P.

• Profundidad del Intervalo – Específica el valor de k usado para seleccionar el orden de la


estadística sobre la cual los límites serán basados. En la creación del intervalo, el
procedimiento usa el valor k-ésimo más pequeño de los datos y el k-ésimo más grande.

• Límites – Selecciona límites de tolerancia de dos lados o de un solo lado.

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 26


STATGRAPHICS – Rev. 9/14/2006
Cálculos

Kolmogorov-Smirnov Valor-P

Sea d = n D . Entonces:

P = 1 si d < 0.22 (17)

2π ⎛ −π 2 ⎞
P = 1− exp⎜⎜ 2 ⎟⎟ si 0.22 ≤ d ≤ 0.80 (18)
d ⎝ 8d ⎠
2 2 2
P = 2e −2 d + e −8 d − e −18 d si 0.80 < d ≤ 3.15 (19)

P = 0 si d > 3.15 (20)

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 27

Potrebbero piacerti anche