Sei sulla pagina 1di 39

C A JA M A RC A

2 0 11
2 8 ,2 9 ,3 0 S E T IE M B R E
0 1 O C TU BRE

LA IMPORTANCIA DE
LAS PRUEBAS DE
BONDAD DE AJUSTE

Manuel E. Garca-Naranjo B.
Septiembre 2011

XVII CONIC 2009


Congreso Nacional de Ingeniera Civil

Captulo de Ingeniera Civil


Consejo Departamental
De Lambayeque
Colegio de Ingenieros del Per

INTRODUCCIN
En la determinacin de valores extremos (caudales
mximos o mnimos, niveles mximos o mnimos,
etc.) necesarios para el anlisis y solucin de muchos
problemas relacionados con la ingeniera hidrulica,
resulta
comn
emplear
las
distribuciones
probablisticas ms usuales para el estudio de
problemas hidrolgicos. As, a partir de un registro
histrico de valores extremos, se infiere aquellos
valores mximos o mnimos asociados a un cierto
perodo de retorno de diseo.

INTRODUCCIN
Es relativamente comn apreciar estudios en los
cuales, a partir de una data histrica de valores
extremos, se haya hecho uso de distribuciones tales
como: Gumbel, Normal o Log Pearson tipo III, para
estimar los valores extremos asociados a un periodo
de retorno seleccionado. En menor medida se
observar el empleo de distribuciones tales como:
log normal de 2 parmetros, log normal de 3
parmetros o la distribucin gamma de 2 de 3
parmetros.

INTRODUCCIN
En este sentido cabra preguntarse: qu ha llevado
al especialista a seleccionar una determinada
distribucin probabilstica para el anlisis efectuado?
se ha verificado que la distribucin escogida sea la
que efectivamente mejor se ajusta o representa a la
serie histrica de datos? cul de las distribuciones
disponibles debi haberse empleado en verdad en la
estimacin requerida de valores extremos?
Estas preguntas nos conducen a la necesidad de
revisar los temas relacionados con las pruebas de
bondad de ajuste.

DEFINICIONES
Las pruebas de bondad de ajuste tienen por
objetivo determinar si los datos disponibles se
ajustan a una determinada distribucin.
Se entiende por bondad de ajuste a la asimilacin
de los datos observados de una variable a una
funcin matemtica previamente establecida y
reconocida. A travs de sta es posible entonces
predecir el comportamiento de la variable en
estudio (Pizarro, 1986)

DEFINICIONES
Entre las pruebas de bondad de ajuste ms
conocidas, cabe mencionar las siguientes:
Prueba de Chi Cuadrado
Prueba de Kolmogorov Smirnov
Prueba de Anderson Darling

PRUEBA DE CHI CUADRADO


La prueba de Chi Cuadrado se basa en la
comparacin entre la frecuencia observada en un
intervalo de clase y la frecuencia esperada en dicho
intervalo, calculada de acuerdo con la distribucin
terica considerada. Es decir, se trata de determinar
si las frecuencias observadas en la muestra estn lo
suficientemente cerca de las frecuencias esperadas
bajo la hiptesis nula formulada.
Para aplicar esta prueba se debe agrupar las
observaciones de la muestra en intervalos de clase,
preferiblemente del mismo tamao.

PRUEBA DE CHI CUADRADO


Valor del estadstico Chi-cuadrado calculado
El estadstico de prueba, 2C queda definido por la
expresin:
donde:
Oi: frecuencia observada en el intervalo i, de
acuerdo a la muestra considerada
Ei: frecuencia esperada en el intervalo i, de
acuerdo a la distribucin seleccionada
k: nmero de intervalos de clase en que se han
agrupado las observaciones

PRUEBA DE CHI CUADRADO


Valor tabular de Chi-cuadrado
El valor tabular del estadstico Chi-cuadrado, 2t ,
se determina a partir del cuadro siguiente, en
funcin de los grados de libertad y del nivel de
significacin elegido, esto es, la probabilidad de
exceder el valor extremo.

PRUEBA DE CHI CUADRADO

PRUEBA DE CHI CUADRADO


Los grados de libertad se determinan con la
expresin:
g.l. = k 1 p grados de libertad, donde k es el
nmero de intervalos de clase y p es el nmero de
parmetros que definen completamente a la
distribucin seleccionada.
El nivel de significacin, , usualmente es 5% o
1%

PRUEBA DE CHI CUADRADO


Los grados de libertad se determinan con la
expresin:
g.l. = k 1 p grados de libertad, donde k es el
nmero de intervalos de clase y p es el nmero de
parmetros que definen completamente a la
distribucin seleccionada.
El nivel de significacin, , usualmente es 5% o
1%

PRUEBA DE CHI CUADRADO


Criterio de Decisin
El criterio de decisin se fundamenta en la
comparacin del valor calculado de Chi-cuadrado
con el valor tabular encontrado, esto es:
Si el estadstico Chi-cuadrado calculado es menor
o igual que el valor tabular, es decir: 2C 2t
entonces, se acepta la hiptesis nula, que
establece que los valores observados se ajustan a
la distribucin considerada, al nivel de
significacin seleccionado (usualmente = 5% o
1%)

PRUEBA DE CHI CUADRADO


Si el estadstico Chi-cuadrado calculado es mayor
que el valor tabular, es decir: 2C > 2t
entonces, se rechaza la hiptesis nula y se acepta
la hiptesis alternativa, que establece que los
valores observados no se ajustan a la distribucin
considerada, al nivel de significacin seleccionado
(usualmente = 5% o 1%); siendo necesario
probar con otra distribucin terica.

PRUEBA DE CHI CUADRADO


Comentarios
Algunas consideraciones que hay que tener en cuenta con
respecto a la aplicacin de esta prueba son las siguientes:
El anlisis debe efectuarse con datos agrupados en
intervalos de clase.
El nmero de intervalos de clase debe ser por lo menos 5.
Se recomienda tambin que, para facilidad de los clculos,
el nmero de intervalos de clase no sea mayor a 20.
El nmero de observaciones esperado (frecuencia
observada) en cada intervalo de clase debe ser por lo
menos 5. Si esta condicin no se cumple, es necesario
agrupar en uno los resultados de varios intervalos de clase.

PRUEBA DE CHI CUADRADO


Al efectuar los clculos de las frecuencias esperadas,
debe considerarse los intervalos extremos como casos
especiales. As:
En el primer intervalo, que incluye aquellos valores
observados entre x0 y x1, la probabilidad a considerar
debe ser la correspondiente a que la variable aleatoria
sea menor o igual que x1 (no solo comprendida entre x0
y x1)
En el ltimo intervalo, que incluye aquellos valores
observados entre xk-1 y xk, la probabilidad a considerar
debe ser la correspondiente a que la variable aleatoria
sea mayor que xk-1 (no solo comprendida entre xk-1 y xk)

APLICACIN DE LA PRUEBA DE CHI CUADRADO


Operativamente, para aplicar en un caso prctico la
prueba de chi-cuadrado debe seguirse el siguiente
procedimiento:
Determinar el Nmero de Intervalos de Clase
El nmero de intervalos de clase se calcula con
la frmula propuesta por Yevjevich:
NC = 1 + 1.33 ln(N)
donde:
NC - nmero de intervalos de clase
N - nmero de datos

APLICACIN DE LA PRUEBA DE CHI CUADRADO


Calcular la Amplitud de cada Intervalo
La amplitud de cada intervalo se determina con la
ecuacin:
El lmite inferior del primer intervalo de clase se
determina con la relacin:
Lmite inferior = Xmin - X/2

APLICACIN DE LA PRUEBA DE CHI CUADRADO


Calcular los Intervalos de Clase, Marcas de Clase,
Frecuencias Absoluta y Relativa Observadas y
Frecuencia Acumulada
La frecuencia absoluta observada corresponde al nmero
de valores comprendido en el intervalo de clase. La suma
de todas las frecuencias absolutas debe ser igual al total
de datos, N.
La frecuencia relativa se obtiene de dividir la frecuencia
absoluta entre el nmero de datos, N
La frecuencia acumulada resulta de acumular los valores
correspondientes a la frecuencia relativa. La frecuencia
acumulada en el ltimo intervalo de clase debe dar 1.

APLICACIN DE LA PRUEBA DE CHI CUADRADO


Calcular la Media y Desviacin Estndar para los
Datos Agrupados
La media y la desviacin estndar de los datos agrupados
se determina mediante las siguientes relaciones:

APLICACIN DE LA PRUEBA DE CHI CUADRADO


donde:
fi frecuencia absoluta
xi marca de clase
k nmero de intervalos de clase
N nmero total de datos
Adoptar alguna distribucin probabilstica y determinar la
frecuencia esperada para cada intervalo de clase

APLICACIN DE LA PRUEBA DE CHI CUADRADO


Calcular los estadsticos Chi Cuadrado y aplicar el criterio
de decisin
El estadstico de prueba, 2C se calcula con la expresin:

El estadstico tabular 2t se determina en la tabla de Chi


Cuadrado en funcin de los grados de libertad y del nivel de
significancia seleccionado
Finalmente, si 2C 2t se acepta la hiptesis nula que
afirma que la serie de datos se ajusta a la distribucin
seleccionada
Si 2C 2t se rechaza la hiptesis nula y se afirma que la
serie de datos no se ajusta a la distribucin seleccionada

CASO PRACTICO DE CHI CUADRADO

CASO PRACTICO DE CHI CUADRADO

CASO PRACTICO DE CHI CUADRADO

CASO PRACTICO DE CHI CUADRADO

PRUEBA DE KOLMOGOROV SMIRNOV


Este procedimiento es un test no paramtrico que permite
establecer si dos muestras se ajustan al mismo modelo
probabilstico (Varas y Bois, 1998).
Es un test vlido para distribuciones continuas y sirve tanto
para muestras grandes como para muestras pequeas
(Pizarro et al, 1986).
As mismo, Pizarro (1988), hace referencia a que, como
parte de la aplicacin de este test, es necesario determinar
la frecuencia observada acumulada y la frecuencia terica
acumulada; una vez determinadas ambas frecuencias, se
obtiene el mximo de las diferencias entre ambas.

PRUEBA DE KOLMOGOROV SMIRNOV


El estadstico Kolmogorov-Smirnov,
D, considera la
desviacin de la funcin de distribucin de probabilidades de
la muestra P(x) de la funcin de probabilidades terica,
escogida Po(x) tal que:
Dn = max P(x) Po(x)
La prueba requiere que el valor Dn calculado con la
expresin anterior sea menor que el valor tabulado D para
un nivel de significancia (o nivel de probabilidad) requerido.
El valor crtico D de la prueba se obtiene de la tabla
mostrada, en funcin del nivel de significancia y el tamao
de la muestra n.

PRUEBA DE KOLMOGOROV SMIRNOV

Tabla de valores de
D en funcin del nivel
de significancia y del
tamao de la muestra

PRUEBA DE KOLMOGOROV SMIRNOV


El procedimiento a seguir en la aplicacin prctica de la
prueba de Kolmogorov-Smirnov es el siguiente:
Determinar la frecuencia observada acumulada y la
frecuencia torica acumulada, Po(x) y P(x).
En cada caso, calcular: Dn = max P(x) Po(x)
As, Dn es la mxima diferencia entre la funcin
de distribucin acumulada de la muestra y la funcin de
distribucin acumulada terica escogida
Fijar un nivel de probabilidad o de significancia . Los
valores de 0.05 y 0.01 son los ms usuales.

PRUEBA DE KOLMOGOROV SMIRNOV


Determinar el valor crtico D en la tabla
correspondiente.
Aplica el criterio de decisin:
Si el valor calculado Dn es menor que el D, se
acepta la hiptesis nula (Ho) que establece que la
serie de datos se ajusta a la distribucin terica
escogida.
Si el valor calculado Dn es mayor que el D, se
rechaza la hiptesis nula (Ho) y se acepta la
hiptesis alternativa (Ha) que establece que la serie
de datos no se ajusta a la distribucin terica
escogida.

EJEMPLO
PRUEBA DE
KOLMOGOROV
SMIRNOV

EJEMPLO
PRUEBA DE
KOLMOGOROV
SMIRNOV

PRUEBA DE ANDERSON-DARLING
Esta prueba no paramtrica es una modificacin del test de
Kolmogorov- Smirnov, donde se le da ms peso a las colas
de la distribucin que la prueba de K-S.
Frmula:
A2= N S
El estadstico para la prueba de Anderson-Darling es:

PRUEBA DE ANDERSON-DARLING
donde:
n - es el nmero de datos
F(x) - es la funcin e distribucin de probabilidad terica
Fn(x) - es la funcin de distribucin emprica
Para definir la regla de rechazo para esta prueba es
necesario obtener el estadstico ajustado para luego
compararlo con los valores crticos de la tabla de AndersonDarling.
La tabla siguiente muestra los valores crticos para distintas
distribuciones con parmetros conocidos.

PRUEBA DE ANDERSON-DARLING

PRUEBA DE ANDERSON-DARLING
Una vez obtenido el estadstico ajustado, la regla de
rechazo se realiza de manera anloga a la prueba de
Kolmogorov-Smirnov.
Si An2 es mayor o igual que ao, se acepta la hiptesis
nula; siendo ao el valor asociado al estadstico de
prueba An2

BREVES CONCLUSIONES
En que casos es recomendable cada estadstico?
Chi-Cuadrado:
es recomendable para distribuciones
discretas o continuas cuando existe gran cantidad de datos.
Se recomienda trabajar con datos agrupados.
Kolmogorov-Smirnov (K-S):
es recomendable para
distribuciones continuas y muestras de cualquier tamao.
No requiere hacer uso de datos agrupados.
Anderson-Darling: es recomendable para distribuciones
con colas pronunciadas. No requiere hacer uso de datos
agrupados.

Potrebbero piacerti anche