Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estadstica aplicada
Universidad de Medelln
Medelln
2013
Base terica:
Una tabla de contingencia es una herramienta muy til para resumir datos categricos 1. Si se
definen dos variables categricas X y Y con I y J categoras respectivamente, cualquier
sujeto podra clasificarse en alguna de las I J , que es cualquiera de las posibles categoras
que existe. En general una tabla de contingencia tiene dos objetivos:
Variable B
B1 B2 B3 BJ Total
A1 O11 O12 O13 O1J D1
A2 O21 O22 O23 O2 J D2
A3 O31 O32 O33 O3J D3
Variable A
AI OI 1 OI 2 OI 3 OIJ DI
Total C1 C2 C3 CJ n
En donde:
Una vez construida la tabla se pueden realizar dos tipos de prueba para probar la
independencia y homogeneidad:
1
Son datos que slo pueden tomar un nmero finito o infinito numerable de posibles valores. Suelen ser los
datos procedentes de los recuentos (frecuencia observada) derivados de informacin recogida en un
experimento.
a) Prueba de independencia: se hace para probar si hay asociacin entre las variables A y
B.
O Eij
2
J I
EP X
2 ij
j 1 i 1 Eij
Dnde:
Eij : es la frecuencia esperada de la celda que est en la fila i, columna j. Se define como:
Di C j
Eij
n
2
Luego, este estadstico de prueba se compara con X , J 1I 1 .
Y el valor-p es igual a: P X 2 EP .
2. Pruebas de bondad y ajuste:
Una prueba de bondad y ajuste permite verificar si la poblacin de la cual proviene una muestra
aleatoria sigue una distribucin especfica o supuesta.
Sea:
x : una variable aleatoria.
f S x : la distribucin de probabilidad especfica o supuesta que sigue la variable aleatoria x .
Ha : f x fS x
En general se utilizan tres tipos de pruebas de bondad y ajuste:
Para tener una mayor facilidad al aplicar este mtodo, los autores recomiendan construir una
tabla con la siguiente estructura.
Frecuencia Frecuencia esperada
Probabilidad= f x
observada FO FE
x
Cada celda de esta
columna es el
Ac se colocan los datos Ac se calcula la
producto de la
correspondientes a la Ac se colocan el probabilidad asociada
columna anterior por
variable aleatoria. En nmero de a cada valor o rango
n . Y lo que se calcula
caso de tratarse de una observaciones que de la columna x .
es la verdadera
variable aleatoria corresponden a Para esto se utiliza la
frecuencia que
continua ac iran los cada valor de la distribucin de
debera tener los
rangos, por ejemplo: columna x probabilidad
datos si siguieran la
0 x 1 supuesta.
distribucin
supuesta.
Total n 1 n
NOTA: Se recomienda para evitar problemas en el modelo, que ninguna frecuencia esperada
sea menor a 5, en caso de haber alguna menor a 5 se deben unir las categoras para evitar este
problema. Hay que tener en cuenta que al disminuir las categoras, disminuyen los grados de
libertad.
Una vez se tenga la tabla anterior, se calcula el estadstico de prueba que se calcula como:
FOi FEi
2
k
EP X 2
i 1 FEi
Dnde:
Si EP X 2 , k r 1 se rechaza H 0
H0 : f x fS x
Ha : f x fS x
Para tener una mayor facilidad al aplicar este mtodo, los autores recomiendan construir una
tabla con la siguiente estructura, (para construir esta tabla, se debe tener con anterioridad una
tabla con la misma forma que la explicada para la prueba Ji-cuadrada):
Frecuencia Frecuencia
esperada observada FEA | FEA relativo FOA relativo |
FOA Relativa
acumulada FEA acumulada FOA Relativa
Se calcula Se calcula FEA FOA Se calcula la diferencia
acumulando los acumulando los n n entre las dos columnas
valores de la FE valores de la FO anteriores.
De la tabla anterior se obtiene el estadstico de prueba que se define como:
Luego, este estadstico de prueba se compara con el valor crtico D , que se encuentra en la
tabla Kolmogorov-Smirnov (teniendo como base un nivel de significancia y el nmero de
observaciones).
Si EP D se rechaza H 0 .
Este test slo funciona para las distribuciones: normal, lognormal, exponencial, Weibull y
logstica.
H0 : f x fS x
Ha : f x fS x
-
En dos columnas se calcula: ln F Yi y ln 1 F Yn1i .
- Se calcula Si que se define como:
2i 1 ln F
Si Yi ln 1 F Yn1i
n
- Se calcula la sumatoria de la ltima columna calculada.
- Se calcula el estadstico de prueba definido como:
EP A2 n S
n 2i 1
EP A2 n ln F Yi ln 1 F Yn 1i
i 1 n
- Se compara el estadstico de prueba con el valor tomado de la tabla de Anderson-
Darling.
TALLER
1. Cierto tipo de linterna de mano se vende con las cuatro pilas incluidas. Se obtiene una
muestra aleatoria de 152 linternas. Sea X la variable aleatoria que representa el nmero de
pilas defectuosas de una linterna seleccionada al azar. De las 150 linternas se determina el
nmero de pilas defectuosas por linterna, resultando los siguientes datos:
Solucin:
a) X bin 4, p
k
p x p x 1 p
k x
x
n
4
L x, p p xi 1 p i
4 x
i 1 xi
n
4!
L x, p p xi 1 p i
4 x
i 1 x ! 4 x !
n 4! xi 4 n xi
L x, p p 1 p
i 1 x ! 4 x !
n
xi ln p 4n xi ln 1 p
4!
ln L x, p ln
i 1 x ! 4 x !
ln L x, p xi 4n xi
p p 1 p
Igualando a cero
x i
4n xi
p 1 p
x p x i i 4np p xi
p
x i
4n
b) Usando el EMV hallado en el punto anterior se tiene:
p
0 24 1 54 2 38 3 26 4 10
4 152
p 0.4078
Sean:
H 0 : El nmero de pilas defectuosas es una variable que sigue una distribucin Binomial.
H a : El nmero de pilas defectuosas es una variable que no sigue una distribucin Binomial.
2
En este caso se unieron las dos ltimas categoras para evitar que la ltima frecuencia esperada fuera
menor a 5.
Calculando el estadstico de prueba:
FOi FEi
2
n
EP X 2
7.87
i 1 FEi
X 20.01,2 9.21
Cmo 7.87 9.21 no hay suficiente informacin para decir que el nmero de pilas defectuosas
no sigue una distribucin binomial a un nivel de significancia del 0.01 .
Al ser el valor-p mayor al nivel de significancia, puede justificarse que la hiptesis nula no haya
sido rechazada.
Solucin:
Teniendo: 0.173 y 0.066
- Prueba Ji-Cuadrado:
H 0 : La rentabilidad diaria del activo financiero es una variable que sigue una distribucin
normal.
H a : La rentabilidad diaria del activo financiero es una variable que no sigue una distribucin
normal.
3
Estas probabilidades fueron calculadas estandarizando los rangos de la rentabildad y encontrado las
probabilidad asociadas a cada intervalo.
0.25 x 14 0.1217 10.8313
Calculando el estadstico de prueba:
FOi FEi
2
n
EP X 2
1.7424
i 1 FEi
X 20.05,2 5.992
Cmo 1.7424 5.992 no hay suficiente informacin para decir que la rentabilidad diaria del
activo financiero no se ajusta a una distribucin normal a un nivel de significancia de 0.05 .
Al ser el valor-p mayor al nivel de significancia, puede justificarse que la hiptesis nula no haya
sido rechazada.
- Prueba Kolmogorov-Smirnov:
H 0 : La rentabilidad diaria del activo financiero es una variable que sigue una distribucin
normal.
H a : La rentabilidad diaria del activo financiero es una variable que no sigue una distribucin
normal.
Frecuencia Frecuencia
esperada observada FEA | FEA relativo FOA relativo |
FOA Relativa
acumulada FEA acumulada FOA Relativa
D 0.0358
El valor crtico de la tabla Kolmogorov-Smirnov con n 89 :
1.36
Valor critico 0.1441
89
Como 0.0358 0.1441 no hay evidencia suficiente para decir que la rentabilidad diaria del
activo financiero no sigue una distribucin normal a un nivel de significancia de 0.05 .
- Prueba de Anderson-Darling: Para poder realizar esta prueba es necesario tener las
observaciones originales. Como no se tienen, lo que se har, es generar 30 valores aleatorios
para la rentabilidad diaria del activo financiero en Excel, con media 0.173 y desviacin 0.066 , y
se har la prueba sobre esos datos.
Ahora se aplicar la prueba Anderson-Darling para determinar si estos datos se ajustan a una
distribucin normal con media 0.173 y desviacin 0.066 .
H 0 : La rentabilidad diaria del activo financiero es una variable que sigue una distribucin
normal.
H a : La rentabilidad diaria del activo financiero es una variable que no sigue una distribucin
normal.
Menor a Mayor a
2i 1 mayor menor F Yi F Yn1i ln F Yi ln 1 F Yn1i Si
1 0,0030 0,2539 0,0050 0,8900 -5,2973 -2,2068 -0,2501
3 0,0133 0,2453 0,0078 0,8632 -4,8559 -1,9896 -0,6845
5 0,0323 0,2374 0,0165 0,8355 -4,1019 -1,8047 -0,9844
7 0,0412 0,2277 0,0229 0,7964 -3,7744 -1,5917 -1,2521
9 0,0812 0,2197 0,0822 0,7606 -2,4991 -1,4295 -1,1786
11 0,0881 0,2139 0,0990 0,7322 -2,3123 -1,3176 -1,3310
13 0,0905 0,2072 0,1057 0,6980 -2,2476 -1,1972 -1,4927
15 0,1024 0,1976 0,1424 0,6454 -1,9493 -1,0368 -1,4931
17 0,1025 0,1975 0,1427 0,6450 -1,9472 -1,0356 -1,6902
19 0,1170 0,1919 0,1981 0,6125 -1,6189 -0,9481 -1,6257
21 0,1178 0,1794 0,2014 0,5387 -1,6027 -0,7737 -1,6635
23 0,1267 0,1720 0,2416 0,4939 -1,4203 -0,6809 -1,6109
25 0,1323 0,1698 0,2689 0,4809 -1,3133 -0,6556 -1,6408
27 0,1445 0,1689 0,3330 0,4752 -1,0995 -0,6448 -1,5698
29 0,1512 0,1643 0,3708 0,4474 -0,9920 -0,5931 -1,5322
31 0,1643 0,1512 0,4474 0,3708 -0,8044 -0,4634 -1,3100
33 0,1689 0,1445 0,4752 0,3330 -0,7439 -0,4050 -1,2639
35 0,1698 0,1323 0,4809 0,2689 -0,7321 -0,3132 -1,2196
37 0,1720 0,1267 0,4939 0,2416 -0,7055 -0,2766 -1,2113
39 0,1794 0,1178 0,5387 0,2014 -0,6186 -0,2248 -1,0964
41 0,1919 0,1170 0,6125 0,1981 -0,4902 -0,2208 -0,9717
43 0,1975 0,1025 0,6450 0,1427 -0,4385 -0,1539 -0,8492
45 0,1976 0,1024 0,6454 0,1424 -0,4379 -0,1536 -0,8872
47 0,2072 0,0905 0,6980 0,1057 -0,3596 -0,1117 -0,7383
49 0,2139 0,0881 0,7322 0,0990 -0,3117 -0,1043 -0,6794
51 0,2197 0,0812 0,7606 0,0822 -0,2737 -0,0857 -0,6110
53 0,2277 0,0412 0,7964 0,0229 -0,2276 -0,0232 -0,4432
55 0,2374 0,0323 0,8355 0,0165 -0,1798 -0,0167 -0,3601
57 0,2453 0,0133 0,8632 0,0078 -0,1471 -0,0078 -0,2942
59 0,2539 0,0030 0,8900 0,0050 -0,1166 -0,0050 -0,2392
TOTAL -32,174
EP A2 n S 30 (32.174) 2.174
2
Acritico 0.751
Como 2.174 0.751 se rechaza H 0 , por lo tanto los datos de las rentabilidades diarias de los
activos no se ajustan a una distribucin normal.
Solucin:
- Prueba Ji-Cuadrado:
FOi FEi
2
n
EP X 2
4.0063
i 1 FEi
X 20.01,5 15.085
Cmo 4.0063 15.085 no hay evidencia suficiente para decir que el nmero de averas no se
ajusta a una distribucin Poisson a un nivel de significancia del 0.01 .
Al ser el valor-p mayor al nivel de significancia, puede justificarse que la hiptesis nula no haya
sido rechazada.
Existe alguna razn para creer que el nmero de nacimientos no se encuentra distribuido en
forma uniforme durante todos los meses de ao? Considere 0.01 .
Solucin:
- Prueba Ji-Cuadrado:
H 0 : El nmero de nacimientos durante todos los meses del ao es una variable que sigue una
distribucin uniforme.
H a : El nmero de nacimientos durante todos los meses del ao es una variable que no sigue
una distribucin uniforme.
FOi FEi
2
n
EP X
2
4
i 1 FEi
2
Tomando el valor crtico de la tabla X se tiene:
4
Al suponer en la hiptesis nula que la variable aleatoria tiene una distribucin uniforme, se puede obtener
la probabilidad fcilmente, pues cada mes tiene la misma probabilidad de tener el mismo nmero de
nacimientos, en este caso la probabilidad es 1/12 .
X 20.01,11 24.72
Cmo 4 24.72 no hay evidencia suficiente para decir que el nmero de nacimientos en todos
los meses del ao no se ajusta a una distribucin uniforme a un nivel de significancia del 0.01 .
- Prueba Kolmogorov-Smirnov:
H 0 : El nmero de nacimientos durante todos los meses del ao es una variable que sigue una
distribucin uniforme.
H a : El nmero de nacimientos durante todos los meses del ao es una variable que no sigue
una distribucin uniforme.
Frecuencia Frecuencia
esperada observada FEA | FEA relativo FOA relativo |
FOA Relativa
acumulada FEA acumulada FOA Relativa
D 0.0125
1.63
Valor critico 0.047
1200
Como 0.0125 0.047 no hay evidencia suficiente para decir que el nmero de nacimientos en
todos los meses no sigue una distribucin uniforme a un nivel de significancia de 0.01 .
Nmero de defectos 0 1 2 3 o ms
Frecuencia observada 62 24 15 2
Existe suficiente evidencia al nivel de significancia del 5% , de que el nmero de defectos por
unidad efectivamente sigue una distribucin de Poisson con 0.5 ?
Solucin:
- Prueba Ji-Cuadrado:
FOi FEi
2
n
EP X 2
8.0786
i 1 FEi
2
Tomando el valor crtico de la tabla X se tiene:
X 20.05,2 5.99
5
Las ltimas categoras se unieron, para evitar el inconveniente de que la ltima frecuencia esperada fuera
menor a 5.
Cmo 8.0786 5.99 se rechaza H 0 , por lo tanto el nmero de averas es una variable
aleatoria que no sigue una distribucin Poisson a un nivel de significancia del 0.01 .
Solucin:
Primero es necesario calcular el parmetro poblacional p , para eso se usar el hecho de que la
media en una poblacin es igual a np , siendo n 3 y siendo la media (estimada con los datos
muestrales):
X
1 0 16 1 55 2 2283 X 2.7
300
Al despejar la proporcin se obtiene:
p 0.9
H 0 : El nmero de acciones vendidas es una variable que sigue una distribucin Binomial.
H a : El nmero de acciones vendidas es una variable que no sigue una distribucin Binomial.
X 20.05,1 3.84
Cmo 13.59 3.84 se rechaza H 0 , por lo tanto el nmero de acciones vendidas es una
variable aleatoria que no sigue una distribucin binomial a un nivel de significancia del 0.05 .
Bibliografa