Sei sulla pagina 1di 7

UNIVERSIDAD POLITÉCNICA DE NICARAGUA

“Sirviendo a la Comunidad”
ESCUELA DE CIENCIAS ECONOMICAS

Tema: prueba de bondad de ajuste y análisis de tablas de contingencia.


Semana N0 6
Objetivos de la unidad.
Al concluir el desarrollo de esta unidad, el estudiante deberá ser capaz de:
 Explicar la finalidad del estudio de la distribución CHI_CUADRADA.
 Diferenciar la distribución de la Chi_cuarada con las demás distribuciones
estudiadas en unidades anteriores (estadística uno)
 Comprobar si la variable se aproxima a una distribución de probabilidad discreta.
 Identificar si existe relación entre dos variables categóricas.
Introducción:
En esta sección se examinará las pruebas de hipótesis estadísticas en relación a caracteres y
variables. Utilizando la prueba de independencia entre dos variables aleatorias con ciertas
categorías y bondad de ajuste ya que esta compara lo observado en una muestra aleatoria con
aquellos que se espera observar para cada categoría.
Datos de frecuencias.
La distribución que se utiliza es la X2 prueba estadística no paramétrica para diferencias entre
dos o más muestras donde frecuencias esperadas son comparadas en relación con frecuencias
obtenidas.
Prueba no paramétrica: procedimiento estadístico que no adopta ningún supuesto acerca
de cómo se distribuye la característica bajo estudio en la población, y que solo requiere datos
nominales u ordinales.
Estas medidas son importantes porque la mayoría de la información en la investigación social
y administrativa es de carácter “nominal u ordinal”, y porque no siempre estamos seguros
que la característica que deseamos estudiar se distribuye normalmente en la población.
X2 se utiliza para hacer comparaciones entre frecuencias y no entre valores medios.

LMGH-UPOLI 1
La X2 se emplea para probar estadísticamente si la distribución de frecuencia observadas es
compatible (“se ajusta”) con alguna distribución teórica conocida Binomial, Poisson,
Normal. Etc. A estas pruebas se les denomina “pruebas de bondad de ajustes” y para probar
la independencia entre las variables en estudio.
Prueba de bondad de ajuste Chi_cuadrada.
Se emplea para decidir cuándo un conjunto de datos se apega a una distribución de
probabilidad dada. Considérese una muestra aleatoria de tamaño “n” de la distribución de
una variable aleatoria “X” dividida en K, clase exhaustiva y mutuamente excluyente con
observaciones en cada i_ésima clase.
Una prueba de bondad de ajuste entre la frecuencia observadas y esperadas se basa en la
cantidad.
2
∑𝑛 (𝐹𝑜−𝐹𝑒) ∑𝑛 𝐹2
𝑖=1 𝑖=1 0
𝑋2
𝑐 = , otra forma del cálculo de la Chi_cuadrada. 𝑋𝑐2 = ( )−𝑛
𝐹𝑒 𝐹𝑒

Los símbolos Fo, representa la frecuencia observada y Fe, es la frecuencia esperada.


La región de rechazo será. 𝑿𝟐 > 𝑿𝟐 , donde gl (grados de libertad) = (filas-1)
𝒄 (∝, 𝒈𝒍)
*(columnas-1).
Pasos para comprobar la prueba de bondad de ajuste.
Plantear las hipótesis
Plantear el nivel de significancia
Establecer la región de rechazo
Calculo de los valores esperados: para encontrar estos valores se obtiene
multiplicando la probabilidad por el número total de observaciones.
Toma de decisión.
Nota. Criterio de decisión en la prueba de bondad de ajuste, se utiliza para los valores
esperados sean al menos de 5. De no cumplir esta condición el valor esperado que es menor
de 5 se le sumara el siguiente valor esperado de tal manera que cumpla la condición.
Ejemplo. En un estudio para evaluar el rendimiento de una nueva variedad de maíz se
consideró como variable en estudio el peso de la mazorca (en grs.) los resultados obtenidos
en una muestra de 80 mazorcas son de
Peso en gramos No de mazorcas (Fi) Xi
De menos de 200 a 250 18 225
De 250 a 300 22 275
De 300 a 350 28 325
De 350 a 400 9 375
De 400 a más de 450 3 425
80

LMGH-UPOLI 2
¿ se puede afirmar con un ∝= 0.05 que el peso de la mazorca se ajusta a una distribución
normal? (Xi, se refiere a las marcas de clase de cada intervalo)
Solución.
1. Planteamiento de la hipótesis.
H0: los datos del peso de la mazorca (en gramos) provienen de una distribución normal.
H1: los datos del peso de la mazorca (en gramos) no provienen de una distribución normal.

2. Nivel de significancia: ∝= 0.05


3. Región de Rechazo.

Dado que al calcular los valores esperados se deben de sumar dos de ellos el número
de intervalos se reducen a 4 y como los grados de libertad son de n-1= 4-1 = 3, (n, se
refiere al número de intervalos en este ejercicio).

4. Calculo de los valores esperados.


Antes de encontrar los valores esperados, se necesita calcular la media y la desviación
estándar para los datos agrupados estudiados en estadística uno.
𝑋 = 298.125 𝑔𝑟𝑎𝑚𝑜𝑠 S= 52.92 gramos.

Para encontrar el valor esperado del primer intervalo se calcula el área total bajo la
curva normal a la izquierda del límite superior del intervalo, es decir.

250−298.125
a) P(x< 250) = 𝑃 (𝑍 < ) = 𝑃(𝑍 < −0.89) = 0.5 − 0.3133 = 0.1867
53.92
el primer valor esperado será: e1= (0.1867)*(80)=14.936

b) Valor esperado del intervalo (250 a 300)


250−298.0125 300−298.125
P(250 < 𝑥 < 300) = 𝑃 ( <𝑍< ) = 𝑃 (−0.89 < 𝑍 <
53.92 53.92
0.03) = 0.3133 + 0.0120 = 0.3252
El segundo valor esperado será: e2= (0.3252) *(80) = 26.016.

c) Valor esperado del intervalo (300 a 350)


300−298.125 350−298.125
P(300 < 𝑥 < 350 ) = 𝑃 ( <𝑧< ) = 𝑃 (0.03 < 𝑧 <
53.92 53.92
0.96) = 0.3315 − 0.0120 = 0.3195
El tercer valor esperado será: e3= (0.3195) *(80) =25.56

LMGH-UPOLI 3
d) Valor esperado del tercer intervalo (350 a 400)
350−298.125 400−298.125
P (350 < 𝑧 < 400) = 𝑝 ( <𝑧< ) = 𝑃(0.96 < 𝑧 <
53.92 53.92
1.89) = 0.4706 − 0.3315 = 0.1391
El tercer valor esperado será: e4= (0.1391) *(80) =11.13.

e) Valor esperado del cuarto intervalo (400 a 450); para encontrar el valor esperado
en este último intervalo se debe de calcular el área total a la derecha del límite
inferior del intervalo, es decir.
400−298.125
P(x> 400) = 𝑃 (𝑧 > ) = 𝑃 (𝑧 > 1.89) = 0.5 − 0.4706 = 0.0294
53.92
El curto valor esperado será: e5= (0.0294) * (80) = 2.35

5- cálculo del estadígrafo.


Aquí se tiene que considerar si los valores observados son iguales o mayores que 5
de no ser así, como por ejemplo en el último intervalo se tendrá que sumar con el
intervalo anterior.

Peso en gramos No de mazorcas (Fi) ei


11.13
De 350 a 400 {9 = 12 { = 13.48
De 400 a más de 450 3 2.35
(18)2 (22)2 (28)2 (12)2
𝑋2 = ( + + + ) − 80 = 81.6432 − 80 = 1.16432e
𝑐 14.94 26.02 25.56 13.48

6- decisión. Se acepta la hipótesis nula. Es decir, los datos del peso de las mazorcas (en
gramos) provienen de una distribución normal.

Ejemplo No 2:
En un mismo día tres personas que hacen compras en una distribuidora, de abarrotes en
el mercado Mayoreo, efectuaron reclamos al encargado de caja acerca del cobro de más
en la factura de compras, donde se registraron la cantidad de dinero excesivo en relación
a lo facturado.
Cliente 0 1 2
Cobros de más en la factura C$21 C$31 C$12
Con nivel de significancia del 1%, pruebe que los datos registrados se pueden ajustar
mediante una distribución binomial con media 3 y la probabilidad de cobro de mas en la
factura es de ¼.
Datos.
n=3
p=1/4
q=3/4

LMGH-UPOLI 4
1- Planteamiento de la hipótesis.
Ho: Los cobros excesivos en relación a lo facturado provienen de una distribución
normal.
H1: Los cobros excesivos en relación a lo facturado no provienen de una distribución
binomial.
2- Nivel de significancia: ∝= 0.01
3- Región de rechazo.

4- Calculo de los valores esperados.


Antes de encontrar los valores esperados se necesita calcular las probabilidades
haciendo uso del modelo binomial. NCn Px * qn-x.

Datos.
n=3 p=1/4 q=3/4 x= cantidad de clientes que reclaman en caja.
P (x = 0) 3C * 1 0 3 3 ( ) ( )
0 () ∗ ( ) = 0.4218; 𝑒1 = 0.4218 ∗ 64 = 27
4 4

P (x = 1) 3C * 1 1 3 2 ( ) ( )
1 ( ) ∗ ( ) = 0.4218; 𝑒2 = 0.4218 ∗ 64 = 27
4 4

P ( x = 2) 3C * 1 2 3 1 ( ) ( )
2 ( ) ∗ ( ) = 0.1406; 𝑒3 = 0.1406 ∗ 64 = 9
(21)2 (31)2 4 (12)2 4
𝑋2 = ( + + ) – 64 = 64 – 66.33 = 2.33
𝑐 27 27 9
5- Decisión: se acepta la hipótesis nula. Es decir, los cobros excesivos en relación a lo
facturado provienen de una distribución normal.
Prueba de la Chi_cuadrada para el análisis de Independencia_Tabla de contingencia,
Otro uso de la distribución Chi_cuadrada es la prueba de hipótesis de la relación entre dos
caracteres cualitativos.
La clasificación entre dos caracteres (A, B) de los mismos individuos en estudio se hacen en
las tablas de contingencias, en la cual las “f” filas representan los niveles de caracteres “A”
y las “C” columnas representan los niveles de caracteres “B”.
La hipótesis se plantea de la siguiente manera.

LMGH-UPOLI 5
Ho: la categoría A y la categoría B son independientes.
H1: la categoría A y la categoría B son independientes.
La prueba de independencia entre la frecuencia observadas y esperadas se basa en la cantidad.
2
∑𝑛 (𝐹𝑜−𝐹𝑒) ∑𝑛 𝐹2
𝑖=1 𝑖=1 0
𝑋𝑐2 = 𝐹𝑒
, otra forma del cálculo de la Chi_cuadrada. 𝑋𝑐2 = ( 𝐹𝑒
)−𝑛

Los símbolos Fo, representa la frecuencia observada y Fe, es la frecuencia esperada.


Los valores esperados se calcularán de la siguiente manera.
(𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑓𝑖𝑙𝑎𝑠) ∗ (𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠)
𝑒𝑖 =
(𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑡𝑜𝑡𝑎𝑙𝑒𝑠)
La región de rechazo será: La región de rechazo será. 𝑿𝟐 > 𝑿𝟐 , donde gl (grados de
𝒄 (∝, 𝒈𝒍)
libertad) = (filas-1) *(columnas-1).
Ejemplo: comprobar si hay independencia entre las microempresas que llevan una
contabilidad formal y que iniciaron su actividad con un financiamiento externo en relación a
las microempresas que llevan una contabilidad formal y que iniciaron su actividad con
ahorros personales dada la siguiente información.
Personal Externo Total
Informal 465 302 767
Formal 624 557 1181
Total 1089 859 1948
Utilice un nivel de confianza del 95%.
Solución:
1- Planteamiento de la hipótesis
Ho: Microempresas con contabilidad formal y cuyo inicio fue gracias a
financiamiento externo, es independiente de las microempresas con contabilidad
formal cuyo inicio fueron ahorros personales.

H1: Microempresas con contabilidad formal y cuyo inicio fue gracias a


financiamiento externo, son dependiente de las microempresas con contabilidad
formal cuyo inicio fueron ahorros personales.

2- Nivel de significancia: ∝= 0.05


3- Región de rechazo.

LMGH-UPOLI 6
4- Calculo de los valores esperados.
(767)(1089) (1181)(859)
𝑒1,1 = (1948)
= 428.8 𝑒1,2 = (1948)
= 660.2

(767)(859) (1181)(1089)
𝑒2,1 = (1948)
= 338.2 𝑒2,2 = (1948)
= 520.8

(465)2 (302)2 (624)2 (557)2


𝑋𝑐2 = ( + + + ) − 1948 = 11.43
428.8 338.2 660.2 520.8

5- Conclusión: se rechaza la hipótesis nula. Por lo tanto, las microempresas con


contabilidad formal y cuyo inicio fue gracias a financiamiento externo dependiente
de las microempresas con contabilidad formal cuyo inicio fueron ahorros personales.

LMGH-UPOLI 7

Potrebbero piacerti anche