Sei sulla pagina 1di 22

DISTRIBUCIN DE LA CHI CUADRADO, PRUEBAS DE AJUSTE DE

BONDAD Y SUS APLICACIONES




1. PROBLEMA DE INVESTIGACION
En nuestros das, la Estadstica se ha convertido en un mtodo efectivo para
describir con exactitud los valores de los datos econmicos, polticos, sociales,
psicolgicos, biolgicos y fsicos, y sirve como herramienta para relacionar y
analizar dichos datos. El trabajo del experto estadstico no consiste ya slo en
reunir y tabular los datos, sino sobre todo en interpretar esa informacin. En
general, es la Estadstica la que nos mantiene al corriente de lo que ocurre en el
mundo, todo gracias al auxilio de los datos estadsticos que otros recopilan,
presentan e interpretan.
El desarrollo de la Teora de la Probabilidad ha aumentado el alcance de las
aplicaciones de la Estadstica. Muchos conjuntos de datos se pueden estudiar con
gran exactitud utilizando determinadas distribuciones probabilsticas. La
probabilidad es til para comprobar la fiabilidad de las inferencias estadsticas y
para predecir el tipo y la cantidad de datos necesarios en un determinado estudio
estadstico.
Mediante el Anlisis de las Aplicaciones de la Distribucin de las Probabilidades
del Chi Cuadrado, se puede conocer la importancia del mtodo, as como los
beneficios que tiene esta aplicacin en la toma de decisiones para las
organizaciones en general. En la actualidad cada vez es mayor la incertidumbre
en la que viven los gerentes, debido tanto a los factores externos e internos que
afectan la toma de decisiones de los mismos.
La distribucin Chi-Cuadrado tiene muchas aplicaciones en inferencia estadstica,
por ejemplo en el test Chi-Cuadrado y en la estimacin de varianzas.
Tambin est involucrada en el problema de estimar la media de una poblacin
normalmente distribuida y en el problema de estimar la pendiente de una recta de
regresin lineal, a travs de su papel en la distribucin t de Student, y participa en
todos los problemas de anlisis de varianza, por su papel en la distribucin F de
Snedecor, que es la distribucin del cociente de dos variables aleatorias de
distribucin Chi-Cuadrado e independientes.



En Estadstica, la distribucin Chi Cuadrado, tambin denominada Chi Cuadrado
de Pearson, es una distribucin de probabilidad continua con un parmetro k, que
representa los grados de libertad de la variable aleatoria.
En esta investigacin haremos nfasis en la prueba de Chi Cuadrado de
Pearson, la cual es una prueba no paramtrica, muy utilizada para la toma de
decisiones. Esta prueba nos permite determinar si el comportamiento de las
categoras de una variable presenta diferencias estadsticamente significativas.
El clculo del Chi Cuadrado, arroja como resultado un valor numrico
denominado alfa (), el cual debe ser comparado con el Nivel de Significancia
elegido, es decir, el valor que indica el porcentaje de valores de muestra que estn
fuera de ciertos lmites; suponiendo que la hiptesis nula es correcta, es decir, se
trata de la probabilidad de rechazar la hiptesis nula cuando es cierta, estos
porcentajes pueden ser 1%, 5% entre otros, as mismo los grados de libertad
pueden ser varios y dependen del nmero de valores de la muestra.
Esta investigacin es un estudio de varias cuestiones en relacin con variables
cualitativas o cuantitativas cuyos datos estn recogidos en forma de tabla de
frecuencias. El denominador comn a todas ellas, es que su tratamiento
estadstico est basado en la misma distribucin terica: la distribucin X (Chi-
cuadrado o ji-6 cuadrado).
2) FORMULACIN DEL PROBLEMA

Conocer y analizar a mayor profundidad la distribucin de la chi cuadrado,
pruebas de ajuste de bondad y sus aplicaciones, debido a que la estadstica est
presente de forma muy comn en nuestra vida y muchas personas no tiene
conocimiento.
3) JUSTIFICACIN DE LA INVESTIGACIN

Las Aplicaciones de la Distribucin de la Probabilidades de Chi Cuadrado, permite
observar la importancia de esta herramienta; que hoy en da es utilizada o
aplicada a nivel gerencial, para procesar datos a fin de establecer una planeacin
efectiva, la eleccin entre cursos de accin alternativos y como un mecanismo de
control, tambin sirve o es un medio de mucha ayuda para obtener informacin
necesaria para el uso de una gerencia, es decir, la informacin obtenida o
resultado de Chi Cuadrado, permite resolver situaciones o problemas que se

presenten en una organizacin y al mismo tiempo sirviendo como base para la
toma de decisiones.
La importancia de aplicar La Prueba de Chi Cuadrado a cualquier muestra de
una poblacin objeto de estudio, permite llevar a cabo un nmero de pruebas de
hiptesis acerca de una media poblacional o ms, ya que ste da al investigador la
certeza del estudio realizado y la garanta de que cualquier decisin que se tome
en frente de un conjunto de alternativas, sea la ms indicada.
Se puede decir, que la certeza que se tiene de tomar una buena decisin
aplicando la Prueba del Chi Cuadrado; es la que garantizara la aplicabilidad de la
misma, por lo que vemos justificable y valedera la seleccin del tema, ya que toda
empresa para trabajar con mayor eficacia, eficiencia y dar mejores resultados,
deben en sus diferentes departamentos aplicar mtodos estadsticos que permitan
una mejor toma de decisiones

4) OBJETIVOS DE L A INVESTIGACION

a) OBJETIVOS GENERALES
Analizar la distribucin de la Chi- Cuadrado y la prueba de bondad, para
nuestras diversas aplicaciones
b) OBJETIVOS ESPECIFICOS

- Describir los aspectos generales de la chi- cuadrada y prueba de bondad
- Comparar la diferencia entre la chi cuadrada y prueba de bondad de
ajuste
- Explicar mediante ejemplos prcticos las aplicaciones de la distribucin de
la Chi-Cuadrada.

5) MARCO TERICO

DISTRIBUCION DE LA CHI-CUADRADO
Sean r
z z z
,..., 2 1
,
variables aleatorias independientes distribuidas normalmente,
cada una con media 0 y varianza 1, la variable aleatoria

2 2
2
2
1
...
r
Z
Z Z Z X + + + =

Se dice que es una variable aleatoria chi-cuadrado con r grados de libertad si su
funcin de densidad est dado por:

=
2 / 1 2 /
2 /
2
)
2
( 2
1
0
) (
x r
r
e x
r
r
X
X o
casos otros
x

< <
,
0 ,

Donde r representa la funcin gama.
Observe que los valores que toma la variable aleatoria chi- cuadrado, son todos
los reales positivos, debido a que es una suma de cuadrados.
Grado de libertad r, es el nmero de variables aleatorias independientes que se
suman. Tambin el grado de libertad se puede concebir como un parmetro
asociado con la distribucin de probabilidad o como al nmero de variables que
pueden variar libremente.
NOTACION: Cuando una variable aleatoria X tiene una distribucin chi
cuadrado con r grados de libertad, escribiremos abreviadamente que X es
2
r
X ,
La media y la varianza de la variable aleatoria chi cuadrado con r grados de
libertad son:
r x Var
r x E
2 ) (
) (
2 2
2
= =
= =
o


Es decir, la media es igual al nmero de grados de libertad y su varianza es igual
a dos veces el nmero de grados de libertad. En otras palabras estos momentos
se expresan en trminos de los grados de libertad.


Figura: funcin de densidad de la variable aleatoria chi - cuadrado

Observe que la distribuciones chi cuadrado son una familia de distribuciones
continuas positivamente asimtricas; sin embargo cuando r, (r=grados de libertad)
aumenta la chi cuadrado se aproxima a una distribucin normal, por esta razn,
es que en la prctica, cuando r es grande (r > 30), la probabilidad de la chi
cuadrado puede calcularse empleando aproximacin normal como veremos
posteriormente.
Debido a que la distribucin chi cuadrado es importante en las aplicaciones,
principalmente en inferencia estadstica algunas de las cuales citaremos
posteriormente; la funcin de distribucin F(x) estn preparadas en tablas, para
valores seleccionados de r y
2
x . Por lo tanto se puede encontrar en la tabla, la
probabilidad que la variable aleatoria X que tiene una distribucin ) 30 1 (
2
s s r x
r
sea menor o igual a un valor constante
2
o
x , representado por:
| | 1 0 .
2
< < = < o o
o
X X P




Obsrvese, puesto que existe una distribucin chi cuadrado diferente para cada
valor de r, resulta imprctico proporcionar tablas de reas completas. En lugar de
esto, la tabla representa un resumen de la informacin ms escanciar a cerca de
la distribucin.
Note que la columna de la izquierda de esta tabla tiene como encabezado grados
de libertad. Cada fila en la tabla contiene informacin sobre la distribucin chi
cuadrado correspondiente a los grados de libertad indicados, r. Es decir, cada fila
de esta tabla corresponde a una distribucin chi cuadrado particular.

Por ejemplo, si r=5, 61 . 1
2
0
= x , por lo tanto:
| | | | 10 . 0 61 . 1
2
10 . 0
= s = s x P x x P





PRUEBAS DE BONDAD DE AJUSTE
Las pruebas que se han discutido hasta ahora se aplican en problemas donde se
asume o se conoce la distribucin de la variable aleatoria y la hiptesis se refieren
a los parmetros de la distribucin. Existe, sin embargo, otra clase de problemas
en los que se desea verificar si el conjunto de datos de que se dispone proviene
de una distribucin de probabilidad particular o especifica. A este tipo de pruebas
se les llama pruebas de bondad de ajuste, y se caracterizan por ser aplicables a
datos de nivel nominal (sus frecuencias) y por emplear la distribucin X
2
; un
aspecto distinto ms es que son fciles de plantear, ya que las hiptesis siguen
casi siempre el mismo modelo estadstico.
Las pruebas de bondad de ajuste responden a una pregunta (de investigacin)
genrica:
El conjunto de datos de que se dispone proviene de una poblacin con una
distribucin de probabilidad especificada?
El modelo estadstico correspondiente a esta pregunta, planteada en trminos de
frecuencias, queda, de manera general, como sigue:






La hiptesis nula se refiere a que las diferencias (propias de cualquier
experimento) son atribuirles al azar, exclusivamente. Su aceptacin significa que
la poblacin en estudio de la distribucin especificada.
Modelos estadstico general para las pruebas de bondad de ajuste
H
0
: No hay diferencia entre el conjunto de frecuencias observadas (obtenidas a partir de
una muestra aleatoria) y el conjunto de frecuencias esperadas (obtenidas tericamente con
base en una distribucin especificada).
H
1
: Hay diferencia entre el conjunto de frecuencias observadas (obtenidas tericamente a
partir de una muestra aleatoria) y el conjunto de frecuencias esperadas (obtenidas
tericamente con base en una distribucin especificada)

La hiptesis alterna, en cambio, indica que las diferencia son estadsticamente
significativas y, por lo tanto, debidas a otros factores. El rechazo de la hiptesis
nula significa que la distribucin de la poblacin no sigue la distribucin
especificada.
La toma de la muestra y su distribucin en frecuencias para las pruebas de esta y
la siguiente seccin, debern seguir los lineamientos del experimento multinomial
descrito en seguida. Obsrvese que trata de una generalizacin de la distribucin
binomial.








Una vez que se tiene la distribucin de frecuencias ( distribucin multinomial), se
contrastan los valores observados con los valores esperados, y si las diferencias,
de acuerdo con el estadstico de prueba X
2
, son pequeas, se puede considerar
que la poblacin de donde proviene la muestra tiene la distribucin especificada;
en caso contrario, se rechazara la hiptesis nula.
El estadstico de prueba se designa con la letra griega X (se pronuncia ji) elevada
al cuadrado, por lo que a esta prueba suele llamrsela prueba de ji cuadrada: X
2
.


Experimento multinomial
- Consta de n ensayos independientes e idnticos
- El resultado de cada ensayos cae en una de k categora posibles, k 2
- Hay una probabilidad asociada a cada categora, constante de un ensayo a otro
- Las categoras son mutuamente excluyentes y exhaustivas (el resultado de cada
ensayo pertenece a una y solo una categora).
En las pruebas de bondad y ajuste y de independencia:
- Las frecuencias resultantes del experimento para cada categora suelen llamarse
frecuencias observadas y denotarse como O
i
, para i=1,2,., k.
- Las frecuencias para cada categora, de acuerdo con un modelo particular, suelen
llamarse frecuencias esperadas y denotarse como E
i
, para i=1,2,, k.


Se define como:



Donde k es el nmero de categoras empleadas, y O
i
y E
i
son las frecuencias
observada y esperada, respectivamente, en la categora i.
Debido a que se manejan los cuadrados de las diferencias de frecuencias, la
distribucin X
2
toma solo valores positivos. La grafica de la distribucin X
2
es
sesgada a la derecha y, al igual que la distribucin t de Student, es una familia de
curvas cuya forma y valores depende de los grados de libertad (gl) cuyo clculo
responde a la expresin:
gl= k- q 1
Donde q es el nmero de parmetros poblacionales que se estiman.











Conforme los grados de libertad aumentan, la grfica de la distribucin tiene a
verse como una distribucin acampanada; no olvidar, sin embargo, que solo toma
valores positivos.
Los encabezados de las filas corresponden a los grados de libertad, y los
encabezados de las columnas, a las reas de la cola derecha de la distribucin.
Por ejemplo de acuerdo con la tabla, si se tiene 4 grados de libertad y el rea de la
cola derecha es 0.050, el valor crtico es X
2
= 9.49. Si tiene 6 grados de libertad y
el area de la cola derecha es 0.050, el valor critic es X
2
= 12.59

Frecuencias esperadas pequeas
La prueba de bondad de ajuste puede utilizarse tambin cuando el nmero de
categoras k es igual a 2 (gl=1). Deber, sin embargo, cuidarse que a frecuencia
esperada E de cada una de las dos categoras sea por lo menos 5. Cumplido este
requisito podr aplicarse la expresin con una correccin denominada correccin
por continuidad.
Si k > 2, podra aceptarse que hasta 20% de las E, sean por lo menos 5. En caso
contrario, puede intentarse combinar categoras adyacentes para formar una sola
categora con una frecuencia esperada mayor. Esto es recomendable solamente si
las combinaciones resultantes tiene sentido. Por ejemplo, una muestra de
personas se clasifica de acuerdo con su respuesta a una declaracin de opinin
DISTRIBUCION X
2
PARA DIFERENTES GRADOS DE LIBERTAD

como apoyo total, apoyo, indiferente, oposicin una oposicin total. Con el fin de
aumentar las frecuencia, podran combinarse las categoras apoyo total y apoyo,
pero no oposicin y apoyo
Si se tiene dos categoras y una frecuencia esperada menor que 5, o si despus
de combinar las categoras adyacentes se termina con dos categoras y una de
ellas aun es menor que 5, puede acudirse a la distribucin binomial
Test Chi Cuadrado Aplicado en los Contrastes de Significacin:
La Distribucin Chi Cuadrado, al igual que ocurre con cualquier otra distribucin
de la probabilidad, simplemente suministra un modelo ideal sobre la manera
como probablemente debera ocurrir la variable X segn un determinado Grado
de Libertad o de independencia que se le puede atribuir a esa variable aleatoria
frente a otras variables similares dentro de un mismo conjunto de datos. El
denominado Test Chi Cuadrado toma como referente y fundamento los valores
de probabilidad que establece la Distribucin Chi Cuadrado, y a partir de esos
valores ideales permite calcular qu tan marcadas o qu tan relevantes son las
diferencias existentes entre los resultados tericos que proporciona ese modelo
de probabilidad y los resultados empricos observados en la realizacin de un
determinado experimento, teniendo en cuenta el Grado de Libertad atribuible a
las variables que conforman ambos conjuntos de datos.
Para poder aplicar el Test Chi-Cuadrado es necesario en primer lugar tener de
antemano seleccionado un modelo ideal sobre los resultados
tericosesperados que debera arrojar un determinado experimento
aleatorio, modelo que sirve como referente para establecer cul debera ser el
comportamiento perfecto esperado en la aparicin de los resultados de ese
experimento aleatorio cuando no se encuentra sometido a interferencias
desconocidas o incontrolables. En segundo lugar, es necesario tener una
muestra estadstica conformada por una serie de resultados observados
que hayan ocurrido en el mundo real y que hayan sido producidos por un

experimento aleatorio analizado. Usando estos dos grupos de datos el Test Chi
Cuadrado permite realizar un Contraste de Significacin mediante el cual
con cierto grado de certeza matemtica el cientfico puede concluir que los
resultados aleatorios observados s responden o no responden a las
expectativas tericas esperadas.
A continuacin se mencionan los pasos bsicos que se deben aplicar para
lograr un Contraste de Significacin utilizando el Test ChiCuadrado.
a) En primer lugar, respecto de la ocurrencia de una serie numerable de
eventos (E) que pueden ser producidos por un experimento aleatorio, resulta
conveniente organizar los resultados tericos esperados (e) frente a los
resultados observados (o) del experimento, incluyendo ambos dentro de una
tabla de contraste como la siguiente:

b) En segundo lugar, una vez que se ha establecido que para una determinada
cantidad de eventos que produce el experimento aleatorio existe una misma
cantidad de resultados esperados y una misma cantidad de resultados
observados que pueden ser contrastados, entonces se procede a aplicar el
Test Chi-Cuadrado con el propsito de llegar a un Valor Chi (
2
), el cual en
ltimas expresa el valor X que le corresponde al contraste existente entre los
dos grupos de datos, valor X que luego debe ser incluido y analizado dentro de
los valores ideales propuestos por la Distribucin Chi Cuadrado. En tal caso el
Test Chi Cuadrado consiste en elevar al cuadrado las diferencias existentes
entre los resultados esperados (e) y los resultados observados (o), y luego el
valor obtenido en cada caso es dividido por el correspondiente resultado
esperado, y al final se suman todos los valores as obtenidos para llegar al
Eventos que produce el
experimento:
E
1
E
2
E
3
E
n

Resultados tericos
Esperados:
e
1
e
2
e
3
e
n

Resultados reales
Observados:
o
1
o
2
o
3
o
n


Valor Chi de todos los datos analizados. Estas sencillas operaciones
matemticas se resumen en la siguiente frmula:

2
=
(o
1
e
1
)
2

+
(o
2
e
2
)
2

+
(o
3
e
3
)
2

+ +
(o
n
e
n
)
2

e
1
e
2
e
3
e
n

c) Finalmente, la anterior frmula matemtica siempre debe arrojar un
determinado valor positivo ubicado entre cero (0) y el infinito (), valor que es
denominado como Valor Chi (
2
), el cual equivale a uno cualquiera de los
infinitos valores que podra asumir una variable X sobre el eje horizontal de
coordenadas de la grfica que representa la Distribucin Chi Cuadrado. Ese
Valor Chi por s slo no permite concluir si existe o no una diferencia
relevante o significativa entre los resultados observados y los resultados
tericos esperados, y por consiguiente eso nicamente se puede saber al tener
en cuenta cul es el Grado de Libertad de los resultados que fueron
analizados, y con fundamento en esa informacin se puede establecer si al
Valor Chi obtenido le corresponde o no un porcentaje de probabilidad de
ocurrencia relevante dentro del Grado de Libertad antes mencionado.
Valores Crticos y Lmites de Confianza en la aplicacin del Test Chi
Cuadrado:
Ahora bien, para establecer si es o no relevante y significativo el porcentaje de
probabilidad que le corresponde a un Valor Chi dentro de un determinado
Grado de Libertad segn el modelo de la Distribucin Chi Cuadrado, los
matemticos han propuesto la aplicacin de los denominados Lmites o
Niveles de Confianza.
Un Lmite de Confianza simplemente establece unos Valores Crticos de
probabilidad a partir de los cuales se considera que es relevante o irrelevante
la diferencia existente entre unos resultados observados y unos resultados
tericos esperados. Si al comparar una muestra de resultados observados en
un experimento frente a unos resultados tericos esperados ocurre que ambos
coinciden plenamente, entonces se puede afirmar que la probabilidad de
coincidencia entre ambos grupos de datos tiene un valor de 1 (equivalente a
Muy Probable), es decir, hay un cien por ciento (100%) de coincidencia entre
ambos grupos de datos. En cambio, si al efectuar esta comparacin se
constata que existen grandes discrepancias entre los resultados observados y

los resultados tericos esperados, entonces la probabilidad de coincidencia
entre ambos datos debe comenzar a alejarse por defecto del mximo valor que
es 1 (Muy Probable) y puede llegar eventualmente a descender hasta cero
(equivalente a Improbable), dependiendo de qu tan grande sea la
discrepancia existente, es decir, paulatinamente se vuelve improbable la
coincidencia entre los dos grupos de datos analizados. En consecuencia,
para determinar si son relevantes o no las discrepancias existentes entre los
resultados observados y los resultados tericos, el asunto se resuelve
estableciendo qu tanto alejamiento entre el porcentaje de probabilidad de una
serie de datos y el mximo valor de la probabilidad representado por 1 puede
tolerar la comunidad cientfica.
Al respecto hay que sealar que la comunidad cientfica generalmente
admite dos Lmites de Confianza en cuanto al porcentaje de probabilidad
aplicable a los Contrastes de Significacin entre dos grupos de datos. As,
habitualmente se admiten como Niveles de Confianza los valores de
probabilidad 0,01 y 0,05 respecto del mximo valor de la probabilidad (1 = Muy
Probable), es decir, si en la conocida escala de la probabilidad que va desde 0
(Improbable) hasta 1 (Muy Probable) se observa que el 1 representa el 100%
de probabilidad de coincidencia entre los dos datos y el 0 representa el 0% de
probabilidad de coincidencia entre los dos datos, entonces respecto de esos
valores la comunidad cientfica est dispuesta a admitir que dos grupos de
resultados contrastados que slo tengan hasta un 0,01 o hasta un 0,05 de
probabilidad de coincidencia revelan que existe un alejamiento significativo
respecto de las expectativas sealadas por el modelo terico. En otras
palabras, si al aplicar el Test Chi Cuadrado se obtiene un Valor Chi (
2
) al que
segn el respectivo Grado de Libertad le corresponde una probabilidad inferior
o igual a 0,01, eso equivale a que los resultados esperados y los resultados
observados que fueron evaluados por el test slo tienen un 1% de probabilidad
de coincidencia (0,01100 = 1%), es decir, en sentido contrario se tiene la
confianza de que al menos existe un 99% de probabilidad de no coincidencia
entre los resultados analizados, y eso es suficiente para declarar que la
diferencia es realmente significativa.
Por supuesto, se puede tomar como referente el segundo Lmite de Confianza
equivalente a 0,05 que es ms drstico que el anterior, y si al aplicar el Test
Chi Cuadrado se obtiene un Valor Chi (
2
) al que segn el respectivo Grado de

Libertad le corresponde una probabilidad inferior o igual a 0,05, eso equivale a
que los resultados esperados y los resultados observados que fueron
evaluados por el test slo tienen un 5% de probabilidad de coincidencia
(0,05100 = 5%), es decir, en sentido contrario se tiene la confianza de que al
menos existe un 95% de probabilidad de no coincidencia entre los resultados
analizados, y eso sera suficiente para declarar que la diferencia es
significativa y que por tanto los resultados observados ya no responden a los
expectativas del modelo terico.
Como al aplicar el Test Ji Cuadrado es habitual que los cientficos hablen de
trabajar con un Nivel de Confianza del 95% o del 99%, que se corresponden
con los valores de probabilidad de coincidencia de 0,05 y 0,01
respectivamente, y como tales porcentajes de probabilidad deben ser
calculados para todos los posibles Valores Chi teniendo en cuenta todos los
posibles Grados de Libertad que son aplicables, entonces tradicionalmente
para facilitar la labor de clculo se han elaborado tablas de referencia en las
que se incluyen los principales Valores Crticos y los Grados de Libertad a
partir de los cuales la probabilidad de coincidencia entre los resultados
observados y los resultados esperados se torna inferior a 0,05 o inferior a 0,01.
Actualmente el lector puede utilizar esas tablas de referencia de los Lmites de
Confianza que fcilmente se pueden conseguir en la Web o puede utilizar la
til funcin PRUEBA.CHI de la hoja de clculo Excel que directamente le
suministra el valor de la probabilidad de coincidencia entre los resultados
esperados y los resultados observados, tal como se explica ms adelante.
Aplicacin del Test Chi Cuadrado a los resultados de un Experimento
Cientfico:
Teniendo en cuenta la anterior informacin, es muy fcil calcular el Valor Chi
para el contraste entre dos series de resultados (los observados y los
esperados).
Por ejemplo, supongamos que una fbrica de productos lcteos va a lanzar al
mercado 10 tipos diferentes de yogurt de distinto sabor (manzana, mora,
melocotn, pia, frambuesa, durazno, mandarina, limn, banana y cereza), y
segn las expectativas calculadas mediante un modelo terico ideal que se
basa en el anlisis de los conservantes y de la composicin qumica de los 10
yogures, se concluye que stos sometidos a un buen estado de refrigeracin

deberan durar hasta 20 das sin descomponerse. La fbrica realiza diferentes
pruebas antes de lanzar el novedoso producto al mercado, con el propsito de
evaluar si los conservantes y los componentes qumicos usados durante la
produccin del yogurt se ajustan al modelo terico ideal y permiten que el
producto final dure sin descomponerse hasta 20 das sometido a buen estado
de refrigeracin. As, se obtiene una primera muestra de los 10 diferentes
yogures que son colocados inmediatamente en refrigeracin, y se descubre
que estos 10 tipos de yogures entraron en descomposicin despus de
transcurridos los siguientes das: 20, 19, 20, 20, 20, 20, 20, 20, 21 y 20. En
este caso el contraste entre los resultados ideales esperados y los resultados
observados respecto de la duracin de los yogures sometidos a refrigeracin
se puede expresar en una tabla como la siguiente:

Para aplicar el Test Chi Cuadrado a estos resultados y obtener su Valor Chi
(
2
) respectivo, se procede a desarrollar la siguiente frmula en la cual las
diferencias entre los valores observados (o) y los valores ideales esperados (e)
son elevadas al cuadrado y luego divididas por el valor de los resultados
esperados (e), para luego sumar todos los valores as obtenidos:

2
=
(o
1
e
1
)
2

+
(o
2
e
2
)
2

+
(o
3
e
3
)
2

+ +
(o
n
e
n
)
2

e
1
e
2
e
3
e
n

2
=
(20
20)
2

+
(19 20)
2

+
(20
20)
2

+
(20
20)
2

+
(20
20)
2

20 20 20 20 20
Tipo de
yogur:
Manzana Mora Melocotn Pia Frambuesa Mandarina Limn Cereza
Das que
dur
(resultados
reales
Observados):
20 19 20 20 20 20 20 21
Das que
debera
durar
(resultados
ideales
Esperados):
20 20 20 20 20 20 20 20


+
(20
20)
2

+
(20 20)
2

+
(20
20)
2

+
(21
20)
2

+
(20
20)
2

20 20 20 20 20

2
=
0
2

+

1
2

+
0
2

+
0
2

+
0
2

+
0
2

+
0
2

+
0
2

+
1
2

+
0
2

20 20 20 20 20 20 20 20 20 20

2
=
0
+
1
+
0
+
0
+
0
+
0
+
0
+
0
+
1
+
0
20 20 20 20 20 20 20 20 20 20

2
= 0 + 0,05 + 0 + 0 + 0 + 0 + 0 + 0 + 0.05 + 0

2
= 0,1
En este caso el Valor Chi obtenido para los dos tipos de resultados que fueron
contrastados es:
2
= 0,1. Este Valor Chi por s slo no dice nada en cuanto a
si existe o no una diferencia significativa entre los dos tipos de resultados
analizados, y por tanto eso slo se puede saber al tomar como referente un
Nivel de Confianza 0,05 o un Nivel de Confianza 0,01, teniendo en cuenta los
Grados de Libertad aplicables a los resultados que fueron analizados. As,
tenemos que tanto los resultados observados (o) como los resultados ideales
esperados (e) estn conformados por un conjunto de 10 datos independientes
entre s, y por tanto el respectivo Grado de Libertad segn la frmula aplicable
(G.L. = k1) es igual a: G.L. = 101 = 9. Al consultar la tabla de los valores
crticos para los Lmites de Confianza, se observa que para un Nivel de
Confianza 0,05 con 9 grados de libertad el valor crtico que podra asumir X es
de 16,92. Como el Valor Chi obtenido sobre la muestra de los 10 yogures fue
de 0,1, entonces es claro que ese valor es bastante menor que 16,92 (0,1 <
16,92), y esto indica que los resultados observados tienen ms de un 5% de
probabilidad de coincidencia respecto de los resultados esperados, es decir, la
diferencia existente entre los resultados observados y los resultados ideales no
es significativa o relevante, y por tanto se puede concluir que los resultados
observados en la muestra de los 10 yogures demuestran que la
descomposicin de esos yogures se sigue produciendo dentro de los
parmetros ideales previstos por el modelo terico.

Supongamos que al da siguiente por algn motivo se realiz un ajuste en el
proceso productivo de la fbrica de productos lcteos, y como resultado se
obtuvo una segunda muestra de los 10 yogures de diferente sabor producidos
ese da, que al ser refrigerados entraron en descomposicin a los siguientes
das: 26, 14, 15, 25, 15, 26, 25, 14, 26 y 12. En este caso el contraste entre los
resultados ideales esperados y los resultados observados respecto de la
duracin de esta segunda muestra de yogures sometidos a refrigeracin se
puede expresar en una tabla como la siguiente:
Tipo de
yogur:
Manzana Mora Melocotn Pia Frambuesa Mandarina Limn Cereza
Das que
dur
(resultados
reales
Observados):
26 14 15 25 15 26 25 26
Das que
debera
durar
(resultados
ideales
Esperados):
20 20 20 20 20 20 20 20
Claramente a simple vista se ven grandes fluctuaciones entre los resultados
ideales esperados (e) y los resultados observados (o) en las muestras
empricas de los yogures, pero para calcular con exactitud matemtica si esas
diferencias son significativas es necesario aplicar la frmula ya comentada:

2
=
(o
1
e
1
)
2

+
(o
2
e
2
)
2

+
(o
3
e
3
)
2

+ +
(o
n
e
n
)
2

e
1
e
2
e
3
e
n

2
=
(26
20)
2

+
(14 20)
2

+
(15
20)
2

+
(25
20)
2

+
(15
20)
2

20 20 20 20 20

+
(26
20)
2

+
(25 20)
2

+
(14
20)
2

+
(26
20)
2

+
(12
20)
2

20 20 20 20 20

2
=
6
2

+

6
2

+

5
2

+
5
2

+

5
2

+
6
2

+
5
2

+

6
2

+
6
2

+

8
2

20 20 20 20 20 20 20 20 20 20

2
=
36
+
36
+
25
+
25
+
25
+
36
+
25
+
36
+
36
+
64
20 20 20 20 20 20 20 20 20 20

2
= 1,8 + 1,8 + 1,25 + 1,25 + 1,25 + 1,8 + 1,25 + 1,8 + 1,8 + 3,2

2
= 17,2
Para esta segunda muestra de los resultados de los yogures contrastada frente
a los resultados del modelo terico el Valor Chi fue de:
2
= 17,2. Teniendo en
cuenta que para 9 Grados de Libertad dentro de un Nivel de Confianza del
0,05 el valor lmite crtico es de 16,92, entonces es evidente que en este caso
el Valor Chi obtenido es superior a ese valor crtico (17,2 > 16,92), y esto
indica que los resultados observados en la segunda muestra de yogures tienen
menos de un 5% de probabilidad de coincidencia respecto de los resultados
tericos esperados, es decir, en este caso la diferencia existente es
significativa dentro de un Nivel de Confianza del 0,05 y se puede concluir que
los resultados observados demuestran que la descomposicin de los yogures
de esa segunda muestra ya no se est produciendo dentro de los parmetros
ideales previstos por el modelo terico.

En la anterior grfica se observa claramente que el valor 16,92, representado
por la lnea recta de color lila, es el Valor Crtico que intercepta con la lnea roja

curva representativa de 9 Grados de Libertad justo en el comienzo del lmite
establecido por el valor de probabilidad 0,05 que corresponde al Nivel de
Confianza del 5% de coincidencia. En cambio, el valor 17,2, representado por
la lnea recta de color azul, intercepta con la lnea roja curva representativa de
9 Grados de Libertad justo dentro del rea sombreada de color verde que
corresponde a valores de probabilidad inferiores al Nivel de Confianza del 0,05
de coincidencia, y esto indica que existe menos de un 5% de probabilidad de
coincidencia entre los resultados observados y los resultados ideales
esperados que fueron analizados.En otras palabras, en el ejemplo comentado
es evidente que el Valor Chi de la primera muestra de yogures analizada es de
0,1 y eso equivale a que es inferior al Valor Crtico 16,92 para 9 Grados de
Libertad, lo que obviamente significa que hay mucho ms de 5% de
coincidencia entre los resultados observados de esa muestra y los resultados
ideales esperados. En cambio, el Valor Chi de la segunda muestra de yogures
analizada es de 17,2 y eso equivale a que es superior al Valor Crtico 16,92
para 9 Grados de Libertad, lo que significa que hay menos de 5% de
coincidencia entre los resultados observados de esa segunda muestra y los
resultados tericos esperados.
6) EJEMPLOS PLANTEADOS:

1) Una compaa deseaba saber si sus obreros, sus empleados de
oficina, sus empleadores de ventas y sus otros empleados se
diferenciaban en cuanto as u opinin, a cerca de su conveniencia de
ser empleado en la compaa. Se tom una muestra aleatoria de
personas de cada uno de los cuatro grupos y a cada uno se le solicita
que diera su opinin sobre la compaa como lugar de trabajo, en
comparacin con otras compaas que le fueran familiares.

OPINION OBREROS EMPLEADOS
OFICINA
VENDEDORES OTROS
EMPLEADOS
POR
ENCIMA
DEL
PROMEDIO
68 45 70 60
POR
DEBAJO
DEL
PROMEDIO
57 30 30 15

Proporcionan estos datos suficiente evidencia como para indicar una
falta de homogeneidad entre los cuatro grupos respecto de su opinin
acerca de la convencin de ser empleado de la compaa?

2) El nmero de reclamos recibidos en cinco establecimientos, por
concepto de mercanca defectuosa en cierto mes del ao es la
siguiente:
ESTABLECIMIENTO
A B C D E TOTAL
RECLAMOS
50 65 72 47 52 286

Con un nivel del 5% Podemos afirmar que el nmero de reclamos que
recibe cada establecimiento es aproximadamente el mnimo?
3) El nmero de activacin de computadores vendidos en una tienda
presentan la siguiente distribucin:
NDE
COMPUTADORAS
0 1 2 3
NDE DIAS 1 16 55 228
Probar en el nivel del 5% si se puede considerar como valores de una
variable aleatoria binomial.
7) CONCLUSIONES:

- La Chi-cuadrado permite al investigador comprobar una hiptesis acerca
de una relacin entre dos medidas nominales.
- La lgica 2 es la siguiente:el nmero total de observaciones en cada
columna (puede ser de tratamiento o control) y el nmero total de
observaciones en cada rengln (positivo o negativo) son considerados
dados o fijados y se conoce como frecuencia marginal.
- Si nosotros asumimos que columnas y renglones son independientes,
podemos calcular el nmero de observaciones esperadas que ocurran al
azar y se conoce como frecuencia esperada. Este tipo de estadstica

compara la frecuencia observada y la esperada de cada celda despus de
multiplicar columnas y renglones para encontrar si existe o no una
relacin.
- La Chi-cuadrado es recomendable para distribuciones discretas o
continuas cuando existe gran cantidad de datos por tanto se recomienda
trabajar con datos agrupados.

Bibliografa
http://www.cm.colpos.mx/2010/images/tesis/tesis_de_vicentefernandez.pdf
http://www.gastrocancerprev.com.mx/Documentos/MetodoINV/1%20_6_.pdf
http://www.slideshare.net/mgarcianaranjo/pruebas-de-bondad-de-ajuste-vfinal