Sei sulla pagina 1di 30

REPUBLICA BOLIVARIANA DE VENEZUELA

MINISTERIO POPULAR PARA LA EDUCACION


IUP SANTIAGO MARIO
SAN CRISTOBAL ESTADO TACHIRA

DISTRIBUCIONES
(Estadstica II)

Integrante:
Luissander Gmez Vivas
C.I.: 13467290

INTRODUCCIN

Hay muchos criterios para clasificar las distribuciones de


probabilidad en Estadstica. Quizs el ms usado es el de clasificarlas
segn el tipo de variable al que se aplican. Las variables discretas son las
que pueden tomar solo valores aislados en la recta real, generalmente
enteros, ejemplo cantidad de alumnos de un aula. Las distribuciones para
estas variables son las probabilidades asignadas a cada valor posible.
Las otras variables son las continuas que pueden tomar cualquier valor (al
menos tericamente) en uno o ms intervalos de la recta real, ejemplo
altura de un individuo, al menos tericamente puede tomarse con la
cantidad de decimales que se desee. A cada valor se le asigna un valor
de una funcin de densidad de probabilidades, las probabilidades se
hallan mediante reas por lo que la probabilidad de un valor (aunque no
sea imposible) vale cero (pues la integral con los dos limites iguales vale
cero.
Una distribucin de probabilidad indica toda la gama de valores que
pueden

representarse

como

resultado

de

un

experimento.

Una

distribucin de probabilidad es similar al distribucin de frecuencias


relativas .Si embargo, en vez de describir el pasado, describe la
probabilidad que un evento se realice en el futuro, constituye una
herramienta fundamental para la prospectiva, puesto que se puede
disear un escenario de acontecimientos futuros considerando las
tendencias actuales de diversos fenmenos naturales. Las decisiones
estadsticas basadas en la estadstica inferencial son fundamentales en la
investigacin que son evaluadas en trminos de distribucin de
probabilidades.

Distribucin Normal
La distribucin normal N (m, s) es un modelo matemtico que rige
muchos fenmenos. La experiencia demuestra que las distribuciones de
la mayora de las muestras tomadas en el campo de la industria se
aproximan a la distribucin normal si el tamao de la muestra es grande.
Esta distribucin queda definida por dos parmetros: la media m y la
desviacin tpica s. Se presenta mediante una curva simtrica conocida
como campana de Gauss. Esta distribucin nos da la probabilidad de que
al elegir un valor, ste tenga una medida contenida en unos intervalos
definidos. esto permitir predecir de forma aproximada, el comportamiento
futuro de un proceso, conociendo los datos del presente.
Importancia de la distribucin normal
La distribucin normal es de suma importancia en estadstica por tres
razones principales:
1. Numerosas variables continuas de fenmenos aleatorios tienden a
comportarse probabilsticamente mediante sta.
2. Es el lmite al que convergen tanto variables aleatorias continuas
como discretas.
3. Proporciona la base de la inferencia estadstica clsica debido a su
relacin con el teorema del lmite central.
Propiedades de la distribucin normal
1. Su grafica tiene forma acampanada.
2. El valor esperado, la mediana y la moda tienen el mismo valor
cuando la variable aleatoria se distribuye normalmente.
3. Su dispersin media es igual a 1.33 desviacines estndar. Es
decir, el alcance intercuartil est contenido dentro de un intervalo

de dos tercios de una desviacin estndar por debajo de la media a


dos tercios de una desviacin estndar por encima de la media.
En la prctica, algunas de las variables que observamos slo
pueden aproximar estas propiedades. As que si el fenmeno puede
mediarse aproximadamente mediante la distribucin normal se tendr:
1. Que el polgono puede verse en forma de campana y simtrico.
2. Sus mediciones de tendencia central tienen bastante parecido.
3. El valor intercuartil puede diferir ligeramente de 1.33 desviaciones
estndar.
4. El dominio de la variable aleatoria normalmente distribuida
generalmente caer dentro de 3 desviaciones estndar por encima
y por debajo de la media.
El modelo matemtico

El modelo o expresin matemtica que representa una funcin de


densidad de probabilidad se denota mediante el smbolo
distribucin normal, se tiene la siguiente funcin de probabilidad.

donde
es la constante matemtica aproximada por 2.71828
es la constante matemtica aproximada por 3.14159

. Para la

Parmetros
es

cualquier

valor

de

la

variable

aleatoria

continua,

donde

As,

A continuacin se presentan las grficas de las funciones de


densidad Normal con el objetivo de observar cambios en la distribucin de
probabilidad:
caso 1:
Cuando se mantiene la misma media, pero cambia la varianza.
Ejemplo:

caso 2:

Cuando se mantiene la misma varianza, pero cambia la media.


Ejemplo: (

Ahora, al examinar la primera y segunda derivada de

, se

pueden listar otras propiedades de la curva normal:


1. La moda, que es el punto sobre el eje horizontal donde la curva es
un mximo ocurre cuando

2. La curva es simtrica alrededor de un eje vertical a travs del valor


esperado

3. La curva tiene sus puntos de inflexin en


hacia abajo si

, es cncava

, y es cncava hacia arriba

en cualquier otro punto.


4. La curva normal se aproxima al eje horizontal de manera asinttica
conforme nos alejamos de la media en cualquier direccin.
Haciendo una transformacin a la variable aleatoria normal

, sta

se puede llevar a un nuevo conjunto de observaciones de una variable


aleatoria normal

con media cero y varianza 1. A dicha transformacin se

le conoce como estadarizacin de la variable aleatoria normal

Definicin
La distribucin de probabilidad de una variable aleatoria normal con
media cero y varianza 1 se llama distribucin normal estndar.
Funcin de Densidad
Normal (0,1)

Grfico 6.
En la distribucin normal estndar se sabe que las reas se
distribuyen de la siguiente manera:
Funcin de Densidad
Normal (0,1)

Manejo de tablas
La tabla anexa representa las probabilidades o reas bajo la curva
normal

calculadas

hasta

los

valores

partculares

de

inters

(Transformados). Al observar la tabla se observa que todos los valores


deben registrarse primero con hasta dos lugares decimales. Por ejemplo,
para leer el rea de probabilidad bajo la curva hasta

, podemos

recorrer hacia abajo la columna Z de la tabla hasta que ubiquemos el


valor de inters

(en dcimas). As pues, nos detenemos en la fila

. A continuacin, leemos esta fila hasta que intersecamos la


columna que contiene el lugar de centsimas del valor

). Por

tanto, en el cuerpo de la tabla, la probabilidad tabulada para z=1.57


corresponde a la interseccin de la fila z=1.5 con la columna z=0.07 y es
0.9418.

Distribucin de Muestreo
Es la distribucin de probabilidad de una estadstica; , es una
funcin de las variables aleatorias que se observan en la muestra, que
resulta de un nmero infinito de muestras aleatorias de tamao ,
mutuamente independientes; provenientes de la poblacin de inters.
Distribucin de Muestreo de la Media.
Un estadstico est distribuido normalmente cuando la muestra que
se toma es grande, conocido como el teorema del lmite central. Cuando
el tamao de la muestra es grande y la varianza de la poblacin es
conocida se toma la distribucin normal estndar como estadstico de
prueba. Pero cuando el tamao de la muestra no es grande y a su vez se
desconoce la varianza de la poblacin, es aconsejable aplicar la
Distribucin de students . Estas condiciones se conocen como el teorema
del lmite central
Distribucin de Muestreo de la Varianza.
La estadstica, es empleada para inferir la varianza de la poblacin,
mediante la distribucin de muestreo de la ji-cuadrado, que tiene como
formulacin. Y la estadstica apropiada para inferir las varianzas de dos
poblaciones con distribuciones normales se conoce con la Distribucin F, ,
con grados de libertad para la primera poblacin y , para la segunda
poblacin.
Estimacin Puntual y por Intervalos
Existen dos tipos de estimacin en estadstica la estimacin
puntual y la estimacin por intervalo.

Estimacin Puntual.
El parmetro de la poblacin se infiere mediante el valor de un
estadstico, tomado de la muestra. En el caso de la media , tenemos
como , entonces, el promedio muestral es un estimador puntual de la
media poblacional
Estimacin por Intervalo.
Los parmetros de la poblacin son estimados mediante un
intervalo de confianza cuya notacin es la siguiente: Sea, donde es la
confiabilidad o la probabilidad de ocurrencia del estadstico en este
intervalo, despejando el valor de tenemos entonces que el intervalo de
confianza, conocida como estimacin de la media con varianza conocida
es:
Para la estimacin de la media con varianza desconocida se aplica
la distribucin de Students: , con grados de libertad.
Para diferencia de medias con varianzas conocidas y el intervalo
de confianza:
Para diferencias de medias con varianzas desconocidas: , donde
es la desviacin promedio definida como, con grados de libertad.
La estimacin de la varianza , es estimada mediante el siguiente
intervalo de confianza: , con grados de libertad.
Para la razn de varianzas, con y grados de libertad para la
primera y la segunda muestra respectivamente.
Tomando en cuenta que la distribucin muestral de un estadstico
se define como la funcin de probabilidad (o funcin de densidad de
probabilidad) de ese estadstico. Es decir, se trata de una funcin que

expresa la probabilidad asociada a cada posible valor del estadstico


obtenido a partir de una muestra aleatoria de tamao n.
Para ilustrar este concepto, construiremos la distribucin muestral del
estadstico

[D] cuando extraemos muestras aleatorias de tamao 2 en

una poblacin constituida por los valores 1, 2 y 3. La muestra estar


formada por los valores de las dos variables aleatorias X1(resultado de la
primera seleccin) y X2(resultado de la segunda eleccin). A su vez, la
media

[D] es tambin una variable aleatoria, puesta que se obtiene por

combinacin lineal de las dos variables aleatorias X1 y X2. Formaremos


muestras de 2 elementos recurriendo a dos vas diferentes:
1. Procedimiento emprico. Seleccionamos al azar una muestra con
reposicin de 2 elementos y calculamos su media. Repetimos el
proceso hasta un total de 20 veces. Los resultados de este proceso
emprico quedan recogidos en la tabla 2.
Tabla 2: Elementos y medias para 20 muestras de tamao dos
x1 1

3 1

x2 2

1 3

1.5 2.5 2

1.5 2

1.5 2.5 3

x3 1.5 2

2.5 1.5 1.5 1.5 2.5 2 2

La distribucin de frecuencias para los valores de la media


obtenidos quedara tal y como muestra la tabla 3.
Tabla 3: Distribucin de frecuencias para X
f

fr

1/20 = 0.05

1.5

7/20 = 0.35

[D]

6/20 = 0.30

2.5

4/20 = 0.25

2/20 = 0.10

De esta forma habremos construido una distribucin muestral emprica.


2. Procedimiento terico. Sin tener que extraer repetidamente
muestras para calcular la media de los valores que las componen,
podemos construir una distribucin muestral terica, valindonos
de conceptos probabilsticos. As, puedo determinar las 3 2
muestras aleatorias con reposicin posibles a partir de la poblacin
considerada y calcular las respectivas medias (ver tabla 4).
Tabla 4: Muestras con reposiciones posibles y medias respectivas
x1

x2

1.5

1.5

2.5

2.5

[D] 1

Teniendo en cuenta las medias de las 9 muestras posibles, todas


ellas equiprobables, puedo construir la funcin de probabilidad para la
variable aleatoria

[D] (ver tabla 5).

Tabla 5: Funcin de probabilidad para


[D]

P(

[D]
[D]=

[D])
1

1/9 = 0.11

1.5

2/9 = 0.22

Conociendo

3/9 = 0.33

2.5

2/9 = 0.22

1/9 = 0.11

esta

distribucin

probabilidad de obtener el valor

terica,

que

la

[D] = 1 para la media de una muestra

extrada al azar de la poblacin es P(


probabilidad de obtener el valor

muestral

[D] = 1) = 0.11, mientras que la

[D] = 2 es P(

[D] = 2) = 0.33. Es decir,

en un 11% de los casos, la muestra tendr como media 1 y en un 33% de


los casos, el valor de la media en la muestra ascender a 2.
Como afirmamos anteriormente, la distribucin muestral emprica
de un estadstico se aproxima a la distribucin muestral terica a medida
que aumenta el nmero de muestras extradas. Las frecuencias relativas
obtenidas empricamente llegan a coincidir con las probabilidades tericas
cuando el nmero de muestras crece indefinidamente.
En el ejemplo que hemos presentado, partiendo de una poblacin
de 3 elementos resulta muy fcil conocer el espacio muestral al que se
asocia la variable aleatoria
valor de

[D], y determinar la probabilidad de cada

[D]. Sin embargo, el proceso es ms complicado cuando

trabajamos con poblaciones de gran tamao. No obstante, gracias al


empleo de conocimientos matemticos, podemos llegar a determinar la
distribucin muestral de los estadsticos ms comunes.

Chi-cuadrado
Las pruebas chi-cuadrado son un grupo de contrastes de hiptesis
que sirven para comprobar afirmaciones acerca de las funciones de
probabilidad (o densidad) de una o dos variables aleatorias.

Estas pruebas no pertenecen propiamente a la estadstica


paramtrica pues no establecen suposiciones restrictivas en cuanto al tipo
de variables que admiten, ni en lo que refiere a su distribucin de
probabilidad ni en los valores y/o el conocimiento de sus parmetros.
Se aplican en dos situaciones bsicas:
a) Cuando queremos comprobar si una variable, cuya descripcin
parece adecuada, tiene una determinada funcin de probabilidad.
La prueba correspondiente se llama chi-cuadrado de ajuste.
b) Cuando queremos averiguar si dos variables (o dos vas de
clasificacin) son independientes estadsticamente. En este caso la
prueba que aplicaremos ser la chi-cuadrado de independencia o
chi-cuadrado de contingencia.

Chi-cuadrado de ajuste
En una prueba de ajuste la hiptesis nula establece que una
variable X tiene una cierta distribucin de probabilidad con unos
determinados valores de los parmetros. El tipo de distribucin se
determina, segn los casos, en funcin de: La propia definicin de la
variable, consideraciones tericas al margen de esta y/o evidencia
aportada por datos anteriores al experimento actual.
A menudo, la propia definicin del tipo de variable lleva implcitos
los valores de sus parmetros o de parte de ellos; si esto no fuera as
dichos parmetros se estimarn a partir de la muestra de valores de la
variable que utilizaremos para realizar la prueba de ajuste.
Como en casos anteriores, empezaremos definiendo las hiptesis.

Hiptesis nula: X tiene distribucin de probabilidad f(x) con


parmetros y1,..., yp
Hiptesis alternativa: X tiene cualquier otra distribucin de
probabilidad.
Es importante destacar que el rechazo de la hiptesis nula no
implica que sean falsos todos sus aspectos sino nicamente el conjunto
de ellos; por ejemplo, podra ocurrir que el tipo de distribucin fuera
correcto pero que nos hubisemos equivocado en los valores de los
parmetros.
Obviamente, necesitaremos una muestra de valores de la variable
X. Si la variable es discreta y tiene pocos valores posible estimaremos las
probabilidades de dichos valores mediante sus frecuencias muestrales; si
la variable es continua o si es una discreta con muchos o infinitos valores
estimaremos probabilidades de grupos de valores (intervalos).
Metodolgicamente, la prueba se basa en la comparacin entre la
serie de frecuencias absolutas observadas empricamente para los
valores de la variable (Oi) y las correspondientes frecuencias absolutas
tericas obtenidas en base a la funcin de probabilidad supuesta en la
hiptesis nula (Ei).
As pues, una vez calculadas las frecuencias absolutas de cada
valor o intervalo de valores, obtendremos el nmero total de
observaciones de la muestra (T) sumando las frecuencias observadas

Para calcular las frecuencias esperadas repartiremos este nmero


total de observaciones (T) en partes proporcionales a la probabilidad de
cada suceso o grupo de sucesos. Para ello calcularemos dichas

probabilidades utilizando la funcin de probabilidad definida en la


hiptesis nula f(x), de modo que, cada valor Ei tendr la siguiente
expresin:

Por tanto, tendremos los siguientes datos para la prueba:


Valor de la variable

x1 x2 x3 ... xi ... xk

Frecuencias observadas O1 O2 O3 ... Oi ... Ok


Frecuencias esperadas

E1 E2 E3 ... Ei ... Ek

Si la hiptesis nula es cierta, las diferencias entre valores


observados y esperados (que siempre existirn por tratarse de una
muestra aleatoria) son atribuibles, exclusivamente, al efecto del azar. En
estas condiciones, se puede calcular un parmetro que depende de
ambos, cuya distribucin se ajusta a una chi-cuadrado.

Si, por el contrario, la hiptesis nula fuera falsa los Ei ya no seran,


realmente, los valores esperados de las frecuencias; por tanto, las
diferencias entre los valores "esperados" y los observados reflejaran no
slo el efecto del azar sino tambin las diferencias entre los Ei y la
autntica serie de valores esperados (desconocida) Como consecuencia,
las diferencias de los numeradores de la expresin anterior tienden a ser
ms grandes y, por estar elevadas al cuadrado, la suma de cocientes ser
positiva y mayor que lo que se esperara para los valores de una chicuadrado.

Por tanto, el parmetro anterior ser el estadstico de contraste de


la prueba de hiptesis y la regin crtica se encontrar siempre en la cola
derecha de la distribucin chi-cuadrado. Evidentemente, esta prueba ser
siempre de una sola cola.

Estadstico de contraste

, el percentil 1 de la

Se acepta la hiptesis nula si


distribucin chi-cuadrado con

grados de libertad.

Cabe sealar que en las pruebas chi-cuadrado lo corriente es que


pretendamos comprobar que una variable tiene una cierta distribucin y,
por tanto, habitualmente, nos vemos obligados a colocar nuestra propia
hiptesis en la hiptesis nula. nicamente podremos colocar nuestra
hiptesis en la alternativa en el caso excepcional de que pretendamos
demostrar que cierto tratamiento produce una distorsin de la distribucin
bsica de la variable en estudio.
El nmero de grados de libertad de la variable chi-cuadrado se
calcula de la siguiente forma:
A priori, tendr tantos grados de libertad como parejas frecuencia
observada - frecuencia esperada.
A esta cantidad se debe restar el nmero de restricciones lineales
impuestas a las frecuencias observadas, es decir, el nmero de
parmetros que es necesario calcular directamente a partir de los
valores observados para establecer los valores esperados. Este

nmero es, como mnimo, uno ya que siempre tendremos que


calcular el nmero total de observaciones de la muestra.
Una condicin bsica para que podamos llevar a cabo una prueba
chi-cuadrado es que las frecuencias de las distintas clases deben ser
suficientemente altas como para garantizar que pequeas desviaciones
aleatorias en la muestra no tengan importancia decisiva sobre el valor del
estadstico de contraste.
Las reglas que determinan cuando es posible o no realizar el
contraste varan mucho de unos autores a otros. En un extremo de
mxima rigidez se encuentran aquellos que opinan que no se puede
realizar la prueba cuando alguna de las frecuencias, observadas o
esperadas, sea menor que 5. En el otro extremo se encuentran quienes
opinan que, para que la prueba sea viable ninguna de las frecuencias
esperadas debe ser menor que 1 y no ms del 25% pueden ser menores
que 5; en lo que refiere a las frecuencias observadas no existiran lmites.
La autora de este texto simpatiza ms con la segunda postura, no slo
por razones prcticas, sino porque lo razonable es que la distribucin
esperada est adecuadamente definida y, por tanto, no debe incluir
valores muy bajos; sin embargo, los valores extremos en la distribucin
observada

simplemente

reflejan

diferencias

importantes

entre

la

distribucin supuesta por la hiptesis nula y la real.


Sea cual sea el criterio que elijamos, si resultara que la prueba no
es viable podramos recurrir a englobar los valores o clases de valores
con sus vecinos ms prximos y pasar as a engrosar sus frecuencias.
Este procedimiento no puede llevarse hasta el absurdo pero proporciona
una salida digna a situaciones complejas. En casos excepcionales se
pueden englobar valores que no sean vecinos porque exista algn nexo
lgico de conexin entre ellos.

Cuando sea necesario agrupar valores, los grados de libertad no se


deben calcular hasta que tengamos establecidas definitivamente las
parejas de frecuencias observadas y esperadas con las que calcularemos
el estadstico de contraste.
Chi-cuadrado de contingencia o independencia
La prueba chi-cuadrado de contingencia sirve para comprobar la
independencia de frecuencias entre dos variables aleatorias, X e Y.
Las hiptesis contrastadas en la prueba son:
Hiptesis nula: X e Y son independientes.
Hiptesis alternativa: X e Y no son independientes (No importa
cual sea la relacin que mantengan ni el grado de esta.
La condicin de independencia, tal como fue definida en la pgina
anterior era: X e Y son independientes si y slo si para cualquier pareja de
valores x e y la probabilidad de que X tome el valor x e Y el valor y,
simultneamente, es igual al producto de las probabilidades de que cada
una tome el valor correspondiente.

Por tanto, todo lo que necesitamos sern unas estimas de las


funciones de probabilidad de ambas variables por separado (f(x) y f(y)) y
de la funcin de probabilidad conjunta (f(x,y))
Empezaremos la prueba tomando una muestra de parejas de
valores sobre la que contaremos la frecuencia absoluta con la que
aparece cada combinacin de valores (xi,yj) o de grupos de valores (i,j)
(Oij) La tabla siguiente, en la que se recogen estos datos, es en realidad

nuestra estimacin de la funcin de probabilidad conjunta multiplicada por


el nmero total de datos (T).

Para obtener las estimas de las funciones de probabilidad


marginales debemos sumar por filas y por columnas los valores de las
frecuencias conjuntas. Las sumas de filas (Fi) son, en cada caso, el
nmero de veces que hemos obtenido un valor de X (xi) en cualquier
combinacin con distintos valores de Y, es decir, son nuestra estima de la
funcin de probabilidad de X multiplicada por el nmero total de
observaciones; anlogamente, las sumas de columnas (Cj) son nuestra
estima de la funcin de probabilidad de Y multiplicada por el nmero total
de observaciones.
El nmero total de observaciones lo podemos obtener como la
suma de todas las frecuencias observadas o, tambin, como la suma de
las sumas de filas o de las sumas de columnas:

As pues, si las variables fueran independientes debera cumplirse


que

Naturalmente, nadie espera que esta condicin se cumpla


exactamente debido al efecto de los errores de muestreo aleatorio. Por
tanto, nuestro problema consiste en distinguir entre las diferencias
producidas por efecto del muestreo y diferencias que revelen falta de
independencia.
Podemos convertir la ecuacin anterior a frecuencias absolutas
multiplicando por T:

Si X e Y son independientes, Oij debe ser igual a

y, por tanto,

bajo la hiptesis de independencia,

es el valor

esperado de Oij (Eij)


Tal como pasaba en la prueba anterior, si las variables son
independientes, es decir, si las frecuencias Eij son realmente los valores
esperados de las frecuencias Oij, se puede calcular un parmetro que
depende de ambas que tiene distribucin chi-cuadrado,

Por otra parte, si las variables no son independientes, las


diferencias entre las series de frecuencias observadas y esperadas sern
mayores que las atribuibles al efecto del azar y, al estar elevadas al
cuadrado en el numerador de la expresin anterior, sta tender a ser
mayor que lo que suele ser el valor de una variable chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de la prueba de


hiptesis y la regin crtica se encontrar siempre en la cola derecha de la
distribucin chi-cuadrado. Nuevamente, esta prueba ser siempre de una
sola cola.

Estadstico de contraste

, el percentil 1 de la

Se acepta la hiptesis nula si


distribucin chi-cuadrado con

grados de libertad.

Tal como ocurra en la prueba anterior lo corriente es que


queramos demostrar que dos variables son independientes, es decir, que,
habitualmente, nos veremos obligados a colocar nuestra hiptesis en la
hiptesis nula.
El nmero de grados de libertad de la chi-cuadrado que sirve de
contraste se calcula de la siguiente forma:
A priori tendremos tantos grados de libertad como combinaciones
de valores xi, yj tengamos (I J)
A este nmero tendremos que restarle I debido a que, para calcular
las frecuencias esperadas, necesitamos calcular las I sumas de
filas en la tabla anterior. Conocidas las sumas de filas obtenemos
el nmero total de observaciones sin perder ningn grado de
libertad.

A continuacin, necesitaremos calcular, a partir de las frecuencias


observadas J - 1 de las sumas de columnas; la restante podemos
obtenerla restando la suma de las anteriores del total de
observaciones (T).
En resumen, el nmero de grados de libertad de la prueba es el
producto del nmero de filas menos uno por el nmero de columnas
menos uno.

En cuanto a la magnitud mnima necesaria de las frecuencias


observadas y esperadas, rigen las mismas normas que en el caso de la
prueba de ajuste. En este caso, si nos viramos obligados a juntar valores
para sumar frecuencias, debemos unir columnas o filas completas (y
contiguas). Obviamente, los grados de libertad no deben calcularse hasta
que no se hayan realizado todas las agrupaciones necesarias y quede
claro cul es el nmero de filas y columnas de la tabla definitiva.
Como hemos visto, esta prueba no hace ninguna suposicin acerca
del tipo de distribucin de ninguna de las variables implicadas y utiliza
nicamente informacin de la muestra, es decir, informacin contingente.
Esta es la razn por la que, habitualmente, se le llama chi-cuadrado de
contingencia.

Comparacin mltiple de distintas proporciones o probabilidades


Una aplicacin concreta de la chi-cuadrado de independencia es la
comparacin mltiple de las distintas proporciones o probabilidades de un
suceso en I poblaciones diferentes.

Supongamos que tenemos I poblaciones en las cuales las


observaciones se pueden clasificar como A o no-A. Llamemos Pi a la
probabilidad del suceso A en cada poblacin i y P a la frecuencia media
de A en el conjunto de las poblaciones; la probabilidad del suceso no-A en
cada poblacin i ser 1 - Pi y la media de todas ellas valdr 1 - P.
Las hiptesis de la prueba sern:

Hiptesis nula:

Hiptesis alternativa:
Si tomamos una muestra de tamao ni en cada poblacin y
contamos en cada caso el nmero de sucesos A aparecidos en la
muestra obtendramos la siguiente tabla:

Esta es una tabla tpica a la que se puede aplicar la metodologa de


la prueba chi-cuadrado de independencia. Veamos como corresponden
las hiptesis de una y otra prueba. Si la clasificacin de las observaciones
en sucesos A y no-A fuera independiente de la clasificacin en muestras,
la frecuencia relativa de A (y la de no-A) seran iguales en todos los casos
y los valores esperados de las frecuencias absolutas se calcularan
multiplicando la estima comn de la frecuencia relativa global por el
nmero de observaciones en cada muestra.

La estima global de la frecuencia de A se hallara dividiendo el


nmero total de sucesos A por el nmero total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila uno (F1) y el
total de observaciones (T)
Por tanto, el valor esperado de la frecuencia observada de A en la
muestra i (EA,i) ser:

La estima global de la frecuencia de no-A se hallara dividiendo el


nmero total de sucesos no-A por el nmero total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila dos (F2) y el
total de observaciones (T)
Por tanto, el valor esperado de la frecuencia observada de no-A en
la muestra i (Eno-A,i) ser:

Es decir, los valores esperados se calcularan, en pura lgica, tal


como indica el procedimiento estndar de la prueba de contingencia. En
definitiva:

Hiptesis nula:

La clasificacin en sucesos es

independiente de la clasificacin en poblaciones.

Hiptesis

alternativa:

La

clasificacin

en

sucesos no es independiente de la clasificacin en


poblaciones.
En resumen, la prueba de comparacin mltiple de proporciones se
realizar mediante una prueba de contingencia que nos dir si las
probabilidades son todas iguales o si, al menos, existe una que sea
diferente de las dems.
Los grados de libertad sern siempre:

Prueba de homogeneidad de muestras


Otra de las aplicaciones interesantes de la prueba chi-cuadrado de
independencia consiste en la comprobacin de la homogeneidad de
distintas muestras de una variable.
Supongamos que hemos obtenido J muestras de tamao n j de una
misma variable aleatoria (X) y queremos comprobar si son homogneas,
es decir, si la variable tiene la misma distribucin de probabilidad en todas
ellas, bien para utilizarlas conjuntamente, bien porque se trate de
identificar diferencias entre las poblaciones de procedencia de las
distintas muestras. Las frecuencias observadas sern las de la tabla

siguiente, en la que Fi es la frecuencia absoluta total del valor xi y T es el


nmero total de observaciones

El razonamiento en este caso es idntico al anterior. Si las


muestras son homogneas, se puede obtener una estima conjunta de la
frecuencia de cada valor xi (Fi / T) y el valor esperado de la frecuencia
absoluta de xi en cada muestra se calcular como el producto de dicha
frecuencia por el tamao de la muestra correspondiente

As pues, las hiptesis de la prueba sern:


Hiptesis

nula:

Las

muestras

son

homogneas

La

clasificacin de las observaciones segn los valores de


la variable es independiente de la clasificacin en
muestras.
Hiptesis alternativa: Las muestras no son homogneas.

La

clasificacin de las observaciones segn los valores de

la variable no es independiente de la clasificacin en


muestras.

CONCLUSIN
Las funciones de distribucin son modelos de la variabilidad,
modelos de la forma de la variacin que tiene una variable. En esas
funciones la variable x, en la tpica estructura de una funcin: y=f(x), son
los valores que se pueden dar de la variable estudiada y los valores de la
variable y, son la probabilidad de que se den; o sea, la abundancia
relativa de ese valor en la poblacin.
Las funciones de distribucin, como su nombre indica, son
representaciones de cmo, potencialmente, puede distribuirse una
variable. Y no lo olvidemos: son funciones matemticas. No son variables
reales como la altura, el peso, el nmero de hermanos, el ser hombre o
mujer, etc. Lo que sucede es que se han construido de tal forma que
pueden actuar de maquetas de esas variables reales, porque modelizan
bien su variabilidad. Es evidente que no se distribuye de la misma forma
una variable como el nmero de hermanos que tiene una persona, su
altura, el sexo o el grado de dolor que tiene una persona tras una ciruga.
La normal, la binomial, la Poisson, la Bernouilli, la exponencial, etc.,
son distintas distribuciones, distintas formas de dibujar, matemticamente,
a travs de una funcin, la variabilidad con la que se nos presentan las
variables que estudiamos. La modelizacin estadstica, en general,
consiste en la representacin de una situacin estadstica real mediante
un modelo matemtico. Una de las modelizaciones estadsticas ms
usuales es la de la variabilidad de una variable mediante una funcin de
distribucin. Todas las tcnicas estadsticas cuyos contrastes de hiptesis
ajustan una funcin de distribucin a unos datos se denominan tcnicas
bondad de ajuste a una distribucin. En la seccin Herbario de tcnicas
se pueden consultar varias de ellas.

REFERENCIAS BIBLIOGRAFICAS
Probabilidad y Estadistica para Ingenieria, William W, Douglas C, David
M, CECSA, 1. Mexico 2005
Probabilidad, Elizabeth Meza,del Castillo, CONCYTEC, Lima Peru, 1984
Estadstica aplicada , Lothar Sachs , Editorial Labor,s.a. Barcelona 1978

Potrebbero piacerti anche