Estadística Básica

ESTADSTICA BSICA
Blaise Pascal
Pierre de
Fermat
Thomas Bayes
Pierre S.
Laplace
Andrei N.
Kolmogorov
- Sucesos y Probabilidades
o El espacio de los sucesos.
o Azar, suceso aleatorio y probabilidad.
- Variables aleatorias
o Variables aleatorias discretas
o Variables aleatorias continuas
o Distribucin conjunta de dos variables
- Valor esperado de una variable
- Momentos de una variable
o Momentos respecto del origen
Media aritmtica de la variable
o Momentos respecto a la media
Varianza
Desviacin tpica
Coeficiente de variacin
Covarianza
Coeficiente de correlacin
Propiedades de la varianza
Asimetra
Curtosis

- VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS

Sucesos y Probabilidades

El espacio de los sucesos.
Un experimento, en estadstica, es cualquier proceso que proporciona
datos, numricos o no numricos.
Un conjunto cuyos elementos representan todos los posibles resultados de
un experimento se llama espacio muestral y se representa como S. El espacio
muestral de un experimento siempre existe y no es necesariamente nico pues,
dependiendo de nuestra valoracin de los resultados, podemos construir
diferentes espacios muestrales.
Los elementos del espacio muestral se llaman puntos muestrales y son los
distintos resultados del experimento.
Si consideramos el conjunto de las partes de (P(S)) sus elementos son los
sucesos. Un suceso, por tanto, es un subconjunto del espacio muestral.

Existen dos tipos de sucesos:
- Sucesos simples, que son aquellos que comprenden un slo punto
muestral.
- Sucesos compuestos, que son los que engloban ms de un punto del
espacio muestral. Todo suceso compuesto se puede considerar como
unin de puntos del espacio muestral o unin de sucesos simples.

Azar, suceso aleatorio y probabilidad.
El azar, en el lenguaje normal, se considera como la caracterstica de un
suceso imprevisible.
En estadstica esta definicin se modifica aadiendo una propiedad
adicional: El azar es la caracterstica de un experimento que produce resultados
diversos, impredecibles en cada situacin concreta, pero cuyas frecuencias, a la
larga, tienden a estabilizarse hacia un valor "lmite" en el infinito.
Como consecuencia, se definen los sucesos aleatorios como los
resultados de un experimento cuya variacin (la de los resultados) es debida al
azar.
La probabilidad de un suceso slo se define para el caso de sucesos
aleatorios.
Hay varias formas de definir la probabilidad.
En primer lugar podemos considerar la definicin intuitiva que nos dice que
la probabilidad de un suceso es la posibilidad de que ste ocurra. Esta primera
definicin no parece de gran utilidad por ser difcilmente cuantificable.
Tambin podemos considerar la definicin clsica de probabilidad. En esta
definicin se empieza por considerar todos los resultados posibles de un
experimento; despus se contabilizan los resultados favorables a nuestro suceso,
es decir, todos aquellos en que el experimento resulta en el suceso considerado;
por ltimo, suponiendo que existe simetra recproca de todos los resultados, es
decir, que todos los resultados posibles son igualmente posibles, se define la
probabilidad como el nmero de casos favorables dividido por el nmero de casos
posibles.
Esta segunda definicin presenta el inconveniente de que no siempre es
posible saber cuantos son los resultados posibles de un experimento y no siempre
todos los resultados posibles son igualmente probables.
Por tanto, consideraremos la probabilidad definida de otra forma.
Supongamos que realizamos muchas veces un experimento y vamos anotando el
valor de la frecuencia relativa que, como sabemos, tiende a estabilizarse.
Suponiendo que pudiramos realizar el experimento infinitas veces, el valor de
estabilizacin de las frecuencias en el infinito sera la probabilidad de los sucesos.
Es decir, la probabilidad es el valor de la frecuencia relativa en el infinito. Es
importante sealar, que este valor de estabilizacin no es un lmite en el sentido
matemtico de la expresin pues, por ser un suceso aleatorio, nadie puede
garantizar una ecuacin matemtica para el valor de la frecuencia relativa.
Todo el clculo de probabilidades y, con l, toda la estadstica se basan en
tres propiedades que se asignan a las probabilidades, que se llaman axiomas de
Kolmogorov
1. La probabilidad de un suceso es siempre mayor o igual que cero y menor o
igual que uno
Si A es un suceso
2. La probabilidad del espacio muestral es igual a uno:
Si S es el espacio muestral
Es evidente, pues si realizamos un experimento siempre a de suceder
alguna cosa. Esta propiedad se expresa como que la probabilidad de un
suceso cierto es igual a uno. Si S tiene un nico elemento se es un suceso
cierto. Como consecuencia, siguiendo el razonamiento anterior, la
probabilidad de que no ocurra nada, lo cual es imposible, o en notacin de
conjuntos la probabilidad del conjunto vaco (u) es cero. P(u) = 0
Se llama suceso imposible a aquel cuya probabilidad vale cero.

3. Si A y B son sucesos mutuamente excluyentes, es decir, nunca ocurren
simultneamente (A B = u) la probabilidad de su unin, es decir, de que
ocurra uno u otro es la suma de sus probabilidades.
P(A B) = P(A) + P(B)

Otras propiedades de las probabilidades.
- Si A y B son dos sucesos cualesquiera:

- Se llama suceso contrario del suceso A al suceso A' que se define como
A = S A. La probabilidad del suceso contrario es:

- Se llama probabilidad condicional del suceso B respecto del suceso A a la
probabilidad de que, dado que el resultado de un experimento haya sido A sea,
simultneamente, B. Este valor se representa como P(B|A).

Por transposicin de trminos en la ecuacin anterior y en la
correspondiente a la probabilidad condicional de A respecto de B llegamos a:

- Se dice que dos sucesos A y B son independientes si y slo si la probabilidad
de su interseccin es igual al producto de sus probabilidades

Sucesos dependientes Sucesos independientes

Variables aleatorias
Como dijimos, un experimento estadstico es cualquier proceso que
proporciona datos. Para su utilizacin en estadstica, estos datos tienen que
despojarse de detalles accesorios para convertirse en descripciones numricas del
resultado; la utilizacin de clasificaciones cualitativas, restringe a la mera
descripcin las posibilidades de manejo estadstico.
Estas descripciones numricas son observaciones aleatorias. A las
observaciones aleatorias se les considera como la expresin en cada caso
concreto de una variable aleatoria que toma valores en los resultados del
experimento.
As pues, una variable aleatoria es una funcin cuyos valores son nmeros
reales determinados por los elementos del espacio muestral, es decir, una variable
aleatoria es una variable matemtica cuyos valores posibles son las descripciones
numricas de todos los resultados posibles de un experimento estadstico.
A los valores posibles de la variable aleatoria se les asigna una probabilidad
que es la frecuencia del resultado al que corresponden.
Se pueden distinguir distintos tipos de variables aleatorias segn dos
criterios de clasificacin:
1. Variables cuantitativas que son las que resultan de experimentos cuyos
resultados son directamente numricos.
2. Variables cualitativas que son las que proceden de experimentos cuyos
resultados expresan una cualidad no numrica que necesita ser
cuantificada.

Otra clasificacin ms operativa de las variables aleatorias sera:
A. Variable discreta: Aquella que se define sobre un espacio muestral
numerable, finito o infinito. Espacio numerable es aquel cuyos elementos
se pueden ordenar, asignndoles a cada uno un nmero de la serie de
los nmeros naturales (del 1 al n del 1 al I). Todas las variables con un
nmero finito de valores y todas las que tomen valores en nmeros
enteros o racionales (fraccionarios), son variables discretas.
B. Variable continua: Es aquella que se define sobre un espacio
asimilable al conjunto de los nmeros reales, es decir, un espacio no
numerable (o un espacio infinito de tipo C o infinito dos)
En general, la regla de oro es que todas las variables que proceden de
experimentos en los que se cuenta son discretas y todas las variables que
proceden de experimentos en los que se mide son continuas.

Variables aleatorias discretas
Funcin de probabilidad
Una variable aleatoria discreta toma cada uno de sus valores con una
determinada probabilidad.
La relacin entre valores y probabilidades en una variable X se puede
expresar de forma tabular de la siguiente manera:

Valores de X x
1
x
2
... x
i

P(X = x) P(x
1
) P(x
2
) P(x
i
)

Este mtodo puede ser complicado, e incluso imposible, si los valores de la
variable son muchos o infinitos.
En algunos casos, existe una forma sistemtica de aplicacin de los valores
de la probabilidad a los valores de la variable, de modo tal que se puede
establecer una ecuacin que ligue ambos. A esta ecuacin se le llama funcin de
probabilidad. Por tanto, la funcin de probabilidad de una variable aleatoria
discreta X es una funcin tal que, al sustituir x por un valor de la variable, el valor
que toma la funcin es la probabilidad de que la variable X asuma el valor x.
Habitualmente, la funcin de probabilidad se representa como f(x).
f(x) = P(X = x)
Las funciones de probabilidad slo se definen para los valores de la variable
aleatoria y deben cumplir tres propiedades:
1. Como consecuencia del primer axioma.
2. Como consecuencia del segundo axioma.
3. P(X = x) = f(x) Por definicin.

Funcin de distribucin
La funcin de distribucin F(x) de una variable aleatoria discreta X, con
funcin de probabilidad f(x), es una funcin de la variable en la que al sustituir x
por un valor, el valor de la funcin es la probabilidad de que la variable tome
valores menores o iguales que dicho valor x.

La funcin de distribucin se define para todos los nmeros reales, no slo
para los valores de la variable. Su mximo es siempre 1 pues cuando el valor que
se sustituye es mayor o igual que el valor mximo de la variable, la probabilidad de
que sta tome valores menores o iguales que el sustituido es la probabilidad del
espacio muestral. Normalmente, sus valores se dan de forma tabular.
Supongamos, por ejemplo que los valores de la variable X sean x
1
, x
2
, x
3
,... , x
n

Variables aleatorias continuas

Funcin de densidad
Una variable aleatoria continua tiene la caracterstica de tomar cada uno de
sus valores con probabilidad infinitesimal, a efectos prcticos, 0. Por tanto, no se
pueden expresar en forma tabular. Sin embargo, aunque no se pueden considerar
probabilidades de valores concretos, puede calcularse la probabilidad de que la
variable tome valores en determinados intervalos (los intervalos en cuestin
pueden ser abiertos o cerrados, sin que se modifique la probabilidad total).

P(a X b) = P(X = a) + P(a < X < b) + P(X = b) = P(a < X < b)
Tal como ocurra en el caso de las variables discretas, cuando existe una
asignacin regular de probabilidad se puede definir una funcin que nos permita
calcular probabilidades para cualquier intervalo de valores, a esta funcin se le
llama funcin de densidad, f(x)
La funcin de densidad de una variable aleatoria continua X es una funcin
continua tal que su integral entre los extremos de un intervalo nos da el valor de la
probabilidad de que X tome valores en ese intervalo.

La representacin grfica de la funcin de densidad en un sistema de ejes
cartesianos es la de una curva continua, construida de forma tal que la altura de la
curva, sobre el eje de las X, en cada punto es el cociente entre el diferencial de la
probabilidad en dicho punto y el diferencial de x. Esta construccin es una
extensin por diferenciacin del concepto de histograma.
Como consecuencia, la integral de f(x) sobre todo el campo de variacin de
X es igual a 1.
Es evidente que f(x) es siempre positiva pues si no lo fuera cabra la
posibilidad de encontrar intervalos para los cuales la integral sera negativa y eso
significara probabilidad negativa, en abierta contradiccin con la definicin de
probabilidad.
La funcin de densidad siempre se define para todos los valores en el
intervalo
(-,) Esto no ofrece problemas si el campo de variacin de X se extiende por
todo el intervalo; si no fuera as, la funcin se define como igual a cero para todos
los valores no incluidos en el campo de variacin de X.
La funcin de densidad debe cumplir tres condiciones anlogas a las de la
funcin de probabilidad:
como consecuencia del primer axioma
como consecuencia del segundo
axioma
por definicin

Funcin de distribucin
Para variables continuas tambin se define la funcin de distribucin, de la
siguiente manera:

Las caractersticas de F(x) son iguales a las expuestas para el caso de las
variables discretas, salvo que, obviamente, nunca se expresan en forma tabular.
En general, cualquiera que sea el tipo de variable, las funciones de
distribucin nos pueden servir para calcular probabilidades. Por ejemplo, en el
caso de las variables continuas:

Dada su definicin, resulta que, para variables continuas, la funcin de densidad
es la derivada respecto a X de la funcin de distribucin.
Las funciones de distribucin de las variables continuas ms interesantes estn
tabuladas.

Distribucin conjunta de dos variables

Cuando tenemos dos variables aleatorias X e Y, si queremos estudiarlas
conjuntamente debemos establecer una relacin que ligue los valores de una con
los de la otra. Esta relacin podr ser lgica o no, til o no, en cualquier caso,
dadas dos variables cualesquiera y una relacin que las ligue se puede pensar en
realizar un estudio estadstico conjunto, es decir, aun cuando en la prctica slo se
utilicen variables unidas por nexos lgicos, desde un punto de vista puramente
terico, toda relacin imaginable puede ser estudiada.
As pues, en una situacin como esta, para variables discretas, se puede
establecer una funcin de probabilidad para las posibles parejas de valores de
ambas variables; a esta funcin se le llama funcin de probabilidad conjunta,
f(x,y).
Una funcin de probabilidad conjunta de las variables X e Y es una funcin
de las dos variables tal que, al sustituir la x por un valor de la variable X y la y por
un valor de la variable Y, el valor de la funcin nos da la probabilidad de que X e Y
tomen simultneamente esa pareja de valores anteriormente citados.

Las propiedades que debe cumplir la funcin de probabilidad conjunta son:
3. Por definicin.

Donde X x Y es el producto cartesiano de X por Y, o sea, el conjunto de
todos las parejas de valores x,y .

Si X e Y son variables continuas, la funcin que se define es una funcin de
densidad conjunta y es una funcin que al integrarla respecto de x e y sobre unos
intervalos nos d la probabilidad de que la variable tome valores en esos intervalos.

Que debe de cumplir unas condiciones similares a las anteriores:
3. Por definicin.

Variables aleatorias independientes

Dos variables aleatorias X e Y, discretas o continuas cuyas funciones de
probabilidad o densidad son g(x) y h(y), respectivamente, con funcin de
probabilidad o densidad conjunta f(x , y), son estadsticamente independientes si y
slo si

Variables independientes Variables dependientes

Valor esperado de una variable
Supongamos que hemos realizado n veces un experimento aleatorio que
genera una variable X. El valor medio del experimento en estas n repeticiones es
la suma de los productos de los valores de la variable por su frecuencia relativa.
Cuando n sea igual a infinito, el valor medio del experimento se llama valor
esperado o esperanza matemtica, E[X].
Si X es una variable discreta con funcin d probabilidad f(x), el valor
esperado de X se calcula segn decamos anteriormente sumando los productos
de los valores de la variable por sus respectivas probabilidades.

En el caso de una variable continua

Propiedades del valor esperado
- Al multiplicar todos los valores de una variable por una misma constante, el
valor esperado de sta queda multiplicado por el valor de la constante.

- Al sumar a todos los valores de una variable una misma constante, el valor
esperado de sta queda incrementado por el valor de la constante.

- Si tenemos dos variables X e Y, discretas o continuas, el valor esperado de
su suma o diferencia es la suma o diferencia de sus valores esperados
E[X
Y]
=
E[X]

E[Y]

- Si las variables anteriores, X e Y son variables aleatorias independientes
ocurre que el valor esperado de su producto es igual al producto de sus
valores esperados.
E[X
Y] =
E[X]
E[Y]

Es importante indicar que la independencia de las variables es condicin
suficiente pero no necesaria para que el valor esperado del producto de dos
variables sea igual al producto de sus valores esperados, es decir, sta es una
propiedad de las variables independientes pero se cumple en variables que no son
independientes.

Momentos de una variable

Momentos respecto del origen
Dada una variable aleatoria X con funcin de probabilidad o densidad f(x)
podemos definir una funcin de X que sea igual a la variable elevada a un
exponente entero no negativo.

El valor esperado de z(x) es el k-simo momento de la variable X respecto a
su origen y se llama

- k = 0
- k = 1

a este primer momento respecto al origen que es igual al valor esperado se le
llama tambin media aritmtica de la variable y se le denomina
X
,
simplemente .
En la mayora de los casos, la media expresa la tendencia central de la
variable o el orden de magnitud de sus valores.
El resto de los momentos respecto al origen tienen escaso inters en la
mayora de los casos.

Momentos respecto a la media
Dada una variable aleatoria X con funcin de probabilidad o densidad f(x)
podemos definir una funcin de X que sea igual a la diferencia entre la variable y
su media aritmtica elevada a un exponente entero no negativo.

El valor esperado de z(x) es el k-simo momento de la variable X respecto a
la media y se llama
k
.

k = 0
k = 1
es decir, en cualquier variable aleatoria su primer momento respecto de la
media es igual a 0. Esta propiedad se utilizar reiteradamente en las
demostraciones estadsticas.
k = 2
este segundo momento respecto de la media se le llama tambin varianza.

La varianza de una variable mide la dispersin de sus valores
respecto al valor central .
Para calcular la varianza por un mtodo ms sencillo se utiliza la
expresin:

Es decir, la varianza de una variable es igual a la media de los
cuadrados menos el cuadrado de la media.

El principal problema de la varianza es que se expresa en unidades
cuadrticas que no siempre tienen una interpretacin clara. Para obviar este
problema se define otra medida de la dispersin que es la desviacin
tpica,
X
, o simplemente , que se calcula como la raz cuadrada positiva
de la varianza; evidentemente, la desviacin tpica se mide en las mismas
unidades que la variable

No obstante, la desviacin tpica no resuelve todos los problemas
que se pueden plantear, como por ejemplo la comparacin de situaciones
en las que la unidad de medida o el orden de magnitud de esta sea
diferente. Para resolver esta cuestin se define una medida adimensional
de la variabilidad que es el coeficiente de variacin, C V, que se calcula
como el cociente entre la desviacin tpica y la media (a veces este cociente
se expresa en tanto por ciento multiplicndolo por 100).

En este contexto de la medida de la variacin se plantea el problema
de medir la variacin conjunta de variables de variables asociadas.
Supongamos que tenemos dos variables aleatorias X e Y, discretas o
continuas, con funcin de probabilidad o densidad conjunta f(x,y) y
definimos una funcin z(x,y) igual al producto de las desviaciones de cada
valor a su media respectiva (es decir, z(x,y) tiene la misma estructura que
(X - )
2
= (X - ) (X - ) si sustituimos una vez a X por Y).

Al valor esperado de z(x,y) se le llama covarianza de las variables X
e Y y se representa como
xy
o cov(x,y).

La covarianza es una medida de la variacin comn a dos variables
y, por tanto, una medida del grado y tipo de su relacin.
-
xy
es positiva si los valores altos de X estn asociados a los valores
altos de Y y viceversa.
-
xy
es negativa si los valores altos de X estn asociados a los
valores bajos de Y y viceversa.
- Si X e Y son variables aleatorias independientes cov(x,y) = 0 .
- La independencia es condicin suficiente pero no necesaria para que
la cov(x,y) sea nula.

cov(x,y) = 0 cov(x,y) > 0 cov(x,y) < 0
Se puede deducir, algebraicamente, un medio ms sencillo para
calcular la covarianza de dos variables.

En el caso de la covarianza tenemos el mismo problema que se nos
present con la varianza, es decir, la covarianza se expresa en trminos del
producto de las unidades de medida de ambas variables, lo cual no siempre
es fcilmente interpretable. Por otra parte tambin es difcil comparar
situaciones diferentes entre s. En este caso, ambos problemas se
solucionan de una vez mediante la definicin del coeficiente de
correlacin, , que se define como el cociente entre la covarianza y el
producto de las desviaciones tpicas de las dos variables.

La correlacin toma valores entre -1 y 1, siendo su signo igual al de
la covarianza. Correlaciones con valor absoluto 1 implican que existe una
asociacin matemtica lineal perfecta, positiva o negativa, entre las dos
variables y correlaciones iguales a 0 implican ausencia de asociacin.
Obviamente, las variables independientes tienen correlacin 0, pero
nuevamente, la independencia es condicin suficiente pero no necesaria.
Correlaciones con valores absolutos intermedios indican cierto grado
de asociacin entre los valores de las variables.

Propiedades de la varianza
Si X es una variable aleatoria con funcin de probabilidad o densidad
f(x), la varianza de una funcin de la variable X , m(x) , se calcula segn la
expresin:

Casos concretos:
1. Cuando a todos los valores de una variable se les suma una
constante, la varianza de la variable conserva el mismo valor (ver
imagen en las propiedades de la media)

2. Cuando a todos los valores de una variable se les multiplica por
una constante, la varianza de la variable queda multiplicada por el
valor de la constante elevado al cuadrado (ver imagen en las
propiedades de la media)

3. Si X e Y son dos variables aleatorias con funcin de densidad o
probabilidad conjunta f(x,y), la varianza de la funcin m(x,y) = a X
b Y, donde a y b son constantes reales se calcula como:

En el caso de que a = b = 1
Si adems ocurre que X e Y sean independientes
xy
= 0 , luego

Volviendo al tema de los momentos respecto al origen, veamos los dos
siguientes que tambin son interesantes,
k = 3
= asimetra
El tercer momento respecto de la media mide la asimetra de la
distribucin, es decir, si existen o no observaciones muy extremas en algn
sentido con frecuencias razonablemente altas. Si la asimetra es negativa,
la variable toma valores muy bajos con mayor frecuencia que valores muy
altos y se dice que tiene una cola izquierda pesada o que es asimtrica
hacia la izquierda. Si la asimetra es positiva, la variable toma valores muy
altos con mayor frecuencia que valores muy bajos y se dice que tiene una
cola derecha pesada o que es asimtrica hacia la derecha. Si la asimetra
es cero, los valores bajos y altos de la variable tienen probabilidades
iguales (el ejemplo ms tpico de variable simtrica es la variable normal)
La asimetra tiene el mismo problema que la varianza y la covarianza
en cuanto a sus unidades de medida y, por ello, normalmente se utiliza una
medida adimensional de la asimetra que es el coeficiente de asimetra,
g
1
, que se calcula como el cociente entre el tercer momento y el cubo de la
desviacin tpica.

k = 4 = curtosis
El cuarto momento respecto de la media mide la curtosis de la
distribucin, es decir, la forma de la distribucin de probabilidad. Al
representar grficamente variables con curtosis pequea, platicrticas, se
observan curvas o histogramas con colas cortas y aspecto aplanado o en
meseta; si la variable tiene curtosis grande, es decir, si es leptocrtica, su
grfica ser alta y estilizada, con colas largas y pesadas.
La curtosis de una variable siempre es positiva y se mide en la
unidades de la variable elevadas a potencia 4. Por tanto, nuevamente se
nos plantean los problemas relacionados con las unidades de medida y las
escalas y necesitamos una medida adimensional de la curtosis. Esta
medida adimensional de la curtosis es el coeficiente de curtosis, g
2
, que
se calcula como el cociente entre el cuarto momento y el cuadrado de la
varianza, al que se le resta 3 unidades. Esta correccin se debe a que, sin
ella, las variables normales tendran coeficiente de curtosis igual a 3; al
restar 3 conseguimos que el coeficiente de curtosis de la variable normal
sea 0 y que las variables platicrticas tengan coeficiente de curtosis
negativo y la leptocrticas positivo, lo cual es ms mnemotcnico que la
distincin entre curtosis pequea y grande.

g
2
= 0 g
2
> 0 g
2
< 0

Variables aleatorias
discretas y continuas
- Variables aleatorias discretas
o Distribucin uniforme
o Distribucin binomial
o Distribucin multinomial
o Distribucin hipergeomtrica
o Distribucin multihipergeomtrica
o Distribucin de poisson
- Variables aleatorias continuas
o Distribucin normal o de Gauss
o Distribucin Gamma ()
o Distribucin exponencial
o Distribucin Chi-cuadrado
o Distribucin T de Student
o Distribucin F de Snedecor

POBLACIN Y MUESTRA
Variables aleatorias discretas

Distribucin uniforme
La distribucin uniforme es la que corresponde a una variable que toma
todos sus valores, x
1
, x
2
... , x
k
, con igual probabilidad; el espacio muestral debe ser
finito.
Si la variable tiene k posibles valores, su funcin de probabilidad sera:

donde k es el parmetro de la distribucin (un parmetro es un valor que sirve
para determinar la funcin de probabilidad o densidad de una variable aleatoria)
La media y la varianza de la variable uniforme se calculan por las
expresiones:

El histograma de la funcin toma el aspecto de un rectngulo, por ello, a la
distribucin uniforme se le suele llamar distribucin rectangular.

Distribucin binomial
La distribucin binomial es tpica de las variables que proceden de un
experimento que cumple las siguientes condiciones:
1) El experimento est compuesto de n pruebas iguales, siendo n un nmero
natural fijo.
2) Cada prueba resulta en un suceso que cumple las propiedades de la
variable binmica o de Bernouilli, es decir, slo existen dos posibles
resultados, mutuamente excluyentes, que se denominan generalmente
como xito y fracaso.
3) La probabilidad del xito (o del fracaso) es constante en todas las
pruebas. P(xito) = p ; P(fracaso) = 1 - p = q
4) Las pruebas son estadsticamente independientes,
En estas condiciones, la variable aleatoria X que cuenta el nmero de
xitos en las n pruebas se llama variable binomial. Evidentemente, el espacio
muestral estar compuesto por los nmeros enteros del 0 al n. Se suele decir que
una variable binmica cuenta objetos de un tipo determinado en un muestreo de n
elementos con reemplazamiento.
La funcin de probabilidad de la variable binomial se representa como
b(x,n,p) siendo n el nmero de pruebas y p la probabilidad del xito. n y p son los
parmetros de la distribucin.

La manera ms fcil de calcular de valor de nmeros
combinatorios, como los incluidos en la expresin anterior, es utilizando
el tringulo de Tartaglia

La media y la varianza de la variable binomial se calculan como:
Media = = n p
Varianza =
2
= n p q
Grficamente el aspecto de la distribucin depende de que sea o no
simtrica Por ejemplo, el caso en que n = 4:

Distribucin multinomial
La distribucin multinomial es esencialmente igual a la binomial con la nica
diferencia de que cada prueba tiene ms de dos posibles resultados mutuamente
excluyentes.
Si tenemos K resultados posibles (E
i
, i = 1, ... , K) con probabilidades fijas
(p
i
, i = 1, ... , K), la variable que expresa el nmero de resultados de cada tipo
obtenidos en n pruebas independientes tiene distribucin multinomial.

La probabilidad de obtener x
1
resultados E
1
, x
2
resultados E
2
, etc. se
representa como:

Los parmetros de la distribucin son p
1
,..., p
K
y n.

Distribucin hipergeomtrica
Una variable tiene distribucin hipergeomtrica si procede de un
experimento que cumple las siguientes condiciones:
1) Se toma una muestra de tamao n, sin reemplazamiento, de un conjunto
finito de N objetos.
2) K de los N objetos se pueden clasificar como xitos y N - K como
fracasos.
X cuenta el nmero de xitos obtenidos en la muestra. El espacio muestral
es el conjunto de los nmeros enteros de 0 a n, de 0 a K si K < n.
En este caso, la probabilidad del xito en pruebas sucesivas no es
constante pues depende del resultado de las pruebas anteriores. Por tanto, las
pruebas no son independientes entre s.
La funcin de probabilidad de la variable hipergeomtrica es:

Los parmetros de la distribucin son n, N y K.
Los valores de la media y la varianza se calculan segn las ecuaciones:

Si n es pequeo, con relacin a N (n << N), la probabilidad de un xito
variar muy poco de una prueba a otra, as pues, la variable, en este caso, es
esencialmente binomial; en esta situacin, N suele ser muy grande y los nmeros
combinatorios se vuelven prcticamente inmanejables, as pues, la probabilidades
se calculan ms cmodamente aproximando por las ecuaciones de una binomial
con p = K / N.
La media de la variable aproximada ( = n p = n (K / N)) es la misma que la
de la variable antes de la aproximacin; sin embargo, la varianza de la variable
binomial es ligeramente superior a la de la hipergeomtrica.

el factor por el que difieren ser siempre menor que 1 y tan prximo a 1 como cierto
sea que n << N.
El aspecto de la distribucin es bastante similar al de la binomial. Como
ejemplo, mostramos los casos anlogos a los de las binomiales del apartado
anterior (p inicial = 0,25 y n = 4)

Distribucin multihipergeomtrica
Este variable se define igual que la hipergeomtrica con la nica diferencia
de que se supone que el conjunto de objetos sobre el que se muestrea se divide
en R grupos de A
1
, A
2
,..., A
R
objetos y la variable describe el nmero de objetos de
cada tipo que se han obtenido (x
1
, x
2
,..., x
R
)

Esta situacin es anloga a la planteada en el caso de la distribucin
multinomial. La funcin de probabilidad es:

Distribucin de poisson
Una variable de tipo poisson cuenta xitos (es decir, objetos de un tipo
determinado) que ocurren en una regin del espacio o del tiempo.
El experimento que la genera debe cumplir las siguientes condiciones:
1. El nmero de xitos que ocurren en cada regin del tiempo o del
espacio es independiente de lo que ocurra en cualquier otro tiempo
o espacio disjunto del anterior.
2. La probabilidad de un xito en un tiempo o espacio pequeo es
proporcional al tamao de este y no depende de lo que ocurra fuera
de l.
3. La probabilidad de encontrar uno o ms xitos en una regin del
tiempo o del espacio tiende a cero a medida que se reducen las
dimensiones de la regin en estudio.
Como consecuencia de estas condiciones, las variables Poisson tpicas
son variables en las que se cuentan sucesos raros.
La funcin de probabilidad de una variable Poisson es:

El parmetro de la distribucin es que es igual a la media y a la varianza
de la variable.

Esta caracterstica puede servirnos para identificar a una variable Poisson
en casos en que se presenten serias dificultades para verificar los postulados de
definicin.
La distribucin de Poisson se puede considerar como el lmite al que tiende
la distribucin binomial cuando n tiende a y p tiende a 0, siendo np constante (y
menor que 7); en esta situacin sera difcil calcular probabilidades en una variable
binomial y, por tanto, se utiliza una aproximacin a travs de una variable Poisson
con media l = n p.
La varianza de la variable aproximada es ligeramente superior a la de la
variable binomial.

Las variables Poisson cumplen la propiedad de que la suma de variables
Poisson independientes es otra Poisson con media igual a la suma las medias.
El aspecto de la distribucin depende muchsimo de la magnitud de la
media. Como ejemplo, mostramos tres casos con = 0,5 (arriba a la izquierda),
= 1,5 (arriba a la derecha) y = 5 (abajo) Obsrvese que la asimetra de la
distribucin disminuye al crecer y que, en paralelo, la grfica empieza a tener un
aspecto acampanado.

Variables aleatorias continuas

Distribucin normal o de Gauss
La distribucin normal fue definida por De Moivre en 1733 y es la
distribucin de mayor importancia en el campo de la estadstica.
Una variable es normal cuando se ajusta a la ley de los grandes nmeros,
es decir, cuando sus valores son el resultado de medir reiteradamente una
magnitud sobre la que influyen infinitas causas de efecto infinitesimal.
Las variables normales tienen una funcin de densidad con forma de
campana a la que se llama campana de Gauss.
Su funcin de densidad es la siguiente:

Los parmetros de la distribucin son la media y la desviacin tpica, y ,
respectivamente. Como consecuencia, en una variable normal, media y desviacin
tpica no deben estar correlacionadas en ningn caso (como desgraciadamente
ocurre en la inmensa mayora de las variables aleatorias reales que se asemejan a
la normal.
La curva normal cumple las siguientes propiedades:
1) El mximo de la curva coincide con la media.
2) Es perfectamente simtrica respecto a la media (g
1
= 0).
3) La curva tiene dos puntos de inflexin situados a una desviacin tpica de la
media. Es convexa entre ambos puntos de inflexin y cncava en ambas
colas.

4) Sus colas son asintticas al eje X.

Para calcular probabilidades en intervalos de valores de la variable, habra
que integrar la funcin de densidad entre los extremos del intervalo. por desgracia
(o por suerte), la funcin de densidad normal no tiene primitiva, es decir, no se
puede integrar. Por ello la nica solucin es referirse a tablas de la funcin de
distribucin de la variable (calculadas por integracin numrica) Estas tablas
tendran que ser de triple entrada (, , valor) y el asunto tendra una complejidad
enorme.
Afortunadamente, cualquier que sea la variable normal, X, se puede
establecer una correspondencia de sus valores con los de otra variable con
distribucin normal, media 0 y varianza 1, a la que se llama variable normal
tipificada o Z. La equivalencia entre ambas variables se obtiene mediante la
ecuacin:

La funcin de distribucin de la variable normal tipificada est tabulada y,
simplemente, consultando en las tablas se pueden calcular probabilidades en
cualquier intervalo que nos interese.
De forma anloga a lo pasaba con las variables Poisson, la suma de
variables normales independientes es otra normal.

Histograma de una normal
idealizada
Histograma de una muestra de una
variable normal

Distribucin Gamma ()
La distribucin gamma se define a partir de la funcin gamma, cuya
ecuacin es:

La funcin de densidad de la distribucin gamma es:

y son los parmetros de la distribucin.
La media y la varianza de la variable gamma son:

Distribucin exponencial
Es un caso particular de la distribucin gamma cuando = 1. Su funcin
de densidad es:

Su parmetro es .
La media y la varianza de la distribucin exponencial son:

Distribucin Chi-cuadrado (_2)
Es otro caso particular de la distribucin gamma para el caso = 2 y = n
/ 2, siendo n un nmero natural.
Su funcin de densidad es:

El parmetro de la distribucin _2 es v y su media y su varianza son,
respectivamente:

Otra forma de definir la distribucin _2 es la siguiente: Supongamos que
tenemos n variables aleatorias normales independientes, X
1
,..., X
n
, con media
i
y
varianza (i = 1 ... n), la variable definida como

tiene distribucin _2 con n grados de libertad y se le denomina _2
n
.

Variables chi-cuadrado con valores de progresivamente
mayores son cada vez menos asimtricas.

Distribucin T de Student
Supongamos dos variables aleatorias independientes, una normal
tipificada, Z , y otra con distribucin _2 con v grados de libertad, la variable
definida segn la ecuacin:

tiene distribucin t con v grados de libertad.
La funcin de densidad de la distribucin t es:

El parmetro de la distribucin t es v, su nmero de grados de libertad.
Esta distribucin es simtrica respecto al eje Y y sus colas se aproximan
asintticamente al eje X. Es similar a la distribucin Z salvo que es platicrtica y,
por tanto, ms aplanada.
Cuando n tiende a infinito, t tiende asintticamente a Z y se pueden
considerar prcticamente iguales para valores de n mayores o iguales que 30..

Variables T con valores de v progresivamente mayores
son cada vez menos platicrticas

Comparacin entre la variable T y la normal tipificado.

Distribucin F de Snedecor
Sean U y V dos variables aleatorias independientes con
distribucin _2 con v
1
y v
2
grados de libertad, respectivamente. La variable definida
segn la ecuacin:

tiene distribucin F con v
1
, v
2
grados de libertad.
La funcin de densidad de la distribucin F es:

Los parmetros de la variable F son sus grados de libertad v
1
y v
2
.
Las distribuciones F tienen una propiedad que se utiliza en la construccin
de tablas que es la siguiente:
Llamemos f
o,v1,v2
al valor de una distribucin F con v
1
y v
2
grados de
libertad que cumple la condicin, P(F > f
o,v1,v2
) = ; llamemos f
1o,v1,v2
al valor de
una distribucin F con v
1
yv
2
grados de libertad que cumple la condicin, P(F
> f
1o,v1,v2
) = 1- . Ambos valores estn relacionados de modo que uno es el
inverso del otro.

Variables F con distintos valores de
1
,
2

POBLACIN Y MUESTRA
- La muestra aleatoria
- Parmetros y estadsticos
o Estadsticos de centralidad:
La media aritmtica
La mediana
La moda
Los cuantiles o percentiles
o Estadsticos de dispersin:
El rango
La varianza
La desviacin tpica
- Pruebas chi-cuadrado de ajuste e independencia
o Chi-cuadrado de ajuste
o Chi-cuadrado de contingencia o independencia
Comparacin mltiple de distintas proporciones o
probabilidades
Prueba de homogeneidad de muestras

La muestra aleatoria
Una poblacin en estadstica es el conjunto de todas las observaciones
en las que estamos interesados. Se llama tamao de la poblacin al nmero de
individuos que la componen, siendo cada posible observacin un individuo; as
pues, las poblaciones pueden ser finitas e infinitas.
Cada observacin en una poblacin es un valor de una variable
aleatoria X con una funcin de probabilidad o densidad
determinada f(x) Normalmente, se denomina a las poblaciones con el nombre de
la distribucin de la variable; es decir, hablaremos de poblaciones normales,
binomiales, etc.
Para estudiar una poblacin existen dos posibilidades. Una de ellas
consiste en estudiar todos sus elementos y sacar conclusiones; la otra consiste en
estudiar slo una parte de ellos, una muestra, elegidos de tal forma que nos digan
algo sobre la totalidad de las observaciones de la poblacin. El mejor mtodo ser
el primero, cuando es posible, lo cual slo ocurre en las poblaciones finitas y
razonablemente pequeas; en el caso de poblaciones muy grandes o infinitas ser
muy difcil o imposible realizar un estudio total. En este caso necesitaremos tomar
una muestra y nos surgir el problema de cmo hacer para que la muestra nos
diga algo sobre el conjunto de la poblacin.
La condicin ms obvia que se le puede pedir a una muestra es que sea
representativa de la poblacin. Est claro que si no conocemos la poblacin no
podemos saber si la muestra es representativa o no. La nica forma de tener
cierta garanta de que esto ocurra es tomar nuestra muestra de forma que cada
individuo de la poblacin y cada subgrupo posible de la poblacin tengan igual
probabilidad de ser elegidos. A este tipo de muestras se les llama muestras
aleatorias o muestras al azar.
Una muestra aleatoria de tamao n es un conjunto de n individuos
tomado de tal manera que cada subconjunto de tamao n de la poblacin tenga la
misma probabilidad de ser elegido como muestra; es decir, si la poblacin tiene
tamao N, cada una de las combinaciones posibles de n elementos debe ser
equiprobable.

Los sistemas de muestreo se basan normalmente en la asignacin de un
nmero a cada uno de los individuos de la poblacin y la posterior obtencin de
una muestra de n nmeros aleatorios que se obtendr por sorteo utilizando bolas
numeradas, ordenadores, etc

Otra variante del muestreo es cuando se divide la poblacin en n grupos,
que no correspondan con ninguna clasificacin relacionada con el problema en
estudio, que se ordenan. Por sorteo se elige un elemento del primer grupo y a
continuacin los elementos correspondientes de los dems grupos. Este tipo de
muestra se denomina muestra al azar sistemtico.
Si la poblacin est subdividida en grupos podemos tomar otro tipo de
muestra en la que cada grupo de la poblacin est representado por un porcentaje
de individuos igual al porcentaje de individuos de la poblacin integrados en ese
grupo. Este tipo se llama muestra al azar estratificado.

Parmetros y estadsticos
Parmetros poblacionales
Se llama parmetros poblacionales a cantidades que se obtienen a partir
de las observaciones de la variable y sus probabilidades y que determinan
perfectamente la distribucin de esta, as como las caractersticas de la poblacin,
por ejemplo: La media, , la varianza
2
, la proporcin de determinados sucesos,
P.
Los Parmetros poblacionales son nmeros reales, constantes y nicos.

Parmetros muestrales
Los Parmetros muestrales son resmenes de la informacin de la
muestra que nos "determinan" la estructura de la muestra.
Los Parmetros muestrales no son constantes sino variables aleatorias
pues sus valores dependen de la estructura de la muestra que no es siempre la
misma como consecuencia del muestreo aleatorio. A estas variables se les suele
llamar estadsticos.
Los estadsticos se transforman en dos tipos: estadsticos de centralidad y
estadsticos de dispersin.

Estadsticos de centralidad:
Son medidas de la tendencia central de la variable. los ms conocidos son:
1) La media aritmtica
Es el valor esperado de las observaciones de la muestra
calculado como si la muestra fuera una variable completa, es decir,
multiplicando observaciones por frecuencias y sumando.
Si x
1
, x
2
,.., x
n
representan una muestra de tamao n de la
poblacin, la media aritmtica se calcula como:

La media aritmtica es la medida de la tendencia central que
posee menor varianza. Engloba en ella toda la informacin de la
muestra; esto, con ser una ventaja, supone una cierta desventaja
pues los valores muy extremos, en muestras pequeas afectan
mucho a la media.
La media de la media aritmtica es igual a la de las
observaciones () y su varianza es igual a la de las observaciones
partida por n. En poblaciones normales, la distribucin de la media es
normal,

Si la poblacin no es normal, pero la muestra es grande (n
30), por el teorema central del lmite la distribucin de la media ser
asintticamente normal.

2) La mediana
En una variable se define como el punto para el cual la funcin
de distribucin alcance el valor 0.5; en una muestra la mediana es el
valor central.
Para calcularla se ordenan las observaciones de menor a
mayor. Si n es impar, la mediana es la observacin central

Si n es par, la mediana se define como la media de las dos
observaciones centrales

En resumen, podramos decir que la mediana es el valor que
es mayor o igual que el 50% de las observaciones de la muestra y
menor o igual que el otro 50%.
No tiene por qu ser igual a una de las observaciones de la
muestra.
Es ms fcil de calcular que la media aritmtica y apenas se
afecta por observaciones extremas; sin embargo tiene mayor
varianza que X y slo toma en cuenta la informacin de los valores
centrales de la muestra.
3) La moda
Es el valor ms frecuente.
Su clculo es el ms simple de los tres correspondientes a
estadsticos de centralidad pero la moda es el estadstico de mayor
varianza.
La moda puede no existir y cuando existe no es
necesariamente nica. No tiene sentido en muestras pequeas en
las que la aparicin de coincidencias en los valores es con gran
frecuencia ms producto del azar que de otra cosa.

La media es el estadstico de centralidad ms usado cuando uno espera
que la poblacin tenga una distribucin ms o menos simtrica, sin estar
clasificada en grupos claramente diferenciados.
En el caso de distribuciones muy asimtricas, con una cola muy larga, la
mediana es, normalmente, el valor de eleccin dado que la media suele estar
desplazada respecto al ncleo principal de observaciones de la variable. En estos
casos, la mediana es el valor que mejor expresa el punto donde se acumulan
mayoritariamente las observaciones de la variable.
En el caso de poblaciones o muestras subdivididas en grupos claramente
definidos la media y la mediana carecen, normalmente, de sentido y los valores
que ms claramente reflejan el comportamiento de las observaciones de la
variable son las modas.

Otros estadsticos de centralidad son los cuantiles.
Los cuantiles o percentiles
Un percentil X, P
X
, es un valor de la distribucin muestral o
poblacional de la variable que es mayor o igual que el X% de las
observaciones de la variable P(Y P
X
) = X%.
Existe un tipo especial de cuantiles llamados cuartiles.
Los cuartiles son tres valores que dividen la distribucin en
cuatro partes equivalentes porcentualmente.
o El primer cuartil es el valor que es mayor o igual que el 25%
de las observaciones de la muestra y menor o igual que el
75%.
o El segundo cuartil es la mediana.
o El tercer cuartil es mayor o igual que el 75% de las
observaciones de la muestra y menor o igual que el 25%.

Estadsticos de dispersin
Los estadsticos de dispersin son parmetros muestrales que expresan la
dispersin de los valores de la variable respecto al punto central, es decir, su
posicin relativa. Los ms importantes son:
El rango
Es la diferencia entre las dos observaciones extremas, la
mxima menos la mnima. Expresa cuantas unidades de diferencia
podemos esperar, como mximo, entre dos valores de la variable.
El rango estima el campo de variacin de la variable.
Se afecta mucho por observaciones extremas y utiliza
nicamente una pequea parte de la informacin.

La varianza
Es la desviacin cuadrtica media de las observaciones a la
media muestral.

Su concepto es anlogo al de la varianza poblacional. No
obstante esta expresin de clculo de la varianza muestral no se
utiliza mucho pues sus valores tienden a ser menores que el de la
autntica varianza de la variable (debido a que la propia media
muestral tiene una varianza que vale un ensimo de la de las
observaciones) Para compensar esta deficiencia y obtener valores
que no subestimen la varianza poblacional (cuando estamos
interesados en ella y no en la varianza muestral) utilizaremos una
expresin, esencialmente igual que la anterior salvo que el
denominador est disminuido en una unidad.

Normalmente, estaremos interesados en saber cosas acerca
de la varianza poblacional y no de la varianza muestral. Por tanto, en
adelante, cuando hablemos de varianza muestral, salvo indicacin
expresa, nos referiremos a la segunda.
Es el estadstico de dispersin ms usado por las propiedades
de su distribucin. Si la poblacin de la que procede la muestra es
normal:
con n-1 grados de libertad.
Adems, utiliza toda la informacin de la muestra.
Su mayor inconveniente consiste en que se expresa en
unidades cuadrticas. Por ello, para muchos propsitos se utiliza otro
estadstico de dispersin que la desviacin tpica.
Si no disponemos de una calculadora, el clculo de la
varianza puede ser complicado porque, habitualmente, los
valores de las desviaciones de las observaciones a la media
resultan ser nmeros con varias cifras decimales. Por ello, se
suele utilizar una ecuacin que deriva directamente de la
anterior:

o, alternativamente, la equivalente a aquella de "la
media de los cuadrados menos el cuadrado de la media".

La desviacin tpica
Es la raz cuadrada positiva de la varianza y, por tanto, se
expresa en las unidades de medida de la variable.

Su concepto es anlogo al de la desviacin tpica poblacional.
Es el cociente entre la desviacin tpica y la media aritmtica
muestrales y expresa la variabilidad de la variable en tanto por uno,
sin dimensiones.

Permite comparar muestras de variables de distinta naturaleza
o muestras de la misma variable en poblaciones en las que el orden
de magnitud de las observaciones sea muy diferente.

Pruebas chi-cuadrado de ajuste e
independencia
Las pruebas chi-cuadrado son un grupo de contrastes de hiptesis que
sirven para comprobar afirmaciones acerca de las funciones de probabilidad (o
densidad) de una o dos variables aleatorias.
Estas pruebas no pertenecen propiamente a la estadstica paramtrica pues
no establecen suposiciones restrictivas en cuanto al tipo de variables que admiten,
ni en lo que refiere a su distribucin de probabilidad ni en los valores y/o el
conocimiento de sus parmetros.
Se aplican en dos situaciones bsicas:
a) Cuando queremos comprobar si una variable, cuya descripcin parece
adecuada, tiene una determinada funcin de probabilidad. La prueba
correspondiente se llama chi-cuadrado de ajuste.
b) Cuando queremos averiguar si dos variables (o dos vas de clasificacin)
son independientes estadsticamente. En este caso la prueba que
aplicaremos ser la chi-cuadrado de independencia o chi-cuadrado de
contingencia.

Chi-cuadrado de ajuste
En una prueba de ajuste la hiptesis nula establece que una variable X
tiene una cierta distribucin de probabilidad con unos determinados valores de los
parmetros. El tipo de distribucin se determina, segn los casos, en funcin de:
La propia definicin de la variable, consideraciones tericas al margen de esta y/o
evidencia aportada por datos anteriores al experimento actual.
A menudo, la propia definicin del tipo de variable lleva implcitos los
valores de sus parmetros o de parte de ellos; si esto no fuera as dichos
parmetros se estimarn a partir de la muestra de valores de la variable que
utilizaremos para realizar la prueba de ajuste.
Como en casos anteriores, empezaremos definiendo las hiptesis.

Hiptesis nula: X tiene distribucin de probabilidad f(x) con
parmetros y
1
,..., y
p

Hiptesis alternativa: X tiene cualquier otra distribucin de
probabilidad.

Es importante destacar que el rechazo de la hiptesis nula no implica que
sean falsos todos sus aspectos sino nicamente el conjunto de ellos; por ejemplo,
podra ocurrir que el tipo de distribucin fuera correcto pero que nos hubisemos
equivocado en los valores de los parmetros.
Obviamente, necesitaremos una muestra de valores de la variable X. Si la
variable es discreta y tiene pocos valores posible estimaremos las probabilidades
de dichos valores mediante sus frecuencias muestrales; si la variable es continua
o si es una discreta con muchos o infinitos valores estimaremos probabilidades de
grupos de valores (intervalos).
Metodolgicamente, la prueba se basa en la comparacin entre la serie de
frecuencias absolutas observadas empricamente para los valores de la variable
(Oi) y las correspondientes frecuencias absolutas tericas obtenidas en base a la
funcin de probabilidad supuesta en la hiptesis nula (Ei).
As pues, una vez calculadas las frecuencias absolutas de cada valor o
intervalo de valores, obtendremos el nmero total de observaciones de la muestra
(T) sumando las frecuencias observadas

Para calcular las frecuencias esperadas repartiremos este nmero total de
observaciones (T) en partes proporcionales a la probabilidad de cada suceso o
grupo de sucesos. Para ello calcularemos dichas probabilidades utilizando la
funcin de probabilidad definida en la hiptesis nula f(x), de modo que, cada valor
Ei tendr la siguiente expresin:

Por tanto, tendremos los siguientes datos para la prueba:

Valor de la variable x
1
x
2
x
3
... x
i
... x
k

Frecuencias observadas O
1
O
2
O
3
... O
i
... O
k

Frecuencias esperadas E
1
E
2
E
3
... E
i
... E
k

Si la hiptesis nula es cierta, las diferencias entre valores observados y
esperados (que siempre existirn por tratarse de una muestra aleatoria) son
atribuibles, exclusivamente, al efecto del azar. En estas condiciones, se puede
calcular un parmetro que depende de ambos, cuya distribucin se ajusta a una
chi-cuadrado.

Si, por el contrario, la hiptesis nula fuera falsa los Ei ya no seran,
realmente, los valores esperados de las frecuencias; por tanto, las diferencias
entre los valores "esperados" y los observados reflejaran no slo el efecto del
azar sino tambin las diferencias entre los Ei y la autntica serie de valores
esperados (desconocida) Como consecuencia, las diferencias de los numeradores
de la expresin anterior tienden a ser ms grandes y, por estar elevadas al
cuadrado, la suma de cocientes ser positiva y mayor que lo que se esperara para
los valores de una chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de contraste de la prueba
de hiptesis y la regin crtica se encontrar siempre en la cola derecha de la
distribucin chi-cuadrado. Evidentemente, esta prueba ser siempre de una sola
cola.
Estadstico de contraste
Se acepta la hiptesis nula si , el percentil 1 de la distribucin
chi-cuadrado con grados de libertad.
Cabe sealar que en las pruebas chi-cuadrado lo corriente es que
pretendamos comprobar que una variable tiene una cierta distribucin y, por tanto,
habitualmente, nos vemos obligados a colocar nuestra propia hiptesis en la
hiptesis nula. nicamente podremos colocar nuestra hiptesis en la alternativa en
el caso excepcional de que pretendamos demostrar que cierto tratamiento produce
una distorsin de la distribucin bsica de la variable en estudio.
El nmero de grados de libertad de la variable chi-cuadrado se calcula de la
siguiente forma:
A priori, tendr tantos grados de libertad como parejas frecuencia
observada - frecuencia esperada.
A esta cantidad se debe restar el nmero de restricciones lineales
impuestas a las frecuencias observadas, es decir, el nmero de parmetros
que es necesario calcular directamente a partir de los valores observados
para establecer los valores esperados. Este nmero es, como mnimo, uno
ya que siempre tendremos que calcular el nmero total de observaciones
de la muestra.

Una condicin bsica para que podamos llevar a cabo una prueba chi-
cuadrado es que las frecuencias de las distintas clases deben ser suficientemente
altas como para garantizar que pequeas desviaciones aleatorias en la muestra
no tengan importancia decisiva sobre el valor del estadstico de contraste.
Las reglas que determinan cuando es posible o no realizar el contraste
varan mucho de unos autores a otros. En un extremo de mxima rigidez se
encuentran aquellos que opinan que no se puede realizar la prueba cuando alguna
de las frecuencias, observadas o esperadas, sea menor que 5. En el otro extremo
se encuentran quienes opinan que, para que la prueba sea viable ninguna de las
frecuencias esperadas debe ser menor que 1 y no ms del 25% pueden ser
menores que 5; en lo que refiere a las frecuencias observadas no existiran lmites.
La autora de este texto simpatiza ms con la segunda postura, no slo por
razones prcticas, sino porque lo razonable es que la distribucin esperada est
adecuadamente definida y, por tanto, no debe incluir valores muy bajos; sin
embargo, los valores extremos en la distribucin observada simplemente reflejan
diferencias importantes entre la distribucin supuesta por la hiptesis nula y la
real.
Sea cual sea el criterio que elijamos, si resultara que la prueba no es viable
podramos recurrir a englobar los valores o clases de valores con sus vecinos ms
prximos y pasar as a engrosar sus frecuencias. Este procedimiento no puede
llevarse hasta el absurdo pero proporciona una salida digna a situaciones
complejas. En casos excepcionales se pueden englobar valores que no sean
vecinos porque exista algn nexo lgico de conexin entre ellos.
Cuando sea necesario agrupar valores, los grados de libertad no se deben
calcular hasta que tengamos establecidas definitivamente las parejas de
frecuencias observadas y esperadas con las que calcularemos el estadstico de
contraste.

Chi-cuadrado de contingencia o independencia
La prueba chi-cuadrado de contingencia sirve para comprobar la
independencia de frecuencias entre dos variables aleatorias, X e Y.
Las hiptesis contrastadas en la prueba son:

Hiptesis nula: X e Y son independientes.
Hiptesis alternativa: X e Y no son independientes (No importa cual
sea la relacin que mantengan ni el grado de esta.

La condicin de independencia, tal como fue definida en la pgina anterior
era: X e Y son independientes si y slo si para cualquier pareja de valores x e y la
probabilidad de que X tome el valor x e Y el valor y, simultneamente, es igual al
producto de las probabilidades de que cada una tome el valor correspondiente.

Por tanto, todo lo que necesitamos sern unas estimas de las funciones de
probabilidad de ambas variables por separado (f(x) y f(y)) y de la funcin de
probabilidad conjunta (f(x,y))
Empezaremos la prueba tomando una muestra de parejas de valores sobre
la que contaremos la frecuencia absoluta con la que aparece cada combinacin de
valores (x
i
,y
j
) o de grupos de valores (i,j) (O
ij
) La tabla siguiente, en la que se
recogen estos datos, es en realidad nuestra estimacin de la funcin de
probabilidad conjunta multiplicada por el nmero total de datos (T).

Para obtener las estimas de las funciones de probabilidad marginales
debemos sumar por filas y por columnas los valores de las frecuencias conjuntas.
Las sumas de filas (F
i
) son, en cada caso, el nmero de veces que hemos
obtenido un valor de X (x
i
) en cualquier combinacin con distintos valores de Y, es
decir, son nuestra estima de la funcin de probabilidad de X multiplicada por el
nmero total de observaciones; anlogamente, las sumas de columnas (C
j
) son
nuestra estima de la funcin de probabilidad de Y multiplicada por el nmero total
de observaciones.
El nmero total de observaciones lo podemos obtener como la suma de
todas las frecuencias observadas o, tambin, como la suma de las sumas de filas
o de las sumas de columnas:

As pues, si las variables fueran independientes debera cumplirse que

Naturalmente, nadie espera que esta condicin se cumpla exactamente
debido al efecto de los errores de muestreo aleatorio. Por tanto, nuestro problema
consiste en distinguir entre las diferencias producidas por efecto del muestreo y
diferencias que revelen falta de independencia.
Podemos convertir la ecuacin anterior a frecuencias absolutas
multiplicando por T:
- Si X e Y son independientes, O
ij
debe ser igual a y, por
tanto,
- bajo la hiptesis de independencia, es el valor
esperado de O
ij
(E
ij
)
Tal como pasaba en la prueba anterior, si las variables son independientes,
es decir, si las frecuencias E
ij
son realmente los valores esperados de las
frecuencias O
ij
, se puede calcular un parmetro que depende de ambas que tiene
distribucin chi-cuadrado,

Por otra parte, si las variables no son independientes, las diferencias entre
las series de frecuencias observadas y esperadas sern mayores que las
atribuibles al efecto del azar y, al estar elevadas al cuadrado en el numerador de
la expresin anterior, sta tender a ser mayor que lo que suele ser el valor de
una variable chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de la prueba de hiptesis
y la regin crtica se encontrar siempre en la cola derecha de la distribucin chi-
cuadrado. Nuevamente, esta prueba ser siempre de una sola cola.
Estadstico de contraste
Se acepta la hiptesis nula si , el percentil 1 de la distribucin
chi-cuadrado con grados de libertad.

Tal como ocurra en la prueba anterior lo corriente es que queramos
demostrar que dos variables son independientes, es decir, que, habitualmente,
nos veremos obligados a colocar nuestra hiptesis en la hiptesis nula.
El nmero de grados de libertad de la chi-cuadrado que sirve de contraste
se calcula de la siguiente forma:
A priori tendremos tantos grados de libertad como combinaciones de
valores x
i
, y
j
tengamos (I J)
A este nmero tendremos que restarle I debido a que, para calcular las
frecuencias esperadas, necesitamos calcular las I sumas de filas en la tabla
anterior. Conocidas las sumas de filas obtenemos el nmero total de
observaciones sin perder ningn grado de libertad.
A continuacin, necesitaremos calcular, a partir de las frecuencias
observadas J - 1 de las sumas de columnas; la restante podemos obtenerla
restando la suma de las anteriores del total de observaciones (T).
En resumen, el nmero de grados de libertad de la prueba es el producto
del nmero de filas menos uno por el nmero de columnas menos uno.

En cuanto a la magnitud mnima necesaria de las frecuencias observadas y
esperadas, rigen las mismas normas que en el caso de la prueba de ajuste. En
este caso, si nos viramos obligados a juntar valores para sumar frecuencias,
debemos unir columnas o filas completas (y contiguas). Obviamente, los grados
de libertad no deben calcularse hasta que no se hayan realizado todas las
agrupaciones necesarias y quede claro cual es el nmero de filas y columnas de la
tabla definitiva.
Como hemos visto, esta prueba no hace ninguna suposicin acerca del tipo
de distribucin de ninguna de las variables implicadas y utiliza nicamente
informacin de la muestra, es decir, informacin contingente. Esta es la razn por
la que, habitualmente, se le llama chi-cuadrado de contingencia.

Comparacin mltiple de distintas proporciones o probabilidades
Una aplicacin concreta de la chi-cuadrado de independencia es la
comparacin mltiple de las distintas proporciones o probabilidades de un suceso
en I poblaciones diferentes.
Supongamos que tenemos I poblaciones en las cuales las observaciones se
pueden clasificar como A o no-A. Llamemos P
i
a la probabilidad del suceso A en
cada poblacin i y P a la frecuencia media de A en el conjunto de las poblaciones;
la probabilidad del suceso no-A en cada poblacin i ser 1 - Pi y la media de todas
ellas valdr 1 - P.
Las hiptesis de la prueba sern:

Hiptesis nula:
Hiptesis alternativa:

Si tomamos una muestra de tamao n
i
en cada poblacin y contamos en
cada caso el nmero de sucesos A aparecidos en la muestra obtendramos la
siguiente tabla:

Esta es una tabla tpica a la que se puede aplicar la metodologa de la prueba chi-
cuadrado de independencia. Veamos como corresponden las hiptesis de una y
otra prueba. Si la clasificacin de las observaciones en sucesos A y no-A fuera
independiente de la clasificacin en muestras, la frecuencia relativa de A (y la de
no-A) seran iguales en todos los casos y los valores esperados de las frecuencias
absolutas se calcularan multiplicando la estima comn de la frecuencia relativa
global por el nmero de observaciones en cada muestra.
La estima global de la frecuencia de A se hallara dividiendo el nmero total
de sucesos A por el nmero total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila uno (F
1
) y el total de
observaciones (T)
Por tanto, el valor esperado de la frecuencia observada de A en la muestra i
(E
A,i
) ser:

La estima global de la frecuencia de no-A se hallara dividiendo el nmero
total de sucesos no-A por el nmero total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila dos (F
2
) y el total de
observaciones (T)
Por tanto, el valor esperado de la frecuencia observada de no-A en la
muestra i (E
no-A,i
) ser:

Es decir, los valores esperados se calcularan, en pura lgica, tal como
indica el procedimiento estndar de la prueba de contingencia. En definitiva:

Hiptesis nula: La clasificacin en sucesos es
independiente de la clasificacin en poblaciones.
Hiptesis alternativa: La clasificacin en sucesos no
es independiente de la clasificacin en poblaciones.

En resumen, la prueba de comparacin mltiple de proporciones se realizar
mediante una prueba de contingencia que nos dir si las probabilidades son todas
iguales o si, al menos, existe una que sea diferente de las dems.
Los grados de libertad sern siempre:

Prueba de homogeneidad de muestras
Otra de las aplicaciones interesantes de la prueba chi-cuadrado de
independencia consiste en la comprobacin de la homogeneidad de distintas
muestras de una variable.
Supongamos que hemos obtenido J muestras de tamao n
j
de una misma
variable aleatoria (X) y queremos comprobar si son homogneas, es decir, si la
variable tiene la misma distribucin de probabilidad en todas ellas, bien para
utilizarlas conjuntamente, bien porque se trate de identificar diferencias entre las
poblaciones de procedencia de las distintas muestras. Las frecuencias observadas
sern las de la tabla siguiente, en la que F
i
es la frecuencia absoluta total del valor
x
i
y T es el nmero total de observaciones

El razonamiento en este caso es idntico al anterior. Si las muestras son
homogneas, se puede obtener una estima conjunta de la frecuencia de cada
valor x
i
(F
i
/ T) y el valor esperado de la frecuencia absoluta de x
i
en cada muestra
se calcular como el producto de dicha frecuencia por el tamao de la muestra
correspondiente

As pues, las hiptesis de la prueba sern:
Hiptesis nula: Las muestras son homogneas La clasificacin de
las observaciones segn los valores de la variable es
independiente de la clasificacin en muestras.
Hiptesis alternativa: Las muestras no son homogneas. La
clasificacin de las observaciones segn los valores de la
variable no es independiente de la clasificacin en muestras.

Obviamente, la prueba se realizar segn la metodologa habitual.
En este caso, a la prueba chi-cuadrado de contingencia se le suele llamar
chi-cuadrado de homogeneidad.

Referencia: http://www.ucm.es/info/genetica/Estadistica/estadistica_basica%202.htm

Estadística Básica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estadística Básica

Caricato da

Copyright:

Formati disponibili

ESTADSTICA BSICA

Potrebbero piacerti anche