Sei sulla pagina 1di 34

MUESTREO Y DISTRIBUCIONES DE MUESTREO

PROPIEDADES DE LA MEDIA ARITMETICA


Entre varias propiedades de la media aritmtica para una distribucin
normal estn:
1. Imparcialidad: implica el hecho de que el promedio de todas las
medias de muestras posibles ser igual a la media de la poblacin
2. Eficiencia: precisin de la muestra de estadstica como un estimador
del parmetro de poblacin.
3. Consistencia: efecto del tamao de la muestra sobre la utilidad de un
estimador. Al incrementarse el tamao de muestra, la variacin de la
media de muestra de la media de poblacin se hace ms pequea,
por lo que se vuelve una mejor estimacin.

ERROR ESTANDAR DE LA MEDIA


El hecho de que las medias de muestras variables son menos variables
que los datos de poblacin se desprenden de la ley de nmeros grandes.
Una media de muestra particular promedia conjuntamente todos los valores
de la muestra. Una poblacin puede consiste en resultados individuales que
pueden tener un amplio radio de valores, de extremadamente pequeos a
extremadamente grandes. Sin embargo, si un valor extremo cae en la
muestra, aunque tendr un efecto en la media, el efecto se reducir pues se
promediara con todos los dems valores de la muestra. Adems, al
incrementarse el tamao de muestra, el efecto de un solo valor extremo se
hace cada vez menor, puesto que se est promediando con ms
observaciones.
Este fenmeno se expresa estadsticamente en el valor de la desviacin
estndar de la media y se denomina desviacin de la media de muestra o
error estndar de la media.

INTRODUCCIN AL MUESTREO
Los especialistas usan la palabra poblacin para referirse a todo los
elementos que han sido escogidos para su estudio; y la palabra muestra
para describir una porcin escogida de la poblacin.

ESTADISTICAS Y PARAMETROS
Cuando la media, mediana, moda y desviacin estndar describen
caractersticas de una muestra, se denominan estadsticas; cuando
describen las caractersticas de una poblacin se llaman parmetros.

TIPOS DE MUESTREOS
Utilizamos muestreos porque en algunos casos medir una poblacin
completa no puede ser factible debido al tiempo y costos que conlleva.
Existen dos tipos:
No aleatorio o de juicio: se emplea el conocimiento y la opinin personal
para identificar a los elementos de una poblacin que deben incluirse en
una muestra.
Probabilidad: todos los elementos de la poblacin tienen la posibilidad de
ser elegidos. Incluyen un anlisis mayor estadstico y de planeacin,
toman as tiempo y dinero que las muestras subjetivas.
o Aleatorio simple: cada posible muestra tiene igual probabilidad de ser
seleccionada y cada elemento de la poblacin tiene igual oportunidad
de ser incluido en la muestra.
o Sistemtico: cada elemento tiene igual probabilidad de ser incluido pero
cada muestra no tiene la misma oportunidad de ser elegida.

Estadstica 2|1

Estratificado: dividir la poblacin en grupos relativamente homogneos,


llamados estratos y luego se elige si se escoge aleatoriamente un
nmero especfico de elementos o extraemos el mismo nmero de
elementos de cada estrato y se ponderan los resultados. Garantiza que
cualquier elemento de la poblacin tenga la misma posibilidad de ser
elegido. Se elige cuando existe mayor varianza entre grupos que dentro
del mismo grupo; cuando los grupos son homogneos.

El muestreo de juicio y el de probabilidad no son necesariamente


excluyentes. Si existe poca informacin, se podra sugerir uno de
probabilidad.

DISEO DE EXPERIMENTOS
Definimos un evento como uno o ms de los resultados posibles de
hacer algo, y un experimento como la actividad que tendra como resultados
tales eventos.

FASES
1.
2.
3.
4.
5.
6.

Se hace una afirmacin


Se establecen objetivos
Se selecciona la variable de respuesta
Eleccin del tamao de muestra
Las condiciones experimentales se mantienen constantes
Anlisis de datos.

INTRODUCCION A LAS DISTRIBUCIONES DE MUESTREO


Una distribucin de probabilidad de todas las medias posibles de las
muestras es una distribucin de las medias de las muestras. Los
especialistas en estadstica la conocen como distribucin de muestreo de la
media.
Cualquier distribucin de probabilidad puede ser descrita parcialmente
por su media y su desviacin estndar.
ERROR ESTANDAR
DE
La media
Proporcin
Estadstica
Mediana
Rango

DESVIACION ESTANDAR DE LA DITRIBUCION DE DE


LA MUESTRA
Medias
Proporcin
Estadstica
Mediana
Rango

DISTRIBUCION DE MUESTREOS

POBLACIONES NORMALES

Error estndar de la media para poblaciones infinitas, con reemplazo:

x =

Estadstica 2|2

Estandarizacin de la media de la muestra:

z=

x
x

El error estndar de la media es el error de muestreo.

POBLACIONES NO NORMALES
TEOREMA DEL LIMITE CENTRAL
La media de la distribucin de muestra de la media ser igual a la media
de la poblacin, sin importar el tamao de la muestra; la distribucin de
muestreo de la media se acercara a la normalidad, sin importar la forma de
la distribucin de la poblacin.
El teorema del lmite central asegura que la distribucin de muestreo de
la media se aproxima a la normal al incrementarse el tamao de la muestra.
La distribucin de muestreo de la media tendr distribucin
aproximadamente normal:
Para la mayora, sin importar la 30 observaciones
forma
Distribuciones bastante simtricas
15 observaciones
Distribucin normalmente
Siempre
La importancia del teorema del lmite central es que nos permite usar
estadsticas de muestras para hacer inferencias con respecto a los
parmetros de poblacin, sin saber sobre la forma de la distribucin de
frecuencia de esa poblacin ms lo que podamos obtener en la muestra.

RELACIN ENTRE EL TAMAO DE MUESTRA Y EL ERROR ESTANDAR


Si la dispersin disminuye ( se hace ms pequea) entonces los
valores tomados por la media de la muestra tienden a agruparse ms
cercanamente alrededor de , y viceversa. Al disminuir el error estndar, el
valor de cualquier media de muestra probablemente se acercara al valor de
la media de poblacin.

MULTIPLICADOR DE POBLACIN FINITA


Factor de correccin para poblaciones finitas:

Nn
N 1

Error estndar de la media para poblaciones finitas:

x =

N n

n N1

Los especialistas en estadstica se refieren a la fraccin n/N como la


fraccin de muestreo, porque es la fraccin de la poblacin N contenida en
la muestra.
Si la fraccin de muestreo es menor a 0,5 no es necesario usar el
multiplicador de poblacin finita. Si es mayor debe utilizarse, o si el
muestreo es conducido sin reemplazo de poblaciones que son de tamao
finito N.
Cuando la muestra constituye una muy pequea fraccin de la
poblacin, el factor de correccin no tiene ningn efecto en la estimacin
del intervalo de confianza.
Estadstica 2|3

Para que sea ms pequea, debo agrandar n. En consecuencia,


resulta que el tamao absoluto de la muestra es el que determina la
precisin del muestreo.
El fcpf siempre ser menor a 1, lo cual implica que en este tipo de
muestreo, las estimaciones surgidas resultan ms exactas, o lo que es lo
mismo, tienen menos dispersin en el muestreo.

ESTIMACION
Los administradores utilizan estimaciones porque deben tomar
decisiones racionales sin contar con la informacin pertinente completa y
con una cuota de incertidumbre de lo que el futuro pueda deparar.
Estadstica inferencial: tcnicas que permiten dar considerado plausible
acerca de un valor de parmetro poblacional de inters.
En la inferencia estadstica, debemos tomar los resultados de una sola
muestra y llegar a conclusiones acerca de la poblacin, y no al contrario.
Estadgrafos: medidas anlogas obtenidas a partir de datos muestrales.
Tambin conocidos como estimadores. Se utilizan para proporcionar una
idea del valor de a media poblacional correspondiente, pero solo
considerando los datos muestrales.

TIPOS DE ESTIMACIONES
Una estimacin puntual es un solo nmero que se utiliza para estimar un
parmetro de poblacin desconocido. A menudo, una estimacin puntual
solo tiene dos opciones: correcta o equivocada, por eso es mucho ms til si
viene acompaada por una estimacin del error que podra estar implicado.
Una estimacin de intervalo es un conjunto de valores que se utiliza
para estimar un parmetro de la poblacin. Una estimacin de este tipo
indica el error de dos maneras: por la extensin del intervalo y por la
probabilidad de que el verdadero parmetro poblacional se encuentre
dentro del intervalo.

ESTIMADOR Y ESTIMACIONES
Un estimador es un estadstico de la muestra utilizado para estimar un
parmetro poblacional.
Una estimacin es un valor especfico observado de un estadstico que
resulta de la muestra particular observada.

CRITERIOS PARA SELECCIONAR UN BUEN ESTIMADOR


1. Insesgado: La media de la distribucin muestral de las medias de las
muestras tomadas de la misma poblacin es igual a la media de la
poblacin misma.
2. Eficiencia: Se refiere al tamao del error estndar del estadstico. El
ms eficiente ser el que tenga el menor error estndar o la menor
desviacin estndar de la distribucin muestral, tendr mayor
oportunidad de producir una estimacin ms cercana al parmetro
poblacional que se est considerando.
3. Consistencia: Si al aumentar el tamao de la muestra, se tiene casi la
certeza de que el valor del estadstico se aproxima bastante al valor
del parmetro poblacional
4. Suficiencia: Si utiliza tanta informacin de la muestra que ningn otro
estimador puede extraer informacin adicional acerca del parmetro
de poblacin que se est estimando.

Estadstica 2|4

Un estadstico de la muestra dado no siempre es el mejor estimador de


su parmetro poblacional correspondiente. Considere una poblacin con
distribucin simtrica, en la que los valores de la media y mediana
coinciden. En este caso, la media de la muestra sera un estimador imparcial
de la mediana de la poblacin. Tambin, la media de la muestra sera un
estimador consistente de la mediana de la poblacin puesto que, al
aumentar el tamao de la muestra, el valor de la media de la muestra
tendera a acercarse bastante a la poblacin. Y la meda de la muestra sera
un estimador ms eficiente de la mediana de la poblacin que de la
mediana de la muestra misma, ya que en muestras grandes, la media de la
muestra tiene un error esta dar menor que la de la mediana de la muestra.
Al mismo tiempo, la mediana de la muestra de una poblacin con
distribucin simtrica sera un estimador imparcial y consistente de la
media de la poblacin, pero no el ms eficiente, porque en muestras
grandes su error estndar es mayor que el de la media de la muestra.

ESTIMACIONES PUNTUALES
La media de la muestra es el mejor estimador de la media de la
poblacin. Es insesgada, consistente el estimador ms eficiente y, siempre y
cuando la muestra sea suficientemente grande, su distribucin muestral
puede ser aproximada por medio de la distribucin normal.

DESVIACION ESTANDAR
s 2=

s 2=

( x x )2
n1

( x x )2
n

Muestra

Poblacin

ESTIMACION DE INTERVALO: CONCEPTOS BSICOS


Una estimacin de intervalo describe un conjunto o rango de valores
dentro del cual es posible que est un parmetro de la poblacin.
Sabemos que si seleccionamos graficamos un nmero grande de medias
de muestras de una poblacin, la distribucin de estas medias se
aproximara a la curva normal. Adems, la media de las medias muestrales
ser igual a la media de la poblacin. Para medir la extensin o dispersin
de la distribucin demedias muestrales podemos calcular el error estndar
de media.

PROBABILIDAD DE QUE EL PARAMETRO POBLACIONAL CAIGA


DENTRO DE LA ESTIMACION DEL INTERVALO
Seleccionamos una muestra de 200 bateras, con una vida media de 36
meses.
Aplicando la frmula del error estndar de la media obtenemos un error
de 0,707 meses, podemos decir que la vida til real de las bateras puede
estar en alguna parte de la estimacin de intervalo comprendida entre
35,293 y 36,707.

Estadstica 2|5

Necesitamos calcular que la duracin real de las bateras este en este


intervalo o en otros intervalos de diferentes anchos que podamos escoger,

2 ,

3 , y as sucesivamente.

Tenemos que la probabilidad es 0,955 de que la media de una muestre


de 200 bateras este dentro de

errores estndar de la media de la

poblacin, dentro del intervalo comprendido entre 34,586 y 37,414,


tenemos un 90,7% de confianza de que este dentro del intervalo que va de
33,879 a 38,121 meses o dentro de

errores estndar de la media de

la poblacin.

ESTIMACION DE INTERVALO DE INTERVALOS DE CONFIANZA


La probabilidad que asociamos con una estimacin de intervalo se
conoce como nivel de confianza esta probabilidad indica qu tanta
confianza tenemos de que la estimacin de intervalo incluya al parmetro
de poblacin. Una probabilidad ms alta implica una mayor confianza.
El nivel de confianza se simboliza como (1-) x100%, en donde es la
proporcin que se encuentra en los extremos de la distribucin que esta
fuera del intervalo de confianza.
El valor de Z elegido para construir el intervalo de confianza se lo
conoce como el valor crtico de la distribucin. Cualquier aumento en el
nivel de confianza se ogra ampliando simultneamente el intervalo de
confianza obtenido, hacindolo menos preciso y menos til.
El intervalo de confianza es el rango o alcance de la estimacin que
estamos haciendo.
Los lmites de confianza son los lmites superior e inferior del intervalo
de confianza. +x es el LSC y -x es el LIC.
A medida que se establece un intervalo de confianza cada vez ms
estrecho, se determina un nivel de confianza cada vez ms bajo. Si el
intervalo de confianza es muy reducido, la estimacin est asociada a un
nivel de confianza tan bajo que cuestionamos su valor; sacrificamos
confianza para ganar precisin.
Los altos niveles de confianza producen intervalos ms amplios, de
manera que sacrificamos precisin para ganar confianza.
Supongamos que tenemos 95% de confianza de que se encuentre entre
30 y 32. Esta afirmacin no significa que se tiene 0,95 de probabilidad de
que la media caiga dentro del intervalo establecido para la muestra. Ms
bien, indica que si seleccionamos muchas muestras aleatorias del mismo
tamao y calculamos un intervalo de confianza para cada na, entonces en
alrededor del 95% de los casos la media de la poblacin caer dentro de
dicho intervalo.

LSC Lmite superior de confianza y LIC Lmite inferior de


confianza
x z x

[ LI ; LS ] = x Z 1
2

; x + Z

]
Estadstica 2|6

Es el valor de la tabla estandarizada normal, que tiene

acumulado hasta ese valor

de probabilidad. Este valor se denomina

valor crtico de la distribucin. Los ms usuales:


(1-)
Nivel de confianza
95%
99%
90%

1,96
2,575
1,645

CLCULO DE ESTIMACIONES DE INTERVALO DE LA PROPORCION A


PARTIR DE MUESTRAS GRANDES
Distribucin en el muestreo de la proporcin: distribucin de
probabilidades que puede asumir un estadstico muestral, calculados a
partir de muestras del mismo tamao y extrados en forma aleatoria de la
misma poblacin.
Para las variables categricas, en las cuales se registra la posesin o no
de una caracterstica, el parmetro poblacional de inters es la proporcin
que indica qu proporcin de la poblacin posee tal caracterstica:

x xitos
p= =
n tamao
Para derivar la media y la desviacin estndar de la distribucin
nominal:

=np; =npq

N= nmero de ensayos o intentos


P= probabilidad de tener xito
Q= 1-p= probabilidad de fracasos

Tericamente, la distribucin binomial es la distribucin correcta a


utilizar en la construccin de intervalos de confianza para estimar una
proporcin de la poblacin.
Debido a que el clculo de probabilidades binomiales puede ser largo, el
uso de la misma para elaborar estimaciones de intervalo de la proporcin de
una poblacin es una proposicin complicada. Conforme aumenta el tamao
de la muestra, la distribucin binomial puede aproximarse a la normal
apropiada, que podemos utilizar para aproximar la distribucin muestral. Los
Estadstica 2|7

estadsticos recomiendan que en la estimacin, n sea lo suficientemente


grande para que tanto np como nq sean al menos 5 cuando se usa la
distribucin normal como sustituto de la distribucin binomial.
Los lmites del intervalo sern:

[LI ; LS]= pZ

1
2

P ( 1 p )
P (1 p )
; p+ Z
1
n
n
2

Para un tamao dado, los intervalos de confianza para las proporciones a


menudo parecen ser ms amplias que los correspondientes a variables
continuas, esto se debe a que pueden aportar mayor informacin. En otras
palabras, una variable categrica con solamente dos valores posibles es una
medicin bastante general, en comparacin con una variable continua, de
modo que cada observacin aporta solamente un poco de informacin
acerca del parmetro que estamos estimando.

z=

P1P

P (1 p )
n

Error estndar de la proporcin:

^p =

pq
n

Error estndar estimado de la proporcin:

^p q^
^ ^p =
n
ESTIMACIONES DE INTERVALOS CON LA DISTRIBUCION t
El uso de la distribucin t para hacer estimaciones se requiere siempre
que el tamao de la muestra sea menor o igual a 30 no est muy sesgada y
la desviacin estndar de la poblacin no se conozca. Adems, al utilizar la
distribucin t suponemos que la distribucin poblacional es normal o
aproximadamente normal.
Fue estudiada por Gasset.

CARACTERISTICAS DE LA DISTIBUCION t
La distribucin t y normal tienen relacin. Ambas son simtricas,
acampanadas. En general, la distribucin t es ms plana que la distribucin
normal y hay una distribucin t para cada tamao posible de muestra. Aun
as, conforme el tamao de muestra o grados de libertad se hace ms
grande, la forma de la distribucin t deja de ser plana y se aproxima ms a
la normal. Esto se debe a que conforme aumenta el tamao de la muestra,
la desviacin de la muestra se vuelve una mejor estimacin de la desviacin
de la poblacin.
Con un tamao de muestra aproximadamente 120 o mayor, S estima a
, con suficiente precisin, de modo que existe poca diferencia entre las
distribuciones t y Z. Por esta razn, cuando la muestra es mayor a 120 se
utiliza la distribucin Z en lugar de la distribucin t.
La distribucin t tiene ms rea en los extremos y menos en la parte
central que en el caso de la distribucin normal.
Estadstica 2|8

Una distribucin t es menor en la media y mayor en las colas que una


distribucin normal.

GRADOS DE LIBERTAD
Podemos definirlos como el nmero de valores que podemos escoger
libremente. Utilizaremos los grados de libertado cuando elijamos una
distribucin t para estimar una media de poblacin, y utilizaremos n-1
grados de libertas, cuando n es igual al tamao de la muestra.
La varianza es mayor a 1. Cuanto ms grados de libertad tenga, la
varianza es ms cercana a 1 y ms se aproximan las distribuciones.
La idea de grados de libertad remite a la cantidad de valores de una
muestra que podra asumir cualquier calor. Cada restriccin impuesta en la
observacin, hace perder un grado de libertad.

USO DE LA TABLA DE DISTRIBUCION t


Diferencias entre la tabla t y la tabla z:

La tabla t es ms compacta y muestra reas y valores de t solo


para algunos porcentajes (10, 5, 2 y 1%)
La tabla z no se concentra en la probabilidad de que el parmetro
de poblacin que se est estimando se encuentre dentro del
intervalo de confianza. En lugar de ello, mide la probabilidad de
que el parmetro de poblacin que estamos estimando no est
dentro de nuestro intervalo de confianza, de que est afuera.
En la tabla t debemos especificar los grados de libertad que se
manejan.

ESTIMACION MEDIANTE EL MINIMO ESFUERZO


Implica la seleccin de una muestra inicial y un posterior muestreo de la
muestra inicial. Desarrollado por Efron, requieren el uso intensivo de la
computadora.
No requieren de conocimiento de los parmetros de la poblacin.
Pasos a seguir:
1. Seleccione una muestra aleatoria de tamao n sin reemplazo de
un marco de poblacin de tamao N.
2. Tome un ejemplo de la muestra inicial, seleccionando n
observaciones con reemplazo.
3. De esta segunda muestra calcule la media, la estadstica de
inters.
4. Repita los pasos 2 y 3 m veces diferentes. M suele ser entre 100 y
1000.
5. Forme la distribucin de muestreo repetido de la estadstica de
inters, utilizando un diagrama de tallo y hoja o una presentacin
ordenada.

Estadstica 2|9

6. Para formar el intervalo de confianza de mnimo esfuerzo utilice el


valor que interseca al menor y al mayor valor de

x 100
2

de la

estadstica.

INTERVALO DE PREDICCION PARA UN VALOR INDIVIDUAL FUTURO


El intervalo de prediccin de n valor individual futuro est dado por:

1
X t S 1+
n
DETERMINACION DEL TAMAO DE MUESTRA EN ESTIMACION
Se presentara cierto grado de error de muestreo por no estudiar la
poblacin completa. Siempre que tomamos una muestra, perdemos algo de
informacin til de la poblacin. Si queremos tener un alto nivel de precisin
debemos muestrear la poblacin lo suficiente para asegurarnos que
obtuvimos la informacin requerida.
El error de muestreo se puede controlar si seleccionamos una muestra
con el tamao adecuado. En general, cuanta ms precisin se requiera, ms
grande ser el tamao necesario de la muestra. Tenemos que pensar en qu
tanto error podeos aceptar y todava ser capaces de obtener conclusiones
adecuadas sobre los datos.
Incluso en los casos en que el nivel de confianza y el error de muestreo
estn especificados, debemos tener disponible una estimacin de la
desviacin estndar, la podemos desarrollar apropiadamente si tomamos en
cuenta el alcance y la distribucin de la variable.

pq
=z x
n

n0=

z2 2
e2

n=

Z 2 p(1 p)
2

Debe conocerse:
1. Nivel de confianza Z
2. Error de muestreo permitido, e. 100% - X% nivel de confianza
= e
3. Desviacin estndar,

Al determinar el tamao de muestra cuando se estima la media,


utilizamos la ecuacin del medio, en la que n es el tamao de la muestra sin
considerar el factor de correccin de poblacin finita.
La aplicacin del factor de correccin tiene como resultado el tamao de
muestra real, n, calculado con la ecuacin:

n=

n0 N
n o+( N 1)

La regla indica que se utilizara un valor de p=0,5 dado que es un criterio


conservador, que dar un mayor valor e la varianza y tamao de la muestra.
Para poblaciones finitas, se obtiene despejando n de la frmula del error,
en el que se utilizara el factor de correccin.
Determinar el tamao de la muestra nos asegura que el estimador se
vuelve ms confiable con muestras grandes

E s t a d s t i c a 2 | 10

CUNDO APLICAR CADA ESTADSTICO?


Para estimar el intervalo para la media poblacional, se aplica la distribucin
normal, en caso de distribucin normal de la variable de estudio, o en su
defecto si la muestra es superior a 30 casos.
El uso de la distribucin t en la estimacin por intervalos de la media
poblacional es un requisito cuando desconocemos la varianza poblacional,
con distribucin de la variable en estudio normal si la muestra es menor a
30 casos, y es recomendable, en idnticas condiciones, aun cuando la
muestra es mayor. Se usan todos los casos en que necesites estimar la
varianza.

E s t a d s t i c a 2 | 11

FUNDAMENTOS DE LA PRUEBA DE HIPOTESIS


La prueba de hiptesis comienza con una suposicin llamada hiptesis,
que hacemos acerca de un parmetro de poblacin. Empieza con algo de
teora, afirmacin o asercin con respecto a un parmetro particular de una
poblacin.
Una hiptesis nula es siempre una de status quo o de no diferencia.
Siempre que especifiquemos una hiptesis nula debemos especificar una
hiptesis alternativa, o una que debe ser verdadera si se encuentra que la
hiptesis nula es falsa.
La hiptesis alternativa representa la conclusin a la que se llegara si
hubiera suficiente evidencia de la informacin de la muestra para decidir
que es improbable que la hiptesis nula sea verdadera y, por lo tanto,
rechazarla.
No rechazar la hiptesis nula no prueba que sea cierta; simplemente no
nos proporciona evidencia estadstica para rechazarla. Siempre que
afirmemos que aceptamos la hiptesis nula, en realidad lo que queremos
decir es que no hay suficiente evidencia para rechazarla, porque estamos
basando nuestra decisin nicamente en la informacin de la muestra, no
en la poblacin entera. Si no rechazamos la hiptesis nula, lo nico que
podemos decir es que la evidencia fue insuficiente para garantizar su
rechazo.

La hiptesis nula es la que se va a probar


La hiptesis alternativa es contraria a la nula, representa la conclusin a
la que se llegara si la hiptesis nula fuera rechazada
En lo que se conoce como metodologa de prueba de hiptesis clsica:

La H0 siempre se refiere a un valor especificado del parmetro de


poblacin.
El planteamiento de H0 contiene un signo de igualdad.
El planteamiento de la H1 nunca contiene un signo de igualdad.

Una vez definida la hiptesis, recolectamos datos de muestra,


producimos estadsticas muestrales y usamos esta informacin para decidir
qu tan probable es que nuestro parmetro de poblacin hipottico sea
correcto. Digamos que suponemos un cierto valor para una media de
poblacin. Para probar la validez de esa suposicin recolectamos datos de
muestra y determinamos la diferencia entre el valor hipottico y el valor real
de la media de la muestra. Despus juzgamos la diferencia obtenida, si es o
no significativa. Mientras ms pequea sea la diferencia, mayor ser la
probabilidad de que nuestro valor hipottico para la media sea correcto.
Mientras mayor sea la diferencia, ms pequea ser la probabilidad.
E s t a d s t i c a 2 | 12

Nuestro estndar mnimo para una probabilidad, tambin es el riesgo


que corremos de rechazar una hiptesis que es cierta.

PRUEBA DE HIPOTESIS
En una prueba de hiptesis, debemos establecer el valor supuesto o
hipottico del parmetro de poblacin antes de comenzar a tomar la
muestra. La suposicin que deseamos probar se conoce como hiptesis nula
y se simboliza H0.
Un valor hipottico de una media de poblacin seria: H 0.
Si los resultados de nuestra muestra no respaldan la hiptesis nula,
debemos concluir que se cumple alguna otra cosa. Siempre que rechazamos
la hiptesis, la conclusin que s aceptamos se llama hiptesis alternativa
cuyo smbolo es H1.
La distribucin de muestreo de la estadstica de prueba se divide en dos
regiones: una regin de rechazo o crtica y una regin de no rechazo. Si la
estadstica de prueba cae dentro de la regin de no rechazo, no se puede
rechazar la hiptesis nula.
La regin de rechazo puede considerarse como el conjunto de valores de
la estadstica de prueba que no tienen posibilidad de presentarse si la
hiptesis nula es verdadera. Por otro lado, estos valores no son tan
improbables de presentarse si la H0 es falsa. En consecuencia, si
observamos un valor de la estadstica de prueba que cae en esta regin
critica, rechazamos la H0 porque el valor seria improbable si sta fuera
verdadera.
Con el fin de tomar una decisin con respecto a la H0, primero debemos
determinar el valor crtico de la estadstica de prueba. El valor crtico separa
las regiones de rechazo y no rechazo; depende del tamao de la primera,
que est relacionada con el riesgo implicado en el uso de una sola evidencia
de muestra para tomar decisiones con respecto a un parmetro de
poblacin.

ERRORES DE TIPO I Y II
Rechazar una hiptesis nula cuando es cierta se denomina error tipo I o
nivel de significacin y su probabilidad se simboliza con . Los
investigadores han elegido niveles de alfa igual o menores a 5.
Aceptar una hiptesis nula cuando es falsa se le llama error tipo II o
riesgo , y su probabilidad se simboliza con . Se conoce tambin como
nivel de riesgo del consumidor. Depende de la diferencia entre los valores
supuesto y real del parmetro de poblacin.
La probabilidad de cometer un tipo de error puede reducirse solo si
estamos dispuestos a aumentar la probabilidad de cometer el otro tipo de
error.
Con el fin de obtener una baja, tendremos que tolerar una alta. Los
tomadores de decisiones deciden el nivel de significancia adecuando
examinando los costos o la penalizacin vinculados con ambos tipos de
error.

INTERPRETACIN DEL NIVEL DE SIGNIFICANCIA


El propsito de la prueba de hiptesis no es cuestionar el valor calculado
del estadstico de la muestra, sino hacer juicio respecto a la diferencia entre
ese estadstico y un parmetro hipottico de la poblacin.
Qu pasa si probamos una hiptesis con 5% de nivel de significancia?
Esto quiere decir que rechazaremos la hiptesis nula si la diferencia entre el
estadstico y el parmetro hipottico de la poblacin es tan grande que esta
E s t a d s t i c a 2 | 13

u otra diferencia mayor ocurrir, en promedio, solo cinco o menos veces en


cada 100 muestras, cuando el parmetro hipottico de la poblacin es
correcto. Si suponemos que la hiptesis es correcta, entonces el nivel de
significancia indicara el porcentaje de medias muestrales que esta fuera de
ciertos lmites. El nivel de confianza indicaba el porcentaje de medias
muestrales que caan dentro de los lmites de confianza obtenidos.

SELECCIN DE UN NIVEL DE SIGNIFICANCIA


Cuanto ms alto sea el nivel de significancia que utilizamos para probar
una hiptesis, mayor ser la probabilidad de rechazar la hiptesis nula
cuando es cierta.
Cuanto ms alto sea el nivel de significancia, el rea de no rechazo ser
ms pequea, por lo que rara vez se rechaza una hiptesis cierta.

MEDICION DE LA POTENCIA DE UNA PRUEBA DE HIPOTESIS


Por cada valor de para el que la hiptesis alternativa es cierta hay una
probabilidad diferente, , de aceptar incorrectamente una hiptesis nula.
Claro que desearamos que esta fuera lo ms pequea posible o, de
manera equivalente, nos gustara que 1- fuera lo ms grande posible.
Puesto que rechazar una hiptesis nula cuando es falsa es justo lo que
debe hacer una buena prueba, un valor alto de 1- (algo cerca de 1.0)
significa que la prueba trabaja bastante bien (rechaza la hiptesis nula
cuando es falsa); un valor bajo de 1- (cerca de 0.0) significa que la prueba
trabaja muy mal (no rechaza la hiptesis cuando es falsa). Como el valor de
1- es la medida de qu tan bien trabaja la prueba, recibe el nombre de
potencia de prueba.
Es decir, es la probabilidad de rechazar H0 cuando sta es falsa y debe
ser rechazada.

COEFICIENTE DE CONFIANZA
Est representado por 1-, es la probabilidad de que H0 no sea
rechazada cuando de hecho es verdadera y debera ser aceptada.
Representa la probabilidad de llegar a la conclusin de que el valor
especificado del parmetro que se est probando con la H0 pueda ser
plausible.

RIESGOS EN LA TOMA DE DECISIONES


Dependiendo de la decisin especifico, uno de dos clases de error se
puede cometer, o se puede llegar a una de dos conclusiones correctas.
Una manera en que podemos controlar la probabilidad de cometer un
error del tipo II en un estudio, consiste en aumentar el tamao de la
muestra. Para un nivel dado de , aumentar el tamao de la muestra
disminuir y aumentara la potencia de la prueba para detectar si a H0 es
falsa.
Decisin estadstica
No rechazar H0
Rechazar H0

SITUACION
H0 verdadera
H0 falsa
Confianza ( 1-)
Error tipo II
Error tipo I
Potencia (1-)

Podemos determinar el efecto de a potencia sobre la prueba si variamos,


uno a la vez:
El tipo de prueba estadstica: de uno o dos extremos: Una prueba de un
extremo es ms poderosa que una de dos extremos, y se debera utilizar
siempre que sea adecuado especificar la direccin de la H1.

E s t a d s t i c a 2 | 14

El nivel de significacin: Puesto que la probabilidad de cometer un error de


tipo I y la del II tienen una relacin inversa, y esta ltima es el
complemento de la potencia de prueba, entonces alfa y la potencia de
prueba varan en proporcin directa. Un aumento en el valor de
significancia escogido tendra como resultado un aumento en la potencia
de la prueba; una disminucin en alfa tendra como resultado una
disminucin en la potencia.
El tamao de la muestra: Un aumento en el tamao de la muestra escogida
tendra como resultado un aumento en la potencia de la prueba; una
disminucin en el tamao de la muestra seleccionada tendra como
resultado una disminucin en la prueba.

DETERMINACION DEL TAMAO DE MUESTRA BASANDOSE EN Y


Suponiendo que se trata de una prueba de un extremo:
2

n=

x ( Z Z )
2
(o
1 )

DECISION DE QU TIPO DE DISTRIBUCION USAR EN LA PRUEBA DE


HIPOTESIS
Condiciones para usar las distribuciones normales y t en la prueba de
hiptesis sobre medias
30 < n
30 > o = n

Se conoce
Normal, z
Normal, z

No se conoce
Normal, z
Distribucin t

Otra regla que debe cumplirse al probar el valor hipottico de una


media. Al igual que en la estimacin, utilice el multiplicador de poblacin
finita siempre que la poblacin sea finita en tamao, el muestreo se haga
sin reemplazo y la muestra sea de ms del 5% de la poblacin.

PRUEBAS DE HIPOTESIS DE DOS COLAS Y DE UNA COLA

Una prueba de dos colas rechaza la hiptesis nula si la media de


muestra es significativamente mayor o menor que la media hipottica de la
poblacin. Por lo tanto, en una prueba de dos colas, existen dos regiones de
rechazo.
Una prueba de dos colas es apropiada cuando la hiptesis nula es =
H0 y la hiptesis alternativa es H 0. En este caso, la evidencia muestral
con la media de la muestra significativamente menor que la media
hipottica de la poblacin es la que nos lleva a rechazar la hiptesis nula en
favor de la hiptesis alternativa. Dicho de otro modo, la regin de rechazo
est en la cola inferior de la distribucin de la media muestral, y esa es la
razn por la que la llamamos prueba de cola inferior.
Otro tipo de prueba de una cola es una prueba de cola derecho o
superior. Una prueba de cola superior se utiliza cuando las hiptesis son H 0:
= H0 y H1: > H0. Solo los valores de la media de la muestra que son
significativamente mayores que la media hipottica de la poblacin harn
que rechacemos la hiptesis nula en favor de la hiptesis alternativa.

E s t a d s t i c a 2 | 15

VALOR P PARA LA PRUEBA DE HIPOTESIS


El valor p es la probabilidad de obtener una estadstica de prueba igual o
ms exacta que el resultado obtenido a partir de los datos de la muestra,
dado que la H0 es realmente verdadera.
Al valor p se o conoce como el nivel de significacin observado, que es
el mnimo nivel al cual H0 puede ser rechazada para un conjunto de datos.

PRUEBAS DE UNA MUESTRA CON DATOS NUMRICOS


ELECCION DEL PROCEDIMIENTO DE PRUEBA APROPIADA
PROCEDIMIENTOS PARAMTRICOS
Los procedimientos de prueba paramtricos pueden definirse como
aquellos que:
1) Requieren que el nivel de medicin obtenido con los datos recolectados
este en forma de escala de intervalo o de una escala de cociente
2) Implican la prueba de hiptesis de valores de parmetro especificados
3) Requieren un conjunto limitante de suposiciones
Sin embargo, podemos decidir qu tipos de procedimientos escoger si:

Las mediciones obtenidas con los datos son solamente categricas, es


decir, estn escaladas nominalmente; o en rangos, escaladas
ordinalmente.
Las suposiciones subyacentes en el uso de los mtodos paramtricos
pueden no cumplirse.
La situacin requiere el estudio de caractersticas tales como
aleatorizacin, independencia, simetra o bondad de ajuste en lugar de la
prueba de hiptesis con respecto a valores especficos de parmetros de
poblacin en particular.

PROCEDIMIENTOS SIN DISTRIBUCION Y NO PARAMETRICOS

Los procedimientos
ampliamente como:

de

prueba

sin

distribucin

pueden

definirse

1. Aquellos cuya estadstica de prueba no depende de la forma de la


distribucin de la poblacin subyacente de la cual se tom la muestra de
datos
E s t a d s t i c a 2 | 16

2. Aquellos para los cuales los datos no tienen fuerza suficiente para
garantizar operaciones aritmticas significativas, estn escalados
nominal u ordinalmente.
Los procedimientos no paramtricos pueden definirse como aquellos que
no tienen que ver con los parmetros de una poblacin.
Principales ventajas del uso de estos dos procedimientos:

Pueden utilizarse en todo tipo de datos: categricos, de rangos datos


medidos con ms precisin.
Son fciles de aplicar y rpidos de calcular cuando los tamaos de
muestra son pequeos.
Implican un menor nmero de suposiciones menos limitantes que los
mtodos paramtricos. En consecuencia, tienen una mayor
aplicabilidad y producen un conjunto de conclusiones ms general y
con una base amplia.
Los mtodos no paramtricos permiten la resolucin de problemas que
no implican la prueba de parmetros de la poblacin.
Dependiendo del procedimiento particular elegido, los mtodos sin
distribucin pueden ser igualmente o casi, poderosos que el
procedimiento paramtrico correspondiente cuando las suposiciones
del ltimo se cumplen, y cuando no se cumplen pueden ser bastante
ms poderosos.
Principales desventajas:

Utilizar mtodos libres de distribucin cuando se pueden cumplir todas


las suposiciones de procedimiento paramtrico.
Conforme aumenta el tamao de la muestra, la manipulacin de datos
requerida para efectuar o procedimientos sin distribucin y los no
paramtricos es laboriosa.
Con frecuencia se necesitan tablas especiales de valores crticos y no
es tan fcil disponer de ellas.

IMPORTANCIA DE LAS SUPOSICIONES EN LA SELECCIN DE LA


PRUEBA
Se dice que algunos procedimientos de prueba paramtricos son
robustos porque son relativamente insensibles a ligeras violaciones en las
suposiciones. Sin embargo, cuando las violaciones son grandes, y 1-
reales pueden diferir enormemente de lo que se espera. En esos casos, una
prueba paramtrica no es vlida y debera seleccionarse un procedimiento
sin distribucin.
No es ventajoso utilizar un procedimiento libre de distribucin cuando
todas las suposiciones de la correspondiente prueba paramtrica pueden
lograrse.

PRUEBAS DE HIPOTESIS DE MEDIAS CUANDO SE CONOCE LA DE


LA POBLACION
PRUEBA DE HIPOTESIS USANDO LA ESCALA ESTANDARIZADA
Hay dos escalas de medicin, la escala original o sin procesar y la escala
estandarizada. Como estos dos nmeros se dan en dos escalas distintas, no
podemos compararlos directamente cuando probamos nuestras hiptesis.
Debemos convertir uno de ellos a la escala del otro.
Hicimos nuestra prueba de hiptesis en la escala original al convertir los
valores z crticos a los valores crticos de

en la escala original.

E s t a d s t i c a 2 | 17

En lugar de convertir los valores crticos z a la escala original, para


obtener nmeros directamente comparables con el valor observado de
podramos haber convertido nuestro valor observado de

z=

x H
x

x ,

estandarizada:

Los dos mtodos siempre llevaran a


utilizaremos el que nos resulte ms cmodo.

las

mismas

conclusiones,

EL PROCESO DE CINCO PASOS PARA LA PRUEBA DE HIPOTESIS


UTILIZANDO LA ESCALA ESTANDARIZADA
1) Decida si esta es una prueba de dos colas o una. Establezca su
hiptesis. Seleccione un nivel de significancia apropiado para esta
decisin.
2) Decida qu distribucin, z o t, es adecuada y encuentro valores
crticos para el nivel de significancia elegido en la tabla adecuada.
3) Calcule el error estndar del estadstico muestral. Use el error
estndar para convertir el valor observado del estadstico en un
valor estandarizado.
4) Bosqueje la distribucin y marque la posicin del valor de la
muestra estandarizado y del valor crtico para la prueba.
5) Compre el valor del estadstico muestral estandarizado con los
valores crticos para esta prueba e interprete el resultado.

PRUEBA DE HIPOTESIS PARA PROPORCIONES: MUESTRAS GRANDES


PRUEBA DE UNA O DOS COLAS PARA PROPORCIONES
1. Establezca sus hiptesis, tipo de prueba y nivel de significancia
2. Elija la distribucin apropiada y encuentre el valor critico
3. Calcule el error estndar y estandarice el estadstico de la muestra

p =

z=

p Ho q Ho
n

p Ho
P
p

4. Bosqueje la distribucin y seale el valor de la muestra y los valores


crticos
5. Interprete el resultado.

PRUEBA DE HIPOTESIS DE MEDIAS CUANDO NO SE CONOCE LA


DE LA POBLACION

PRUEBA DE UNA O DOS COLAS PARA MEDIAS USANDO LA


DISTRIBUCION t
Como nuestra prueba de hiptesis se basa en la distribucin t, usamos t
para denotar el estadstico estandarizado:

t=

x H
x

Si utilizamos la distribucin t para una prueba de una cola, necesitamos


determinar el rea localizada solo en una de ellas.

E s t a d s t i c a 2 | 18

La prueba t est considerada como un procedimiento paramtrico


clsico. Como tal, requiere de un cierto nmero de suposiciones limitantes
que deben cumplirse si queremos estar seguros de que los resultados
obtenidos al emplear la prueba son vlidos. En particular, para utilizar la
prueba t de una muestra se supone que los datos numricos son tomados
de manera independiente y representan una muestra aleatoria de la
poblacin que est distribuida normalmente.

PRUEBA DE HIPOTESIS: PRUEBAS DE DOS MUESTRAS


PRUEBA DE HIPOTESIS PARA DIFERENCIAS ENTRE MEDIAS Y
PROPORCIONES
DISTRIBUCION DE MUESTREO PARA LA DIFERENCIA ENTRE DOS
PARAMETROS DE POBLACION
La distribucin de muestreo que nos interesa es la distribucin muestral
de la diferencia entre medias muestrales.
La media de la distribucin muestral es la diferencia entre las medias
muestrales se representan por

x 1 x 2

y es igual a

x 1 x 2 . Si ambas

son iguales, su diferencia ser 0.


La desviacin estndar de las diferencias entre las medias de la muestra
se conoce como el error estndar de la diferencia entre dos medias y se
calcula con la siguiente formula:

x 1 x 2=

21 22
+
n1 n2

Si no conocemos las dos desviaciones de la poblacin, podemos estimar


el error estndar de la diferencia entre dos medias utilizando

^ .

PRUEBAS PARA DIFERENCIAS ENTRE MEDIAS:


Suponemos que estamos tomando las muestras
distribuidas normalmente que tienen la misma varianza.

de

poblaciones

En situaciones en las que no podemos hacer la suposicin de que las dos


poblaciones realmente estn distribuidas normalmente, la prueba t de
varianza conjunta es robusta, es decir que no es sensible con respecto a
violaciones moderadas de la suposicin, siempre y cuando el tamao de
muestras sea grande. En tales situaciones, la prueba t de varianza conjunta
puede utilizarse sin que se vea seriamente afectada en su potencia.
Si el tamao de las muestras es pequeo y no podemos suponer que los
datos fueron tomados de poblaciones distribuidas normalmente: se puede
realizar alguna transformacin normalizante y luego utilizar la prueba de t
de varianza conjunta; o seguir un procedimiento de libre distribucin, como
la prueba de suma de rangos de Wilcoxon, que no dependen de la
suposicin de normalidad de las dos poblaciones.
En situaciones en las que no podemos o no deseamos hacer la
suposicin de que las dos poblaciones estn distribuidas normalmente, de
las cuales se tomaron las muestras que tienen igual varianza, se dice que
tiene un problema de Behrens Fisher, y se puede utilizar la prueba t de
varianza separada, desarrollada por Satterwaite.

MUESTRAS GRANDES

Cuando ambos tamaos de muestra son mayores que 30,


estandarizamos la diferencia de las medias entre las muestras. Primero
E s t a d s t i c a 2 | 19

calculamos la diferencia hipottica de las medias de las poblaciones y luego


dividimos entre el error estndar estimado de la diferencia entre las medias
muestrales.

z=

( x1 x2 ) ( 1 2 ) Ho
^ x 1x 2

MUESTRAS PEQUEAS

Nuestra primera tarea al efectuar la prueba consiste en calcular el error


estndar de la diferencia entre las dos medias. Como no se conocen las
desviaciones estndar de las poblaciones, utilizaremos la

^ .

La estimacin conjunta de 2:
2
p

s =

( n1 1 ) s 21 +(n 21) s22


n 1+ n22

Como tenemos que usar las varianzas de la muestra para estimar el


valor desconocido de 2, la prueba estar basada en la distribucin t. Este
caso es igual a probar una sola media de tamao n, cuando no conocemos
el valor de 2. Ah utilizamos una distribucin t con n-1 grados de libertad,
debido a que una vez que conocemos la media de la muestra solo n-1
observaciones se pueden especificar libremente.
En el paso 3, clculo del error estndar estimado de la diferencia entre
dos medias muestrales, con muestras pequeas y varianzas de poblaciones
iguales tenemos:

1 1
^ x 1 x 2=s p
+
n1 n 2
PRUEBA DE
DEPENDIENTES

DIFERENCIAS

ENTRE

MEDIAS

CON

MUESTRAS

El uso de muestras dependientes o apareadas permite llevar a cabo un


anlisis ms preciso, porque permite controlar factores externos. Con
muestras dependientes, todava se sigue el procedimiento bsico adoptado
en todas las pruebas de hiptesis. Las nicas diferencias consisten en que
se emplea una formula distinta para el error estndar estimado de las
diferencias muestrales y que es necesario que ambas muestras sean del
mismo tamao.
Con muestras independientes, la hiptesis nula no puede ser rechazada.

PRUEBAS PARA DIFERENCIAS ENTRE PROPORCIONES: MUESTRAS


GRANDES
PRUEBAS
DE
PROPORCIONES

DOS

COLAS

PARA

DIFERENCIAS

ENTRE

El error estndar de la diferencia entre dos proporciones:

x 1 x 2=

p1 q1 p2 q2
+
n1
n2

Si establecemos la hiptesis de que no hay diferencia entre las dos


proporciones de la poblacin, entonces la mejor estimacin de la proporcin
global de xitos en la poblacin es, tal vez, la proporcin combinada de
xitos en ambas muestras, esto es:
E s t a d s t i c a 2 | 20

)(

nmeros de xitos + nmeros de xitos


mejor estimacin de la proporcin
en la muestra 1
en la muestra 2
global de xitos en la pobacin
=
conla hiptesis de que las dos
( tamao total de ambas muestras )
proporciones son iguales

Y en el caso de los dos compuestos:

^p=

n1 p 1+ n2 p2
n 1+ n2

Estandarizamos la diferencia entre as dos proporciones de la muestra


observada, dividimos entre el error estimado de la diferencia entre dos
proporciones:

z=

( p 1 p2 )( p 1 p2 )Ho
^ x 1x 2

VALOR P: OTRA MANERA DE VER LAS PRUEBAS DE HIPOTESIS


Cuando probamos las hiptesis, tomamos una muestra, calculamos la
media y rechazamos la hiptesis nula si la media de la muestra se aleja de
la poblacional, que la probabilidad de encontrar una gran diferencia entre
ambas es menor que 0,05. En otras palabras, antes de tomar la muestra
especificamos qu tan improbables debern ser los resultados observados
para que rechacemos la hiptesis nula. Existe otra forma de enfocar la
decisin de aceptar o rechazar la hiptesis nula que no requiere especificar
el nivel de significancia antes de tomar la muestra.

VALORES P PARA OTRAS CONDICIONES


1. Si fuera conocida y estuviramos realizando una prueba de una cola,
habramos calculado el valor P exactamente de la misma manera, con la
excepcin de que no multiplicaramos por dos la probabilidad obtenida
en la tabla de distribucin normal, porque esa tabla da las
probabilidades de una cola directamente.
2. Si no se conociera , habramos utilizado la distribucin t con n-1 grados
de libertad y la tabla de distribucin de t de Student. Esta tabla nos da
las probabilidades de dos colas, pero solo unas cuantas, de modo que no
podemos obtener valores p exactos.
3.

PRUEBA DE HIPOTESIS X2 PARA LA VARIANZA O DESVIACION


ESTANDAR
Las pruebas de ji cuadrada nos permiten hacer mucho ms que probar
la igualdad de varianzas de proporcin.

X 2=

(n1) S 2
2x

Una distribucin chi cuadrada es una distribucin sesgada cuya forma


depende exclusivamente de los grados de libertad; a medida que aumenta,
la distribucin se vuelve ms simtrica.

E s t a d s t i c a 2 | 21

Debemos tener cuidado al probar una hiptesis con respecto a una


varianza o desviacin estndar de la poblamos, tenemos que ser
conscientes de que hemos supuesto que los datos de la poblacin estn
distribuidos normalmente. Esta prueba es bastante sensible a los
alejamientos de tal suposicin, es decir que no es una prueba robusta, de tal
modo que si la poblacin no est distribuida normalmente, en especial para
tamaos pequeos de muestra, la precisin de la prueba puede verse
seriamente afectada.

PRUEBA DE HIPOTESIS DE RANGOS CON SIGNO WILCOXON PARA


LA MEDIANA
La prueba de rangos con signo de Wilcoxon puede utilizarse cuando
deseamos probar una hiptesis con respecto a la mediana de la poblacin,
Mx. este procedimiento libre de distribucin, que no implica ninguna
suposicin acerca de la forma especfica de la distribucin de poblacin
subyacente, excepto que sea aproximadamente simtrica.
Es ms probable que el procedimiento de Wilcoxon, que hace pocas
suposiciones menos limitantes que la prueba t, sea ms poderoso para
detectar la existencia de diferencias significativas que su correspondiente
contraparte paramtrica.
Las suposiciones necesarias para llevar a cabo la prueba de rangos con
signo de Wilcoxon son:
1. Que los datos observados constituyan una muestra aleatoria de n
valores independientes de una poblacin con una mediana
desconocida.
2. Que el fenmeno aleatorio subyacente de inters sea continuo.
3. Que los datos observados sean medidos a un nivel ms alto que la
escala ordinal
4. Que la poblacin subyacente sea aproximadamente simtrica
No todas las distribuciones simtricas tienen forma de campana, aunque
todas las distribuciones normales son simtricas y tienen forma de
campana.
Para llevar a cabo la prueba se deben seguir seis pasos:
1) Obtenemos un conjunto de resultados de diferencia D i entre cada uno
de los valores observados y el valor especificado de la mediana
supuesta:

Di=X iM o , donde i=1, 2, 3

2) Obtenemos un conjunto de n diferencias absolutas: |Di|


3) Omitimos cualquier diferencia cuyo resultado es 0.
4) Luego asignamos rangos,

Ri , de 1 a n a cada una de las

diferencias absolutas, de modo tal que la ms pequea obtenga el


rango 1 y la mayor el rango n. Debido a una falta de precisin en el
proceso de medicin, si dos o ms de las |D| son iguales, a cada una
se le asigna un rango promedio de los rangos que tendran asignaos
de manera individual.
5) Reasignamos los signos + y a cada uno de los n rangos,
dependiendo d si la diferencia era originalmente positiva o negativa.
6) La prueba de Wilcoxon, W, se obtiene de a suma de los rangos
positivos:

R+
W =

E s t a d s t i c a 2 | 22

La prueba estadstica de prueba W est distribuida de manera


aproximadamente normal, y puede utilizarse la siguiente formula de
aproximacin de muestra grande para probar la H0:

tamao real de lamuestra


n ' (n +1)
n ' (n +1)(2 n +1) '
despuesde eliminar las
w =
; w=
;n =
4
24
observaciones con diferencias
absolutas de cero

'

'

'

Entonces:
'

W
Z=

n' (n +1)
4

n' (n' +1)( 2n' +1)


24

PRUEBA DE CORRIDAS DE UNA MUESTRA DE WALD-WOLFWITZ


Se supone que todos los datos recolectados en un estudio constituyen
una muestra aleatoria, de modo que cada observacin o medida es tomada
de la poblacin de manera aleatoria e independiente. Tal suposicin puede
ser probada mediante el empleo de un procedimiento no paramtrico
conocido como pruebas de corridas de una muestra de Wald-Wolfwitz para
aleatoriedad.
Para probar la aleatoriedad:

H0: el proceso que genera el conjunto de datos numricos es


aleatorio
H1: el proceso que genera el conjunto de datos numricos no es
aleatorio

La hiptesis nula de aleatoriedad puede probarse mediante la


observacin del orden o secuencia e que se obtienen los elementos de la
muestra. Si a cada elemento se le asigna uno de dos trminos, como E y F
(xito y fracaso), dependiendo de si la medida cae por arriba o por debajo
de un cierto valor, la aleatoriedad de la secuencia puede ser investigada. Si
esta es generada de manera aleatoria, el valor E o F de un elemento ser
independiente tanto de su posicin en la secuencia como del valor de los
elementos que le preceden.
Por otra parte, si el valor de un elemento de la secuencia es afectado por
los valores de los dems elementos, o si la probabilidad de su ocurrencia
depende de su posicin en la secuencia, el proceso que la genera no es
considerado aleatorio. En los casos no aleatorios, los elementos parecidos
tendern a agruparse o se mezclaran de manera alternada, de modo que se
presentara algn efecto peridico sistemtico.
Para estudiar si una secuencia observada es aleatoria o no,
consideraremos como estadstica de prueba el nmero de corridas
presentes en los datos.
Una corrida se define como una serie de elementos similares que estn
limitados por elementos de un tipo diferente o por el inicio o el final de la
secuencia.
Al probar la aleatoriedad, lo esencial es el ordenamiento o la colocacin
de los elementos de la secuencia, no nada ms la frecuencia de los
elementos de cada tipo.

E s t a d s t i c a 2 | 23

En caso de querer comprobar la aleatoriedad utilizaremos una prueba de


dos colas.
Si estamos interesados en probar la aleatoriedad contra una alternativa
especfica utilizaremos una prueba de una cola:

Izquierda U menor o igual al valor crtico: efecto de tendencia, hay


tendencia de agrupamiento de los elementos parecidos.
Derecha U mayor al valor crtico: efecto sistemtico o peridico, se
presentan demasiadas corridas.
La frmula de clculo:

n1=numero de xitos en la muestra


n2=numero de fracasos en lamuestra
n=tamao de la muestra :n=n1+ n2
U=nmero de corridas observadas:
2n1 n2 (2n 1 n2 n)
2 n1 n2
; n=
n =
+1
n2 (n1)
n

U
Z=

2 n1 n 2
+1
n

2n 1 n2 (2n 1 n2 n)
n2 (n1)

OTRAS PRUEBAS DE HIPOTESIS


PRUEBA T DE VARIANZA SEPARADA PARA DIFERENCIAS ENTRE DOS
MEDIAS
La estadstica de prueba t de varianzas independientes puede ser
aproximada por una distribucin t con los grados de libertad, v, tomados
como la parte entera del clculo:

E s t a d s t i c a 2 | 24

t' =

( X 1 X 2 ) ( 1 2)

v=

(
S 21
n1

S1 S2
+
n1 n 2

S1 S2
+
n1 n2
2

S 22
n2

( ) ( )
+

( n11 ) ( n2 1 )
PRUEBA F PARA DIFERENCIAS ENTRE DOS VARIANZAS
La estadstica de prueba F para probar la igualdad entre dos varianzas
seria:
2

S
F= 12
S2
Al probar la igualdad de dos varianzas, se puede emplear prueba de dos
extremos o de un extremo, dependiendo de si estamos probando si las
varianzas de dos poblaciones son diferentes o si una de ellas es mayor o
igual que la otra.

Precaucin

Al probar la igualdad de dos varianzas de poblacin, debemos tener en


cuenta que la prueba supone que cada una de las dos distribuciones est
distribuidas de manera normal. Esta estadstica de prueba F no es robusta
con respecto a violaciones a esta suposicin, en particular cuando los
tamaos de muestra de los dos grupos no son iguales. Por lo tanto, si las
poblaciones no estn distribuidas por lo menos, de manera
aproximadamente normal, la precisin del procedimiento puede verse
afectado seriamente.

PRUEBA t PARA LA DIFERENCIA DE MEDIAS


La estadstica de prueba Z es:

Z=

D
D
D
n

En la que:
n

Dt
D=
t =1

Siempre y cuando el tamao de la muestra no sea muy pequeo y la


poblacin no est muy sesgada, la distribucin t da una buena aproximacin
a la distribucin de muestreo de la diferencia de promedio. Para probar una
hiptesis nula de no diferencia en las medias de dos poblaciones
relacionadas se puede calcular la siguiente estadstica de prueba t:

E s t a d s t i c a 2 | 25

t=

D
D
sD
n

SD=

D21n D 2
t =1

n1

ANOVA Y OTRAS PRUEBAS DE c MUESTRAS CON DATOS


NUMERICOS
ELECCION DEL PROCEDIMIENTO
COMPARAR c MUESTRAS

DE

PRUEBA

APROPIADO

PARA

Cuando nos preparamos para evaluar diferencias entre c grupos que


contienen datos numricos, debemos seleccionar un procedimiento de
prueba adecuado. Criterios:

El tipo de modelo de diseo experimental desarrollado


El nivel de medicin con que se tomaron los datos
La viabilidad de las hiptesis que subyacen en los procedimientos
de prueba alternativos
La capacidad de generalizacin de las conclusiones por obtener
La accesibilidad de las tablas de valores crticos para la
estadstica e prueba
La disponibilidad de paquetes de software de computacin que
contengan el procedimiento de prueba
La potencia estadstica del procedimiento de prueba

PRUEBA F ANOVA DE UNA DIRECCION PARA DIFERENCIAS EN c


MEDIAS
Cuando las mediciones resultantes en los x grupos son continuas y se
cumplen ciertas suposiciones, se puede emplear una metodologa conocida
como anlisis de varianza (o ANOVA: ANalysis Of VAriance) para comparar
las medias de los grupos.
En cierto sentido, el trmino anlisis de varianza parece no ser el
correcto, pues el objetivo consiste en analizar diferencias entre las medias
de los grupos. Sin embargo, a travs del anlisis de la variacin de los datos
tanto entre los c grupos como dentro de ellos, seremos capaces de llegar a
conclusiones acerca de posibles diferencias en las medias de los grupos. En
ANOVA subdividimos la variacin total de las mediciones resultantes en lo
que se puede atribuir a diferencias entre los c grupos y lo que se debe al
azar o que se puede atribuir a una variacin inherente dentro de los c
grupos. La variacin dentro de grupos se considera un error experimental,
mientras que la variacin entre grupos se atribuye a efectos de tratamiento.

Variacion
total - SST

Variacion
entre
grupos SSA
Variacion
detro de
grupos SSW

Error
experiment
al
Efecto de
tratamiento

E s t a d s t i c a 2 | 26

DESARROLLO DE ANOVA
Para llevar a cabo una prueba de ANOVA de la igual de las medias de
poblacin, subdividimos la variacin total en las mediaciones resultantes en
dos partes, la que se puede atribuir a las diferencias entre los grupos y la
que se debe a variaciones inherentes dentro de los grupos. La variacin
total generalmente se representa con la suma total de cuadrados (SST: Sum
of Squares Total). Puesto que bajo la hiptesis nula las medias de poblacin
de los c grupos se suponen iguales, se puede obtener una medicin de la
variacin total entre todas las observaciones, mediante la suma de las
diferencias al cuadrado entre cada observacin individual y la gran media o
media general,

que esta basada en las observaciones de todos los

grupos combinados. La variacin total se calculara como:

X )2
Variacin total ( SST )= ( X
La variacin entre grupos, por lo general conocida como suma de
cuadrados entre grupos (SSA: Sum of Squares Among), se mide mediante la
suma de diferencias al cuadrado entre la media de la muestra de cada
grupo y la media general o gran media, ponderadas o pesadas con el
tamao de muestra de cada grupo. La variacin entre grupos se calcula a
partir de:

X )
Variacin entre grupos ( SSA ) = n ( X

La variacin dentro del grupo, por lo general conocida como la suma de


cuadrados dentro del grupo (SSW: Sum of Squares Within), mide la
diferencia entre cada observacin y la media de su propio grupo, y suma los
cuadrados de tales diferencias sobre todos los grupos:
2
Variacion dentro del grupo ( SSW )= ( X X )

Existen n-c grados de libertad asociados con la suma de cuadrados


dentro de grupos. Adems, existen n-1 grados de libertad asociados con la
suma e totales al cuadrado porque cada observacin es comparada con la
media general o gran media, basndose en n observaciones.
Si cada una de estas sumas de cuadrados se divide entre sus grados de
libertad asociados, obtendremos tres varianzas o trminos cuadrticos
medios:

MSA=

SSA
c1

M SW =
MS T =

SSW
nc

SST
n1

Debido a que una varianza se calcula dividiendo la suma de diferencias


al cuadrado entre los correspondientes grados de libertad, los trminos
cuadrticos son todas las varianzas.
La estadstica de prueba f es el cociente de:

E s t a d s t i c a 2 | 27

F=

MSA
MSW

La estadstica sigue una distribucin F con c-1 y n-c gl. Para un nivel de
significacin dado, , podeos rechazar la hiptesis nula si la estadstica de
prueba excede al valor critico de extremo superior de la distribucin F.
Si la hiptesis nula fuera verdadera, deberamos esperar que la
estadstica F calculada fuera aproximadamente igual a 1, pues los trminos
cuadrticos medios tanto del numerador como del denominador son
estimaciones de la varianza verdadera, inherente a los datos.
En el otro extremo, si Ho es falsa, deberamos esperar que la estadstica
F calculada sea sustantivamente mayor que uno, pues el numerador MSA
estara estimando el efecto del tratamiento o la diferencia entre grupos,
adems de la variabilidad inherente de los datos, mientras que el
denominador, MSW, estara midiendo solamente la variabilidad inherente.
En consecuencia, el procedimiento ANOVA produce una prueba F en la cual
la hiptesis nula puede ser rechazada a un nivel de significacin ,
solamente si la estadstica F calculada es lo suficiente grande para exceder
al valor critico de extremo superior de la distribucin F, con c-1 y n-c gl.
Los resultados de un procedimiento de anlisis de varianza por lo
general se presentan en una tabla de resumen ANOVA que nos permite
llegar directamente a conclusiones con respecto a la hiptesis nula sin tener
que referirnos a una tabla de valores crticos de la distribucin F. si el valor p
es menor que el nivel elegido de significacin la hiptesis nula es
rechazada.
FUENTE

G
L

SUMAS DE
CUADRADOS

ENTRE
GRUPOS

c1

DENTRO
DE
GRUPOS

nc

2
SSW = ( X X )

TOTAL

n1

)
SST = ( X X

SSA= n ( X X )

CUADRADO MEDIO
(VARIANZA)
2

MSA=
MSW =

SSA
c1
SSW
nc

F=

MSA
MSW

PREMISAS ANOVA
En el anlisis de varianza se tienen tres suposiciones principales:
1) Aleatoriedad e independencia de errores: debe cumplirse para evitar
tendencias en los resultados. No solo se refiere a errores fortuitos, sino
tambin a la diferencia de cada valor observado respecto a la media de su
propio grupo. La premisa es que tales diferencias deben ser independientes
de cada valor observado. Esto es, la diferencia o error de una observacin
no debera estar relacionada con la diferencia o error de cualquier otra
observacin.
2) Normalidad: establece que los valores de cada grupo estn distribuidos de
manera normal. La prueba F ANOVA de una direccin es bastante robusta
respecto a las desviaciones de la distribucin normal; siempre y cuando las
distribuciones no sean extremadamente diferentes de una distribucin
normal, el nivel de significacin de la prueba de anlisis de varianza no se
ve muy afectado por la falta de normalidad, particularmente en muestras
grandes.
E s t a d s t i c a 2 | 28

3) Homogeneidad de varianzas: establece que la varianza dentro de cada


poblacin debera ser igual para todas las poblaciones. Esta suposicin es
necesaria con el fin de combinar o agrupar las varianzas en una sola fuente
de variacin dentro de grupos, SSW. Si se tienen tamaos de muestra
iguales en cada grupo, las inferencias basadas en la distribucin F tal vez no
son afectadas seriamente por varianzas desiguales. Sin embargo, si existen
tamaos de muestras desiguales en grupos diferentes, las varianzas
distintas de un grupo a otro pueden tener serios efectos en las inferencias
obtenidas del anlisis de varianza.
Cuando solamente se viola la premisa de homogeneidad de las
varianzas, se tienen disponibles procedimientos parecidos a los utilizados en
la prueba t de varianzas separadas. Sin embargo, si se violan las premisas
de normalidad y homogeneidad de varianzas, se puede utilizar una
transformacin de datos apropiada que normalizar los datos y reducir las
diferencias en las varianzas o, de manera alternativa, se puede emplear un
procedimiento no paramtrico ms general.

PRUEBA F DE BLOQUE ALEATORIZADO PARA DIFERENCIAS EN c


MEDIAS
Cuando las mediciones resultantes a travs de los c grupos son
continuas y se cumplen ciertas suposiciones, puede utilizarse una
metodologa conocida como ANOVA para comparar las medias de los
grupos.
Con el objeto de filtrar los efectos de conformar bloques, necesitamos
dividir aun mas la variacin dentro de los grupos SSW en la variacin
atribuible a diferencias entre los bloques (SSBL) y la que se puede atribuir a
error aleatorio inherente SSE.

DESARROLLO
La variacin entre bloques, tambin conocida como suma de cadrados
entre bloques (SSBL: Sum of Squares Among Blocks), se mide a travs de la
suma de las diferencias de cuadrado entre la media de cada bloque y la
gran media generl, esadas o ponderadas por el numero de grupos c:
2
SSBL= ( X X )

JI CUADRADA
COMO PRUEBA DE INDEPENDENCIA
La prueba de independencia permite establecer si existe o no relacin
entre variables categricas, cuando cada una de las cuales posee dos o ms
categoras.
La prueba ji-cuadrada es una prueba de carcter general que se utiliza
cuando se desea determinar si las frecuencias absolutas obtenidas en la
observacin difieren significativamente o no de las que se esperaran bajo
cierta hiptesis planteada de interrelacin de las categoras de las variables
consideradas.
En las pruebas de ji-cuadrada de independencia, siempre se coloca el
riesgo de no aceptar la hiptesis nula siendo sta cierta en el extremo
superior de valores de la distribucin.

E s t a d s t i c a 2 | 29

Tablas de contingencia

Describiremos las dimensiones de una tabla de contingencia


estableciendo primero el nmero de renglones y luego el nmero de
columnas. El total no cuenta como parte de las dimensiones.

Frecuencias observadas
Ho: Pn=Ps=Pc=Pw ; H 1: Pn , Ps , Pc , Pw no son iguales
Pn es la proporcin del noreste que prefiere el plan actual
Ps sureste que prefieren plan actual
Pc proporcin central
Pw proporcin oeste
Frecuencia real:
N
ACTUAL
N NUEVO
TOTAL

N
68

S
75

C
57

W
79

TOTAL
279

32
100

45
120

33
90

31
110

141
420

N
66,43

S
79,72

C
59,79

W
73,07

TOTAL
-

33,57
-

40,28
-

30,21
-

36,93
-

Frecuencia esperada:
N
ACTUAL
N NUEVO
TOTAL

Podemos combinar las muestras:

68+75+57 +79
=0,06643
100+120+ 90+110

Prefieren actual:

Prefieren lo nuevo:

106643=0,3357

El estadstico ji-cuadrada
2
( f 0 f e )
2
x =
fe
En el ejemplo es igual a 2,7638.
Si este valor fuera muy grande, indicara una diferencia sustantiva entre
los valores esperados los observados. Una ji-cuadrada igual a cero indica
que las frecuencias son exactamente iguales. Nunca puede ser negativo
porque las frecuencias estn elevadas al cuadrado.

E s t a d s t i c a 2 | 30

Para probar la hiptesis nula, debemos comparar las frecuencias que se


observaron con las que esperaramos si la hiptesis nula fuera verdadera. Si
el conjunto de ambas frecuencias son casi iguales, podemos razonar de
manera intuitiva que la hiptesis nula se acepta. Si existe una diferencia
grande entre estas frecuencias, podemos rechazar la hiptesis nula
intuitivamente y concluir que existen diferencias significativas en las
proporciones.

La distribucin de ji-cuadrada
Para un nmero pequeo de grados de libertad (gl), la distribucin jicuadrada estar seriamente sesgada a la derecha. Conforme aumentan los
gl, la curva de hace cada vez ms simtrica hasta que el nmero de grados
alcanza valores grandes, en cuyo caso puede aproximarse con la normal.

Determinacin de los gl
n gl=( n renglones1 ) x ( n columnas1 )=( r1 ) x ( c1 )
Tabla de contingencia con ms de dos renglones
RTxCT
f e=
n
f e : Frecuencia esperada en una celda dada
RT: total por rengln, para el que contiene esa celda
CT: total por columna, para la que contiene esa celda
N: nmero total de observaciones

Precauciones al usar ji-cuadrada


Usar tamaos de muestras grandes. Para evitar incurrir en inferencias
incorrectas de la prueba de hiptesis ji-cuadrada, siga la regla general de
que una frecuencia esperada de menos de 5 en una celda de una tabla de
contingencia es muy pequea para utilizarla.
Utilizar con cuidado los datos recolectados. Si el valor de ji-cuadrada
fuera cero, tendramos que ser cuidadosos al preguntar si existe
absolutamente ninguna diferencia entre las frecuencias esperadas y las
observadas.

PRUEBA DE BONDAD DE AJUSTE: PRUEBA DE LO APROPIADO DE UNA


DISTRIBUCION
La prueba ji-cuadrada puede utilizarse tambin para decidir si una
distribucin de probabilidad en particular, como la binomial, la de Poisson o
la normal, es la apropiada. La prueba de ji-cuadrada nos permite probar si
hay una diferencia significativa entre una distribucin de frecuencias
observadas y una distribucin de frecuencias tericas. De esta forma,
podemos determinar si debemos creer que los datos observados
constituyen una muestra obtenida de la distribucin terica hipottica.
La prueba de bondad sirve para determinar si una poblacin tiene una
distribucin terica especfica, ya sea una distribucin conocida o una
distribucin ad hoc.
La prueba se basa en que tan buen ajuste o concordancia tiene entre las
frecuencias de ocurrencia de las observaciones de una muestra observada y
E s t a d s t i c a 2 | 31

las frecuencias esperadas que se obtienen a partir de una distribucin


hipottica.
La hiptesis nula ser que la variable tiene la distribucin supuesta y la
hiptesis alternativa est dada por que la variable no sigue la distribucin
supuesta.
En las pruebas de ji-cuadrada de bondad de ajuste, siempre se coloca el
riesgo de no aceptar la hiptesis nula siendo sta cierta en el extremo
superior de valores de la distribucin.

Calculo de las frecuencias observadas y esperadas. Calculo de jicuadrada

Ho: P=40 es buena


H1: P=40 no es buena
Distribucin binomial
0,20=
PROBAB
ILIDAD
f o RESULT
ADOS
POSIBLE
S

CALIFICA
CIONES
POSITIVA
S

N
CANDI
DATOS

ENTREVI
STA 0

1
4

0,216

100

ENTREVI
STA 1

4
7

0,432

100

ENTREVI
STA 2

2
4

0,288

100

ENTREVI
STA 3

1
1

0,064

100

fe

2
= 1,
6
4
= 3,
2
2
= 8,
8
6,
=
4

fe
21,
6
43,
2
28,
8
6,4

( f of e )

f of e

( f of e )

-3,6

12,96

0,6

3,8

14,44

0,3343

-4,8

23,04

0,8

4,6

21,26

3,3063

fe
2

( f of e )
fe

=x2=5,0406

Determinacin de los gl de una prueba de bondad de ajuste


Antes de calcular el nmero adecuado de gl para una prueba de jicuadrada de bondad de ajuste, es necesario contar el nmero de clases,
denotado por k, para las que se compararon las frecuencias esperadas y
observadas. Podemos vernos forzados a imponer restricciones adicionales
en el clculo de gl.
E s t a d s t i c a 2 | 32

Primero aplicamos la regla: (k-1) y luego restamos 1 gl adicional por


cada parmetro de poblacin que se debe estimar a partir de los datos de la
muestra.
Tenemos 6 clases: 0, 1, 2, 3, 4, 5 k-1=6-1=5.
Si tenemos que usar la media de la muestra como estimacin de la
poblacional, tendremos que restar otro gl, por lo que nos quedaran 4 gl.

Ejemplo con distribucin de Poisson


Ho: N de defectos con distribucin de Poisson.
H1: N no tiene distribucin de Poisson.
Gl=3 ; =0,05 Valor critico de X2= 7,83
N<7,38 No rechaza Ho
N>7,38 Rechaza Ho

o
o

Calculamos la probabilidad de ocurrencia para obtener la frecuencia


esperada:

0 x 25+1 x 10+2 x 6+3 x 2 28


= =0,65
43
43

DEFECTOS

P(x)

0
1
2
3+

0,52205
0,33933
0,10519
0,03343

P ( x )=

x
x!
fe

N TOTAL
X
X
X
x

43
43
43
43

=
=
=
=

2,44815
14,59119
4,52317
1,43749
2

DEFECTOS

fe

0
1
2
3+
TOTAL

2,44815
14,59119
4,52317
1,43749
43

fo
25
10
6
2
43

f of e

2
( f of e )

-2,55185
4,59119
-1,47683
-0,56251
-

8,591193842
21,0790256
2,18102685
0,3164175
-

( f of e )
fe

0,29008798
1,444464061
0,48218989
0,22011805
2,43703653

Uso de la prueba de ji-cuadrada de bondad de ajuste


Buscamos en la tabla para =0,2 y gl=5 4,642

La regin que se encuentra a la derecha del valor ji-cuadrada 4,642


contiene 0,2 del rea bajo la curva.

E s t a d s t i c a 2 | 33

E s t a d s t i c a 2 | 34

Potrebbero piacerti anche