Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estadística Aplicada
Contenido
Intervalo de Confianza
Prueba de Hipótesis
En muchas circunstancias hay que tomar decisiones basándose sólo en la información contenida en
una muestra: Un gerente de Control de Calidad debe determinar si un proceso funciona
correctamente. Para ello, cada cierto tiempo, analiza la calidad de una pequeña cantidad de productos
fabricados por este proceso. Con esta información debe decidir si continúa fabricando nuevas piezas,
o si debe realizar algún ajuste o reparación de la maquinaria de la fábrica antes de continuar el proceso
de fabricación. Un gerente de Marketing debe determinar si una nueva estrategia de mercado
aumentará las ventas. Para ello se basará fundamentalmente en encuestas realizadas a unos cuantos
clientes potenciales, etc. Para adoptar estas decisiones se toma toda la información posible de la
muestra seleccionada y se estudia, en términos de probabilidad, el grado de fiabilidad de las
decisiones adoptadas. Podemos distinguir de modo general dos grandes métodos dentro de la
Inferencia Estadística:
Métodos Paramétricos.- Se supone que los datos provienen de una familia de distribuciones
conocida (Normal, Poisson,. . .) y que lo único que se desconoce es el valor concreto de alguno de
los parámetros que la definen (μ y σ para la Normal, λ para la Poisson,. . .).
Se pueden hacer inferencias acerca de los parámetros poblacionales de dos maneras. Dando valores
aproximados para los parámetros (Estimación) o tomando decisiones con respecto a ellos (Contrastes
de Hipótesis).
Evidentemente, las conclusiones que obtengamos y que generalizaremos para toda la población
dependerán de los valores concretos que se hayan observado en la muestra. Muchas personas
manifiestan su desconfianza y su recelo sobre las conclusiones obtenidas con métodos estadísticos,
debido, entre otras causas, a que estas conclusiones dependen de la muestra extraída, y que las
muestras presentan fluctuaciones aleatorias. Sin embargo, en la vida cotidiana, nuestras opiniones y
nuestros comportamientos se basan en generalizaciones que hacemos a partir de muestras. Así, es
muy frecuente que manifestemos que los productos de una determinada marca son mejores que los
de la competencia. Dicha afirmación no la hacemos, evidentemente, tras un análisis exhaustivo de
todos los productos de una y otra marca, sino basándonos en nuestra propia experiencia personal,
que es claramente muy limitada. Es decir, generalizamos a partir de observaciones realizadas en
muestras pequeñas.
TIPOS DE ESTIMACIÓN
Cuando se desean estimar los parámetros de la población a partir de los de la muestra se consideran
dos formas de realizar dicha estimación.
Estimación puntual.- En la estimación puntual damos un solo punto como valor estimado del
parámetro. Por ejemplo, si queremos estimar la altura media, μ, de los varones españoles de 20 años,
obtendremos una muestra aleatoria de cierto tamaño de esta población, hallaremos la altura media
de las personas seleccionadas en esta muestra y diremos que este valor, el de la media muestral, es
una estimación puntual de la altura media de la población de varones de 20 años.
Estimación por intervalos.- En realidad, cuando realizamos una estimación puntual, nos damos
cuenta que es muy difícil que ésta estimación sea realmente el verdadero valor del parámetro
desconocido. Tendremos más oportunidades de acertar si indicamos que el parámetro desconocido
pertenece a un cierto intervalo. En el ejemplo de la altura media de los varones de 20 años, si la media
muestral resultara 1.75 m., podríamos decidir manifestar que la media verdadera pertenece al intervalo
(1.75 − 0.05, 1.75 + 0.05). El intervalo en el que se afirma que se encuentra el parámetro poblacional
se denomina intervalo de confianza. Tampoco en este caso podemos estar seguros de que el valor
real pertenezca a dicho intervalo. Por este motivo suele decirse que el valor real del parámetro
pertenece a dicho intervalo con un cierto “grado de confianza”. La cuantificación de la confianza que
se tiene en que el parámetro desconocido esté verdaderamente en el intervalo dado se denomina
grado de confianza y es una medida relacionada con la función de distribución de probabilidad del
parámetro en estudio.
Estadísticos y Estimadores
Un estadístico es una función de los elementos de la muestra. Si tenemos una población en la que
estamos observando una característica que se distribuye según una variable aleatoria X, y
consideramos una muestra aleatoria simple de tamaño n x1, x2, . . . , xn podemos calcular el siguiente
estadístico x:
x1 x2 ... xn
x
n
Evidentemente, el valor del estadístico dependerá de los valores que hayan tomado los elementos de
la muestra. Si repetimos el experimento de tomar una muestra y calculamos de nuevo el valor del
mismo estadístico, obtendremos, por lo general, otro valor distinto. Tenemos por tanto que el
estadístico es una variable aleatoria. La distribución que seguirá dicha variable aleatoria dependerá
de la distribución de la variable X. En determinados casos podremos calcular la distribución del
estadístico.
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la media
poblacional, la proporción observada en la muestra es un estimador de la proporción en la población.
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más
probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar
el riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la
distribución de los valores que tomará el estimador al seleccionar distintas muestras de la población.
Las dos medidas fundamentales de esta distribución son la media que indica el valor promedio del
estimador y la desviación típica, también denominada error típico de estimación, que indica la
desviación promedio que podemos esperar entre el estimador y el valor del parámetro.
Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará
el parámetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al
parámetro que se está estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del
parámetro. Se indica por 1- habitualmente se da en porcentaje (1-)100%. Hablamos de nivel de
confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá
al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas
muestras podríamos afirmar que el (1-)% de los intervalos así construidos contendría al verdadero
valor del parámetro. Por lo general los niveles de confianza más utilizados son: 99, 95 y 90%, a estos
se les denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el
intervalo contenga el valor desconocido del parámetro; estos son simplemente convencionales.
Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de confianza
(LSC). Esos limites se encuentran calculando primero la media muestral,X . Luego se suma una
cierta cantidad a X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC,
estos valores que se suman y restan a la media muestral se les denominan errores de estimación.
Lo dicho hasta ahora se refiere a una estimación puntual, es decir, estimar un parámetro a través de
un único valor. Esta estimación no es muy conveniente pues con ella no se puede determinar el error
de muestreo, ni la precisión de la estimación, ni la confianza que merece tal estimación. Existen otros
métodos para estimar parámetros poblacionales que son mucho más precisos. Por ejemplo:
* Método de estimación por intervalos de confianza, este será el que desarrollaremos en este
curso.
El procedimiento de determinar un intervalo (a, b) que comprenda un parámetro de población θ con
cierta probabilidad 1-, se llama estimación por intervalos. Se verán los casos paramétricos, es decir,
aquellos en los que se tiene conocimiento del tipo de distribución de la población (Binomial, Normal,
etc.).
Es una distribución probabilística que consta de una lista de todas las medias muestrales posibles de
un tamaño dado de una población y la probabilidad de ocurrencia asociada con cada media muestral.
Si tomamos varias muestras de una población con el objetivo de obtener la media poblacional,
observaríamos que cada una de ellas posiblemente nos da diferentes valores de dicha media. Si se
organizaran las medias de todas las muestras posibles de un tamaño específico tomadas de una
población se obtendría lo que se conoce como una distribución muestral de medias.
Para muestras de tamaño N, sin reposición, de una población finita de tamaño Np>N tenemos,
NP N
X y X
n NP 1
X y X
n
Debemos anotar que las características de la población serán las mismas que tendrán las diferentes
muestras de la misma:
Si x es el valor de la media para una muestra aleatoria de tamaño n escogida de una población con
varianza 2 supuesta conocida, el intervalo de confianza del (1 - ) x100% para es:
[ x z1 / 2 x z1 / 2 ] = media poblacional
n n
x = media muestral
= desviación estándar poblacional
Error estándar de la muestra (E.S): x s = desviación estándar muestral
n 2 = varianza poblacional
s2 = varianza muestral
N = tamaño de la población
Error máximo de estimación de : e z1 / 2 n = tamaño de la muestra
n
x como una estimación de , se tiene una confianza del (1 - ) x100% de que el error
Si se utiliza
( z1 / 2 ) 2
no será mayor que el valor dado e se tiene un tamaño de muestra de: n
e2
NOTA: Cuando menor sea el error de la estimación mayor es el tamaño de la muestra requerida.
SEGUNDO CASO:
Si x es el valor de la media para una muestra aleatoria de tamaño n escogida de una población con
varianza 2 supuesta conocida, e intervalo de confianza del (1 - ) x100% para es:
N n N n
[ x z1 / 2 x z1 / 2 ]
n N 1 n N 1
N n
Error estándar de la muestra (E.S): x
n N 1
N n
Error máximo de estimación de : e z1 / 2
n N 1
Si se utiliza x como una estimación de , y se conoce N y se tiene una confianza del (1 - ) x100%
de que el error no será mayor que el valor dado e se tiene un tamaño de muestra de:
z 2 1 / 2 2 N
n
z 2 1 / 2 2 e 2 ( N 1)
s s
[ x z1 / 2 x z1 / 2 ]
n n
CUARTO CASO: Varianza 2 supuesta desconocida, n 30 y se conoce N:
s N n s N n
[ x z1 / 2 x z1 / 2 ]
n N 1 n N 1
Si x y s son la media y la desviación estándar respectivamente para una muestra aleatoria n < 30
escogida de una población normal con varianza 2 supuesta desconocida, entonces el intervalo de
confianza de (1 - ) x100% para es:
s s
[ x t1 / 2, n 1 x t1 / 2, n 1 ]
n n
El valor t1 / 2,n1 se encuentra en la tabla t-student con n-1 grados de libertad
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamaño n 1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente conocidas, entonces el intervalo de
confianza de (1 - ) x100% de 1 - 2 es:
12 22 12 22
[( x1 x 2 ) z1 / 2 1 2 ( x1 x 2 ) z1 / 2 ]
n1 n2 n1 n2
SEGUNDO CASO: Varianzas 12 y 22 supuestamente desconocidas:
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamaño n1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente desconocidas e iguales, entonces
el intervalo de confianza de (1 - ) x100% de 1 - 2 es:
2 2 2 2
sc s sc s
[( x1 x 2 ) t(1 / 2;n1 n2 2) c 1 2 ( x1 x 2 ) t(1 / 2;n1 n2 2) c ]
n1 n2 n1 n2
n1 n2 2
c
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamaño n 1 y n2
escogidas aleatoriamente con varianzas 12 y 22 supuestamente desconocidas y diferentes, entonces
el intervalo de confianza de (1 - ) x100% de 1 - 2 es:
2 2 2 2
s1 s s1 s
[( x1 x 2 ) t(1 / 2;r ) 2 1 2 ( x1 x 2 ) t(1 / 2;r ) 2 ]
n1 n2 n1 n2
2
S12 S 22
r 12
n n2
2
Dado que r rara vez es un entero, se redondea al entero más cercano.
S12 S 22
n1 n2
n1 1 n2 1
Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito)
es p, mientras la probabilidad de que no ocurra es q = 1 – p. Por ejemplo, la población puede ser la
de todas las posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p =
½. Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas
determinemos la proporción de éxitos P. En el caso de una moneda, P sería la proporción de caras
en N tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media p y cuya
desviación típica p viene dada por:
pq p(1 p)
p p y p
n n
x
p ; Donde x es el número de éxitos en la muestra.
n
PRIMER CASO: Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, entonces, el
intervalo de confianza (1 - ) x100% para p es:
p(1 p) p(1 p)
[ p z1 / 2 p p z1 / 2 ]
n n
p(1 p)
Error estándar de p (E.S): p
n
p(1 p)
Error máximo de estimación de p: e z1 / 2
n
( z1 / 2 ) 2 p(1 p)
Tamaño de muestra para estimar p: n
e2
SEGUNDO CASO: Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, y se conoce
el tamaño de la población N , entonces, el intervalo de confianza es:
p(1 p) N n p(1 p) N n
[ p z1 / 2 . p p z1 / 2 ]
n N 1 n N 1
p(1 p) N n
Error estándar de p (E.S): P
n N 1
z 21 / 2 p(1 p) N
n Si no se tiene el dato p, se puede utilizar el valor p = 0.5
z 21 / 2 p(1 p) e 2 ( N 1)
p 1 (1 p 1 ) p 2 (1 p 2 )
Error estándar de la estadística (p1 – p2) (E.S): P P
1 2
n1 n2
CONCEPTOS BÁSICOS
Estimación puntual: un solo número que se utiliza para estimar un parámetro de población
desconocido.
Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya
el valor real del parámetro de la población.
Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo de
un parámetro de población, ésta indica qué tan seguros están de que la estimación de intervalo
incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un intervalo
de confianza incluya al valor del parámetro desconocido.
PRUEBA DE HIPÓTESIS
INTRODUCCIÓN
Un Contraste o Test de Hipótesis es una técnica de Inferencia Estadística que permite comprobar
si la información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística
formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis
formulada. Llamaremos hipótesis estadística a una afirmación respecto a una característica de una
población. Contrastar una hipótesis es comparar las predicciones que se deducen de ella con la
realidad que observamos: si hay coincidencia, dentro del margen de error admisible, mantendremos
la hipótesis; en caso contrario, la rechazaremos. La hipótesis estadística puede ser:
Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales desconocidos. Las
hipótesis paramétricas se clasifican en:
La hipótesis que se contrasta se denomina hipótesis nula y, normalmente, se denota por H0. Si se
rechaza la hipótesis nula es porque se asume como correcta una hipótesis complementaria que se
denomina hipótesis alternativa y se denota por H1 o Ha.
Rechazar una hipótesis implica sustituirla por otra capaz de explicar los datos observados.
Es interesante tener en cuenta que la veracidad de una hipótesis no puede ser probada nunca
Lo que se puede hacer es afirmar que tiene tal o cual probabilidad de ser falsa
Si esa probabilidad es muy alta (95% o 99%) por ejemplo, se concluye que la hipótesis es poco creíble
y se califica provisoriamente como falsa. Si no se consigue "falsar" (rechazar) la hipótesis, se acepta
provisionalmente como verdadera. Esta calidad de provisorias de las conclusiones estadísticas no
debería sorprender a nadie: toda la ciencia es un constructo provisorio. La verificación de hipótesis es
el proceso que lleva a juzgar la credibilidad de afirmaciones (hipótesis) relativas a las poblaciones
(habitualmente a sus parámetros) de las que fueron extraídas las muestras.
Ejemplificando
La Hipótesis nula puede ser: un parámetro θ que tiene un valor k y la Hipótesis alternativa será su
negación. Es decir:
Ho: θ = k
H1: θ ≠ k
Si se toma una muestra y en ella se calcula un estadístico cuya distribución en el muestreo en el
caso de que Ho sea verdadera se conoce, se puede determinar qué Probabilidad (P) hay de que si el
verdadero valor del parámetro es k se obtenga un valor observado del estadístico , tan alejado (o
más) de k. Ver grafica siguiente:
Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del
valor de un parámetro desconocido. Una hipótesis estadística es una afirmación respecto a alguna
característica de una población. Contrastar una hipótesis es comparar las predicciones con la
realidad que observamos. Si dentro del margen de error que nos permitimos admitir, hay coincidencia,
aceptaremos la hipótesis y en caso contrario la rechazaremos.
La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto
a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticos de
muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro
parámetro de población acerca del cual hicimos la hipótesis. Debemos establecer el valor supuesto o
hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que
deseamos probar se conoce como hipótesis nula, y se simboliza H 0. Siempre que rechazamos la
hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza H 1.
La hipótesis emitida se suele designar por H0 y se llama Hipótesis nula porque parte del supuesto
que la diferencia entre el valor verdadero del parámetro y su valor hipotético es debida al azar, es
decir no hay diferencia.
La hipótesis contraria se designa por H1 y se llama Hipótesis alternativa.
Los contrastes pueden ser unilaterales o bilaterales (también llamados de una o dos colas) según
establezcamos las hipótesis, si las definimos en términos de igual y distinto estamos ante una hipótesis
unilateral, si suponemos una dirección (en términos de mayor o menor) estamos ante uno bilateral.
Se trata, de extraer conclusiones a partir de una muestra aleatoria y significativa, que permitan
aceptar o rechazar una hipótesis previamente emitida, sobre el valor de un parámetro desconocido
de la población. El método que seguiremos es el siguiente:
1. Definir la hipótesis nula: suponer una hipótesis acerca de una población. Se determina si es una
prueba de una o dos cola.
3. Elegir un nivel de significación y construir la zona de aceptación, intervalo fuera del cual sólo
se encuentran el 100% de los casos más raros. A la zona de rechazo la llamaremos Región
Crítica, y su área es el nivel de significación o aceptación.
4. Verificar la hipótesis extrayendo una muestra cuyo tamaño se ha decidido en el paso anterior y
obteniendo de ella el correspondiente estadístico. Decida que distribución (t o z) es la más
apropiada y encuentre los valores críticos adecuados para el nivel de significancia escogido de la
tabla adecuada.
6. Calcule el error estándar del estadístico de la muestra y utilice el error estándar para
convertir el valor observado del estadístico de la muestra a un valor estandarizado.
Determine si el valor calculado en la muestra cae dentro de la zona de aceptación de ser así se
acepta la hipótesis y si no se rechaza.
Llamaremos hipótesis nula, y la representaremos por H0, a la hipótesis que se desea contrastar. La
hipótesis nula es en general un supuesto simple que permite hacer predicciones sin ambigüedad. La
hipótesis alternativa (H1 o Ha) da una suposición opuesta a aquella presentada en la hipótesis nula. El
experimento se lleva a cabo para conocer si la hipótesis alternativa puede ser sustentada.
La hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo,
la hipótesis de que todos los elementos de una población tienen el mismo valor de una variable puede
ser rechazada encontrando un elemento que no lo contenga, pero no puede ser “demostrada” más
que estudiando todos los elementos de la población, tarea que puede ser imposible. De igual manera,
la hipótesis de que la media de una población es diez puede ser rechazada fácilmente si la media
verdadera está muy lejos de diez analizando una muestra suficientemente grande. Sin embargo, no
puede ser “demostrada” mediante muestreo, ya que es posible que la media difiera de diez en un valor
pequeño imperceptible en el muestreo). Por esta razón no afirmamos que aceptamos H0, sino que no
podemos rechazarla.
Los tests ( o pruebas) asociados con las hipótesis pueden ser uni o bi laterales, según las hipótesis
planteadas
Ho : θ = k Ho : θ k Ho : θ ≤ k
H1 : θ ≠ k H1 : θ < k H1 : θ > k
ESTADÍSTICO DE LA PRUEBA
Los datos se deben sintetizar en un estadístico de la prueba. Dicho estadístico se calcula para ver si
es razonablemente compatible con la hipótesis nula. En las pruebas de hipótesis es necesario trazar
una línea entre los valores del estadístico de la prueba que son relativamente probables dada la
hipótesis nula y los valores que no lo son. ¿En qué valor del estadístico de la prueba comenzamos a
decir que los datos apoyan a la hipótesis alternativa? Para contestar a esta pregunta se requiere
conocer la distribución muestral del estadístico de la prueba. Los valores del estadístico de la prueba
que son sumamente improbables bajo la hipótesis nula (tal como los determina la distribución
muestral) forman una región de rechazo para la prueba estadística.
Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es
también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto
sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de
rechazar una hipótesis nula cuando es cierta.
LOS VALORES MÁS COMUNES PARA NIVELES DE SIGNIFICACIÓN
Error tipo I: Llamado también nivel de significación, denotado por , es la probabilidad de rechazar
la Ho cuando ésta es cierta. Es la probabilidad de que le valor de la Estadística caiga en la Región de
Rechazo.
Error tipo II: Denotado por , es la probabilidad de aceptar la Ho cuando ésta es falsa. Donde (1 - )
se conoce como la potencia de la prueba.
Minimizar los errores no es una cuestión sencilla, un tipo suele ser más grave que otro y los intentos
de disminuir uno suelen producir el aumento del otro. La única forma de disminuir ambos a la vez es
aumentar el tamaño de la muestra.
El rechazo de una hipótesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que
es también el nivel de significancia) se simboliza como .
El hecho de aceptar una hipótesis nula cuando es falsa se denomina error de tipo II, y su
probabilidad se simboliza como . La probabilidad de cometer un tipo de error puede reducirse
sólo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propósito de
obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de decisiones
deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con
ambos tipos de errores
Las hipótesis nula y alternativa son aseveraciones sobre la población que compiten entre sí. O la
hipótesis nula H0 es verdadera, o lo es la hipótesis alternativa H1, pero no ambas. En el caso
ideal, el procedimiento de prueba de hipótesis debe conducir a la aceptación de H0 cuando sea
verdadera y al rechazo de H0 cuando H1 sea verdadera. Desafortunadamente no siempre son
posibles las conclusiones correctas. Como las pruebas de hipótesis se basan en información de
muestra, debemos considerar la posibilidad de errores.
Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y, en la mayoría
de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I. Fijar el nivel
de significación equivale a decidir de antemano la probabilidad máxima que se está dispuesto a
asumir para rechazar la hipótesis nula cuando es cierta. El nivel de significación lo elige el
experimentador y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se
toma = 0.10, 0.05 o 0.01)
TIPOS DE PRUEBAS
Prueba de cola derecha: Si la región de rechazo está a la derecha del puntaje crítico
Prueba de cola izquierda: Si la región de rechazo está a la izquierda del puntaje crítico
Prueba de dos colas o bilateral: Si la región de aceptación es un intervalo abierto entre dos puntajes
críticos.
OBSERVACIÓN IMPORTANTE
Cuando el problema de manera expresa pide que se contraste una hipótesis con
determinado nivel de significación, la hipótesis que contrastamos es la hipótesis H0.
El estadístico de prueba se basa en la media muestral x , por lo que también se supondrá que la
población está distribuida de manera normal o que se aplican las condiciones del teorema del límite
central. Esto significa que la distribución de x es aproximadamente normal con una media μ y una
varianza σ2/n.
x 0 x 0
Estadísticas: Zc tc , n-1 grados de libertad
/ n s/ n
- La muestra es pequeña
- Poblacional Normal
La estadística de trabajo depende de las características de las poblaciones y del tamaño de las
muestras.
Reglas de decisión (o regiones óptimas) para docimar
Estadísticas:
x1 x 2
z
2 2
s1 s
2
n1 n2
Varianzas desconocidas,
-
Varianzas supuestas iguales 12 = 22 = 2
-
Varianzas supuestas distintas 12 22
2
S12 S 22
x1 x 2
t , r n1 n2 grados de libertad
2 2 2 2
s1 s S12 S 22
2
n1 n2 n1 n2
n1 1 n2 1
- La muestra es pequeña
- Poblacional Normal
En este caso se trata de comparar dos métodos o tratamientos, pero se quiere que las unidades
experimentales donde se aplican los tratamientos sean las mismas, ó los más parecidas posibles,
para evitar influencia de otros factores en la comparación, como por ejemplo cuando se desea
comparar dos medicamentos para curar una enfermedad es bastante obvio que el sujeto al cual se
aplica los medicamentos influye sustancialmente en la comparación de los mismos. Otro ejemplo es
en educación, supongamos que se da un seminario sobre un tópico en particular y queremos luego
evaluar la efectividad del seminario. Es natural pensar que algunos individuos entenderán mejor el
material que otra tal vez, debido a la preparación que tienen de antemano. Así que lo más justo es dar
un test antes y después del seminario y comparar estos resultados individuo por individuo.
Estadística de prueba
d d nd
2 2
d
t d sd
i i
, , , n-1 grados de libertad
sd n n 1
n
PRUEBA DE HIPÓTESIS ACERCA DE LA PROPORCIÓN POBLACIONAL (p)
Las pruebas de hipótesis con proporciones son necesarias en muchas áreas del conocimiento. Se
considerará el problema de probar la hipótesis de que la proporción de éxito en un experimento
binomial sea igual a un cierto valor especifico. Es decir, se probará la hipótesis nula de que p = p0,
donde p es el parámetro de la distribución binomial. La información de que suele disponerse para la
x
estimación de una porción real o verdadera (porcentaje o probabilidad) es una proporción muestral
n
, donde x es el número de veces que ha ocurrido un evento en n ensayos. Por ejemplo, si una muestra
aleatoria de 600 compras realizadas en una tienda y 300 se realizan con tarjeta de crédito, entonces
x 300
0.50 se puede utilizar esa cifra como estimación de punto de la proporción real de
n 600
compras realizadas en ese negocio que se abonaron a tarjetas de crédito. De la misma forma muchas
compañías podrían estimar las proporciones de muchas transacciones. La hipótesis alterna puede ser
una de las alternativas usuales unilateral o bilateral tales como: p p0 , p p0 ,..o.. p p0 .
p p0
Estadísticas: Z c ó
p o (1 p o )
n
p p0
Zc Cuando se conoce el tamaño de N
po (1 po ) N n
n N 1
PRUEBA DE HIPÓTESIS ACERCA DE LA DIFERENCIA ENTRE PROPOCIONES
p1 p 2 x1 x2
Estadísticas: Zc p1 , p2
1 1 n1 n2
p(1 p)
n1 n2
x1 x2 n1 p1 n2 p 2
p ó p
n1 n2 n1 n2