Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1. INTRODUCCIÓN
Es evidente que un conocimiento previo por parte del investigador de las características de la
realidad de la población mejora o debe mejorar los resultados inferenciales que se pueden
obtener de la obtención de una muestra; parece claro que si bien el método de selección aleatoria
conlleva los mejores resultados, quizá el adecuar la manera de extraer la muestra a las posibles
distintas naturalezas de las poblaciones puede mejorar el rendimiento, aunque sólo fuere a nivel
de costos. No es por tanto lo mismo intentar conocer la altura media de los habitantes de un país,
que el número de errores en una gran contabilidad, dado que la naturaleza de su universo y por
tanto el comportamiento poblacional son distintos. Es por ello, que para distintas "naturalezas" del
problema han de plantearse distintas soluciones, si bien todas, o casi todas, pasan por la
aleatoriedad; de ahí que se establezcan diversas "técnicas" o "métodos" de muestreo, de los que
brevemente enumeramos algunos.
2. TIPOS DE MUESTREO
1
- Afijación óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo
que se considera la proporción y la desviación típica.
D. MUESTREO POR CONGLOMERADOS: La unidad muestral es un grupo de elementos de la
población que forman previsiblemente una unidad de comportamiento representativo. Dicha
unidad es el conglomerado cuyo comportamiento interno puede ser muy disperso (varianza
grande) pero que presumiblemente poseerá un comportamiento próximo a otros
conglomerados (varianza entre conglomerados, pequeña). Los conglomerados se estudian en
profundidad hasta conseguir el tamaño muestral adecuado.
E. OTROS TIPOS DE MUESTREO. Es evidente que los planteados no son las únicas técnicas
de muestreo. Existen otras como las no aleatorias: Cuotas, Intencional, Incidental, bola de
nieve, etc. Y otras aleatorias y complicadas como el muestreo por superpoblaciones, y que en
este curso no podemos desarrollar.
3. ESTIMACION DE INTERVALO
La "estimación por intervalo" consiste en determinar un par de valores a y b, tales que constituidos
en intervalo [a ,b] ; y para una probabilidad 1-α prefijada (nivel de confianza) se verifique en
relación al parámetro θ a estimar se cumpla:
P (ϑ ∈ [a, b]) = 1 − α ó en otros términos: P (a ≤ ϑ ≤ b) = 1 − α .
Podemos considerar el nivel de confianza (1-α ) que hemos prefijado para la expresión anterior
como la probabilidad que existe (antes de tomar la muestra) de que el intervalo a construir a partir
de la muestra incluya el verdadero valor del parámetro a estimar. Refleja la "confianza" en la
"construcción" del intervalo y de que éste tras concretar la muestra contendrá el valor a estimar.
De ahí que en términos numéricos dicho nivel o probabilidad haya de tomar un valor alto (0.9,
0.95, 0.99).
En relación a lo anterior. Obviamente, cuanto mayor sea el nivel de confianza prefijado la amplitud
del intervalo de estimación será también mayor y por tanto la estimación será menos precisa.
La siguiente tabla presenta las diferentes fórmulas que ayudaran a crear los intervalos.
2
Para la distribución Normal utilice la siguiente tabla:
Ejemplo Nº 001
En población cuya distribución se desconoce se obtiene una muestra (m.a.s.) de 2000 valores de
la que resulta una media de 225 y una desviación típica de 10. Suponiendo que la varianza
muestral coincide con la poblacional, estimar un intervalo para la media de la población con un
nivel de confianza del 95%.
Tendríamos 1-α =0.95 luego α =0.05; S=10=σ (muestra grande n>30); n=2000, para una
población normal.
σ σ
P( x − Z α ≤ u ≤ x + Zα ) = 0.95
2 n 2 n
el resultado sería : µ ∈ [224,56 , 225,44] con el 95 % de confianza.
3
Ejemplo Nº 002
Las ventas diarias de cierta oficina comercial se supone que siguen una distribución normal. Para
estimar el volumen medio de ventas por día se realiza una muestra de 10 días escogidos al azar,
resultando que la media de las ventas de esos 10 días es S/. 100 con una desviación típica de S/.
4. Dar un intervalo de estimación para el volumen medio de ventas por día con una confianza del
95 %.
Conocemos que según la información que poseemos, estamos ante: Distribución normal;
n=10 (muestra pequeña); S=4(poblacional desconocida); media muestral=100;
Para 1-α =0.95, luego α =0.05 con lo que tα 2 (9 gl ) = 2.26 (según tabla T)
S S
P( x − t α ≤ u ≤ x + tα ) = 0.95
2 n 2 n
El resultado sería: µ ∈ [S/.96,99 ; S/.103,01] con el 95 % de confianza.
Ejemplo Nº 003
Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se
producen en un kiosco. Para ello realizamos una muestra consistente en elegir al azar las ventas
que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias
por hora S/. 4000, y varianza de dicha muestra S2/. 4000. Obtener dicho intervalo con un nivel de
confianza del 95.5 %.
Si bien se trata de un intervalo para la media con varianza desconocida y población no normal,
dado que el tamaño muestral es grande podemos suponer normalidad y tomar como varianza
poblacional a la muestral así:
σ σ
P( x − z α ≤ u ≤ x + zα ) = 0.95
2 n 2 n
El resultado sería: µ ∈ [S/.399,08 ; S/.4003,92] con el 95 % de confianza.
Cuando se necesita información para realizar estudios con datos estadísticos y no se puede
contar un censo, porque es muy caro, o porque demora mucho o no se cuenta con el personal
adecuado; entonces será necesario obtener una muestra, ahora. Pero viene la pregunta: ¿cuál
será el número adecuado mínimo del tamaño de la muestra? En principio existe todo un proceso
para obtener una muestra representativa de la población. Si el método es aleatorio o
probabilistico, entonces el número adecuado de los elementos de la muestra, se pueden calcular
usando las siguientes fórmulas.
4
b. Cuando la población es finita (se conoce N) o el muestro es sin reposición.
NZ α2 PQ
n=
( N − 1) E 2 + Z α2 PQ
Donde:
P=Proporción de éxito; que se conoce por estudios anteriores o similares.
Q=(1-P). Proporción de fracaso.
Zα=Valor que se obtiene de la distribución normal, para un nivel de significación a.
Generalmente se toma:
Z=1.96 para un nivel de significancia del 5%.
Z=2.575 para un nivel de significancia del 1%.
E=Error de estimación. Valor que lo determina el investigador. Se sugiere valores en torno
al 5%.
N= Número de los elementos de la población.
Nota:
Si no se conoce P, se puede adoptar las siguientes decisiones:
i) Tomar una muestra piloto y calcular el valor de P.
ii) Considerar el valor de P=0.5, lo cual dará el número de elementos de la muestra el
mayor posible.
Se van a realizar un gran y desconocido número de ensayos para calibrar la resistencia media a la
rotura de un determinado azulejo en una partida de 10 000,000 unidades. Si deseamos
cometer un error inferior a 10 kg/cm2, y por ensayos anteriores conocemos que la varianza en la
rotura ha sido de 40 (kg/cm2)2, ¿Qué número de ensayos hemos de realizar si hemos decidido
trabajar con un nivel de confianza del 95%?
Ejemplo Nº 005
5
N=100, E=3%, α=95%, p=0.5. q=1-p=0.5
Ejemplo Nº 006
5. CONSTRASTE DE HIPÓTESIS
La solución estadística del problema de contrastación se basará en los datos muestrales y la base
estadística (probabilística) de la que arrancará el contraste, de algún estadístico muestral.
Región crítica: Será aquella región del campo de variación del estadístico tal que si contiene al
valor evaluado del mismo con los datos muestrales nos llevará a rechazar la hipótesis. La
designaremos por R1
Una hipótesis estadística (paramétrica): Es una conjetura sobre el valor concreto que tiene en
realidad. El establecer una hipótesis sobre un parámetro θ, supone dividir los posibles valores del
parámetro en dos grupos disjuntos tales que unos son hipotéticamente ciertos (θ0) y los otros (θ1)
no lo son. A la hipótesis que se desea contrastar se la denomina "hipótesis nula", siendo, por
tanto, el valor o valores θ0 que hipotéticamente consideramos reales, dicha hipótesis viene
expresada como H0. Alternativamente y consecuentemente se establece la denominada
"hipótesis alternativa" (H1) compuesta ésta por el valor o valores θ1 que en consecuencia de la
elección y de la complementariedad de los de la hipótesis nula, son los que, en principio, no
consideramos cómo hipotéticamente reales.
6
El hecho de que las hipótesis, tanto la nula cómo la alternativa puedan recoger en sus
planteamientos uno o varios valores, da lugar a hipótesis de carácter simple, si el número de
valores plausibles e hipotéticos es de uno en ambas, o bien a hipótesis compuestas si dicho valor
no es único en alguna de ellas.
Ejemplo:
Enunciado 1:
La altura del estudiante de la Universidad Nacional de Tumbes es 1,65 m.
Planteando las Hipótesis tenemos:
H0: µ=1.65
H1: µ>1.65, µ<1.65 ó µ ≠ 1.65
Enunciado 2:
El promedio ponderado de los alumnos de la Escuela de contabilidad de la Universidad Nacional
de Tumbes es 13.5.
Planteando las Hipótesis tenemos:
H0: µ=13.5
H1: µ>13.5, µ<13.5 ó µ ≠ 13.5
Enunciado 3:
El porcentaje de alumnos de escuelas de la Región que tienen caries es mayor que 0.7.
Planteando las Hipótesis tenemos:
H0: p ≥ 0.7
H1: p<0.7
7
Donde θ es el parámetro de la población estadística sobre la cual se esta haciendo la
prueba de hipótesis.
Ejemplo:
1) H0: µ=1.65
H1: µ<1.65
2) H0: µ=13.5
H1: µ<13.5
- Prueba de cola superior o de lado derecho: cuyo caso la hipótesis en general toma la
siguiente forma:
Ho: θ=θ0, H1: θ>θ0
Donde θ es el parámetro de la población estadística sobre la cual se esta haciendo la
prueba de hipótesis.
Ejemplo:
1) H0: µ=1.65
H1: µ>1.65
2) H0: µ=13.5
H1: µ>13.5
Ejemplo:
1) H0: µ=1.65
H1: µ ≠ 1.65
2) H0: µ=13.5
H1: µ ≠ 13.5
8
PRUEBA DE HIPOTESIS SOBRE LA MEDIA POBLACIONAL
Caso A: Cuando la varianza poblacional es conocida.
Ejemplo Nº 000
5−7
Z= = −10
5. Realizamos la prueba estadística: 2
100
6. Dado que Z=-10 y no pertenece a la región de aceptación estamos en condiciones de
rechazar la hipótesis nula, luego aceptar la alternativa : µ0 ≠ 7.
Ejemplo Nº 00z
9
Un empresario está considerando la posibilidad de ampliar su negocio mediante la adquisición
de un pequeño bar. El dueño actual del bar afirma que el ingreso diario del establecimiento
sigue una distribución normal de media 675 soles y una desviación estándar de 75 soles. Para
comprobar si decía la verdad, tomó una muestra de treinta días y ésta reveló un ingreso diario
promedio de 625 soles. Utilizando un nivel de significación del 10 %. ¿Hay evidencia de que el
ingreso diario promedio sea menor del que afirma el presente dueño?.
625 − 675
Z= = −3.65
5. Realizamos la prueba estadística: 75
30
6. Dado que Z=-3.65 y no pertenece a la región de aceptación estamos en condiciones de
rechazar la hipótesis nula, luego aceptar la alternativa: µ0<7.
Hemos determinado un nivel de significación para la realización del contraste y vamos a plantearlo
en el supuesto de realizar una muestra aleatoria de tamaño n.
x−u
Así: conocemos que s ⇒ t n−1 de forma que la hipótesis nula es: H : µ=µ
0 0.
n
x − u0
El estadístico está dado por: t = s .
n
Ejemplo 2.
10
Se escoge a 17 individuos al azar y se les mide, resultando que su estatura media es de 1,71
metros con desviación típica de 0,02 .Contrastar la hipótesis de que la estatura media nacional
sea de 1.75 metros si utilizamos un nivel del significación del 5%. Se supone normalidad
1.71 − 1.75
t= = −8.25
5. Realizamos la prueba estadística: 0.02
17
6. Dado que t=-8.25 y no pertenece a la región de aceptación estamos en condiciones de
rechazar la hipótesis nula, luego aceptar la alternativa: µ0=1.75.
Se trata de efectuar una prueba de hipótesis acerca de la proporción de elementos con cierto
atributo en una población, hipótesis de la forma:
H0: p=p0. H0: p ≤ p0. H0: p ≥ p0.
H1: p ≠ p0. H1: p>p0. H1: p<p0.
P − p0
Z=
El estadístico está dado por: p0 (1 − p0 )
n
x
Donde P = (proporción muestral)
n
Ejemplo 4.
11
familias resultando que de ellas 50 lo ven asiduamente. Contrastar la hipótesis con un nivel de
significación del 5%.
Ejemplo
Un fabricante de refrescos sin burbujas desea sacar al mercado una variedad de su producto que
tenga burbujas. Su director comercial opina que al menos el 50 % de los consumidores verá con
buenos ojos la innovación. Se realiza un sondeo de mercado y resulta que de 100 consumidores
encuestados 40 son favorables a la innovación.
12
Para el punto a)
Aplicando el procedimiento para probar una hipótesis tenemos:
1. H0: p ≤ 0.5
H1: p>0.5
2. El nivel de significancia es del 1%. (α=1%).
P − p0
Z=
3. p0 (1 − p0 )
n
4. Establecemos la región de aceptación y de rechazo:
Para el punto b)
13
5. Realizamos la prueba estadística:
40
P= = 0.4
100
P − p0 0.4 − 0.3
Z= = = 2.18
p0 (1 − p0 ) 0.3(1 − 0.3)
n 100
6. Dado que Z=2.18 y pertenece a la región de aceptación estamos en condiciones de
aceptar la hipótesis nula, es decir: p ≤ 0,3. Por lo tanto se recomiendo no fabricar el
refresco.
Para encontrar el intervalo de la diferencia de la media de dos poblaciones se considera que las
muestras tomadas de las poblaciones son independientes.
( )
Límite inferior: x1 − x 2 − z tabla •
σ 12 σ 22
n1
+
n2
;
( )
Límite superior: x1 − x 2 + z tabla •
σ 12 σ 22
n1
+
n2
Donde:
n1 : es el tamaño de la muestra tomada de la población 1
n1 : es el tamaño de la muestra tomada de la población 2
x1 : es la media de la muestra tomada de la población 1
x 2 : es la media de la muestra tomada de la población 2
σ 1 : es la desviación estándar de la población 1
σ 2 : es la desviación estándar de la población 2
N es el tamaño de la población
z tabla : es el valor z de la tabla N(0,1)
14
El intervalo de 100(1 − α ) % , resulta ser:
1 1
Límite inferior: x1 − x2 − t tabla ; gl =n1 + n2 −2 * s p * + ;
n1 n2
1 1
Límite superior: x1 − x2 + t tabla ; gl = n1 + n2 −2 * s p * +
n1 n2
Donde:
t tabla ; gl =n −2 : es el valor “t” de la tabla “t” de Student, con n1 + n2 − 2 grados de libertad
2
Donde las varianzas poblacionales, si bien son desconocidas, se considera que son iguales, s c
representa entonces la varianza común y se calcula:
s 2
=
( n1 − 1) ⋅ s12 + ( n2 − 1) ⋅ s 22
p
n1 + n2 − 2
15
x1 − x 2
z calc =
El valor calculado es: σ 12 σ 22
+
n1 n2
Los valores críticos son: Hipótesis tipo 1: − z tabla y z tabla , Hipótesis tipo 2: − z tabla , Hipótesis tipo
3: z tabla
Si se considera que: σ 12 = σ 22
x1 − x2
t calc =
El valor calculado es: 1 1
sp +
n1 n2
Donde:
s 2
=
( n1 − 1) ⋅ s12 + ( n2 − 1) ⋅ s 22
p
n1 + n2 − 2
s12 y s 22 ; son las varianzas de las muestras sacadas de la población 1 y 2 respectivamente
x1 y x 2 ; son las medias de las muestras sacadas de la población 1 y 2 respectivamente
Los valores críticos son:
Hipótesis tipo 1: − t tabla ; gl = n1 + n2 − 2 y t tabla ; gl = n1 + n2 − 2
Hipótesis tipo 2: − t tabla ; gl = n1 + n2 − 2
Hipótesis tipo 3: t tabla ; gl = n1 + n2 − 2
SI SE CONSIDERA QUE: σ 12 ≠ σ 22
x1 − x 2
t calc =
El valor calculado es: s12 s 22
+
n1 n2
Los valores críticos son los mismos anteriores, pero, los grados de libertad están dados por:
2
s12 s 22
+
gl = n1 n 2 −2
2 2
1 s12 1 s 22
+
n1 + 1 n1 n2 + 1 n 2
Ejemplo: Dos fabricantes A y B producen un artículo similar, cuyas vidas útiles tienen
desviaciones estándar respectivas de 120 horas y 90 horas. Para comparar el promedio de vida
útil de estos artículos se extrae una muestra aleatoria de 60 artículos de cada fabricante
encontrándose la duración media de 1.230 horas para la marca A y de 1.190 horas para la marca
B. ¿Se puede concluir a un nivel de significación del 5% que los artículos de marca A tienen mayor
duración media que los artículos de marca B?
Se tiene una prueba de hipótesis para la diferencia de dos medias con varianzas poblacionales
conocidas.
16
Datos: n1 = n 2 = 60; x1 = 1.230; x 2 = 1.190; σ 12 = 120 2 ; σ 22 = 90 2 z tabla = 1,645
En este problema, si bien es cierto, no se dice que las poblaciones sean normales, se tiene que
los tamaños de muestra son grandes, por lo que la estadística de prueba:
x1 − x 2
z calc =
σ 12 σ 22
+
n1 n2
Tiene una distribución aproximadamente normal estándar, por lo que se puede usar lo presentado
en el punto 4.1.
H 0 : µ1 − µ 2 = 0
H a : µ1 − µ 2 > 0
x1 − x 2 1.230 − 1.190
z calc = = = 2,07
El valor calculado es: σ 2
σ 2
120 2 90 2
1
+ 2
+
n1 n2 60 60
Valor critico: z tabla = 1,645
La región de rechazo es entonces: RR = [1,645; ∞[
Por lo tanto se rechaza Ho, se acepta Ha. Se puede decir que existen evidencias significativas, al
nivel de significación del 5%, para decir que la duración media de los artículos de marca A es
mayor a los de marca B.
Pˆ1 − Pˆ2
z calc =
El valor calculado es:
( 1
) 1
Pˆ • 1 − Pˆ +
n1 n2
n • Pˆ + n2 • Pˆ2
Donde: Pˆ = 1 1
n1 + n2
17
Ejemplo:
Una muestra aleatoria de 300 hombres y otro de 400 mujeres de una determinada población
reveló que 120 hombres y 120 mujeres estaban a favor de cierto candidato. ¿Se puede concluir a
un nivel de significación del 5% que la proporción de hombres a favor del candidato es mayor que
la proporción de mujeres?
Aquí se tiene una prueba de hipótesis para diferencias de proporciones con muestras grandes.
Si denotamos con 1 a la población de hombres y con 2 a la de mujeres, se tiene:
1° Plantear las hipótesis de interés
H 0 : P1 = P2
H a : P1 > P2
18