Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introducción
a las técnicas
de muestreo
EDICIONES PIRÁMIDE
Director:
Miguel Santesmases Mestre
Catedrático de la Universidad de Alcalá
Prólogo................................................................................................................... 11
1. Introducción al muestreo........................................................................... 13
2.1. Introducción............................................................................................. 43
2.2. Estimadores de la media, total poblacional y proporciones..................... 44
2.3. Estimador del error de muestreo para una muestra aleatoria simple....... 48
2.3.1. Estimación del error de muestreo................................................. 49
2.4. Selección del tamaño muestral................................................................. 51
2.5. Ejercicios resueltos................................................................................... 54
© Ediciones Pirámide
8 © Ediciones Pirámide
Bibliografía............................................................................................................ 205
© Ediciones Pirámide 9
¿Cómo puedo seleccionar una muestra para hacer un estudio en ciencias so-
ciales? ¿Qué técnica muestral debo usar? ¿Qué errores puedo cometer cuando se-
lecciono una muestra? De una forma sencilla y rápida, este libro responde a es-
tas cuestiones a todos aquellos interesados en los métodos más comunes dentro
de las técnicas de muestreo, si bien para su lectura son recomendables los cono-
cimientos básicos de la Estadística Descriptiva, del Cálculo de Probabilidades y
de la Estadística Inferencial.
La Inferencia Estadística realiza estimaciones de parámetros o valores pobla-
cionales con la información contenida en una muestra o subconjunto de indivi-
duos de una población. Para la selección de los individuos que formarán la
muestra, dependiendo de determinadas características, se pueden utilizar diferen-
tes técnicas muestrales, y con la selección de la técnica adecuada se obtendrán
estimaciones más precisas. En este sentido, el objetivo de esta obra es la descrip-
ción de la teoría y la práctica de los métodos básicos de muestreo (para seleccio-
nar una muestra) que están basados en el muestreo sin reposición. Para ello, el
libro se ha diseñado pensando en su fácil manejo, incluyendo solamente las for-
mulaciones necesarias y profundizando en aquellos conceptos propios de la com-
binatoria, el cálculo diferencial, las distribuciones de frecuencias, la probabilidad
o la estimación puntual y por intervalo.
Las técnicas que se estudiarán en cada método de muestreo pretenden esti-
mar las características de una población objetivo a través del conocimiento de
los valores medios, los totales de clase o las proporciones correspondientes a va-
riables aleatorias continuas o discretas, con un límite para el error de estimación
en cada una de ellas. De esta forma, será posible estimar el total de activos de
una empresa, la proporción de votantes que están a favor de cierto candidato o
el número promedio de personas que asistieron a un parque temático, entre otras
casuísticas.
Esta obra constituye un excelente aporte para el ámbito universitario y no
universitario, alumnos y docentes, y para aquellos profesionales que requieran
© Ediciones Pirámide
12 © Ediciones Pirámide
© Ediciones Pirámide 13
14 © Ediciones Pirámide
1.
Muestreo aleatorio simple con reposición. Todas los individuos de la po-
blación tienen la misma probabilidad de pertenecer a la muestra, o, lo
que es lo mismo, todas las posibles muestras del mismo tamaño tienen la
misma probabilidad de ser seleccionadas.
2.
Muestreo aleatorio sin reposición. Todas las unidades y muestras tienen
la misma probabilidad de ser elegidas, pero al ser una población finita,
la probabilidad de que salga un elemento dependerá de los que han sido
extraídos con anterioridad.
3.
Muestreo estratificado. La población se divide en estratos, o subconjun-
tos poblacionales homogéneos, y dentro de cada uno se realiza una selec-
ción aleatoria de individuos. Los estratos se forman a partir de un crite-
rio, por ejemplo, el estado civil diferencia varios estratos: casados,
solteros, divorciados y viudos; con ello se consigue que las unidades más
heterogéneas entre sí pertenezcan a estratos diferentes y las unidades pa-
recidas se agrupen en el mismo estrato. La ventaja de este método es que
al realizar las estimaciones ponderadas según el peso de los estratos, se
gana precisión en las mismas.
4.
Muestreo por conglomerados o áreas. Considera que las unidades mues-
trales no son los individuos, sino un subconjunto de ellos que forman los
conglomerados. Se suele aplicar a los muestreos que se refieren a superfi-
cies en que se ha dividido un terreno o territorio en manzanas de casas,
barrios, etc.
5.
Muestreo bietápico. Es una técnica en la que el muestreo se desarrolla en
dos etapas. Por ejemplo, para estudiar el consumo eléctrico de las vivien-
das de una ciudad. En la primera etapa, se elige una muestra aleatoria de
manzanas de viviendas y, en la segunda etapa, dentro de cada una de esas
manzanas se seleccionan muestras de viviendas. Si el proceso de selección
continúa con más de dos etapas, entonces se le denomina muestreo poli-
fásico.
6.
Muestro sistemático. Es parecido al muestreo aleatorio simple, pero se
diferencia de él en la forma de seleccionar a las unidades muestrales. El
procedimiento requiere que la población esté ordenada por algún criterio
(alfabético, etc.), y consiste en ir seleccionando individuos siguiendo un
patrón hasta agotar el tamaño muestral deseado. Este método tiene la
ventaja de extender la muestra a toda la población.
© Ediciones Pirámide 15
16 © Ediciones Pirámide
mite asignar a cada muestra una probabilidad de ser seleccionada de manera que
se puede construir una función P definida en el conjunto de todas las muestras
contenidas en S y que toma valores en el intervalo [0, 1].
El cálculo de la probabilidad de una muestra puede hacerse, en general, par-
tiendo de Sj = (u1j, u2j, ..., unj) como:
P(Sj) = P(u1j)P(u2j /u1j)P(u3j /u1ju2j) ... P(unj /u1j ... unj)
© Ediciones Pirámide 17
C N, n = 1Nn 2
que representa las combinaciones de N elementos tomados de n en n. En este
caso, la probabilidad de la muestra estará determinada por:
1 1 1 n!(N – n)!
P(u1 , ..., un ) = = = =
N!
1 2
C N, n N N!
n n!(N – n)!
C4, 2 = 1242 = 6
dado que asumimos que el orden no interviene, es decir, por ejemplo, las mues-
tras (1, 2) y (2, 1) se consideran idénticas. Así, las muestras posibles serán:
S = ({1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4})
1 1
P(Si ) = = , i = 1, ..., 6
C4, 2 6
∑ P(Si ) = 1
i =1
18 © Ediciones Pirámide
1 1 1 1 1 1
P(1, 2) = P(1)P(2/1) = × = y P(2,1) = P(2)P(1/2) = × =
4 3 12 4 3 12
1 1
P(1, 2) + P(2,1) = 2 × =
12 6
Esto sucederá para todas las muestras idénticas que aparezcan en el espacio
muestral.
1 1
P(u1 , ..., un ) = =
1Nn 2n!
VN, n
Por ejemplo, suponga ahora que la población está formada por los mismos
elementos que en el ejemplo anterior, tal que U = {1, 2, 3, 4}. Se desea construir
muestras de tamaño 2 sin reposición de las unidades en la población, conside-
rando que interviene el orden de colocación de los elementos en la muestra. En
este caso, el número posible de muestras que se obtendrán es:
V4, 2 = 1242 × 2! = 6 × 2 = 12
dado que asumimos que el orden sí interviene. Es decir, por ejemplo, las mues-
tras (1, 2) y (2, 1) no se consideran idénticas. Así, las muestras posibles que com-
ponen el espacio muestral serán:
© Ediciones Pirámide 19
S = ({1, 2}, {1, 3}, {1, 4}, {2, 1}, {2, 3}, {2, 4}, {3, 1}, {3, 2}, {3, 4},
{4, 1}, {4, 2}, {4, 3})
Por tanto, las probabilidades de cada una de las muestras posibles será igual a:
1 1
P(Si ) = = , i = 1, ..., 12
V4, 2 12
12
∑ P(Si ) = 1
i =1
Este resultado también puede obtenerse, por ejemplo para el caso de la muestra
(1, 2), calculando la probabilidad:
1 1 1
P(1, 2) = P(1)P(2/1) = × =
4 3 12
Pero, como la muestra (1, 2) no es una muestra idéntica a (2, 1), sus probabilida-
des no se suman, tal como ocurría en el caso anterior.
1 1 1 1 1
P(u1 , ..., un ) = = ! = n
VRN, n N N N N
Por ejemplo, suponga que la población está formada por los siguientes ele-
mentos: U = {1, 3, 5}. Para determinar el conjunto S formado por todas las
muestras que resultan de la extracción con reemplazamiento de dos unidades de
esta población de tres elementos, teniendo en cuenta el orden de los elementos,
el número de muestras posibles será igual a VR3, 2 = 32 = 9, estando el espacio
muestral formado por:
S = ({1, 1}, {1, 3}, {1, 5}, {3, 1}, {3, 3}, {3, 5}, {5, 1}, {5, 3}, {5, 5})
20 © Ediciones Pirámide
En este caso, las probabilidades de cada muestra son iguales entre sí, tal que:
1 1
P({1, 3}) = ... = P({5, 5}) = =
VR3,2 9
∑ P(Si ) = 1
i =1
1 1 1
P(1, 3) = P(1)P(3/1) = P(1)P(3) = × =
3 3 9
CRN, n = 1N +nn – 12
es decir, combinaciones con repetición de N elementos tomados de n en n. Sin
embargo, la probabilidad de las muestras no es la misma para todas ellas, por lo
que este método de selección no produce muestras equiprobables.
Por ejemplo, suponga que la población está formada por los elementos del
ejemplo anterior: U = {1, 3, 5}. El número de muestras del conjunto S formado
por todas las muestras que resultan de la extracción con reemplazamiento de dos
unidades de esta población de tres elementos, sin tener en cuenta el orden de los
elementos, está formado por un número de muestras posibles que será igual a:
CR3, 2 = 13 + 22 – 12 = 1242 = 6
estando el espacio muestral formado por:
© Ediciones Pirámide 21
S = ({1, 1}, {1, 3}, {1, 5}, {3, 3}, {3, 5}, {5, 5})
Sin embargo, las probabilidades no son iguales para todas las muestras en
este método de muestreo, puesto que al permitirse el reemplazo o reposición de
las unidades en la población, las muestras con idénticos elementos son idénticas.
Por ejemplo, las muestras (1, 3) y (3, 1) son idénticas, pero también lo son las
muestras (1, 5) y (5, 1), y las muestras (3, 5) y (5, 3), respectivamente. En este
sentido, el cómputo de las probabilidades de cada muestra se hará como sigue.
Las probabilidades de las muestras (1, 1), (3, 3) y (5, 5) son iguales a:
1 1 1
P(1,1) = P(1)P(1/1) = P(1)P(1) = × =
3 3 9
1 1 1
P(3, 3) = P(3)P(3/3) = P(3)P(3) = × =
3 3 9
1 1 1
P(5, 5) = P(5)P(5/5) = P(5)P(5) = × =
3 3 9
1 1
=
CR3, 2 6
22 © Ediciones Pirámide
Ik : S → [0, 1]
de manera que Ik(S) = 1 si uk ∈ S e Ik(S) = 0 si uk ∉ S, ∀ uk ∈ Ω. Por tanto, te-
niendo en cuenta que Ik es una variable aleatoria de Bernouilli definida sobre S,
las probabilidades de inclusión y no inclusión son iguales a P[Ik(S) = 1] = pk y
P[Ik(S) = 0] = 1 − pk, respectivamente. Además, la media y la varianza de la va-
riable de Bernouilli son iguales a E[Ik(S) = 1] = pk y var [Ik(S) = 1] = pk(1 − pk),
respectivamente.
Por ejemplo, tal y como veremos, en un muestreo aleatorio simple sin reem-
plazamiento, pk = n/N, es decir, las probabilidades son iguales a n/N para todas
las unidades.
© Ediciones Pirámide 23
N
τ = ∑ Xi
i =1
N
1
µ=
N
∑ Xi
i =1
c) El total de clase de los valores de A sobre todos los elementos de la po-
blación es definido por:
N
A= ∑ Ai
i =1
N
1
p=
N
∑ Ai
i =1
24 © Ediciones Pirámide
Los estimadores son funciones matemáticas que se aplican sobre los datos de
la muestra; son variables aleatorias al considerar la variabilidad de selección de
las muestras y cumplen las condiciones de una función de medida. Los errores
se cuantifican mediante varianzas, desviaciones típicas o errores cuadráticos me-
dios de los estimadores y miden la precisión de los mismos.
Pues bien, definiendo q § como el estimador de q, q § : S(x) ⊂ ℜn → ℜ, donde
{x1, ..., xn} → q § = f (x1, ..., xn), podemos caracterizar los diferentes estimadores
relevantes en el método de muestreo. Éstos son:
N
x = {x1 ,..., xn } → x̂ = x1 + ! + xn = ∑ xi
i =1
N
x = {x1 ,..., xn } → µ̂ = (x1 + ! + xn )/n = ∑ xi /n
i =1
o también, xˉ.
— Estimador de la proporción poblacional (p): p̂ : S(a) ⊂ ℜn → ℜ, donde:
N
a = {a1 ,..., an } → p̂ = (a1 + ! + an )/n = ∑ ai /n
i =1
siendo ai una variable binaria que toma el valor 1 (ai = 1) cuando el indi-
viduo i-ésimo cumple una característica de interés o pertenece a una de-
terminada clase, y el valor cero (ai = 0) en caso contrario.
Así, el método de estimación se refiere a que una vez seleccionada una muestra
mediante un procedimiento de muestreo, se estiman las características poblaciona-
les (media, total y proporción) con un error que es cuantificable y controlable.
Por tanto, asumiendo el carácter de variable aleatoria del estimador, puede
deducirse una serie de propiedades generales para los estimadores.
© Ediciones Pirámide 25
+∞
Muestras 1 2 3 4 5 6 7 8 9 10 11 12 13
xˉ 10,86 13,70 13,22 12,75 13,00 12,25 12,33 13,00 12,35 12,83 12,86 13,01 12,82
Muestras 14 15 16 17 18 19 20 21 22 23 24 25
xˉ 12,43 12,22 11,91 11,75 12,65 12,87 12,87 12,57 12,88 14,01 12,09 11,98
Normal
10
Media = 12,69
Desviación estándar = 0,526
N = 25
8
Frecuencia
0
11,50 12,00 12,50 13,00 13,50 14,00 14,50
Medias
26 © Ediciones Pirámide
10.000 16.000
8.000
Frecuencia
Frecuencia
12.000
6.000
8.000
4.000
2.000 4.000
0 0
–6 –4 –2 0 2 4 6 –6 –4 –2 0 2 4 6
c) F10, 20 d) c210
40.000 24.000
20.000
30.000
16.000
Frecuencia
Frecuencia
20.000 12.000
8.000
10.000
4.000
0 0
0 2 4 6 8 10 12 0 5 10 15 20 25 30 35 40 45
© Ediciones Pirámide 27
sabiendo que 2B(q §)E [q § − E [q §]] = 0. Es decir, ECM (q §) = var (q §) + (ses-
go (q §))2.
Consistencia. Implica que B(θ̂ ) → 0, es decir, el sesgo tiende a anular-
d)
n→N
Además, existen algunas otras expresiones que podemos utilizar que se dedu-
cen de lo anterior. Por ejemplo, el error de muestreo puede definirse sobre el error
estándar de la estimación, es decir:
Por otro lado, el error relativo de muestreo puede definirse de acuerdo con el
coeficiente de variación de Pearson, tal que:
σ (θ̂ )
CV (θ̂ ) =
E[θ̂ ]
28 © Ediciones Pirámide
B(θ̂ )
< 0,10
σ (θ̂ )
Sesgo B(θ̂ )
tg A = =
Error de muestreo σ (θ̂ )
Sesgo
Error de muestreo
© Ediciones Pirámide 29
3σ (θ̂ ) − 14 × 100 .
σ (θ̂1)
•
2
1
P[uθ̂ − θ u < kσ (θ̂ )] > 1 −
k2
o, lo que es lo mismo:
1
P[θ̂ − kσ (θ̂ ) < θ < θˆ + kσ (θ̂ )] > 1 −
k2
θ̂ − θ
∼ N (0,1)
σ (θ )
30 © Ediciones Pirámide
Así:
1 2
θ̂ − θ
P −zα /2 < < zα /2 = 1 − α
σ (θ )
es decir, q § ± za/2s(q).
Y la segunda está relacionada con el hecho de que la varianza sea descono-
cida y el estimador también sea insesgado. En este caso, puede asumirse que:
θ̂ − θ
∼ t-Student
σ (θ̂ )
Por tanto:
1 2
θ̂ − θ
P −tα /2 < < tα /2 = 1 − α
σ (θ̂ )
§
es decir, el intervalo será construido como q ± t §
a/2s(q ).
Por último, en el caso de que el estimador sea sesgado, el intervalo de confian-
za necesitaría modificar algunos aspectos. Teniendo en cuenta el hecho de que el
sesgo del estimador puede escribirse como E [q §] = q + B(q §), se llega a la expresión:
θ̂ − E[θ̂ ] θ̂ − θ − E[θ̂ ] + θ
=
σ (θ̂ ) σ (θ̂ )
© Ediciones Pirámide 31
donde Yi puede ser Xi para el total poblacional, Xi /N para la media aritmética,
o Ai /N para la proporción de clase Ai.
Generalmente, la forma del estimador a emplear es:
n
θ̂ = ∑ α iYi
i =1
donde dependiendo de que el muestreo a realizar sea con reposición o sin repo-
sición, obtendremos unos valores determinados ai a los que se les denomina pe-
sos o factores de elevación.
Para determinar si dicho estimador es insesgado, considérese el siguiente in-
dicador Ii, que es una variable aleatoria tal que Ii = 1, si ui ∈ S con probabilidad
pi, e Ii = 0 si ui ∉ S con probabilidad 1 − pi, ∀ ui ∈ Ω.
Para que q § sea un estimador insesgado de q, se tiene que cumplir que:
3∑ α Y 4 = E3∑ α Y (I )4 = ∑ α Y E[I ] = ∑ α Y π
n N N N
E[θ̂ ] = E i i i i i i i i i i i
i =1 i =1 i =1 i =1
∑ α iYiπ i = ∑ Yi
i =1 i =1
32 © Ediciones Pirámide
1
1 = α iπ i ò α i = ,∀i
πi
n
Y
θ̂ HT = ∑ πi
i =1 i
§ ] = q.
de tal manera que el estimador es insesgado dado que E [q HT
Aplicando este estimador a los parámetros poblacionales descritos arriba,
tendríamos que:
c) El estimador del total de clase de los valores de A sobre todos los ele-
N n
a
mentos de la población definido por: A = ∑ Ai es âHT = ∑ πi .
i =1 i =1 i
Cabe resaltar que el valor tomado por pi dependerá del método de muestreo
empleado. Por ejemplo, suponiendo que todos los elementos de la población tie-
nen idéntica probabilidad de ser seleccionados para la muestra y el muestreo es
sin reposición, entonces puede calcularse la probabilidad de que la unidad i-ési-
ma pertenezca a la muestra como:
© Ediciones Pirámide 33
πi =
1 n − 12
N −1
=
n
1Nn 2
N
que es una probabilidad igual para todas las unidades de la muestra. De esta for-
ma, el estimador insesgado de la media poblacional es exactamente la media arit-
mética muestral, tal que:
n
xi
µ̂HT ≡ x = ∑
i =1 n
1 2 1 2
n N
Y Y
var (θ̂ HT ) = var ∑ πi = var ∑ πi Ii =
i =1 i i =1 i
1 2 1 2
N N N
Yi Y Yj
= ∑ var πi
I i + 2 ∑ ∑ cov i I i ,
πi
I =
πj j
i =1 i = 1 j .i
N N N
Y2 Y Yj
= ∑ πi2 var (I i ) + 2 ∑ ∑ πi cov (I i , I j ) =
i =1 i i = 1 j .i i π j
N N N
Yi 2 Y Y
= ∑ π2 (1 − π i ) + 2 ∑ ∑ πi π j (π ij − π iπ j )
i =1 i i = 1 j .i i j
Dado que la expresión de la varianza del estimador extiende sus índices has-
ta el valor N, y puesto que los datos muestrales lo hacen hasta n, parece necesa-
rio estimar dicha varianza dependiendo de los valores muestrales.
§ ) puede definirse por:
Para ello, un estimador insesgado de var (q HT
Y Y j π ij − π i π j
1 2
n n n
Y2
vâr (θ̂ HT ) = ∑ πi2 (1 − π i ) + 2 ∑ ∑ πi
i =1 i i = 1 j .i i π j π ij
34 © Ediciones Pirámide
=
1 n−22
N −2
=
n(n − 1)
1Nn 2
N (N − 1)
Y Y j π ij − π i π j
3 4 3 1 24 =
n n n
Y2
E[vâr (θ̂ HT )] = E ∑ πi2 (1 − π i ) + 2E ∑ ∑ πi
i =1 i i = 1 j .i i π j π ij
Y Y j π ij − π i π j
3 4 3 1 2 4
N N N
Y2
=E ∑ πi2 (1 − π i )I i + 2E ∑ ∑ πi Ii I j =
i =1 i i = 1 j .i i π j π ij
N N N
Y2 Y Yj
= ∑ πi2 (1 − π i ) + 2 ∑ ∑ πi (π ij − π i π j ) = var (θ̂ HT )
i =1 i i = 1 j .i i π j
© Ediciones Pirámide 35
(1,1) 1 0
(1,3) 2 1
(1,5) 3 4
(3,1) 2 1
(3,3) 3 0
(3,5) 4 1
(5,1) 3 4
(5,3) 4 1
(5,5) 5 0
(x̄) 1 2 3 4 5
Por tanto, a partir de esta información puede calcularse la media de las me-
dias muestrales (que es un estimador), simplemente utilizando la expresión:
s2 0 1 4
36 © Ediciones Pirámide
12 12 12
3
3 4 2 4
E[s 2 ] = ∑ si2 P(si2 ) = 0 9
+1
9
+4
9
=
3
i =1
es C4, 2 = 1242 = 6 , dado que asumimos que el orden no interviene, es decir, por
ejemplo, las muestras (6, 4) y (4, 6) se consideran idénticas. Por tanto, las proba-
bilidades de cada una de las muestras posibles serán iguales a:
1 1
P(Si ) = = , ∀ i = 1,..., 6
C4, 2 6
Dicho lo anterior, puede construirse la siguiente tabla que contiene todas las
muestras de tamaño 2, sus respectivas probabilidades de ocurrencia y la media
aritmética de cada una de las mismas.
© Ediciones Pirámide 37
(6,4) 1/6 5
(6,3) 1/6 9/2
(6,8) 1/6 7
(4,3) 1/6 7/2
(4,8) 1/6 6
(3,8) 1/6 11/2
(6 + 4 + 3 + 8)
µ= = 5,25
4
puede observarse que este valor coincide con el estimador muestral. Por tanto, el
sesgo de la media es exactamente cero, es decir:
12 1 212 12 1 2 16 2 +
1 9 1 1 7 1
= (5 − 5,25)2 + − 5,25 + (7 − 5,25)2 + − 5,25
6 2 6 6 2
2
12 1 2 162 = 1,23
1 11 1
+ (6 − 5,25)2
+ − 5,25
6 2
38 © Ediciones Pirámide
© Ediciones Pirámide 39
—
Preguntas cuantitativas. En ellas las respuestas suelen coincidir con una
medida o un número (ingresos mensuales, número de hijos, etc.). La ven-
taja de estas preguntas es que se miden en escalas numéricas y es posible
realizar todo tipo de operaciones.
—
Preguntas de naturaleza cualitativa. En estas preguntas la respuesta se aso-
cia con un determinado atributo. Tiene el inconveniente que sus escalas
son ordinales y nominales, con lo que sólo se pueden estudiar las distri-
buciones de sus frecuencias. Para superar esta limitación, en muchos estu-
dios se adaptan las respuestas de estas preguntas a una escala de Likert,
con esta escala las respuestas son una secuencia de valores que van desde
lo más desfavorable hasta lo más favorable y el encuestado debe elegir una
opción entre las alternativas. Por ejemplo, ¿qué opinión tiene usted sobre
el transporte público?; las posibles respuestas, siguiendo una escala de
Likert, estarán comprendidas entre 1 (muy malo) y 5 (muy bueno).
1.
Diseño de la muestra. Consiste en precisar la población objetivo y el mar-
co de referencia muestral, el tipo de muestreo y el tamaño de la muestra
apropiado, aspectos todos interesantes relacionados con los estimadores,
sus distribuciones y las posibles fuentes de los errores.
2.
El trabajo de campo o recogida de la información. La recogida de la infor-
mación debe hacerse con encuestadores adiestrados, en caso contrario se
corren riesgos de incluir errores ajenos al muestreo.
40 © Ediciones Pirámide
3.
La tabulación. En esta fase se depuran las respuestas de los cuestionarios
y se codifican para su posterior análisis. También en esta fase se suelen
llevar a cabo controles sobre la calidad de las respuestas aportadas por
cada encuestador.
4.
Los resultados. La precisión de los resultados depende de los errores. Una
vez realizadas las estimaciones de los parámetros poblacionales, hay que
evaluar las precisiones mediante los errores muestrales y, por tratarse de
un muestreo por encuesta, es recomendable estudiar los errores extra-
muestrales (sesgo de no respuesta, efecto del entrevistador, etc.).
© Ediciones Pirámide 41
2.1. INTRODUCCIÓN
El muestreo aleatorio simple es una técnica de muestreo probabilístico en la
que todos los elementos de la población tienen idéntica probabilidad de ser se-
leccionados para la muestra. Un clásico ejemplo que ilustra a este tipo de mues-
treo es la realización de un sorteo entre todos los individuos de la población, de-
bidamente numerados —lo que implica que debemos conocer a todos los
individuos—. Introduciendo esos números en una urna, empezaríamos a extraer
al azar dichos números y todos aquellos individuos que tengan el número extraí-
do formarán la muestra. Obviamente, si la población es muy grande (infinita),
entonces la dificultad de realizar el proceso es mayor. Es por ello que, en la prác-
tica, este método puede automatizarse mediante el uso de ordenadores.
El muestreo aleatorio simple puede ser realizado con reposición o sin reposi-
ción, dependiendo de si los individuos de la población pueden ser seleccionados
más de una vez en la muestra. Por ejemplo, el del muestreo con reposición sería
el caso de extraer un número al azar de una urna y volver a introducirlo dentro
de la misma antes de la siguiente extracción. En el caso del muestreo sin reposi-
ción, el individuo seleccionado de la urna no entraría nuevamente en otra extrac-
ción o sorteo.
En este caso, surge la pregunta de determinar cuál es el mejor tipo de mues-
treo. ¿Es mejor el que se hace sin reposición o con reposición? La respuesta es
que, tanto desde el punto de vista de qué técnica genera estimaciones más preci-
sas como desde el punto de vista de qué técnica permite obtener la misma preci-
sión con menor tamaño de la muestra, puede concluirse que el muestreo aleato-
rio simple si reposición siempre es más eficiente (Pérez, 2005).
Los beneficios del muestro aleatorio simple pueden sintetizarse en que, gracias
a los ordenadores y al desarrollo de la informática en general, la generación de nú-
meros pseudoaleatorios es cada vez más fiable asegurando la obtención de mues-
© Ediciones Pirámide 43
tras representativas, de manera que la única fuente de error que puede afectar a
los resultados es el azar, error que puede calcularse de forma precisa o acotarse.
Por otro lado, las desventajas o inconvenientes del muestreo aleatorio simple
se encuentran en la dificultad de llevarlo a la práctica en investigaciones reales
cuando el marco muestral deba conocer a todos los individuos de la población y
que todos ellos sean potencialmente seleccionables. Esto hace que este requisito,
que muchas veces no se cumple en los estudios de mercado o de opinión, obligue
a emplear otras técnicas, algunas de las cuales se verán en capítulos siguientes.
En este capítulo dedicaremos la atención al muestreo aleatorio simple sin re-
posición (sin reemplazamiento).
∑ Xi ∑ Ai
i =1 i =1
µ= ; τ = Nµ ; p=
N N
respectivamente.
Asumiendo que xi son las observaciones muestrales, n es el tamaño de la
muestra y pi = n/N la probabilidad de que un individuo de la población sea ele-
gido, los estimadores insesgados para cada una de las expresiones anteriores en
el muestreo aleatorio simple serán:
n
xi xi ∑ xi
n n
µ̂ = x = ∑ N = ∑ N =
i =1
a)
i =1 πi i =1
n n
N
n n n
xi xi x
b) x̂ = ∑π ∑ n = = N ∑ ni = Nx
i =1 i i =1 i =1
44 © Ediciones Pirámide
n
ai ai ∑ ai
n n
c) p̂ = ∑ N =∑ N =
i =1
i =1 πi i =1
n n
N
24
∑ ai
i =1 20
p̂ = = = 0,5
n 40
resultando que dicho atributo, ser mujer, lo posee el 50 % de las observaciones
muestrales.
Para evaluar la incertidumbre asociada a cada estimador, a continuación, se
definen las varianzas de cada uno de ellos. En primer lugar, aplicando la expre-
sión de la varianza del estimador para el total poblacional, X, queda:
1 2 1 2
n n n
xi2 n x x j [n(n − 1)/N (N − 1)] − (n/N )
var ( x̂) = ∑ 2 1−
N
+ 2∑ ∑ i
n n [n(n − 1)/N (N − 1)]
1 2
i =1 n i = 1 j .i
N N N
siendo f = n/N la fracción del muestreo y representa el peso que tiene la muestra
respecto a la población, por tanto:
1 2 1 2
n N−n
(1 − f ) = 1 − =
N N
© Ediciones Pirámide 45
1N (N − 1)2 − 1N 2 = − (N − n)
n(n − 1) n
1N (N − 1)2
n(n − 1) N (n − 1)
(xi − x ) (x j − x ) (N − n)
1 2
n n n
(xi − x )2 n
var ( x̂) = ∑ 1− − 2∑ ∑ =
1 2 1 2
2
N n n N (n − 1)
1 2
i =1 n i = 1 j .i
N N N
3 4
n n n
N (N − n) 1
=
n2
∑ (xi − x )2 − n − 1 2 ∑ ∑ (xi − x )(x j − x )
i =1 i = 1 j .i
n n n
2∑ ∑ (xi − x )(x j − x ) = − ∑ (xi − x )2
i = 1 j .i i =1
sabiendo que:
3 4
n n n n
y asumiendo que:
3∑ (x − x )4
n
i =0
i =1
1 2
n
N (N − n) 1 N (N − n) n n
var ( x̂) =
n2
1+
n −1
∑ (xi − x )2 = n2
∑ (x − x )2
n − 1 i =1 i
i =1
46 © Ediciones Pirámide
donde:
1 n ∑ xi2 − nx 2
∑ (x − x )2 (o ŝ 2 =
i =1
s2 = )
n − 1 i =1 i n −1
∑ (xi − µ )2
i =1
σ2 =
N
1 2
N − n s2 s2
var ( x̂) = N 2 = N 2 (1 − f )
n N n
Una vez se ha obtenido la varianza del estimador del total poblacional, es fá-
cil derivar la varianza de la media. Ésta será igual a:
1 2
x̂ 1 s2
var (x ) = var = 2 var ( x̂) = (1 − f )
N N n
p̂q̂
var ( p̂) =
n
1 2
a1 + a2 + ! + an
var ( p̂) = (1 − f ) var =
n
1 2
var (a1 ) + var (a2 ) + ! + var (an )
= (1 − f ) =
n2
1 2 1 2 1 2
p̂q̂ + p̂q̂ + ! + p̂q̂ n( p̂q̂) p̂q̂
= (1 − f ) 2
= (1 − f ) 2
= (1 − f )
n n n
© Ediciones Pirámide 47
P(A q B) = 1 − a
1
P[x − kσ , X , x + kσ ] > 1 −
k2
Ejemplo
Turistas 1 2 3 4 5 6 7 8 9 10
Gastos 20 21 18 14 20 19 17 18 16 14
1
0,75 = 1 − ò k2 = 4 ò k = 2
k2
48 © Ediciones Pirámide
10
∑ xi
i =1 177
x= = = 17,70 €
10 10
10
∑ (xi − x )2
i =1 54,1
ŝ 2 = = = 6 ò ŝ = ŝ 2 = 2,45 €
10 − 1 9
Al menos el 75 % del gasto diario de los turistas estará entre los 12,8 € y los
22,6 €. Cuando la población es normal, el intervalo formado por dos veces la
desviación típica contendrá en torno al 95 % de los datos.
A continuación, en el siguiente apartado, se distinguen las diferentes expre-
siones que adoptan el error de muestreo y el intervalo de confianza en cada uno
de los estimadores.
3 ! 1 2 ! 1 24
ŝ 2 N − n ŝ 2 N − n
P x − tα /2; n − 1 < µ < x + tα /2; n − 1 = 1− α
n N n N
© Ediciones Pirámide 49
3 ! 1 24
ŝ 2 N − n
I µ(1− α )% = x ± tα /2; n − 1
n N
siendo la segunda parte de la misma lo que se define como error muestral o error
debido al muestreo. Este error, que denominaremos de aquí en adelante E, es el
error que se comete al estudiar sólo una muestra y no toda la población.
El error de muestreo puede escribirse como:
! 1 2
ŝ 2 N − n
E = tα /2; n − 1
n N
Se parte desde del intervalo de confianza para estimar el total con varianza
poblacional desconocida:
3 ! 1 2 ! 1 24 = 1 − α
ŝ 2 N − n ŝ 2 N − n
P x̂ − tα /2; n − 1 N2 < τ < x̂ + tα /2; n − 1 N2
n N n N
o, lo que es lo mismo:
!
2
3 1 24
ŝ 2 N−n
Iτ(1− α )% = x̂ ± tn − 1; α /2 N 2
n N
! 1 2
N − n ŝ 2
E = tα /2; n − 1 N2
N n
50 © Ediciones Pirámide
1 2
p̂q̂
p̂ ∼ N p,
n
3 ! 1 2 ! 1 24 = 1 − α
p̂(1 − p̂) N − n p̂(1 − p̂) N − n
P p̂ − zα /2 < p < p̂ + zα /2
n N n N
o, lo que es lo mismo:
3 ! 1 24
α )% p̂q̂ N − n
I (1−
p = p̂ ± zα /2
n N
! 1 2
p̂q̂ N − n
E = zα /2
n N
1 2 1 2
N−n n
> 0,95 ò (1 − f ) = 1 − = (1 − 0,05) > 0,95
N N
© Ediciones Pirámide 51
Por eso, para determinar los tamaños muestrales se distingue entre esos dos
tipos de poblaciones.
Concretamente, en el caso de que la población sea considerada infinita, el
error de muestreo puede considerarse igual a una cierta cantidad (valor crítico
de la distribución Normal estándar para un nivel de confianza de a/2, za/2) de la
desviación típica del estimador, asumiendo que la varianza poblacional es cono-
cida, s 2:
! 1 2
σ2 N − n σ2
E = zα /2 ò E = zα /2
n N n
1 2
N−n
si > 0,95 . Despejando n, se obtiene el tamaño de la muestra que se ne-
N
cesita para estimar la media poblacional para un error fijado igual a E. De esta
manera:
zα2 /2σ 2
n=
E2
2
z0,05/2 ŝ 2 1,962 (1,8)
n= = ≈ 111
E2 (0,25)2
es decir, la muestra ha de estar formada por 111 tomates, sustituyendo s 2 por ŝ 2.
Para las proporciones, es práctica habitual, sobre todo cuando no se dispone
de estimaciones de la proporción poblacional, determinar el tamaño muestral
dándole el valor de máxima dispersión (este valor se produce cuando p = 0,5);
con ello se está asumiendo que el tamaño de la muestra es lo suficientemente
grande para que las estimaciones sean lo más precisas posible, resultando la ex-
presión:
2 2
z0,05/2 pq z0,05/2 (0,25)
n= 2
; p = 0,5 ò n=
E E2
52 © Ediciones Pirámide
(1,96)2 0,25
n= = 600,25
(0,04)2
1 2
N−n
, 0,95
N
! 1 2
σ2 N − n
E = zα /2
n N
1 2
E2 σ2 N − n E2 Nσ 2 nσ 2 E2 σ 2 σ 2
2
= ò 2 = − ò 2 + =
zα /2 n N zα /2 Nn nN zα /2 N n
y, por tanto:
σ2
n=
E2 σ 2
+
zα2 /2 N
© Ediciones Pirámide 53
Nσ 2
n=
NE 2
+σ2
zα2 /2
El tamaño muestral apropiado para un error dado del estimador del total po-
blacional es:
! 1 2
σ2 N − n
E = zα /2; n − 1 N2 ò
n N
1 2
E2 σ2 N − n Nσ 2
ò = òn=
N 2 zα2 /2 n N E2
+σ2
Nzα2 /2
! 1 2
pq N − n Npq
E = zα /2 ò n=
n N NE 2
+ pq
zα2 /2
Para una población de 15.000 empresas se desea estimar el capital social me-
dio y el capital social total (en unidades monetarias). Además, se espera la pu-
blicación de una ley que beneficiará a las empresas que son sociedades anónimas.
Por ello, se quiere conocer si la forma jurídica predominante es Sociedad Anó-
nima y tener una aproximación de cuántas empresas podrán acogerse a la mejo-
ra de la futura ley.
Entre las condiciones exigidas del estudio se destaca que el error debido al
muestreo no puede ser superior al 5 % de los valores de los estimadores. Bajo esa
condición exigida, y sabiendo que obtener información de cada empresa tiene un
coste de 15 € ¿cuánto será el coste total del trabajo de campo?
54 © Ediciones Pirámide
Muestra piloto
Cuestiones
a) ¿Cuál es el valor medio y total del capital social de las empresas de esta
población?
b) ¿De qué tamaño debe ser la muestra y qué coste tendría si, para que al
estimar el capital social medio, el error debido al muestreo no fuera su-
perior al 5 %?
c) ¿Qué proporción de empresas son Sociedad Anónima? ¿De qué tamaño
debe ser la muestra para que al estimar la proporción el error debido al
muestreo no sea superior al 5 %? ¿Cuánto costará la recogida de infor-
mación con las condiciones exigidas?
Solución
Diseño muestral
© Ediciones Pirámide 55
24
∑ xi
i =1 537.549
x= = = 22.397,87 €
24 24
24
∑ (xi − x )2
i =1 3.610.145.707
ŝ 2 = = = 156.962.857,00 €
24 − 1 23
1 2 1 2
ŝ 2 N − n 156.962.857 15.000 − 24
var (x ) = = = 6.529.655,00 €
n N 24 15.000
1 2
N−n
> 0,95
N
Para calcular el valor total del capital social de las 15.000 empresas sólo hay
que multiplicar el valor medio por el número total de empresas:
x̂ = Nx = 15.000(22.398) = 335.968.125,00 €
56 © Ediciones Pirámide
E 5.286,04
E(%) = × 100 = × 100 = 23,60 %
x 22.398,00
Este error del 23,6 % es muy elevado, y en el estudio se exige que dicho error
no supere el 5 % del valor del estimador. Multiplicando el valor del estimador
(media muestral) por el porcentaje de error permitido, en este caso del 5 %, se
obtiene que el valor del error máximo permitido para la media es:
Nŝ 2 15.000(156.962.857)
n= 2 = = 517,18
NE 15.000(1.119,90)2
2
+ ŝ 2
+ 156.962.857
z0,05/2 (2,069)2
24
∑ ai
i =1 13
p̂ = = = 0,54
24 24
© Ediciones Pirámide 57
1 2
p̂(1 − p̂) N − n
var ( p̂) = =
n N
1 2
0,54(1 − 0,54) 15.000 − 24
= = 0,0103
24 15.000
Ejercicio 2
Se ha tomado una muestra piloto de 100 individuos para estudiar los ingre-
sos medios y totales (en unidades monetarias) y la proporción de personas casa-
das de una determinada población formada por 2.250 individuos. Se desean ob-
tener estimaciones con errores muestrales que no superen el 5 %.
En el cuadro siguiente se presenta la muestra piloto seleccionada mediante
muestreo aleatorio simple. La variable «estado civil» (estado) toma el valor 1
cuando el individuo en cuestión está casado.
58 © Ediciones Pirámide
100 100
— Para la variable ingresos: ∑ xi = 138.566,00, ∑ (xi − x )2 = 18.906.186,00 .
i =1 i =1
100
— Para la variable estado, que toma valores 0 y 1, ∑ ai = 62.
i =1
Cuestiones
a) Estimar los ingresos medios y totales. ¿De qué tamaño debe ser la mues-
tra para que el error de estimación de los ingresos medios de la pobla-
ción no sea superior al 5 % del valor de los estimadores?
© Ediciones Pirámide 59
Solución
Diseño muestral
∑ xi
i =1 138.566,00
x= = = 1.385,66 €
100 100
∑ (xi − x )2
i =1 18.906.186,00
ŝ 2 = = = 190.971,58 €
100 − 1 99
1 2 1 2
ŝ 2 N − n 190.971,58 2.250 − 100
var (x ) = = = 1.814,23 €
n N 100 2.250
1 2
N−n
= 0,96 . 0,95
N
60 © Ediciones Pirámide
E 83,73
E(%) = × 100 = × 100 = 6,04 %
x 1.385,66
100
∑ xi
i =1 62
p̂ = = = 0,62
100 100
© Ediciones Pirámide 61
1 2 1 2
N−n 0,62(1 − 0,62) 2.250 − 100
var ( p̂) = = = 0,0024
N 100 2.250
Multiplicando por 100 dicho error se tiene que el error en porcentaje es del
9,3 %, es decir:
Este error supera el 5 % exigido en el enunciado. Hay que estimar el tamaño
muestral adecuado para el error del 5 %: por tratarse de proporciones, E = 0,05,
y asumiendo que las proporciones son las estimadas previamente, tenemos que
el tamaño de la muestra puede calcularse como:
es decir, con las condiciones exigidas, la muestra debe contener 312 indivi-
duos.
Ejercicio 3
Para hacer un estudio en una ciudad turística que recibe diariamente 1.500
turistas, se ha seleccionado una muestra aleatoria simple con tres variables: gas-
tos en consumo (gastos) y dos variables cualitativas. La primera, nacionalidad,
toma el valor 1 si el turista en cuestión es extranjero. La segunda, pernocta, toma
el valor 1 si el turista en cuestión pasa la noche en la ciudad.
62 © Ediciones Pirámide
1 48 1 0
2 41 1 0
3 34 1 1
4 25 0 0
5 32 1 1
6 25 0 0
7 36 1 0
8 31 1 0
9 30 0 0
10 38 1 0
11 31 1 1
12 19 1 1
13 26 1 0
14 27 1 0
15 22 1 0
Cuestiones
Solución
Diseño muestral
© Ediciones Pirámide 63
15
La suma de los gastos es ∑ xi = 465. Así, el gasto medio diario de los turis-
i =1
15
∑ xi
i =1 465
x= = = 31 €
15 15
es decir, 31 €.
Para determinar el error muestral hay que calcular la cuasivarianza y, poste-
riormente, la varianza del estimador. Sus resultados son:
15
∑ (xi − x )2
i =1 812
ŝ 2 = = = 58
15 − 1 14
1 2 1 2
ŝ 2 N − n 58 15.000 − 15
var (x ) = = = 3,83
n N 15 15.000
E 4,2
E(%) = × 100 = × 100 = 13,54 %
x 31
64 © Ediciones Pirámide
Nŝ 2 1.500(58)
n= = = 87,33 turistas
NE 2 1.500(1,55)2
2
2
ŝ + 58
z0,05/2 (1,96)2
Los gastos totales en consumo que diariamente realizan los turistas en la ciu-
dad ascienden a:
x̂ = N × x = 1.500 × 31 = 46.500 €
Esta variable diferencia a los turistas según sean extranjeros (caso favorable)
o nacionales. Para obtener qué porcentaje de turistas que visitan la ciudad son
extranjeros, tenemos que:
15
15 ∑ ai
i =1 12
∑ ai = 12 ò p̂ =
15
=
15
= 0,80
i =1
es decir, el 80 % de los turistas que visitan la ciudad son extranjeros, siendo el por-
centaje de los turistas nacionales que la visitan igual a q̂ = (1 − p̂) = (1 − 0,8) = 0,2,
es decir, el 20 %.
En cuanto a la varianza de la proporción y su error de muestreo, tenemos
que:
1 2 1 2
p̂(1 − p̂) N − n 0,8(1 − 0,8) 1.500 − 15
var ( p̂) = = = 0,0105
n N 15 15.000
© Ediciones Pirámide 65
El error muestral es muy elevado (un 20 %). Por tanto, para estimar la pro-
porción con un error del 5 % (E = 0,05), asumiendo las proporciones muestrales
estimadas como conocidas, tenemos que:
15
15 ∑ ai
i =1 4
∑ ai = 4 ò p̂ =
15
=
15
= 0,267 ò q̂ = 0,733
i =1
1 2 1 2
p̂(1 − p̂) N − n 0,267(0,733) 1.500 − 15
var ( p̂) = = = 0,0129
n N 15 15.000
es decir, el error muestral es del 22,30 %. Si el error tiene que ser del 5 %, el nú-
mero de turistas a muestrear debería ser:
66 © Ediciones Pirámide
d) Una vez obtenidas las estimaciones de las variables nacionalidad y per-
nocta se puede construir una tabla 2 × 2 con las categorías de las variables cua-
litativas. Para ello, hay que multiplicar las proporciones entre las diferentes cate-
gorías de las dos variables para obtener una tabla de probabilidades conjuntas,
como se exponen en la siguiente tabla.
Siguiendo el ejemplo, con las proporciones estimadas para las variables na-
cionalidad y pernocta, se construye la tabla de probabilidades a partir de los pro-
ductos de dichas proporciones:
p̂ Nacionalidad q̂ Nacionalidad
Tabla de probabilidades
Según la tabla anterior, hay un 21,4 % de los turistas extranjeros que pernoc-
tan. Si se multiplica ese porcentaje por los 1.500 turistas que componen la po-
blación objetivo, resulta que, aproximadamente: 0,214 × 1.500 = 321 turistas ex-
tranjeros pernoctan en la ciudad. Sólo el 5,3 % de los turistas nacionales
pernoctan en la ciudad, es decir, 0,053 × 1.500 = 79 turistas. El 14,7 % de los tu-
ristas que no pernoctan son nacionales.
© Ediciones Pirámide 67
L
N = N1 + N2 + ! + N L = ∑ Nh
h =1
siendo L el número de estratos. Una vez fijados los tamaños de los estratos
(N1, N2, ..., NL) se selecciona, dentro de cada uno de los mismos, aleatoriamen-
© Ediciones Pirámide 69
te, una muestra de tamaño nh, h = 1, 2, ..., L, y los tamaños de estas muestras in-
dependientes se denotan por (n1, n2, ..., nL). Con este procedimiento se completa
la muestra definitiva n, formada por la suma de las de cada estrato:
L
n = n1 + n2 + ! + nL = ∑ nh
h =1
N1 n1
N2 n2
N3 n3
70 © Ediciones Pirámide
L L
1
xst =
N
∑ N h xh = ∑ Wh xh
h =1 h =1
Nh
Wh =
N
nh
1
xh =
nh
∑ xih
i =1
1 2 1 21 2
L L L
1 1 1 N h − nh ŝh2
var (xst ) = var
N
∑ Nh xh =
N2
∑ Nh2 var (xh ) = N2
∑ Nh2 Nh nh
=
h =1 h =1 h =1
1 2 1 2
L L
1 ŝh2 ŝh2
=
N2
∑ Nh2 (1 − fh )
nh
= ∑ Wh2 (1 − fh )
nh
h =1 h =1
1 21 2 y ŝ
N h − nh ŝh2
siendo var (xh ) = 2
h la cuasivarianza de cada estrato:
Nh nh
nh
∑ (xih − xh )2
i =1
ŝh2 =
nh − 1
© Ediciones Pirámide 71
o, lo que es lo mismo:
nh
∑ xih2 − nh xh2
i =1
ŝh2 =
nh − 1
L
1 ŝh2
E = tα /2; n − 1 var (xst ) = tα /2; n − 1
N2
∑ Nh2 (1 − fh )
nh
h =1
L
1 σ h2
E = zα /2 var (xst ) = zα /2;
N2
∑ Nh2 (1 − fh )
nh
h =1
Tenemos que:
L
E2 1 σ h2
=
zα2 /2 N 2
∑ Nh2 (1 − fh )
nh
h =1
o, lo que es lo mismo:
1 2
L L L
N 2E2 N h − nh σ h2 σ2
zα2 /2
= ∑ N h2
Nh nh
; ∑ N h2 h − ∑ N hσ h2
nh h = 1
h =1 h =1
72 © Ediciones Pirámide
De esta forma,
L L
N 2E2 N h2σ h2
zα2 /2
+ ∑ N hσ h2 = ∑ nh
h =1 h =1
nh
wh = ò nh = nwh
n
L L
N 2E2 N h2σ h2
zα2 /2
+ ∑ Nhσ h2 = ∑
h =1 h = 1 nwh
y, despejando n:
L
N h2σ h2
∑
h = 1 wh
n= L
N 2E2
zα2 /2
+ ∑ N hσ h2
h =1
Como se puede apreciar, n depende del criterio del reparto (wh) que se apli-
que. Este criterio de reparto o afijación muestral se explicará en el epígrafe 3.3
de este capítulo.
1 2
L
∑ Nh xh L
h =1
x̂st = Nxst = N
N
= ∑ Nh xh
h =1
© Ediciones Pirámide 73
L
ŝh2
var ( x̂st ) = var (Nxst ) = N 2 var (xst ) = ∑ Nh2 (1 − fh )
nh
h =1
L
ŝh2
E = tα /2; n − 1 var ( x̂st ) = tα /2; n − 1 var (Nxst ) = tα /2; n − 1 ∑ N h2 (1 − fh )
nh
h =1
L
1
p̂st =
N
(N1 p̂1 + ! + N L p̂h ) = ∑ Wh p̂h
h =1
74 © Ediciones Pirámide
donde:
nh
∑ aih
i =1
p̂h =
nh
L
var ( p̂st ) = ∑ Wh2 var ( p̂h )
h =1
p̂h q̂h
var ( p̂h ) = (1 − fh )
nh
L
p̂h q̂h
var ( p̂st ) = ∑ Wh2 (1 − fh )
nh
h =1
L
p̂h q̂h
E = zα /2 var ( p̂st ) = zα /2 ∑ Wh2 (1 − fh )
nh
h =1
L
N h2 p̂h q̂h
∑ w
h =1 h
n= L
N 2E2
zα2 /2
+ ∑ N h p̂h q̂h
h =1
© Ediciones Pirámide 75
1 2
N h nh N
Wh = = = wh ò nh = n h
N n N
76 © Ediciones Pirámide
sujeto a:
∑ nh = n
h =1
1 2 1 2
L L L
σ h2
φ (ni , λ ) = var (xst ) + λ ∑ nh − n = ∑ Wh2 (1 − fh )
nh
+λ ∑ nh − n
h =1 h =1 h =1
∂φ (nh , λ ) σ2
= −Wh2 2h + λ = 0 , h = 1, 2,..., L
∂nh nh
L
∂φ (nh , λ )
∂λ
= ∑ nh − n = 0
h =1
σ h2 N h2 σ h2 N σ Nσ
λ = Wh2 2
= 2 2 ò λ = h h ò nh = n L h h
nh N nh N nh
∑ Nhσ h
h =1
© Ediciones Pirámide 77
(Nh), también considera las desviaciones típicas (sh). De esta forma, si un estra-
to pequeño tiene una varianza muy grande (impreciso), se le puede compensar
dándole un peso mayor que otros estratos que pueden tener más individuos, pero
con menores varianzas.
El tamaño muestral n se estima atendiendo a la expresión del error debido al
muestreo, de tal manera que:
L
N h2σ h2
∑
h = 1 wh
n= L
N 2E2
+ ∑ N hσ h2
zα2 /2 h =1
con wh igual a:
N hσ h
wh = L
∑ Nhσ h
h =1
sujeto a:
∑ nh = n
h =1
1 ∑ n − n2 = ∑ 1 ∑ n − n2
L L L
σ2
φ (ni , λ ) = var ( x̂st ) + λ h N h2 (1 − fh ) h + λ h
h =1 h =1 nh h =1
∂φ (nh , λ ) σ2
= −N h2 2h + λ = 0 , h = 1, 2,..., L
∂nh nh
L
∂φ (nh , λ )
∂nh
= ∑ nh − n = 0
h =1
78 © Ediciones Pirámide
con wh igual a:
N hσ h
wh = L
∑ Nhσ h
h =1
sujeto a:
L
∑ ch nh = C
h =1
1 ∑ c n − C2
L
φ (nh , λ ) = var (xst ) + λ h h
h =1
N hσ h
ch
wh = L
∑ N kσ k
k =1
ck
© Ediciones Pirámide 79
N hσ h
ch
nh = n L
∑ N kσ k
k =1
ck
N hσ h
nh = n L
∑ Nhσ h
h =1
Nh
nh = n
N
ph qh
Nh
ch
nh = n L
pk qk
∑ Nk ck
k =1
80 © Ediciones Pirámide
N h ph qh
nh = n L
∑ Nk ph qh
k =1
1 152 1 12 222 1
2 65 0 13 185 1
3 225 1 14 68 0
4 170 1 15 69 0
5 60 0 16 74 0
6 74 0 17 205 1
7 186 1 18 88 0
8 75 0 19 175 1
9 155 1 20 86 0
10 90 0 21 71 0
11 210 1 22 68 0
Se sabe que la población objetivo está formada por 2.500 turistas, de los cua-
les 1.075 han optado por alojarse en un hotel.
Cuestiones
© Ediciones Pirámide 81
Solución
Diseño muestral
22
x 2.773
x= ∑ 22i = 22
= 126,04
i =1
22
∑ (xi − x )2
i =1 78.676,95
ŝ 2 = = = 3.746,52
22 − 1 21
N − n 2.250 − 22
= = 0,99
N 2.250
1 2
ŝ 2 3.746,52
var (x ) = (1 − f ) = 0,99 × = 168,62
n 22
82 © Ediciones Pirámide
E 27,04
E(%) = × 100 = = 21,45 %
x 126
2
xst = ∑ Wh xh
h =1
1.075 1.425
W1 = = 0, 43 ; W2 = = 0,57
2.500 2.500
10
x 1.885 888
x1 = ∑ 10i1 =
10
= 188,5 ; x2 =
12
= 74
i =1
© Ediciones Pirámide 83
2
xst = ∑ Wh xh = 0,43 × 188,5 + 0,57 × 74 = 123,20
h =1
10
∑ (xi1 − x1 )2
i =1 6.186,5 888
ŝ12 = = = 687,38 ; ŝ22 = = 80,72
10 − 1 9 12 − 1
1 2
2
ŝh2
var (xst ) = ∑ Wh2 (1 − fh ) nh
=
h =1
1 21 2 1 21 12 2 = 15,00
1.075 − 10 687,38 1.425 − 12 80,72
= (0,43)2 + (0,75)2
1.075 10 1.425
Con este valor de la varianza, el error muestral del gasto medio con un nivel
de confianza del 95 % es:
En términos relativos, el error representa un 6,54 % del gasto medio, dado que:
E 8,06
E(%) = × 100 = = 6,54 %
xst 123,2
84 © Ediciones Pirámide
2
N h2 ŝh2 1.0752 × 687,38 1.4252 × 80,72
∑ +
h = 1 wh 0,69 0,31
n= 2 2 = = 40,44
N E 2
2.500 × 5
2 2
+ ∑ N h ŝh
2 + [(1.075 × 687,38) + (1.425 × 80,72)]
2
z0,05/2 h =1 1,962
n1 = 40 × 0,69 = 28
n2 = 40 × 0,31 = 12
c) En resumen, con los mismos datos se consigue mayor precisión usando
el muestreo estratificado. En este ejercicio, cuando se usa muestreo aleatorio sim-
ple, el error muestral del gasto medio es del 21 % (26 €). Sin embargo, clasifican-
do los datos en dos estratos mediante el tipo de alojamiento, y aplicando mues-
treo estratificado, el error muestral del estimador del gasto medio es sólo del
6,54 % (8,06 €).
Ejercicio 2
© Ediciones Pirámide 85
ID Rentas Distritos
1 16 1
2 13 1
3 24 1
4 31 1
5 19 1
6 21 1
7 156 2
8 174 2
9 169 2
10 175 2
11 160 2
12 393 3
13 388 3
14 395 3
15 390 3
15 15
Cuestiones
Solución
Diseño muestral
86 © Ediciones Pirámide
15
∑ xi
i =1 2.524
x= = = 168,26
15 15
1 2 1 2
ŝ 2 N − n 21.577,27 2.500 − 15
var (x ) = = = 1.438,48(0,994) = 1.429,85
n N 15 2.500
1 2
15
1 755.280 − 16(168,26)2
ŝ 2 =
15 − 1
∑ xi2 − 15x 2 =
14
= 21.577,27
i =1
siendo su porcentaje:
E 80,92
E(%) = × 100 = × 100 = 48,08 %
x 168,26
Puesto que el error muestral es del 48 %, lo que es muy elevado, si deseamos
reducirlo, deberíamos aumentar el tamaño de la muestra. Por ejemplo, si se de-
sea que el error debido al muestreo no supere los 15 € (E = 15), el tamaño mues-
tral será igual a:
Nŝ 2 2.500(21.577,27)
n= = = 321,04
NE 2 2.500(15)2
2
+ ŝ + 21.577,27
z0,05/2 1,962
© Ediciones Pirámide 87
nh = 6 5 4
N h − nh
= 0,99 0,99 0,99
Nh
Nh
Wh = = 0,44 0,32 0,24
N
nh
1 2=
n
1
ŝh2 =
nh − 1
∑ xih2 − nh xh2 40,27 71,7 9,67
i =1
1 2
ŝ 2 N − n
Wh2 = 6,67 14,25 2,40
n N
3
xst = ∑ Wh xh = 157,29
h =1
1 2
3
ŝ 2 N − n
var (xst ) = ∑ Wh2 n N
= 23,33
h =1
88 © Ediciones Pirámide
E 10,34
E(%) = × 100 = = 6,57 %
xst 157,29
Comparando los resultados del muestreo estratificado con los resultados del
muestreo aleatorio simple, se observa que el error muestral ahora es del 6,57 %
frente al 50 % del aleatorio simple, indicando un reducción considerable del mis-
mo al estratificar la muestra.
Ejercicio 3
1 25 45 19 10
2 30 42 17 9
3 24 48 15 12
4 26 47 16 11
5 28 46 17 8
6 24 41 19 10
7 22 39 15 6
8 28 44 14 15
9 23 48 11 18
10 26 46 13 9
11 28 41 16 7
12 27 38 19
13 25 39 15
14 30 47
15 27 40
16 29 35
17 31
18 28
18 16 13 11
© Ediciones Pirámide 89
Se sabe que la población diaria está formada por 500 viajeros, repartidos
como sigue:
Cuestiones
a) Estimar los gastos medios y los gastos totales, así como sus respectivos
errores muestrales.
b) Mediante el criterio de afijación de varianza mínima, determinar el ta-
maño apropiado de la muestra si el error muestral no puede superar los
0,5 €.
Solución
Diseño muestral
N1 165 n1 18
W1 = = = 0,33 ; w1 = = = 0,31
N 500 n 58
N2 128 n2 16
W2 = = = 0,26 ; w2 = = = 0,28
N 500 n 58
N 110 n 13
W3 = 3 = = 0,22 ; w3 = 3 = = 0,22
N 500 n 58
N 97 n 11
W4 = 4 = = 0,19 ; w4 = 4 = = 0,19
N 500 n 58
1 18 481 1 16 686
x1 = ∑x =
18 i = 1 i1 18
= 26,72 ; x2 = ∑ x = 16 = 42,87
16 i = 1 i 2
1 13 206 1 11 115
x3 = ∑
13 i = 1
xi 3 =
13
= 15,85 ; x4 = ∑
11 i = 1
xi 4 =
11
= 10,45
90 © Ediciones Pirámide
= 25,44
∑ xi12 − n1x12
i =1 12.963 − 18(26,7)2
ŝ12 = = = 7,70
18 − 1 17
16
∑ xi22 − n2 x22
i =1 29.656 − 16(42,9)2
ŝ22 = = = 13,96
16 − 1 15
13
∑ xi23 − n3x32
i =1 3.334 − 13(10,8)2
ŝ32 = = = 7,39
13 − 1 12
11
∑ xi24 − n4x42
i =1 1.325 − 11(10,5)2
ŝ42 = = = 11,22
11 − 1 10
1 2 1 2 1 2 1 2
n1 18 n 16
(1 − f1 ) = 1 − = 1− = 0,89 ; (1 − f2 ) = 1 − 2 = 1 − = 0,88
N1 165 N2 128
1 2 1 2 1 2 1 2
n3 13 n 11
(1 − f3 ) = 1 − = 1− = 0,88 ; (1 − f4 ) = 1 − 4 = 1 − = 0,89
N3 110 N4 97
1 2 1 2 1 2
4
ŝh2 7,70 13,96
var (xst ) = ∑ Wh2 (1 − fh )
nh
= (0,33)2 (0,89)
18
+ (0,26)2 (0,88)
16
+
h =1
© Ediciones Pirámide 91
E 0,77
E(%) = × 100 = × 100 = 2,97 %
xst 25,44
165 × 7,70
w1 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × 11,22 )
458
= = 0,29
1.560
128 × 13,96
w2 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × 11,22 )
478
= = 0,31
1.560
110 × 7,39
w3 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × 11,22 )
299
= = 0,19
1.560
97 × 11,22
92 w4 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × © Ediciones
11,22 ) Pirámide
325
= = 0,21
1.560
siendo:
4
N h2 ŝh2 1652 × 7,70 1282 × 13,96 1102 × 7,39 972 × 11,22
∑ =
0,29
+
0,31
+
0,19
+
0,21
=
h = 1 wh
= 2.434.014,95
= 4.958,62
Ejercicio 4
Una ciudad de 600 habitantes está dividida en tres estratos (zona turística,
zona comercial y zona residencial). Se desea conocer la edad media de los habi-
© Ediciones Pirámide 93
17 25 75
29 62 89
34 45 55
15 23 96
31 77
64
Cuestiones
Solución
Diseño muestral
a) Para estimar la media, primero estimaremos las medias dentro de cada
uno de los estratos, de tal manera que:
1 4 17 + 29 + 34 + 15
x1 = ∑
4 i =1
xi1 =
4
= 23,75
1 5 25 + 62 + ! + 31
x2 = ∑
5 i =1
xi 2 =
5
= 37,20
1 6 75 + 89 + ! + 64
x3 = ∑
6 i =1
xi 3 =
6
= 76,00
94 © Ediciones Pirámide
N1 n 4
W1 = = w1 = 1 = = 0,27
N n 15
N2 n 5
W2 = = w2 = 2 = = 0,33
N n 15
N3 n 6
W3 = = w3 = 3 = = 0,40
N n 15
1 2
3
ŝh2
var (xst ) = ∑ Wh2 (1 − fh )
nh
h =1
donde:
n1 n2 n3
f1 = ; f2 = ; f3 =
N1 N2 N3
Nh n
Wh = = wh = h ò N h = Nwh
N n
1
Este método de expansión es ampliamente utilizado en los estudios con muestreo aleato-
rio estratificado cuando es muy difícil determinar el tamaño poblacional. Así, cuando los Nh
son desconocidos pero se supone que existe proporcionalidad entre la muestra y la población,
éstos se pueden estimar a partir del método de expansión.
© Ediciones Pirámide 95
así:
N1 n 4
W1 = = w1 = 1 = = 0,267 ò N1 = w1N = (0,267)600 = 160,00
N n 15
N2 n 5
W2 = = w2 = 2 = = 0,333 ò N2 = w2 N = (0,33)600 = 199,80
N n 15
N3 n 6
W3 = = w3 = 3 = = 0,4 ò N3 = w3 N = (0,4)600 = 240,00
N n 15
nh
fh =
Nh
4 5 5
f1 = ; f2 = ; f3 =
160 200 240
Por último, para obtener la varianza de la media hay que estimar las cuasi-
varianzas muestrales de cada estrato:
nh
∑ xih2 − nh xh2
i =1
ŝh2 =
nh − 1
96 © Ediciones Pirámide
∑ xi12 − 4x12
i =1 2.511 − 4(23,75)2
ŝ12 = = = 84,91
4−1 3
5
∑ xi22 − 5x22
i =1 7.984 − 5(37,2)2
ŝ22 = = = 266,20
5−1 4
6
∑ xi23 − 6x32
i =1 35.812 − 6(76)2
ŝ32 = = = 231,20
6−1 5
siendo la varianza igual a:
1 2 1 21 4 2 +
3
ŝh2 4 84,91
var (xst ) = ∑ Wh2 (1 − fh )
nh
= (0,267)2 1 −
160
h =1
1 21 2 1 21 2
5 266,2 6 231,2
+ (0,333)2 1 − + (0,19)2 1 − = 8,59
200 5 240 6
E 6,27
E(%) = × 100 = × 100 = 12,76 %
xst 49,13
es decir, el error debido al muestreo es de 6,27 años, esto es, del 12,76 %.
b) Dado que el error no debe ser superior a 2 años (E = 2), el tamaño mues-
tral apropiado para un error de 2 años se obtiene sustituyendo ese valor en la ex-
presión:
3
N h2 ŝh2
∑
h = 1 wh
n= 3 =
N 2E2
2
z0,05/2
+ ∑ N h ŝh2
h =1
© Ediciones Pirámide 97
y, por tanto, habría que aumentar el tamaño muestral hasta los 148 individuos.
Por último, para repartir esos 148 individuos entre los tres estratos se utiliza el
criterio de afijación proporcional, teniendo como resultados el siguiente reparto:
⎧ n = 148 × 0,27 ≈ 40
1
nh ⎪⎪
wh = ò nh = nwh ò ⎨ n2 = 148 × 0,33 ≈ 49
n ⎪ n = 148 × 0,40 ≈ 59
⎪⎩ 3
Ejercicio 5
Para una población de 1.000 consumidores divida en dos estratos, se quiere
conocer el tamaño muestral necesario para estimar el consumo medio con el
error debido al muestreo igual a 1 €. Se sabe que:
Estratos Wh Sh ch
1 0,63 3 2
2 0,37 5 3
Solución
Diseño muestral
— Población objetivo: 1.000 consumidores, que conforman la población.
— Unidad muestral: individuos.
— Unidad de medida: unidades monetarias.
— Parámetros: media poblacional.
— Estimadores: media muestral.
— Método de selección muestral: muestreo aleatorio estratificado.
Los valores de wh de afijación óptima se obtienen sustituyendo los correspon-
dientes valores en la expresión:
N1ŝ1 630 × 3
c1 2 1.336,42
w1 = 2 = = = 0,56
N h ŝh 60 × 3 370 × 5 2.404,53
∑ c +
h =1 h
2 3
N2 ŝ2 370 × 5
c2 3 1.068,10
w2 = 2 = = = 0,44
N h ŝh 630 × 3 370 × 5 2.404,53
∑ c +
h =1 h
2 3
2
N h2 ŝh2 (630)2 (3)2 (370)2 (5)2
∑ +
h = 1 wh 0,56 0,44
n= 2 2 2 = 2 2 =
N E (1.000) (1)
+ ∑ N h ŝh
2 + [(630)(30) + (370)(5) ]
2 2
2
z0,05/2 h =1 22
14.157.159,09
= ≈ 53
250.000 + 14.920
Ejercicio 6
Cuestiones
© Ediciones Pirámide 99
Solución
Diseño muestral
a) Antes de comenzar, hay que transformar las variables continuas en va-
riables cualitativas binarias (dicotómicas) para analizar la cuestión planteada.
Por ejemplo, usando la instrucción de Excel [=SI(regionA>1,9%;1;0)], puede ob-
tenerse la variable dicotómica para la región A. A continuación, se muestra la ta-
bla completa con las variables binarias ya calculadas, así como sus sumas y ta-
maños muestrales en la última fila:
1 0 0 1
0 0 0 0
0 1 1 0
0 0 0 1
1 0 0 0
0 0 1 0
0 0 0 1
0 1 1 0
1 0 0 1
0 0 1 0
0 0 0 1
1 0 1 0
0 0 1
0 0
1
0
0
1
0
0
14 12 20 13
1 14 4 1 12 2
p̂1 = ∑
14 i = 1
ai1 =
14
= 0,29 ; p̂2 = ∑
12 i = 1
ai 2 =
12
= 0,17
1 20 7 1 13 6
p̂3 = ∑
20 i = 1
ai 3 =
20
= 0,35 ; p̂4 = ∑
13 i = 1
ai 4 =
13
= 0,46
N1 56 N 39
W1 = = = 0,24 ; W2 = 2 = = 0,17
N 235 N 235
N3 102 N 38
W3 = = = 0,43 ; W4 = 4 = = 0,16
N 235 N 235
4
p̂st = ∑ Wh p̂h = (0,24 × 0,29) + (0,17 × 0,17) + (0,43 × 0,35) + (0,16 × 0,46) = 0,32
h =1
1 2
p̂1q̂1 N1 − n1 0,20
var ( p̂1 ) = W12 = 0,242 × (0,75) = 0,00062
n1 N1 14
1 2
p̂2 q̂2 N2 − n2 0,14
var ( p̂2 ) = W22 = 0,172 × (0,69) = 0,00023
n2 N2 12
1 2
p̂3q̂3 N3 − n3 0,23
var ( p̂3 ) = W32 = 0,432 × (0,80) = 0,00170
n3 N3 20
1 2
p̂4q̂4 N 4 − n4 0,25
var ( p̂4 ) = W42 = 0,162 × (0,66) = 0,00032
n4 N4 13
4
var ( p̂st ) = ∑ Wh2V ( p̂h ) = 0,00289
h =1
siendo el error muestral del 10,54 %, que se obtiene de la siguiente expresión asu-
miendo normalidad:
4
N h2 p̂h q̂h
∑ w
h =1 h
n= 4 =
N 2E2
2
z0,05/2
+ ∑ N h p̂h q̂h
h =1
N hSh
ch
wh = 4
N hSh
∑ ch
i =1
N3 p̂3q̂3 N 4 p̂4q̂4
c3 48,65 c4 18,94
w3 = 4
= = 0,45 ; w4 = 4
= = 0,18
N h p̂h q̂h 107,43 N h p̂h q̂h 107,43
∑ ch
∑ ch
i =1 i =1
4
N h2 p̂h q̂h
∑ wh
h =1
n= 4 =
N 2E2
zα2 /2
+ ∑ N h p̂h q̂h
h =1
Por último, el reparto de la muestra de 132 individuos entre los cuatro estra-
tos es:
j + k, j + 2k, ..., j + (n – 1)k
N
k¯
n
j + (n – 1)k ¯ nk ¯ N
∑ xi
i =1
µ=
N
∑ xi
i =1
x =
n
1 2
ŝ 2 N–n
var (x ) =
n N
∑ (xi – x )2
i =1
ŝ 2 =
n–1
1 2
ŝ 2 N–n
E = tα /2;n – 1
n N
N
X = ∑ xi = N µ
i =1
x̂ = Nx
1 2
ŝ 2 N–n
var ( x̂) = N 2
n N
∑ ai
i =1
p=
N
es igual a:
∑ ai
i =1
p̂ =
n
donde la variable ai toma valores unos y ceros, como sabemos. La varianza del
estimador de la proporción es:
1 2
p̂q̂ N – n
var ( p̂) =
n N
E = tα /2 var ( p̂)
En general, se supone que las varianzas del muestreo sistemático son idénti-
cas a las del muestreo aleatorio simple. En concreto, y, por ejemplo, para el caso
de la media, dichas varianzas son iguales a:
1 2
ŝ 2 N–n
var (x ) =
n N
— Muestreo sistemático:
ŝ 2
var (x ) = [1 + (n – 1) ρ ]
n
Demostración
n(n – 1)
k
2
k
2∑ ∑ (xis – x )(x1s – x )
s =1 i < s 1
ρ =
σ 2
kn(n – 1)
donde:
1 k n 1 k n
σ2 = ∑ ∑
kn s = 1 i = 1
(xis – x )2 y x = ∑∑x
kn s = 1 i = 1 is
k
1
var (xs ) =
k
∑ (xs – x )2
s =1
1 n
donde xs = ∑x .
n i = 1 is
k k n k n
1 2 1 2
2 2
1 1 1 nx 1 1
var (xs ) =
k
∑ (xs – x )2 = k
∑ ∑
n i =1
xis –
n
=
k
∑ ∑ (xis – x )2
n i =1
=
s =1 s =1 s =1
1 ⎡ ⎤
n k k
= ⎢ ∑ ∑
Nn ⎢⎣ i =1 s =1
(xis – x ) + 2 ∑ ∑ (xis – x )(x1s – x ) ⎥ =
2
s =1 i < s ⎦⎥
1
= [N σ 2 + N (n – 1)σ 2 ρ ] =
Nn
σ2 2
= [1 + (n – 1) ρ ]
n
var (x–) ≅ var(x–s)
b) Cuando la población está ordenada, esto es, cuando los elementos den-
tro de la población están ordenados en magnitud de acuerdo con algún
esquema, entonces r < 0. En tal caso:
var (x–s) < var(x–)
var (x–s) > var(x–)
a) Para la media:
Nŝ 2
n=
NE 2
+ ŝ 2
zα2 /2
b) Para el total:
Nŝ 2
n=
E2
+ ŝ 2
Nzα2 /2
c) Para la proporción:
Np̂q̂
n=
NE 2
+ p̂q̂
zα2 /2
ns
∑ xi
i =1
x =
ns
∑ xij
j =1
xi =
m
ns ⎡ ns ⎤
1 2
ns 2
∑ (xi – x )2 ⎢ ∑ x2 – 1 ∑ x ⎥
i =1 ⎢ i = 1 i ns i = 1 i ⎥
var (x ) = (1 – f ) = (1 – f ) ⎢ ⎥
ns (ns – 1) ⎣ ns (ns – 1) ⎦
ns
∑ (xi – x )2
i =1
E = tα /2;n – 1 var (x ) = tα /2;n – 1 (1 – f )
ns (ns – 1)
x̂ = Nx
ns
∑ (xi – x )2
i =1
E = tα /2;n – 1 N 2 var (x ) = tα /2;n – 1 N 2 (1 – f )
ns (ns – 1)
∑ p̂ij
j =1
p̂i =
m
mi
∑ aij
j =1
p̂i =
mi
la varianza de la proporción:
ns
∑ ( p̂i – p̂)2
i =1
var ( p̂) = (1 – f )
ns (ns – 1)
y el error muestral:
ns
∑ ( p̂i – p̂)2
i =1
E = zα /2 var ( p̂) = zα /2 (1 – f )
ns (ns – 1)
Cuestiones
Solución
Diseño muestral
a) Para proceder a estimar el gasto medio y el gasto total de los turistas hay
que obtener una muestra sistemática. Considerando que el primer individuo o
arranque debe estar entre las 10 primeras posiciones (valor que coincide con k);
en este ejemplo se ha elegido que el arranque aleatorio comience en el primer tu-
rista. De esta forma, se obtienen los siguientes datos a partir de las posiciones:
(1 + 10): (11 + 10); (21 + 10)...
1 87,26
11 56,62
21 53,38
31 92,94
41 40,85
51 54,14
61 37,41
71 64,92
81 39,94
91 30,56
101 26,51
111 33,05
121 52,31
131 94,12
141 61,67
151 75,65
161 97,29
171 78,60
181 85,67
191 52,93
20
∑ xi
i =1
x = = 60,79
20
20
∑ (xi – x )2
i =1
ŝ 2 = = 517,89
20 – 1
y varianza:
1 2 1 2
ŝ 2 N–n 517,89 200 – 20
var (x ) = = = 23,30
n N 20 200
10,09
E(%) = × 100 = 16,60 %
60,79
x̂ = Nx = 200(60,79) = 12.158
y su varianza
2.017,69
E(%) = × 100 = 16,60 %
12.158
es decir, el error muestral del gasto total es de 2.017,69 unidades monetarias, can-
tidad que representa el 16,6 % del estimador del gasto total.
Turistas Resid
5 0
25 0
45 0
65 0
85 0
105 1
125 1
145 1
165 1
185 1
∑ ai
i =1 5
p̂ = = = 0,5
n 10
1 2 1 2
p̂q̂ N – n 0,5 × 0,5 200 – 10
var ( p̂) = = = 0,024
n N 10 200
Ejercicio 2
La tabla del ejercicio 1 tiene ordenados a 200 turistas. Se pide tomar una
muestra piloto de 40 individuos mediante un muestreo sistemático replicado.
Cuestiones
Solución
Diseño muestral
N 200
k= = =5
n 40
Esto significa que si se toma una única muestra sistemática, se elegiría un nú-
mero entre 1 y 5 como arranque aleatorio.
Sin embargo, en el muestreo sistemático se están replicando 10 muestras, con
lo cual hay que introducir estas réplicas (ns) en el patrón sistemático. Así, k′ = nsk
representa el nuevo patrón sistemático para seleccionar las posiciones que serán
elegidas.
En este ejemplo, el valor del patrón sistemático replicado es k′ = 10 × 5 = 50.
Por tanto, en las muestras replicadas podrán seleccionarse como arranques alea-
torios aquellas posiciones que van de 1 al 50. A continuación, se completan las
muestras replicadas eligiendo cada k′ posiciones. El tamaño de las muestras sis-
temáticas replicadas es:
n 40
= =4
ns 10
Elemento 1 2 3 4
∑ xij
j =1
xi =
m
Elementos
Muestra Media
1 2 3 4
donde:
ns
∑ xi
i =1 60,89 + 35,27 + L + 26,65 521,37
x = = = = 52,137
ns 10 10
⎡ ns ns ⎤
1 2
2
⎢ x2 – 1 ⎥
⎢ ∑ i ∑
ns i =1
xi
⎥
i =1
var (x ) = (1 – f ) ⎢ ⎥
⎢⎣ ns (ns – 1) ⎥⎦
1 2
40 (29.282,69) – 10 (521,37)
1
= 1–
200 2 10(9)
=
= 18,72
x̂ = Nx = 200(52,137) = 10.427,4
Ejercicio 3
1 1 51 0 101 1 151 0
2 0 52 1 102 0 152 0
3 1 53 1 103 1 153 0
4 1 54 1 104 1 154 1
5 0 55 0 105 1 155 0
6 1 56 0 106 1 156 1
7 1 57 0 107 0 157 0
8 1 58 1 108 1 158 1
9 1 59 1 109 0 159 1
10 1 60 0 110 1 160 0
11 0 61 1 111 1 161 1
12 1 62 1 112 1 162 0
13 1 63 1 113 0 163 0
14 0 64 1 114 1 164 0
15 1 65 0 115 1 165 1
16 0 66 1 116 1 166 0
17 1 67 1 117 0 167 1
18 1 68 0 118 0 168 1
19 0 69 1 119 1 169 1
20 0 70 0 120 1 170 1
21 1 71 1 121 0 171 1
22 1 72 0 122 1 172 1
23 1 73 1 123 1 173 0
24 1 74 0 124 1 174 1
25 0 75 1 125 1 175 1
26 1 76 0 126 1 176 1
27 1 77 0 127 0 177 1
28 0 78 1 128 1 178 1
29 1 79 1 129 0 179 1
30 0 80 1 130 1 180 1
31 1 81 0 131 1 181 0
32 0 82 1 132 1 182 1
33 1 83 0 133 1 183 0
34 0 84 1 134 0 184 1
35 1 85 0 135 1 185 1
36 0 86 1 136 0 186 1
37 1 87 1 137 1 187 0
Cuestiones
Solución
Diseño muestral
∑ a1 j p̂2 =
4
= 0,8 p̂3 =
4
= 0,8
3
p̂4 = = 0,6
j =1 2
p̂1 = = = 0,4 5 5 5
m1 5
nsi
∑ p̂i
i =1 0,4 + 0,8 + 0,8 + 0,6
p̂ = = = 0,65
ns 4
1 23 4=
200 – 20 (0,4 – 0,65)2 + (0,8 – 0,65)2 + (0,8 – 0,65)2 + (0,6 – 0,65)2
var ( p̂) =
200 4×3
= 0,00846
Ejercicio 4
1 1
2 1
3 0
n 1
n
∑ ai = 140
i =1
Solución
Diseño muestral
N N 5.000
k= ⇒ n= = = 500
n k 10
por tanto, de una muestra de 500 automóviles, 140 fueron multados. La propor-
ción de multados ha sido del 28 %:
p̂ =
∑ a1 =
140
= 0,28
n 500
1 2 1 2
p̂q̂ N – n 0,28 × 0,72 5.000 – 500
var ( p̂) = = = 0,00036
n N 500 5.000
—
xij representa al individuo j-ésimo que se encuentra dentro del i-ésimo
conglomerado.
1
A diferencia del muestreo estratificado, los estratos deben ser homogéneos dentro de
ellos y heterogéneos entre ellos.
N
M = ∑ Mi
i =1
Mj
— xi = ∑ xij es el valor de la suma total de la variable en el i-ésimo conglo-
j =1
∑ Mi xi
i =1
xC = n
∑ Mi
i =1
∑ (Mi xi – Mi xC )2
1 21 nM 2
N–n 1 i =1
var (xC ) = 2
N n–1
∑ (Mi xi – Mi xC )2
1 21 nM 2
N–n 1 i =1
E = tα /2;n – 1 var (xC ) = tα /2;n – 1 2
N n–1
1 21 nM 2 ŝ
N–n 1
E = tα /2;n – 1 var (xC ) = tα /2;n – 1 2
2
C
N
∑ (Mi xi – MxC )2
i =1
ŝC2 =
n–1
2
Este estimador será estudiado con mayor amplitud en el capítulo 7.
NŝC2
n=
NM 2 E 2
+ ŝC2
tα2 /2,n – 1
x̂C = MxC
∑ (xi – MxC )2
1 2
N–n i =1
= tα /2;n – 1 N 2
Nn n–1
1 2
E2 N–n 2
= N2 ŝC
tα2 /2,n – 1 Nn
NŝC2
n=
E2
+ ŝC2
Ntα2 /2,n – 1
∑ Mi pi
i =1
p̂C = n
∑ Mi
i =1
∑ (Mi pi – Mi p̂C )2
1 2
N–n i =1
var ( p̂C ) =
NnM 2 n–1
∑ (Mi pi – Mi pC )2
i =1
ŝC2 =
n–1
E = zα /2 var ( p̂C )
NŝC2
n=
NE 2 M 2
+ ŝC2
zα2 /2
ŝC2
var (xC ) = (1 – f ) [1 – ρ (M – 1)]
nM
(1 – f ) ˘ 0 ; (M – 1) ˘ 0
n 8
var (xC ) = 0,2148, N = 100, n = 8, ŝC2 = 386.073, M = 14,37 y f = =
N 100
ŝC2
var (xC ) = (1 – f ) [1 – ρ (M – 1)]
nM
tenemos que:
donde el valor negativo indicará que el uso del muestreo por conglomerados
puede ser más recomendable que el muestreo aleatorio simple.
Solución
Diseño muestral
25
∑ Mi xi
i =1 890.491
xC = 25
= = 1.548,7
571
∑ Mi
i =1
25
∑ (Mi xi – Mi xC )2
i =1 32.845.547.541
ŝC2 = = = 1.368.564.480,88
25 – 1 24
1 2 1 21 25(46) 2(1.368.564.480,88) =
N–n 1 108 – 25 1
var (xC ) = ŝ 2 =
2 C 2
N nM 108
= 19.881,95
E = 0,1 × 1.548,7 = 154,87
NŝC2 (108)(1.368.564.480,88)
n= = ≈ 57
NE M2 2
(108)(154,87)2 (46)2
+ ŝC
2
+ 1.368.564.480,88
tα2 /2,n – 1 (2,06)2
es decir, para estimar el consumo medio con esa precisión hay que ampliar la
muestra hasta los 53 conglomerados.
1 2
1.452.342,98
E(%) = × 100 = 18,75 %
7.743.400
Ahora, hay que determinar el tamaño de n para un error del 10 % del gasto
total, es decir, un error igual a:
E = 0,1(7.743.400) = 774.340
NŝC2 147.804.963.934,50
n= 2
= ≈ 57
E (774.340)2
+ ŝC2 + 1.368.564.480,88
tα2 /2,n – 1 108(2,06)2
para realizar el estudio con un error muestral igual al 10 % del valor del gasto to-
tal, son necesarios 53 conglomerados.
Ejercicio 2
Una población está formada por 2.100 individuos repartidos en 150 conglo-
merados y se ha obtenido la siguiente muestra de 15 conglomerados para esti-
mar la proporción de mujeres (ai = 1):
1 10 0,30 3 0,73
2 11 0,55 6 3,09
3 14 0,29 4 1,96
4 13 0,38 5 0,00
5 16 0,38 6 0,03
6 12 0,42 5 0,14
7 15 0,47 7 1,47
8 17 0,24 4 6,54
9 14 0,43 6 0,36
10 18 0,39 7 0,00
11 12 0,42 5 0,14
12 15 0,40 6 0,05
13 19 0,37 7 0,11
14 11 0,36 4 0,06
15 13 0,46 6 0,97
Solución
Diseño muestral
15
∑ Mi pi
i =1 81
p̂C = 15
= = 0,386
210
∑ Mi
i =1
y la varianza de la proporción:
15
∑ (Mi pi – Mi p̂C )2
1 NnM 2
N–n i =1
var ( p̂C ) = 2
15 – 1
15
∑ (Mi pi – Mi p̂C )2
i =1 15,65
ŝC2 = = ≈ 1,118
15 – 1 14
NŝC2
n=
NE M 2
2
2
+ ŝC2
z0,05/2
se puede obtener el tamaño muestral adecuado para que el error no sea superior
al 1 % (E = 0,01), solamente incorporando nuevos individuos:
10(1,118)
n= = 89,05
150(14)2 (0,01)2
+ 1,118
1,962
donde, según los cálculos, para estimar la proporción poblacional de mujeres con
un error muestral del 1 % hay que seleccionar 89 conglomerados.
Ejercicio 3
Conglomerados xi Mi
1 84 12
2 59 12
3 62 18
4 66 15
5 65 16
6 50 14
7 86 15
8 86 10
Solución
Diseño muestral
Conglomerados xi Mi Mi xi (M i xi – xC M i ) 2
1 84 12 1.008 33.020,1
2 59 12 708 13.991,5
3 62 18 1.116 15.234,6
4 66 15 990 1.836,7
5 65 16 1.040 3.808,7
6 50 14 700 69.696,0
7 86 15 1.290 66.122,4
8 86 10 860 29.387,8
∑ Mi
ˆ = i =1 112
M = = 14
8 8
∑ Mi xi
i =1 7.712
xC = 8
= = 68,86
112
∑ Mi
i =1
∑ (M1xi – xC Mi )2
1 2
N–n 1 i =1
var (x ) = =
N nM 2 n–1
1 21 8(14) 21 2
100 – 8 1 233.097,8
= 2
=
100 7
= 19,54
1 68,89 2 × 100 = 15 %
10,45
E(%) =
b) Para calcular el tamaño muestral requerido para que el error de los in-
gresos medios no sea superior a cinco unidades monetarias: E = 5, sólo hay que
sustituir en la expresión:
NŝC2
n=
NE 2 M 2
2
+ ŝC2
t0,05/2;n –1
∑ (Mi xi – xC Mi )2
i =1 233.097,8
ŝC2 = = = 33.299,68
n–1 7
100(33.299,68)
n= = 27,5 ≈ 28
1 2
100(5)2 (14)2
+ 33.299,68
2,362
Ejercicio 4
En un determinado municipio ocurre algo insólito, se están secando y mu-
riendo las palmeras. El ayuntamiento quiere tomar medidas, y quiere saber la
proporción de palmeras enfermas que existen en el municipio. Dado que hay mu-
chos jardines o zonas verdes, se ha decido que lo mejor es tomar como unidad
de estudio estas zonas verdes o los jardines públicos, muestreando cuatro de en-
tre las 50 zonas verdes dispersas por el municipio. Los resultados se presentan en
el cuadro siguiente:
Jardines Mi pi
1 52 0,10
2 56 0,20
3 61 0,03
4 46 0,05
Debido a que existen zonas verdes en los barrancos que se pueden conside-
rar «jardines» con palmeras salvajes, M es desconocido. Por simplicidad, asuma
normalidad en los cálculos de los errores muestrales.
Solución
Diseño muestral
∑ Mi
ˆ = i =1 215
M = = 53,75
4 4
∑ Mi pi
i =1 20
p̂C = 4
= = 0,096
215
∑ Mi
i =1
∑ (Mi pi – Mi p̂C )2
1 NnM 2 1 (50)(4)(53,75) 2
N–n i =1 50 – 4 53,05
var ( p̂C ) = 2
= 2
=
4–1 3
= 0,001408
NŝC2
n=
NE M 2
2
2
+ ŝC2
z0,05/2
siendo:
4
∑ (Mi pi – Mi p̂C )2
i =1 53,05
ŝC2 = = = 17,683
4–1 3
(50)(17,683)
n= = 7,92 ≈ 8
(50)(0,05)2 (53,75)2
+ 17,683
1,962
Es decir, para un error del 5 % son necesarios 8 conglomerados para estimar
la proporción de palmeras del municipio afectadas.
Ejercicio 5
Una cadena de hoteles formada por 360 hoteles está estudiando la posibili-
dad de implantar un nuevo sistema de control de calidad del servicio. Los hote-
les están distribuidos en 30 países (conglomerados). Con una muestra de cuatro
países se obtuvieron las siguientes puntuaciones.
Conglomerados Mi xi
U1 15 77
U2 14 81
U3 13 76
U4 10 91
Solución
Diseño muestral
M 360
M = 360; N = 30; n = 4; M = = = 12
N 30
∑ Mi xi
i =1 4.187
xC = 4
= = 80,52
52
∑ Mi
i =1
∑ (Mi xi – xC Mi )2
1 2 1 21 4(12) 21 2
N–n 1 i =1 30 – 4 1 17.268,1
var (x ) = = =
N nM 2 3 30 2
3
= 8,68
Conglomerados Mi xi Mi xi (M i xi – xC M i ) 2
U1 5 86 430 2.786,6
U2 4 97 388 45,3
U3 3 100 300 3.451,6
U4 5 91 455 10.984,7
1 80,52 2 × 100 = 12 %
9,37
E = tα /2,3 var (xC ) = 3,18 8,68 = 9,37 ⇒ E(%) =
siendo el error muestral igual a 9,37 puntos, es decir, equivalente a un 7,2 % del
valor de la puntuación media.
Ejercicio 6
ID Mi pi
1 100 0,50
2 120 0,14
3 110 0,08
4 123 0,11
5 98 0,36
6 113 0,10
7 109 0,23
8 99 0,18
9 105 0,08
10 121 0,30
Solución
Diseño muestral
ID Mi pi Mi pi (M i xi – p̂C M i ) 2
10
∑ Mi pi
i =1 223,3
p̂C = 10
= = 0,20
1.098
∑ Mi
i =1
sabiendo que:
10
∑ (Mi pi – Mi p̂C )2
i =1 1.944,12
ŝC2 = = = 216
10 – 1 9
por tanto, la proporción poblacional estimada del 20 % posee un error muestral
del 8 %. En este caso, lo más apropiado es aumentar el tamaño de la muestra
para que el error no sea superior al 5 % (E = 0,05). Para ello, se utiliza la siguien-
te expresión:
es decir, para un error muestral del 5 % hay que aumentar el tamaño muestral
hasta los 23 conglomerados.
6.1. INTRODUCCIÓN
El muestreo por conglomerados en dos etapas es una extensión del concepto
del muestreo por conglomerados en una etapa. Un conglomerado es una colec-
ción conveniente de elementos (tales como las manzanas de casas) que contiene
un número elevado de individuos como para obtener una medición de todos ellos.
Por lo general, una vez seleccionados los conglomerados, en una segunda etapa,
se seleccionan dentro de cada conglomerado muestras aleatorias simples de los in-
dividuos que lo forman. Así pues, en el muestreo por conglomerados bietápico se
selecciona, por un lado, una muestra aleatoria de conglomerados, y, por otro
lado, se toma una muestra aleatoria de elementos dentro de cada conglomerado.
Un ejemplo puede ser un estudio de opinión de los universitarios. En una prime-
ra etapa se seleccionan aleatoriamente las universidades y, en una segunda etapa,
se seleccionan aleatoriamente a los estudiantes dentro de estas universidades.
A los conglomerados se les denomina unidades primarias. Dentro de cada
unidad primaria se realiza un submuestreo, con la finalidad de obtener informa-
ción de las unidades últimas.
Las ventajas del muestreo por conglomerados en dos etapas son variadas.
La primera es que se puede obtener una lista de conglomerados fácilmente. La
segunda es que cuando existe cierta homogeneidad entre los conglomerados
muestrales con muestras pequeñas se obtienen buenos resultados. La tercera es
abaratar el muestreo de campo; los individuos que se seleccionan dentro de con-
glomerados están juntos o físicamente próximos.
Entre las desventajas del muestreo, cabe destacar que la precisión es menor,
pues aparecen fuentes de variación que complican los cálculos algebraicos. La
primera fuente de variación es la debida a la selección de las unidades primarias
o conglomerados, y la segunda fuente es debida al submuestreo dentro de cada
conglomerado.
—
N es el número de conglomerados en la población.
—
n es el número de conglomerados seleccionados en el muestreo aleatorio
simple.
—
Mi es el número de elementos poblacionales en el conglomerado i-ésimo.
—
mi es el número de elementos seleccionados dentro del conglomerado
i-ésimo.
N
— M = ∑ Mi es el número de elementos en la población.
i =1
M
— M = es el tamaño promedio de los conglomerados en la población.
N
n
∑ mi
i =1
— m = es el tamaño promedio de los conglomerados en la muestra.
n
xij es la j-ésima observación de la muestra del i-ésimo conglomerado.
—
que es la esperanza (E1), sobre todas las muestras posibles de n unidades prima-
rias, de la esperanza (E2), condicionada a un conjunto fijo de n unidades prima-
rias, sobre todas las submuestras posibles dentro de dicho conjunto.
y sustituyendo el valor:
tenemos que:
y, por tanto:
es decir, la varianza del estimador bietápico está formada por dos fuentes de va-
riación. La primera corresponde al valor esperado de la varianza entre los con-
glomerados, y la segunda a las varianzas dentro de los conglomerados.
∑ Mi xi
1M 2
N i =1
xcb =
n
mj
∑ xij
j =1
xi =
mj
1 21 nM 2ŝ
n 1
var1 [E2 (xcb )] = 1 − 2
2
b
N
donde:
∑ (Mi xi – Mxcb )2
i =1
ŝb2 =
n–1
n
ŝw2i
1 2m
1 mi
E1 [var2 (xcb )] =
nNM 2
∑ Mi2 1−
Mi
i =1 i
donde:
mi
∑ (xij – xi )2
j =1
ŝw2i =
m1 – 1
n
ŝw2i
1 2m
mi
ŜW2 = ∑ Mi2 1 − Mi
i =1 i
1 21 nM 2ŝ + nNM
n 1 1
var (xcb ) = 1 − 2
2
b 2
ŜW2
N
1 2
1 n 2
a) var1 [E2 (xcb )] = 1− ŝb
n N
donde:
∑ (xi – xcb )2
i =1
ŝb2 =
n–1
n
ŝw2i
1 2m
1 mi
b) E1 [var2 (xcb )] =
nN
∑ 1−
M
i =1 i
E = zα /2 var (xcb )
C = c1n + c2 nm
donde c1 y c2 son los costes individuales del trabajo de campo, es decir, de mues-
trear en una primera etapa a los n conglomerados y, después, a los individuos
—
dentro de cada conglomerado, que son en total nm . El valor de m que minimiza
la varianza de la media muestral para un coste total fijo es:
MŜW2 c1
m=
ŝb2 c2
con:
m
ŝw2i
1 2m
mi
ŜW2 = ∑ Mi2 1–
Mi
i =1 i
∑ (Mi xi – Mxcb )2
i =1
ŝb2 =
n–1
1
Si la muestra es pequeña, se utiliza ta/2, n – k.
C
n=
c1 + mc2
n n
∑ Mi xi ∑ Mi xi
1 2
N i =1 i =1
x̂cb = Mxcb = M =N
M n n
1 21 2
n N2 2 N2 2
var ( x̂cb ) = var (Mxcb ) = M 2 var (xcb ) = 1 – ŝb + ŜW
N n n
ya que:
M 1 N2
M = ; =
N M2 M2
E = zα /2 var ( x̂cb )
Por ejemplo, suponiendo que los ingresos medios de una población de 1.500
individuos (M = 1.500) es x–cb = 677 y var (x–cb) = 1.821, la renta total de las fami-
lias de esta población es ligeramente superior al millón de euros:
y su varianza:
125.459,14
E(%) = = 12,35 %
1.016.154
∑ Mi p̂i
i =1
p̂cb = n
∑ Mi
i =1
mj
∑ aij
j =1
p̂i = ; aij = (0;1)
mj
1 21 2 11 – M 2 m
n 1 1 mi p̂i q̂i
var ( p̂cb ) = 1 –
N nM 2
ŝb2 +
nNM 2
∑ Mi2
i =1 i i
1 21 nM 2ŝ + nNM
n 1 1
= 1– 2
2
b 2
ŜW2
N
donde:
11 – M 2 m
mi p̂i q̂i
ŜW2 = ∑ Mi2
i =1 i i
E = zα /2 var ( p̂cb )
1 125 12 0 1 0 0 0 0 1 0 1 0 1 0
2 136 14 1 0 0 0 0 1 1 0 1 0 1 0 0 1
3 125 10 0 1 0 1 0 1 1 0 1 0
4 141 13 0 0 0 1 0 1 0 1 0 1 0 0 0
5 132 14 1 0 1 1 1 0 0 0 0 0 0 1 0 0
6 124 15 0 1 1 0 1 0 0 1 0 0 0 0 1 0 1
7 112 11 0 0 0 0 0 1 1 0 1 1 1
8 153 14 1 0 1 0 0 0 0 1 1 0 0 1 0 1
9 125 9 0 1 0 1 1 0 0 0 1
10 133 10 1 0 1 0 0 1 1 1 0 1
C = 3.550 €
c1 = 5€
c2 = 7€
Solución
Diseño muestral
La siguiente tabla recoge los resultados más relevantes que servirán para
construir los diferentes estimadores:
1 2 1 2m
M i – mi mi p̂i q̂i
Ci Mi mi p§i p§i q§i Mi p§i (M i p̂i – Mp̂cb ) 2 M i2 1 –
Mi Mi i
10
∑ Mi p̂i
i =1 554,4
p̂ = 10
= = 0,42
1.306
∑ Mi
i =1
1 21 nM 2ŝ + nNM
n 1 1
var ( p̂cb ) = 1 – 2
2
b 2
ŜW2
N
= 0,01724
sabiendo que:
10
11 – M 2 m
mi p̂i q̂i
ŜW2 = ∑ Mi2 = 3.096
i =1 i i
C 3.550
n= = = 11
c1 + mc2 5 + 46 × 7
Ejercicio 2
Suponga que está navegando hacia el puerto el barco pesquero Mirage I y
trae su bodega llena de atún fresco. Por otro lado, una empresa china, Chinafish,
está dispuesta a comprar, ahora mismo, toda la carga del barco.
El patrón del barco informa que en la bodega hay 2.500 atunes repartidos en
100 cajas o contenedores.
Las condiciones que pone la empresa china es que si el atún es pequeño, es
decir, si pesa menos de 150 kg, pagaran 10 €/kg. Si el atún es grande, si pesa
150 kg o más, el precio será de 15 €/kg.
Sin pérdida de tiempo, se decide realizar el siguiente muestreo bietápico: en
una primera etapa, seleccionar 10 cajas de atunes. En una segunda etapa, seleccio-
nar aleatoriamente atunes de las cajas elegidas y pesarlos.
Pasada una hora, se dispone de la tabla siguiente, que contiene una muestra
piloto:
Cuestiones
a) ¿Qué precio se debería cobrar por kilo de atún? ¿Cuál es el error mues-
tral?
b) ¿Qué proporción de atunes cumple los requisitos para cobrar 15 €/kg?
Solución
Diseño muestral
ŝw2 i
1 2 1 2m
Cajas M i – mi mi
Mi mi x–i ŝw2 i M i xi (M i xi – Mxcb ) 2 M i2 1 –
de atunes Mi Mi i
M 2.500
N = 100; n = 10; M = 2.500; M = = = 25
N 100
∑ Mi xi
1M 2 1 2.500 21 2
N i =1 100 42.579
xcb = = = 170,3
10 10
1 21 nM 2ŝ + nNM
n 1 1
var (xcb ) = 1 – 2
2
b 2
ŜW2
N
siendo:
10
∑ (Mi xi – Mxcb )2
i =1 8.165.432
ŝb2 = = = 907.270,2
10 – 1 9
ŝw2i
1 2m
10
mi
ŜW2 = ∑ Mi2 1 – Mi
= 821.354
i =1 i
2
Si se usa t0,05/ 2,9 = 2,26, el error es del 15 %.
1 35 9 1 1 0 0 0 0 0 0 0
2 46 11 0 0 0 0 0 0 0 0 1 0 1
3 23 8 1 0 0 1 1 0 1 0
4 35 7 0 0 1 1 1 0 1
5 41 9 1 0 1 0 0 0 0 0 0
6 38 8 1 0 0 1 0 0 0 0
7 22 9 1 0 1 0 0 0 0 0 1
8 36 11 1 0 1 1 1 0 1 0 0 0 0
9 24 9 1 1 0 0 0 1 0 0 1
10 33 10 1 1 0 0 0 1 0 1 1 0
La siguiente tabla resume los principales resultados que serán necesarios para
computar la fórmulas:
1 2 1 2m
Cajas M i – mi mi p̂i q̂i
Mi mi p§i p§i q§i Mi p§i (M i p̂i – Mp̂cb ) 2 M i2 1 –
de atunes Mi Mi i
10
∑ Mi p̂i
i =1 117
p̂ = 10 = = 0,35
333
∑ Mi
i =1
10
11 – M 2 m
10
mi p̂i q̂i
ŜW2 = ∑ Mi2 = 192
i =1 i i
1 21 nM 2ŝ + nNM
n 1 1
var ( p̂cb ) = 1 – 2
2
b 2
ŜW2 =
N
= 0,0018
con lo cual la proporción de atunes que pesan más de 150 kg se reparten entre
el 27 % y 43 % de la carga que trae el barco. Lo justo sería negociar una cantidad
de atunes comprendida entre el 27 % y el 43 % de la carga, vendiéndolos a 15 €/
kg, y el resto de atunes venderlos a 10 €/kg.
Ejercicio 3
Cuestiones
Solución
Diseño muestral
ŝw2 i
1 2 1 2m
M i – mi M i – mi
Agencias M i xi (M i xi – Mxcb ) 2 M i2
Mi Mi i
M 18.500
N = 100; n = 10; M = 18.500 ⇒ M = = = 185
N 100
10
∑ Mi xi
1M 2 118.500 21 2
N i =1 100 5.228
xcb = = = 2,83
10 10
1 21 nM 2ŝ + nNM
n 1 1
var (xcb ) = 1 – 2
2
b 2
ŜW2 =
N
= 0,050
sabiendo que:
10
∑ (Mi xi – Mxcb )2
i =1 164.549
ŝb2 = = = 18.283,22
10 – 1 9
ŝw2i
1 2m
10
Mi – mi
ŜW2 = ∑ Mi2 Mi
= 88.458
i =1 i
Ejercicio 4
Para estudiar la renta media familiar en una ciudad formada por 1.500 fami-
lias, distribuidas en 110 manzanas de viviendas, se ha seleccionado una muestra
piloto de siete manzanas de viviendas y dentro de ellas se han tomado muestras
aleatorias simples de familias. La tabla siguiente contiene los datos:
Ci Mi mi Renta familiar
Cuestiones
Solución
Diseño muestral
M 1.500
N = 110; n = 7; M = 1.500; M = = = 13,6
N 110
mj
∑ xij
j =1
xi =
mj
Así:
Suma 64.664,4
∑ Mi xi
1 2 11.500 21 2
N i =1 110 6.464,4
xcb = = = 67,72
M 7 7
ŝw2 i ŝw2 i
1 2 1 2m
M i – mi mi
Ci Mi mi x–i M i xi (M i xi – Mxcb ) 2 M i2 M i2 1 –
Mi mi Mi i
∑ (Mi xi – Mxcb )2
i =1 13.821.076
ŝb2 = = = 2.303.512,66
n–1 7–1
ŝw2i
1 2m
n
mi
ŜW2 = ∑ Mi2 1–
Mi
= 23.474.512,7
i =1 i
y la varianza es igual a:
1 21 nM 2ŝ + nNM
n 1 1
var (xcb ) = 1 – 2
2
b 2
ŜW2 =
N
= 1.830,77
MŜW2 c1
m=
ŝb2 c2
13.821.076
ŝb2 = = 2.303.512,66 ; ŜW2 = 23.474.512,7 ; c1 = 5 ; c2 = 10
(7 – 1)
en dicha expresión, resulta que por término medio se pueden muestrear 8 indivi-
duos dentro de cada conglomerado:
(13,6)(23.474.512,7)(5)
m= = 8,3 ≈ 8
(2.303.512,66)(10)
C 3.000
n= = = 35,29
c1 + mc2 5 + (8)(10)
∑ xi
i =1
R= N
∑ yi
i =1
∑ xi
i =1
r= n
∑ yi
i =1
x = ry
x̂ = rŷ
∑ xi
i =1
r= n
∑ yi
i =1
∑ (xi – ryi )2
1 2 1 2
N–n 1 i =1 N–n 1 2
var (r) = = s
nN y2 –1
n{ nN y2 r
sr2
donde:
n n n n
Ejercicio 1
Se desea realizar un estudio y estimar la razón de la apreciación o deprecia-
ción de una cartera de acciones debido a la crisis económica. La población está
formada por un paquete de 50 acciones que cotizan en la bolsa. Se dispone de
información completa sobre las cotizaciones antes de la crisis (2007), año en que
la cotización media de la cartera fue de 200 € por acción. En la siguiente tabla
se dispone de una muestra piloto:
1 265,00 196,10
2 163,00 110,84
3 275,00 209,00
4 213,00 159,75
5 477,00 362,52
6 263,00 213,03
7 378,00 287,28
8 133,00 77,14
9 274,00 142,48
10 338,00 236,60
11 408,00 240,72
12 173,00 117,64
13 491,00 328,97
14 231,00 168,63
15 180,00 93,60
Solución
400,00
350,00
300,00
250,00
200,00
150,00
100,00
50,00
0,00
0,00 100,00 200,00 300,00 400,00 500,00 600,00
La razón estimada es del 1,45; al ser mayor que la unidad, las acciones se han
apreciado un 45 %, a pesar de la crisis:
∑ xi
i =1 4.262
r= n = = 1,45
2.944
∑ yi
i =1
1 2
N–n 1 2
var (r) = s
nN µ 2y r
∑ (xi – ryi )2
i =1 18.217
sr2 = = = 1.301,21
n–1 14
115 × 50 2 × (200)
50 – 15 1
var (r) = 2
× 1.301,21 = 0,00152
y tomando como valor crítico ta/2;n – 1 = 2, el error muestral es igual 0,0794; por
tratarse de proporciones es del 7,94 %:
El intervalo para el estimador de la razón con un nivel de confianza del 95 % es:
IC = (r ± E ) = (1,37;1,53)
Por tanto, con una probabilidad del 95 % las acciones se han revalorizado en-
tre un 37 % y un 53 %.
Ejercicio 2
1 1.588 60 5.754,1
2 1.830 72 238,0
3 1.690 64 5.936,1
4 1.623 63 1.242,5
5 1.908 92 168.609,8
6 1.755 71 1.181,3
7 1.543 58 6.603,3
8 1.588 61 2.565,8
9 1.645 63 3.277,4
10 1.677 66 186,1
11 1.650 65 140,3
12 1.688 68 663,8
13 1.776 70 140,0
14 1.590 61 2.772,4
15 1.601 64 142,9
∑ xi
i =1 25.152
r= n = = 25,2
998
∑ yi
i =1
1 2 1 21 2
N–n 2 50 – 15 199.453,6
var ( X̂ ) = var (rYˆ ) = N 2 sr = 502 = 1.662.113,15
nN 15 × 50 14
E 2.578,46
E = 2 var ( X̂ ) = 2.578,46 ò E(%) = × 100 = × 100 = 2 %
X̂ 126.012
IC = ( x̂ ± E ) = (123.433,6;128.590,5)
∑ yi
i =1 5.000
µy = = = 100
N 50
M R
=
N M
M×m
N̂ =
R
Ejercicio 3
Solución
M × m 300 × 40
N̂ = = ≈ 414
R 29
M × (m + 1)
N̂ =
(R + 1)
M × (m + 1) 300 × (40 + 1)
N̂ = = = 410
(R + 1) (29 + 1)
7.3. LA NO RESPUESTA
La no respuesta genera errores ajenos al muestreo. Se producen cuando, en
muestreos por encuestas, el entrevistado, con o sin intención, no da una respues-
ta a cuestiones concretas. Los efectos son más importantes cuando la no respues-
ta es debida a que la persona encuestada no responde porque oculta informa-
ción. Son errores no aleatorios que pueden producir sesgos, por lo que sus
efectos son serios cuando se realizan inferencias.
E =) p̂1 – p̂)
donde:
N1
∑ ai
N1 N i =1
W1 = ; W2 = 2 ; p̂1 = ; p̂2 = 1
N N N1
Ejercicio 4
Se ha observado que una cadena comercial formada por 550 tiendas, cuan-
do un cliente hace una reclamación por escrito, sólo responden a dicha reclama-
ción 430 tiendas. Dentro de estas que responden a las reclamaciones de los clien-
tes resultó que el 65% de las reclamaciones dan la razón al cliente.
Se sospecha que las restantes tiendas no atienden a las reclamaciones porque
el cliente siempre tiene la razón (p§2 = 1). Medir el error de no respuesta:
120
W2 = = 0,22 ; p̂1 = 0,65; p̂2 = 1
550
E = W2 ) p̂1 – p̂2 ) = 0,22 × )0,65 – 1) = 0,077 ò E = 7,7 %
Ejercicio 5
150 2
W2 = = 0,17 ; p̂1 = ≈ 0,67; p̂2 = 1
900 3
E = W2 ) p̂1 – p̂2 ) = 0,17 × )0,67 – 1) = 0,056 ò E = 5,6 %
— La imputación simple, que le asigna al dato que falta el valor de la media.
— La imputación mediante regresión, que realiza un ajuste a una ecuación
lineal sólo para los individuos de los que exista información completa; a
continuación, usando la estimación se predicen los valores omitidos.
— Imputación no paramétrica (hot-deck). Las faltas de respuesta se cumpli-
mentan con las de otros individuos parecidos (individuos donantes).
— Estimación por máxima verosimilitud. Las imputaciones se realizan me-
diante un proceso iterativo que en cada paso va añadiendo nueva infor-
mación, y se detiene cuando converge, cuando las matrices de covarian-
zas estimadas en dos pasos consecutivos son similares.
∑ xi
i =1
X =
k
∑ xij
j =1
xi =
m
1 2
N – n ŝk2
V (X ) =
N k
la cuasivarianza:
∑ (xi – X )2
j =1
ŝk2 =
k –1
el error muestra:
E = tα /2;n – k V (X )
Ejercicio 6
10 i
Encuestadores
∑ xi 1
j =1
xi =
10
1 64,8
2 65,9
3 64,5
4 64,4
5 63,8
6 63,8
7 57,8
8 63,9
9 65,9
10 65,8
11 63,6
12 63,1
13 72,5
14 65,6
Solución
10 i
Encuestadores
∑ xi 1 (xi – X ) 2
j =1
xi =
10
1 64,8 0,02
2 65,9 1,51
3 64,5 0,03
4 64,4 0,07
5 63,8 0,76
6 63,8 0,76
10 i
Encuestadores
∑ xi 1 (xi – X ) 2
j =1
xi =
10
7 57,8 47,22
8 63,9 0,60
9 65,9 1,51
10 65,8 1,27
11 63,6 1,15
12 63,1 2,47
13 72,5 61,29
14 65,6 0,86
Suma 119,52
∑ xi
i =1 905,4
X = = = 64,67
k 14
1 2
N – n ŝk2
var (X ) =
N k
La cuasivarianza es:
∑ (xi – X )2
j =1 119,52
ŝk2 = = = 9,19
k –1 13
1 2
5.000 – 140 9,19
var (X ) = = 0,64
5.000 14
Ejercicio 7
Solución
Diseño muestral
1
Cada estrato se refiere a mercados diferentes donde la empresa vende sus productos.
n1
∑ Mi1xi1
i =1
x1 = n1
∑ Mi1
i =1
mi
∑ xij1
j =1
xi1 =
mi1
ŝb21
1 21 21 n 2 1 2 1 2
n1
n1 1 1 mi1 ŝi12
var (x1) = 1 –
N1 M12
+
n1N1M12
∑ Mi12 1–
Mi1 mi1
1 i =1
n1 mi
n2
∑ xi 2
i =1
x2 =
n2
n
∑ xi 2
i =1
x2 = n
∑ m2i
i =1
ŝb22
1 21 n 2 1 2 1 2
n2
n2 1 mi 2 ŝi22
var (x2 ) = 1 –
N2
+
n2 N2
∑ 1–
Mi 2 mi 2
2 i =1
2
NhM h M
xst = ∑ Wh xh , con: Wh = NM
= h
M
h =1
2
var (xst ) = ∑ Wh2 var (xh )
h =1
El error muestral:
E = zα /2 var (X st )
mi 1
∑ xi 1 n1
11 – M 2 m
mi 1 ŝi21
∑ M i21
i =1
Ui Mi mi ∑ xi xi 1 = mi 1 ŝi21 M i 1 xi 1 (M i 1xi 1 – M 1x1) 2
∑ mi 1
i =1 i1 i1
i =1
∑ Mi1xi1
i =1 3.385.085
x1 = n = = 1.619,66
2.090
∑ Mi1
i =1
n1
∑ (Mi1xi1 – M1x1)2
i =1 26.555.651.293
ŝb21 = = = 2.950.627.921,44
n1 – 1 10 – 1
ŝb21
1 21 21 n 2 1 2 1 2
n1
n1 1 1 mi1 ŝi12
var (x1) = 1 –
N1 M12
+
n1N1M12
∑ Mi12 1–
Mi1 mi1
1 i =1
1 21 (209) 21 2 1 2
10 1 2.950.627.921 1
var (x1) = 1 – + (12.809.100.820) ≈ 6.167
65 2
10 10 × 65 × (209)2
mi 2
∑ xi 2 n2
11 – M 2 m
mi 2 ŝi22
∑ M i22
i =1
Ui Mi mi ∑ xi xi 2 = mi 2 ŝi22 M i 2 xi 2 (M i 2 xi 2 – M 2 x2 ) 2
∑ mi 2
i =1 i2 i2
i =1
n2
∑ Mi 2 xi 2
i =1 283.149
x2 = n2 = = 273,57
1.035
∑ Mi 2
i =1
n2
∑ (Mi 2 xi 2 – M2 x2 )2
i =1 1.606.277.142
ŝb22 = = = 200.784.643
n2 – 1 9–1
ŝb22
1 21 21 n 2 1 2 1 2
n2
n2 1 1 mi 2 ŝi22
var (x2 ) = 1 –
N2 M 22
+
n2 N2 M 22
∑ Mi22 1–
Mi 2 mi 2
2 i =1
1 21 (115) 21 2 1 2
9 1 200.784.643 1
var (x2 ) = 1 – + (22.309.405) ≈ 1.353
45 2
9 9 × 45 × (115)2
2
xst = ∑ Wh xh
h =1
N1 65 N 45
W1 = = = 0,59 ; W2 = 2 = = 0,41
N 110 N 110
2
xst = ∑ Wh xh = 0,59 × 1.619,66 + 0,41 × 273,57 = 1.067,76
h =1
2
var (xst ) = ∑ Wh2 var (xh ) = 0,592 × 6.167 + 0,412 × 1.350 ≈ 2.373,67
h =1
E 97,44
E(%) = × 100 = = 9,12 %
xst 1.068,99
xst – E = 971,35
Intervalo: 5x st + E = 1.166,63
Saldo % saldo
Facturas FVI FVE Saldo > 5 % Estratos
(FVI – FVE) factura
N1 = 100 ; N2 = 75 ⇒ N = 175
N1 100 N 75
W1 = = = 0,57 ; W2 = 2 = = 0,43
N 175 N 175
n1 n2
∑ ai1 ∑ ai 2
i =1 1 i =1 3
p̂1 = = = 0,056 ; p̂2 = = = 0,188
n1 18 n2 16
2
p̂st = ∑ Wh ph = 0,57 × 0,056 + 0,43 × 0,188 = 0,113
h =1
1 2= 1 2
p̂1q̂1 N1 – n1 0,056 × (1 – 0,056) 100 – 18
var ( p̂1) = = 0,0024
n1 N1 18 100
1 2= 1 2
p̂2 q̂2 N2 – n2 0,188 × (1 – 0,188) 75 – 16
var ( p̂2 ) = = 0,0075
n2 N2 16 75
2
var ( p̂st ) = ∑ Wh2 var ( p̂h ) = (0,57)2 × 0,024 + (0,43)2 × 0,0075 = 0,00217
h =1
En resumen, existe un 11,3 % de facturas con las que existen discrepancias en-
tre las pruebas de verificación interna y externa, dándose las mayores discrepan-
cias en el mercado B.
Ejercicio 8
Una población turística ofrece dos tipos de alojamientos: hoteles para turis-
tas de sol y playa y hoteles rurales. En la actualidad, hay alojados 25.200 turis-
tas en los 250 hoteles de la población, de los cuales 150 son de sol y playa y los
restantes 100 hoteles son rurales.
El procedimiento de selección ha consistido en elegir, dentro de cada estrato,
una muestra aleatoria simple de hoteles que son considerados como «conglome-
rados de turistas», y, dentro de cada hotel, se ha anotado el número de turistas
que están alojados, el número de turistas que afirman que repetirían las vacacio-
nes en el hotel y el gasto medio realizado por persona y día durante la estancia
en el hotel.
La finalidad del estudio es estimar la proporción de turistas que están dis-
puestos a repetir la estancia en el hotel.
De encuestas anteriores, se sabe que en total 15.710 turistas contestaron que
repetirían obtener el gasto medio estimado por persona y día y los ingresos to-
tales que se generarían si todos los turistas que responden que repetirían real-
mente lo hicieran.
El diseño muestral debe ser un muestreo estratificado en dos estratos, que di-
ferencia entre los tipos de alojamientos de sol y playa frente a los rurales, y den-
tro de cada estrato se seleccionan aleatoriamente los conglomerados (hoteles)
como unidades en la primera etapa y, como unidades muestrales de la segunda
etapa se elige aleatoriamente una muestra de turistas alojados. En el cuadro si-
guiente se presenta la muestra piloto:
Turismo rural
Turismo rural
nh
∑ Mih p̂ih
i =1
p̂h = nh
∑ Mih
i =1
cuando h = 1 se refiere a los hoteles de sol y playa, con h = 2 son los ho-
teles rurales. Dentro de cada hotel o conglomerado, la proporción de tu-
ristas que repetirían es:
mj
∑ aijh
j =1
p̂ih = mj
∑ Mih
j =1
21 2
nh
L
p̂st = ∑ Wh p̂h
h =1
L
var ( p̂st ) = ∑ Wh2 var ( p̂h )
h =1
L
var (xst ) = ∑ Wh2 var (xh )
h =1
el error muestral:
E = zα /2 var ( p̂st )
nh
1 21 m – 1 2
M ih – mih p̂ih q̂ih
Hoteles Mi1 mi1 ai1 p̂i 1 M i 1 p̂i 1 (M i 1 p̂i 1 – M 1 p̂1) 2 ∑ M h2 M ih
i =1 ih
nh
1 21 m – 1 2
M ih – mih p̂ih q̂ih
Hoteles Mi1 mi1 ai1 p̂i 1 M i 1 p̂i 1 (M i 1 p̂i 1 – M 1 p̂1) 2 ∑ M h2 M ih
i =1 ih
n1
∑ Mi1 p̂i1
i =1 4.392,8
p̂1 = n1 = ≈ 0,514
8.548
∑ Mi1
i =1
N1 = 150 ; n1 = 24
1 21 24 × (356,17) 21 2
24 1 12.737,25 1
var ( p̂1) = 1 – + (1.051,03) ≈ 0,00016
150 2
23 24 × 150 × (356,17)2
Hoteles rurales
nh
1 21 m – 1 2
M ih – mih p̂ih q̂ih
Hoteles Mi1 mi1 ai1 p̂i 1 M i 1 p̂i 1 (M i 1 p̂i 1 – M 1 p̂1) 2 ∑ M h2 M ih
i =1 ih
n2
∑ Mi 2 p̂i 2
i =1 1.222,2
p̂2 = n2 = ≈ 0,688
1.775
∑ Mi 2
i =1
N2 = 100 ; n2 = 20
1 21 20 × (88,75) 21 2
20 1 3.385,88 1
var ( p̂2 ) = 1 – + (250,01) ≈ 0,00092
100 2
19 20 × 100 × (88,75)2
2
p̂st = ∑ Wh p̂h
h =1
N1 150 N 100
W1 = = = 0,6 ; W2 = 2 = = 0,4
N 250 N 250
2
p̂st = ∑ Wh p̂h = 0,6 × 0,514 + 0,4 × 0,688 ≈ 0,584
h =1
2
var ( p̂st ) = ∑ Wh2 var ( p̂h ) = (0,6)2 × 0,00016 + (0,4)2 × 0,00092 = 0,0002
h =1
© Ediciones Pirámide
www.edicionespiramide.es