Sei sulla pagina 1di 208

pi00302001_00.

indd 1 8/3/16 10:47


pi00302001_00.indd 2 8/3/16 10:47
Introducción
a las técnicas
de muestreo

pi00302001_00.indd 3 8/3/16 10:47


pi00302001_00.indd 4 8/3/16 10:47
José Boza Chirino
Jorge V. Pérez-Rodríguez
Profesores titulares de la Universidad de Las Palmas de Gran Canaria (ULPGC)

Javier de León Ledesma


PROFESOR DOCTOR DEL DEPARTAMENTO DE ECONOMÍA FINANCIERA Y CONTABILIDAD
DE LA UNIVERSIDAD DE LAS PALMAS DE GRAN CANARIA (ULPGC)

Introducción
a las técnicas
de muestreo

EDICIONES PIRÁMIDE

pi00302001_00.indd 5 8/3/16 10:47


COLECCIÓN «ECONOMÍA Y EMPRESA»

Director:
Miguel Santesmases Mestre
Catedrático de la Universidad de Alcalá

Edición en versión digital

Está prohibida la reproducción total o parcial


de este libro electrónico, su transmisión, su
descarga, su descompilación, su tratamiento
informático, su almacenamiento o introduc-
ción en cualquier sistema de repositorio y
recuperación, en cualquier forma o por cual-
quier medio, ya sea electrónico, mecánico,
conocido o por inventar, sin el permiso expre-
so escrito de los titulares del copyright.

© José Boza Chirino, Jorge V. Pérez-Rodríguez y Javier de León Ledesma, 2016


© Segunda edición electrónica publicada por Ediciones Pirámide (Grupo Anaya, S. A.), 2016
Para cualquier información pueden dirigirse a piramide_legal@anaya.es
Juan Ignacio Luca de Tena, 15. 28027 Madrid
Teléfono: 91 393 89 89
www.edicionespiramide.es
ISBN digital: 978-84-368-3564-9
Índice

Prólogo................................................................................................................... 11

1. Introducción al muestreo........................................................................... 13

1.1. Introducción. Tipos de muestreo.............................................................. 13


1.1.1. Muestreo no probabilístico.......................................................... 14
1.1.2. Muestreo probabilístico................................................................ 15
1.2. Conceptos básicos del muestreo probabilístico........................................ 16
1.2.1. El diseño muestral........................................................................ 16
1.2.1.1. Espacio muestral........................................................... 16
1.2.1.2. Método de muestreo..................................................... 17
1.2.1.2.1. Cálculo del número de muestras en el espa-
cio muestral y probabilidad de cada una.... 17
1.2.1.2.2. Probabilidades de inclusión........................ 23
1.2.2. Estimación puntual...................................................................... 23
1.2.2.1. Distribución del estimador............................................ 25
1.2.2.2. Propiedades de un estimador........................................ 28
1.2.3. Estimación por intervalos............................................................ 30
1.2.4. Determinación de estimadores insesgados................................... 32
1.2.5. Ejemplos numéricos..................................................................... 35
1.3. El muestreo mediante encuestas. La planificación de la encuesta............ 39

2. Muestreo aleatorio simple......................................................................... 43

2.1. Introducción............................................................................................. 43
2.2. Estimadores de la media, total poblacional y proporciones..................... 44
2.3. Estimador del error de muestreo para una muestra aleatoria simple....... 48
2.3.1. Estimación del error de muestreo................................................. 49
2.4. Selección del tamaño muestral................................................................. 51
2.5. Ejercicios resueltos................................................................................... 54

©  Ediciones Pirámide

pi00302001_00.indd 7 8/3/16 10:47


Índice

3. Muestreo aleatorio estratificado.............................................................. 69

3.1. El muestreo aleatorio estratificado........................................................... 69


3.2. Los estimadores de la media, el total y la proporción en el muestreo es-
tratificado................................................................................................. 71
3.2.1. Estimador de la media de la población........................................ 71
3.2.2. Estimador del total poblacional................................................... 73
3.2.3. Estimador de la proporción......................................................... 74
3.3. Criterios de afijación................................................................................ 76
3.4. Ejercicios resueltos................................................................................... 81

4. Muestreo sistemático.................................................................................. 105

4.1. Introducción. El muestreo sistemático..................................................... 105


4.2. Estimación de la media, el total y la proporción poblacional.................. 106
4.2.1. El problema del cálculo de las varianzas...................................... 108
4.3. Determinación del tamaño de la muestra para un límite de error dado.. 111
4.4. Muestreo sistemático replicado................................................................ 112
4.5. Ejercicios resueltos................................................................................... 114

5. Muestreo por conglomerados.................................................................. 129

5.1. Introducción. El muestreo por conglomerados........................................ 129


5.2. Estimadores de la media y el total para la población.............................. 130
5.2.1. Estimador de la media poblacional.............................................. 130
5.2.2. Estimador del total poblacional................................................... 132
5.3. Estimador de la proporción poblacional.................................................. 133
5.4. Elección entre muestreo por conglomerados y muestreo aleatorio simple.. 134
5.5. Ejercicios resueltos................................................................................... 135

6. Muestreo por conglomerados en dos etapas....................................... 151

6.1. Introducción............................................................................................. 151


6.2. Teorema de Madow.................................................................................. 152
6.3. Estimadores de la media, el total y la proporción.................................... 153
6.3.1. Estimador de la media poblacional.............................................. 154
6.3.2. Estimador del total poblacional................................................... 157
6.3.3. Estimador de la proporción......................................................... 158
6.4. Ejercicios resueltos................................................................................... 159

7. Temas complementarios en el muestreo............................................... 175

7.1. El estimador de la razón.......................................................................... 175

8 ©  Ediciones Pirámide

pi00302001_00.indd 8 8/3/16 10:47


Índice

7.2. Estimación del tamaño poblacional mediante el método de capturas y


recapturas................................................................................................. 182
7.3. La no respuesta........................................................................................ 183
7.3.1. El sesgo producido por la no respuesta....................................... 183
7.3.2. La imputación de valores omitidos.............................................. 185
7.3.3. La evaluación de la información procedente de los encuestado-
res. El método del submuestreo.................................................... 185
7.4. Muestreo con muestras complejas............................................................ 189
7.4.1. Muestreo bietápico estratificado aplicado a un ejemplo de audi-
toría financiera o de estados contables........................................ 189
7.4.2. Muestreo estratificado por conglomerados para proporciones.... 198

Bibliografía............................................................................................................ 205

©  Ediciones Pirámide 9

pi00302001_00.indd 9 8/3/16 10:47


pi00302001_00.indd 10 8/3/16 10:47
Prólogo

¿Cómo puedo seleccionar una muestra para hacer un estudio en ciencias so-
ciales? ¿Qué técnica muestral debo usar? ¿Qué errores puedo cometer cuando se-
lecciono una muestra? De una forma sencilla y rápida, este libro responde a es-
tas cuestiones a todos aquellos interesados en los métodos más comunes dentro
de las técnicas de muestreo, si bien para su lectura son recomendables los cono-
cimientos básicos de la Estadística Descriptiva, del Cálculo de Probabilidades y
de la Estadística Inferencial.
La Inferencia Estadística realiza estimaciones de parámetros o valores pobla-
cionales con la información contenida en una muestra o subconjunto de indivi-
duos de una población. Para la selección de los individuos que formarán la
muestra, dependiendo de determinadas características, se pueden utilizar diferen-
tes técnicas muestrales, y con la selección de la técnica adecuada se obtendrán
estimaciones más precisas. En este sentido, el objetivo de esta obra es la descrip-
ción de la teoría y la práctica de los métodos básicos de muestreo (para seleccio-
nar una muestra) que están basados en el muestreo sin reposición. Para ello, el
libro se ha diseñado pensando en su fácil manejo, incluyendo solamente las for-
mulaciones necesarias y profundizando en aquellos conceptos propios de la com-
binatoria, el cálculo diferencial, las distribuciones de frecuencias, la probabilidad
o la estimación puntual y por intervalo.
Las técnicas que se estudiarán en cada método de muestreo pretenden esti-
mar las características de una población objetivo a través del conocimiento de
los valores medios, los totales de clase o las proporciones correspondientes a va-
riables aleatorias continuas o discretas, con un límite para el error de estimación
en cada una de ellas. De esta forma, será posible estimar el total de activos de
una empresa, la proporción de votantes que están a favor de cierto candidato o
el número promedio de personas que asistieron a un parque temático, entre otras
casuísticas.
Esta obra constituye un excelente aporte para el ámbito universitario y no
universitario, alumnos y docentes, y para aquellos profesionales que requieran

©  Ediciones Pirámide

pi00302001_00.indd 11 8/3/16 10:47


Prólogo

del aprendizaje de las herramientas propias de la Teoría de Muestras, suminis-


trando una base sólida que les habilitará para el uso adecuado de los modelos
básicos de muestreo.
Para lograr este objetivo, el contenido del libro gira en torno a los tipos de
muestreo más generales y fundamentales, estructurándose en siete capítulos con
las siguientes características y contenido.
En el capítulo uno se realiza una introducción al muestreo, destacando y de-
finiendo algunos conceptos de interés que deben tenerse presentes para el resto
del documento. Seguidamente, se analizan los esquemas básicos de muestreo de
unidades elementales, tales como el muestreo aleatorio simple, el cual se trabaja
en el capítulo dos, el muestreo estratificado, al que se le dedica el tercer capítu-
lo, y el muestreo sistemático, que se verá en el capítulo cuatro. En los dos siguien-
tes capítulos, el cinco y el seis, se estudian otros métodos más complejos, como
son el muestreo por conglomerados unietápico (cinco) y el muestreo por conglo-
merados en dos etapas o bietápico (seis). Finalmente, se dedica el capítulo siete
a otros temas complementarios al muestreo aplicados a la práctica. Todos estos
métodos tendrán en común que la forma de seleccionar a las unidades muestra-
les se realiza sin reemplazamiento en la población.
Como podrá observar el lector, los capítulos temáticos se presentan de forma
teórica y práctica, acompañándose los desarrollos formales con ejercicios resuel-
tos y comentados (y los cálculos finales redondeados a dos decimales).

12 ©  Ediciones Pirámide

pi00302001_00.indd 12 8/3/16 10:47


1 Introducción al muestreo

1.1.  INTRODUCCIÓN. TIPOS DE MUESTREO

Uno de los aspectos fundamentales de la estadística de muestras es la dis-


tinción entre población y muestra. La población, también denominada univer-
so (por ejemplo, las viviendas de una ciudad), es una colección finita o infini-
ta de individuos o elementos. La población que se estudia se puede denominar
de diversas maneras: población objetivo o de interés (se excluye una parte de
la población, por ejemplo, viviendas de la ciudad de más de dos plantas), po-
blación investigada o población marco (excluye una parte de la población ob-
jetivo, viviendas de la ciudad de más de dos plantas con menos de 20 años de
antigüedad). A la característica poblacional que se desea estudiar se le denomi-
na parámetro, por ejemplo, consumo de energía de las viviendas de la pobla-
ción marco.
La muestra está formada por un subconjunto de observaciones de la pobla-
ción que se va a analizar. Con la información muestral es posible obtener valo-
res próximos al valor del parámetro mediante los estimadores o clasificar a las
unidades muestrales a partir de atributos.
Hecha esta breve distinción, el muestreo es, por tanto, un conjunto de téc-
nicas que se aplican para la extracción de una muestra de una población. Y, el
valor de la investigación por muestreo dependerá de la concordancia entre la
población marco y la población objetivo, la calidad de los datos y la represen-
tatividad de la muestra, así como el reducido sesgo y el error cometido en la es-
timación.
En la extensa literatura sobre los métodos de muestreo se explican diferentes
procedimientos para seleccionar a los individuos que formarán las muestras. Por
lo general, la clasificación de los tipos de muestreo se hace a partir de dos gran-
des grupos: los probabilísticos y los no probabilísticos.

©  Ediciones Pirámide 13

pi00302001_01.indd 13 8/3/16 10:46


Introducción a las técnicas de muestreo

1.1.1.  Muestreo no probabilístico

Este tipo de muestreo incluye un conjunto de técnicas para la selección de


una muestra donde las unidades muestrales son elegidas mediante criterios
subjetivos y no mediante una selección aleatoria. Por eso, no se pueden me-
dir ni la importancia de los sesgos ni la precisión del estimador. A pesar de
este inconveniente, en la práctica se suele usar por ser barato, rápido y más
fácil que el muestreo aleatorio. Es apropiado para estudiar poblaciones don-
de existen grandes dificultades para obtener información y el tamaño pobla-
cional es desconocido, por ejemplo, estudios sobre el blanqueo de dinero, la
adicción, etc.
Existe una gran variedad de tipos de muestreo no probabilísticos y cada uno
suele responder a determinados tipos de enfoques relacionados con el objetivo
que se estudie. Entre los más usados, destacan:

1.  Muestreo por cuota

Divide a la población en capas o niveles y, siguiendo únicamente el criterio del


encuestador sin que medie ningún criterio aleatorio, dentro de cada nivel se selec-
cionan «cuotas» de individuos. A los entrevistadores se les proporciona una «cuo-
ta» de individuos con unas características determinadas a los que han de entre-
vistar. Por ejemplo, para realizar un estudio de mercado se ha divido a la población
en capas o niveles según sea el medio principal de transporte (1 = transporte pú-
blico, 2 = transporte privado, 3 = otros medios de transporte). Seguidamente, a
un entrevistador se le pide que entreviste las siguientes cuotas: 50 personas que
usen transportes públicos, 25 que utilicen vehículo propio y 15 con otros tipos de
transporte. Se considera un muestreo mixto, porque después de facilitar al entre-
vistador las cuotas a entrevistar, que quizá no tengan mucho que ver con las de
la población, la selección final de la unidad muestral (individuo) se delega al en-
cuestador, por lo que sugiere la posibilidad de considerarlo un muestreo mixto o
«semiprobabilístico».

2.  El muestreo intencional o de opinión

En este método, siguiendo algún propósito, se seleccionan intencionadamen-


te a los «individuos típicos» que formarán la muestra sin tener en cuenta a la po-
blación, que en ocasiones es desconocida (por ejemplo, el número de personas
enamoradas en una población). Dentro de este tipo de muestreo destaca el lla-
mado «muestreo de bola de nieve», que a lo largo de su recorrido va incluyendo
individuos típicos en la muestra. Éste es un método recomendable cuando se tra-
baja con poblaciones conflictivas.

14 ©  Ediciones Pirámide

pi00302001_01.indd 14 8/3/16 10:46


Introducción al muestreo

1.1.2.  Muestreo probabilístico


Este tipo de muestreo se caracteriza porque, para formar la muestra, cada
unidad poblacional tiene una probabilidad de ser seleccionada. Con este mues-
treo es posible realizar inferencias estadísticas y estudiar los errores. Según la téc-
nica que se aplique en la extracción de la muestra, se distinguen diferentes mues-
treos probabilísticos:

1. 
Muestreo aleatorio simple con reposición. Todas los individuos de la po-
blación tienen la misma probabilidad de pertenecer a la muestra, o, lo
que es lo mismo, todas las posibles muestras del mismo tamaño tienen la
misma probabilidad de ser seleccionadas.
2. 
Muestreo aleatorio sin reposición. Todas las unidades y muestras tienen
la misma probabilidad de ser elegidas, pero al ser una población finita,
la probabilidad de que salga un elemento dependerá de los que han sido
extraídos con anterioridad.
3. 
Muestreo estratificado. La población se divide en estratos, o subconjun-
tos poblacionales homogéneos, y dentro de cada uno se realiza una selec-
ción aleatoria de individuos. Los estratos se forman a partir de un crite-
rio, por ejemplo, el estado civil diferencia varios estratos: casados,
solteros, divorciados y viudos; con ello se consigue que las unidades más
heterogéneas entre sí pertenezcan a estratos diferentes y las unidades pa-
recidas se agrupen en el mismo estrato. La ventaja de este método es que
al realizar las estimaciones ponderadas según el peso de los estratos, se
gana precisión en las mismas.
4. 
Muestreo por conglomerados o áreas. Considera que las unidades mues-
trales no son los individuos, sino un subconjunto de ellos que forman los
conglomerados. Se suele aplicar a los muestreos que se refieren a superfi-
cies en que se ha dividido un terreno o territorio en manzanas de casas,
barrios, etc.
5. 
Muestreo bietápico. Es una técnica en la que el muestreo se desarrolla en
dos etapas. Por ejemplo, para estudiar el consumo eléctrico de las vivien-
das de una ciudad. En la primera etapa, se elige una muestra aleatoria de
manzanas de viviendas y, en la segunda etapa, dentro de cada una de esas
manzanas se seleccionan muestras de viviendas. Si el proceso de selección
continúa con más de dos etapas, entonces se le denomina muestreo poli-
fásico.
6. 
Muestro sistemático. Es parecido al muestreo aleatorio simple, pero se
diferencia de él en la forma de seleccionar a las unidades muestrales. El
procedimiento requiere que la población esté ordenada por algún criterio
(alfabético, etc.), y consiste en ir seleccionando individuos siguiendo un
patrón hasta agotar el tamaño muestral deseado. Este método tiene la
ventaja de extender la muestra a toda la población.

©  Ediciones Pirámide 15

pi00302001_01.indd 15 8/3/16 10:46


Introducción a las técnicas de muestreo

1.2.  CONCEPTOS BÁSICOS DEL MUESTREO PROBABILÍSTICO


El objetivo primordial del muestreo consiste en seleccionar muestras signifi-
cativas para la posterior realización de inferencias sobre una población marco o
de interés. Tales inferencias se basan en la información contenida en una mues-
tra seleccionada de la población, donde la investigación se centra en el estudio
de ciertas características de la misma correspondientes a una variable objetivo.
Estas características se denominan parámetros poblacionales, y la estimación de
los mismos se realiza mediante una función de los valores contenidos en la mues-
tra, la cual recibe el nombre de estimador, que es una variable aleatoria que se
obtiene a partir de un muestreo probabilístico.
A continuación, se describen algunos conceptos útiles para entender este tipo
de muestreo.

1.2.1.  El diseño muestral


1.2.1.1.  Espacio muestral
Se define experimento a la observación de un fenómeno físico donde, de cada
realización del mismo (también denominados ensayo o prueba), se obtiene un re-
sultado. Los experimentos pueden ser deterministas, es decir, se predice perfec-
tamente el resultado (por ejemplo, la caída de un cuerpo) o aleatorios, es decir,
aquellos donde su resultado final no puede predecirse con exactitud aunque se
puede afirmar algo con respecto a la frecuencia con que se producen (por ejem-
plo, lanzar una moneda).
La primera etapa en la construcción de un modelo matemático para un ex-
perimento aleatorio se basa en la definición del conjunto de todos los posibles
resultados asociados a dicho experimento y la definición de un conjunto con to-
dos ellos.
Denotemos por Ω = {U1, U2, ..., UN} al conjunto de N unidades que forman
la población de estudio. Supongamos que a cada unidad de la población se la
denomina Ui : i = 1, ..., N, siendo N la cantidad total de individuos de la pobla-
ción.
Denominaremos espacio muestral S al conjunto de muestras posibles en un
procedimiento de muestreo dado. Es decir, todo el espacio muestral S puede di-
vidirse en k muestras posibles, tal que: S = {S1, S2, ..., Sk}, siendo Sj la muestra
j-ésima que contiene n elementos muestrales de una población de N. Estos ele-
mentos muestrales reciben el nombre de unidades de la muestra.
Supongamos que a las unidades muestrales se las denomina por ui: i = 1, ..., n.
A estas unidades pueden asociarse ciertas características, como, por ejemplo, el
peso, la talla, etc. Por tanto, la muestra j-ésima Sj = (u1j, u2j, ..., unj) contendrá
aquellas unidades individuales que tengan una característica común.

16 ©  Ediciones Pirámide

pi00302001_01.indd 16 8/3/16 10:46


Introducción al muestreo

1.2.1.2.  Método de muestreo

Es el procedimiento mediante el que se seleccionan las muestras de modo que


cada una tenga una determinada probabilidad de ser elegida. El método aleato-
rio empleado define, sobre el espacio muestral S, una función de probabilidad P,
k
tal que: P(Sj)  0, ∀ j y ∑ P(S j ) = 1 . Por tanto, el muestreo probabilístico per-
j =1

mite asignar a cada muestra una probabilidad de ser seleccionada de manera que
se puede construir una función P definida en el conjunto de todas las muestras
contenidas en S y que toma valores en el intervalo [0, 1].
El cálculo de la probabilidad de una muestra puede hacerse, en general, par-
tiendo de Sj = (u1j, u2j, ..., unj) como:

P(Sj) = P(u1j)P(u2j /u1j)P(u3j /u1ju2j) ... P(unj /u1j ... unj)

No obstante, la selección de las unidades de la población puede realizarse de


forma sucesiva e independiente, y las probabilidades pueden ser iguales.

1.2.1.2.1. Cálculo del número de muestras en el espacio


muestral y probabilidad de cada una

Atendiendo a los siguientes supuestos podremos determinar tanto el número


de muestras que componen el espacio muestral como las probabilidades de las
muestras. Estos supuestos son los siguientes:

1. La población está formada por N individuos y la muestra está formada


por n.
2. La selección sucesiva e independiente de las unidades de la población
con probabilidades iguales en cada extracción es igual a 1/(N − t),
t = 0, 1, 2, ..., (n − 1).
3. Las muestras que constan de las mismas unidades en distinto orden de
colocación se consideran idénticas.

Considerando el cumplimiento o no de los supuestos 2 y 3, podemos dis-


tinguir varios métodos de selección de muestras. Siguiendo a César Pérez
(1999), distinguimos entre muestreo con y sin reposición de las unidades de la
población, pero también distinguimos en cada muestreo respecto del orden de
colocación en que aparecen las unidades o elementos en las muestras. Así, es-
tos son:

©  Ediciones Pirámide 17

pi00302001_01.indd 17 8/3/16 10:46


Introducción a las técnicas de muestreo

a) Muestreo sin reposición donde no interviene el orden de colocación

El número de muestras en el espacio muestral viene determinado por la si-


guiente expresión:

C N, n = 1Nn 2
que representa las combinaciones de N elementos tomados de n en n. En este
caso, la probabilidad de la muestra estará determinada por:

1 1 1 n!(N – n)!
P(u1 , ..., un ) = = = =
N!
1 2
C N, n N N!
n n!(N – n)!

Un ejemplo es el siguiente. Suponga que la población está formada por los


siguientes elementos: U = {1, 2, 3, 4}. Se desea construir muestras de tamaño 2
sin reposición de las unidades en la población, considerando que no interviene
el orden de colocación de los elementos en la muestra. En este caso, el número
posible de muestras que se obtendrán es:

C4, 2 = 1242 = 6
dado que asumimos que el orden no interviene, es decir, por ejemplo, las mues-
tras (1, 2) y (2, 1) se consideran idénticas. Así, las muestras posibles serán:

S = ({1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4})

Obviamente, al no existir reposición de las unidades en la población, las


muestras (1, 1), (2, 2), (3, 3) y (4, 4) no pueden ocurrir.
Por tanto, las probabilidades de cada una de las muestras posibles serán igua-
les a

1 1
P(Si ) = = , i = 1, ..., 6
C4, 2 6

Es decir, las muestras son equiprobables y cumplen

∑ P(Si ) = 1
i =1

18 ©  Ediciones Pirámide

pi00302001_01.indd 18 8/3/16 10:46


Introducción al muestreo

Estas probabilidades también pueden calcularse usando la regla del produc-


to basada en las probabilidades condicionadas. Veamos el siguiente ejemplo.
Dado que las muestras (1, 2) y (2, 1) son muestras idénticas, sucede que:

1 1 1 1 1 1
P(1, 2) = P(1)P(2/1) = × = y P(2,1) = P(2)P(1/2) = × =
4 3 12 4 3 12

Por tanto, sumando ambas probabilidades tenemos que:

1 1
P(1, 2) + P(2,1) = 2 × =
12 6

Esto sucederá para todas las muestras idénticas que aparezcan en el espacio
muestral.

b) Muestreo sin reposición donde interviene el orden de colocación

En este caso, el número de muestras es igual a variaciones de N elementos to-


mados de n en n, tales que:

VN, n = C N, n Pn = 1Nn 2n!


y la probabilidad de cada muestra es igual a:

1 1
P(u1 , ..., un ) = =
1Nn 2n!
VN, n

Por ejemplo, suponga ahora que la población está formada por los mismos
elementos que en el ejemplo anterior, tal que U = {1, 2, 3, 4}. Se desea construir
muestras de tamaño 2 sin reposición de las unidades en la población, conside-
rando que interviene el orden de colocación de los elementos en la muestra. En
este caso, el número posible de muestras que se obtendrán es:

V4, 2 = 1242 × 2! = 6 × 2 = 12
dado que asumimos que el orden sí interviene. Es decir, por ejemplo, las mues-
tras (1, 2) y (2, 1) no se consideran idénticas. Así, las muestras posibles que com-
ponen el espacio muestral serán:

©  Ediciones Pirámide 19

pi00302001_01.indd 19 8/3/16 10:46


Introducción a las técnicas de muestreo

S = ({1, 2}, {1, 3}, {1, 4}, {2, 1}, {2, 3}, {2, 4}, {3, 1}, {3, 2}, {3, 4},
{4, 1}, {4, 2}, {4, 3})

Por tanto, las probabilidades de cada una de las muestras posibles será igual a:

1 1
P(Si ) = = , i = 1, ..., 12
V4, 2 12

siendo también equiprobables y cumpliendo:

12

∑ P(Si ) = 1
i =1

Este resultado también puede obtenerse, por ejemplo para el caso de la muestra
(1, 2), calculando la probabilidad:

1 1 1
P(1, 2) = P(1)P(2/1) = × =
4 3 12

Pero, como la muestra (1, 2) no es una muestra idéntica a (2, 1), sus probabilida-
des no se suman, tal como ocurría en el caso anterior.

c) Muestreo con reposición donde interviene el orden de colocación

El número de muestras del espacio muestral está determinado por variacio-


nes con repetición de N elementos, tales que VRN, n = N n. Por otro lado, la pro-
babilidad de cada muestra es igual a:

1 1 1 1 1
P(u1 , ..., un ) = = ! = n
VRN, n N N N N

Por ejemplo, suponga que la población está formada por los siguientes ele-
mentos: U = {1, 3, 5}. Para determinar el conjunto S formado por todas las
muestras que resultan de la extracción con reemplazamiento de dos unidades de
esta población de tres elementos, teniendo en cuenta el orden de los elementos,
el número de muestras posibles será igual a VR3, 2 = 32 = 9, estando el espacio
muestral formado por:

S = ({1, 1}, {1, 3}, {1, 5}, {3, 1}, {3, 3}, {3, 5}, {5, 1}, {5, 3}, {5, 5})

20 ©  Ediciones Pirámide

pi00302001_01.indd 20 8/3/16 10:46


Introducción al muestreo

En este caso, las probabilidades de cada muestra son iguales entre sí, tal que:

1 1
P({1, 3}) = ... = P({5, 5}) = =
VR3,2 9

es decir, la probabilidad de todas las muestras es la misma e igual a 1/9, con lo


que este método de selección también produce muestras equiprobables y

∑ P(Si ) = 1
i =1

Al igual que en casos anteriores, usando la regla del producto y consideran-


do la reposición o independencia de los eventos, puede calcularse la probabilidad
de la muestra (1, 3) como

1 1 1
P(1, 3) = P(1)P(3/1) = P(1)P(3) = × =
3 3 9

d) Muestreo con reposición donde no interviene el orden de colocación

El número de muestras del espacio muestral es

CRN, n = 1N +nn – 12
es decir, combinaciones con repetición de N elementos tomados de n en n. Sin
embargo, la probabilidad de las muestras no es la misma para todas ellas, por lo
que este método de selección no produce muestras equiprobables.
Por ejemplo, suponga que la población está formada por los elementos del
ejemplo anterior: U = {1, 3, 5}. El número de muestras del conjunto S formado
por todas las muestras que resultan de la extracción con reemplazamiento de dos
unidades de esta población de tres elementos, sin tener en cuenta el orden de los
elementos, está formado por un número de muestras posibles que será igual a:

CR3, 2 = 13 + 22 – 12 = 1242 = 6
estando el espacio muestral formado por:

©  Ediciones Pirámide 21

pi00302001_01.indd 21 8/3/16 10:46


Introducción a las técnicas de muestreo

S = ({1, 1}, {1, 3}, {1, 5}, {3, 3}, {3, 5}, {5, 5})

Sin embargo, las probabilidades no son iguales para todas las muestras en
este método de muestreo, puesto que al permitirse el reemplazo o reposición de
las unidades en la población, las muestras con idénticos elementos son idénticas.
Por ejemplo, las muestras (1, 3) y (3, 1) son idénticas, pero también lo son las
muestras (1, 5) y (5, 1), y las muestras (3, 5) y (5, 3), respectivamente. En este
sentido, el cómputo de las probabilidades de cada muestra se hará como sigue.
Las probabilidades de las muestras (1, 1), (3, 3) y (5, 5) son iguales a:

1 1 1
P(1,1) = P(1)P(1/1) = P(1)P(1) = × =
3 3 9
1 1 1
P(3, 3) = P(3)P(3/3) = P(3)P(3) = × =
3 3 9
1 1 1
P(5, 5) = P(5)P(5/5) = P(5)P(5) = × =
3 3 9

Las probabilidades de los elementos restantes se calculan atendiendo a que,


por ejemplo, las muestras (1, 3) y (3, 1) son idénticas, y por tanto las probabili-
dades deben sumarse. Así, estas probabilidades pueden computarse como:

P(1, 3) + P(3,1) = P(1)P(3/1) + P(3)P(1/3) = P(1)P(3) + P(3)P(1) =


1 1 1 1 2
= × + × =
3 3 3 3 9
P(1, 5) + P(5,1) = P(1)P(5/1) + P(5)P(1/5) = P(1)P(5) + P(5)P(1) =
1 1 2
=2× × =
3 3 9
P(3, 5) + P(5, 3) = P(3)P(5/3) + P(5)P(3/5) = P(3)P(5) + P(5)P(3) =
1 1 2
=2× × =
3 3 9

En general, estos resultados implican varios hechos:

1. Las probabilidades de las muestras no son iguales a:

1 1
=
CR3, 2 6

22 ©  Ediciones Pirámide

pi00302001_01.indd 22 8/3/16 10:46


Introducción al muestreo

2. Las muestras no idénticas tienen probabilidades iguales a 1/9.


3. Las probabilidades de las muestras consideradas idénticas tienen proba-
bilidad 2/9.

Tal y como podemos observar, las probabilidades de las muestras no son


iguales, produciendo que las muestras no sean equiprobables. Por supuesto, la
suma de todas las probabilidades es igual a la unidad.

1.2.1.2.2.  Probabilidades de inclusión

Son las probabilidades de pertenencia a la muestra correspondientes a una


unidad de la población.
Recordemos que Ω = {U1, U2, ..., UN} es el conjunto de N unidades que for-
man la población de estudio y S = {u1, u2, ..., un} es el subconjunto de n unida-
des que forman la muestra S, seleccionada del espacio Ω según un determinado
procedimiento de muestreo.
Para representar la pertenencia o no a la muestra de una unidad de la pobla-
ción se define la variable indicador de pertenencia a la muestra como la siguien-
te aplicación:

Ik : S → [0, 1]

de manera que Ik(S) = 1 si uk ∈ S e Ik(S) = 0 si uk ∉ S, ∀ uk ∈ Ω. Por tanto, te-
niendo en cuenta que Ik es una variable aleatoria de Bernouilli definida sobre S,
las probabilidades de inclusión y no inclusión son iguales a P[Ik(S) = 1] = pk y
P[Ik(S) = 0] = 1 − pk, respectivamente. Además, la media y la varianza de la va-
riable de Bernouilli son iguales a E[Ik(S) = 1] = pk y var [Ik(S) = 1] = pk(1 − pk),
respectivamente.
Por ejemplo, tal y como veremos, en un muestreo aleatorio simple sin reem-
plazamiento, pk = n/N, es decir, las probabilidades son iguales a n/N para todas
las unidades.

1.2.2.  Estimación puntual

En general, el investigador estima ciertas características de la población que


dependen de la variable de estudio.
En adelante, se denominará a la variable o característica de estudio medida
sobre cada uno de los elementos de la población {X1, X2, ..., XN}, donde Xi re-
presenta el valor de la característica X sobre el elemento i-ésimo de la pobla-
ción.

©  Ediciones Pirámide 23

pi00302001_01.indd 23 8/3/16 10:46


Introducción a las técnicas de muestreo

En la mayoría de las ocasiones estamos interesados en ciertas funciones de


los elementos, tanto de variables cuantitativas como de variables cualitativas. En
el caso en que la variable de estudio X = {X1, X2, ..., XN} sea cuantitativa, como
puede ser el peso, la altura, los ingresos, etc., las funciones matemáticas más co-
munes son el total y la media aritmética de los valores de X. En el caso de que
la variable sea cualitativa, se analiza sobre cada unidad de la población su per-
tenencia o no a una determinada clase. En este caso, si para cada unidad ui,
i = 1, 2, ..., N de la población definimos la característica Ai, que toma el valor 1
si la unidad ui pertenece a la clase A y el valor 0 si la unidad ui no pertenece a la
clase A, podemos definir el total de elementos de la población que pertenecen a
la clase A (total de la clase) y la proporción de elementos de la población que
pertenecen a la clase A (proporción de clase).
Así, las funciones empleadas con mayor profusión en la aplicación de las téc-
nicas de muestreo son:

a) El total de la característica X sobre todos los elementos de la población


es definido por:

N
τ = ∑ Xi
i =1

b) La media aritmética de los valores de X sobre todos los elementos de la


población es definida por:

N
1
µ=
N
∑ Xi
i =1

c) El total de clase de los valores de A sobre todos los elementos de la po-
blación es definido por:

N
A= ∑ Ai
i =1

d) La proporción de clase de los valores de A sobre todos los elementos de


la población es definida por:

N
1
p=
N
∑ Ai
i =1

24 ©  Ediciones Pirámide

pi00302001_01.indd 24 8/3/16 10:46


Introducción al muestreo

Los estimadores son funciones matemáticas que se aplican sobre los datos de
la muestra; son variables aleatorias al considerar la variabilidad de selección de
las muestras y cumplen las condiciones de una función de medida. Los errores
se cuantifican mediante varianzas, desviaciones típicas o errores cuadráticos me-
dios de los estimadores y miden la precisión de los mismos.
Pues bien, definiendo q § como el estimador de q, q § : S(x) ⊂ ℜn → ℜ, donde
{x1, ..., xn} → q § = f (x1, ..., xn), podemos caracterizar los diferentes estimadores
relevantes en el método de muestreo. Éstos son:

— Estimador del total poblacional (t): x̂ : S(x) ⊂ ℜn → ℜ, donde:

N
x = {x1 ,..., xn } → x̂ = x1 + ! + xn = ∑ xi
i =1

— Estimador de la media poblacional (m): m̂ : S(x) ⊂ ℜn → ℜ, donde:

N
x = {x1 ,..., xn } → µ̂ = (x1 + ! + xn )/n = ∑ xi /n
i =1

o también, xˉ.
— Estimador de la proporción poblacional (p): p̂ : S(a) ⊂ ℜn → ℜ, donde:

N
a = {a1 ,..., an } → p̂ = (a1 + ! + an )/n = ∑ ai /n
i =1

siendo ai una variable binaria que toma el valor 1 (ai = 1) cuando el indi-
viduo i-ésimo cumple una característica de interés o pertenece a una de-
terminada clase, y el valor cero (ai = 0) en caso contrario.

Así, el método de estimación se refiere a que una vez seleccionada una muestra
mediante un procedimiento de muestreo, se estiman las características poblaciona-
les (media, total y proporción) con un error que es cuantificable y controlable.
Por tanto, asumiendo el carácter de variable aleatoria del estimador, puede
deducirse una serie de propiedades generales para los estimadores.

1.2.2.1.  Distribución del estimador

La distribución de un estimador en el muestreo es la relación entre el valor


del estimador y la probabilidad de que tome ese valor.

©  Ediciones Pirámide 25

pi00302001_01.indd 25 8/3/16 10:46


Introducción a las técnicas de muestreo

Así, podremos escribir:

+∞

F (θ̂ ) = P(θ̂ < θ 0 ) = # –∞


f (θ̂ )dθ̂

como la función de distribución de una variable aleatoria que es igual a la pro-


babilidad de que la variable aleatoria q § tome un valor inferior o igual a q0.
Por ejemplo, en la tabla siguiente se tienen los valores de las medias muestra-
les (xˉ) de 25 muestras aleatorias del mismo tamaño:

Muestras 1 2 3 4 5 6 7 8 9 10 11 12 13

xˉ 10,86 13,70 13,22 12,75 13,00 12,25 12,33 13,00 12,35 12,83 12,86 13,01 12,82

Muestras 14 15 16 17 18 19 20 21 22 23 24 25

xˉ 12,43 12,22 11,91 11,75 12,65 12,87 12,87 12,57 12,88 14,01 12,09 11,98

Normal
10
Media = 12,69
Desviación estándar = 0,526
N = 25
8
Frecuencia

0
11,50 12,00 12,50 13,00 13,50 14,00 14,50
Medias

Figura 1.1.  Distribución de la media aritmética.

26 ©  Ediciones Pirámide

pi00302001_01.indd 26 8/3/16 10:46


Introducción al muestreo

La figura 1.1 muestra la distribución de las 25 medias muestrales de la tabla


anterior. Se observa que los valores de las medias se distribuyen de tal manera
que las que tienen valores entre 12,5 y 13 son las que tienen mayores probabili-
dades de ocurrir.
La distribución muestral de un estimador, en este ejemplo la distribución de
la media, es la relación entre el valor del estimador y la probabilidad de que ocu-
rra ese valor.
A título meramente ilustrativo, la figura 1.2 muestra algunos histogramas de
frecuencias de las distribuciones estadísticas más relevantes de la estadística clá-
sica, como son la normal estándar, la t de Student, la F de Fisher y la Chi-cua-
drado.

a) Normal estándar (z) b) t30


12.000 20.000

10.000 16.000
8.000
Frecuencia

Frecuencia

12.000
6.000
8.000
4.000

2.000 4.000

0 0
–6 –4 –2 0 2 4 6 –6 –4 –2 0 2 4 6

c) F10, 20 d) c210
40.000 24.000

20.000
30.000
16.000
Frecuencia

Frecuencia

20.000 12.000

8.000
10.000
4.000

0 0
0 2 4 6 8 10 12 0 5 10 15 20 25 30 35 40 45

Figura 1.2.  Histograma de frecuencias de varias distribuciones de probabilidad.

©  Ediciones Pirámide 27

pi00302001_01.indd 27 8/3/16 10:46


Introducción a las técnicas de muestreo

1.2.2.2.  Propiedades de un estimador

Las propiedades de un estimador son variadas. A continuación, caracteriza-


mos algunas de ellas que, particularmente, son importantes en el muestreo:

Insesgadez. Significa que, en media, el estimador es exactamente igual a


a) 
su valor poblacional. Es decir, E [q §] = q, esto es, E [q §] − q = 0. El estima-
dor será sesgado si E [q §] − q ≠ 0. En general, definiremos el sesgo del es-
timador como sesgo (q §) ≡ B(q §), siendo B(q §) = E [q §] − q.
Precisión. Se refiere a que la concentración de las observaciones con res-
b) 
pecto a su valor medio es reducida. Para ello se utilizará la varianza de
un estimador, que tiene la siguiente expresión: var (q §) = E [q § − E [q §]]2 =
= E [q §] − [E [q §]]2.
Acuracidad. Se refiere a la concentración de las estimaciones respecto a
c) 
un valor objetivo. En este caso, se utiliza la expresión del error cuadráti-
co medio del estimador, que, teniendo en cuenta que el valor objetivo es
q, puede descomponerse en:

ECM (θ̂ ) = E[θ̂ – θ ]2 = E[θ̂ – E[θ̂ ] + E[θ̂ ] – θ ]2 =


= E[(θ̂ – E[θ̂ ]) + B(θ̂ )]2 =
= E[(θ̂ – E[θ̂ ])]2 + E[B(θ̂ )]2 + 2B(θ̂ )E[θ̂ – E[θ̂ ]] =

= var (θ̂ ) + (B(θ̂ ))2

sabiendo que 2B(q §)E [q § − E [q §]] = 0. Es decir, ECM (q §) = var (q §) + (ses-
go (q §))2.
Consistencia. Implica que B(θ̂ ) → 0, es decir, el sesgo tiende a anular-
d) 
n→N

se cuando el tamaño de la muestra tiende al tamaño de la población.

Además, existen algunas otras expresiones que podemos utilizar que se dedu-
cen de lo anterior. Por ejemplo, el error de muestreo puede definirse sobre el error
estándar de la estimación, es decir:

σ (θ̂ ) = + var (θˆ )

Por otro lado, el error relativo de muestreo puede definirse de acuerdo con el
coeficiente de variación de Pearson, tal que:

σ (θ̂ )
CV (θ̂ ) =
E[θ̂ ]

28 ©  Ediciones Pirámide

pi00302001_01.indd 28 8/3/16 10:47


Introducción al muestreo

En la práctica, se considera que el sesgo no es influyente si:

B(θ̂ )
< 0,10
σ (θ̂ )

Es decir, se admite que la relación entre el sesgo y el error de muestreo sean


iguales o inferiores al 10 %.
Gráficamente, esta relación puede dibujarse de una manera sencilla como
aparece en la figura 1.3, donde puede observarse cómo:

Sesgo B(θ̂ )
tg A = =
Error de muestreo σ (θ̂ )

expresa dicha relación.

Raíz cuadrada del ECM

Sesgo

Error de muestreo

Figura 1.3.  Relación entre el sesgo y el error de muestreo.

Finalmente, puede aludirse a diferentes maneras de cuantificar la ganancia


en la precisión de dos estimadores. Supongamos que esos estimadores son q §1 y
q 2§ . Las expresiones que pueden utilizarse son las siguientes:

©  Ediciones Pirámide 29

pi00302001_01.indd 29 8/3/16 10:47


Introducción a las técnicas de muestreo

3ECM (θ̂ ) − 14 × 100 .


ECM (θ̂1)
• 
2

3CV (θ̂ ) − 14 × 100 .


CV (θ̂1)
• 
2

3σ (θ̂ ) − 14 × 100 .
σ (θ̂1)
• 
2

Como vemos, todas las medidas están basadas en la variabilidad de la esti-


mación, bien con respecto a su valor objetivo o bien con respecto a su valor
medio.

1.2.3.  Estimación por intervalos


Según el teorema de Chebyshev, cuando se desconoce la distribución de q §,
el cálculo de las probabilidades puede hacerse atendiendo a la siguiente expre-
sión:

1
P[uθ̂ − θ u < kσ (θ̂ )] > 1 −
k2

o, lo que es lo mismo:

1
P[θ̂ − kσ (θ̂ ) < θ < θˆ + kσ (θ̂ )] > 1 −
k2

Por tanto, el verdadero valor de q se encuentra definido en el rango: q § ± ks(q §)



con probabilidad 1 − (1/k2). Así, por ejemplo, cuando k = √10 , 1 − (1/k2) = 0,90,
§ — —
o sea, la probabilidad de que q esté comprendido entre q  − √10 s(q )§ y q  + √10
§ s(q )§
es del 90 %.
Sin embargo, bajo el supuesto donde se conoce la distribución de q,§ por ejem-
plo, asumiendo normalidad, tal que q § ∼ N[q, s 2(q)], se pueden considerar dos si-
tuaciones.
La primera está relacionada con el hecho de que la varianza sea conocida y
el estimador sea insesgado. En esta situación, puede decirse que:

θ̂ − θ
∼ N (0,1)
σ (θ )

30 ©  Ediciones Pirámide

pi00302001_01.indd 30 8/3/16 10:47


Introducción al muestreo

Así:

1 2
θ̂ − θ
P −zα /2 < < zα /2 = 1 − α
σ (θ )

siendo a el nivel de significación y 1 − a el nivel de confianza o probabilidad que


encierra la distribución normal entre los valores críticos −za/2 y za/2. De esta ma-
nera, el intervalo estará comprendido entre:

P[θ̂ − zα /2σ (θ ) < θ < θˆ + zα /2σ (θ )] = 1 − α

es decir, q § ± za/2s(q).
Y la segunda está relacionada con el hecho de que la varianza sea descono-
cida y el estimador también sea insesgado. En este caso, puede asumirse que:

θ̂ − θ
∼ t-Student
σ (θ̂ )

Por tanto:

1 2
θ̂ − θ
P −tα /2 < < tα /2 = 1 − α
σ (θ̂ )

P[θ̂ − tα /2σ (θ̂ ) < θ < θ̂ + tα /2σ (θ̂ )] = 1 − α

§
es decir, el intervalo será construido como q  ± t §
a/2s(q ).
Por último, en el caso de que el estimador sea sesgado, el intervalo de confian-
za necesitaría modificar algunos aspectos. Teniendo en cuenta el hecho de que el
sesgo del estimador puede escribirse como E [q §] = q + B(q §), se llega a la expresión:

θ̂ − E[θ̂ ] θ̂ − θ − E[θ̂ ] + θ
=
σ (θ̂ ) σ (θ̂ )

Luego el intervalo puede derivarse fácilmente y obtener como resultado que:

[θ̂ − zα /2σ (θ̂ ) − B(θ̂ ); θ̂ + zα /2σ (θ̂ ) − B(θ̂ )]

©  Ediciones Pirámide 31

pi00302001_01.indd 31 8/3/16 10:47


Introducción a las técnicas de muestreo

1.2.4.  Determinación de estimadores insesgados

Supóngase que en una población formada por N unidades, Ω = {U1, U2, ..., UN},


se define una característica X. Dicha característica es una variable que toma el va-
lor numérico Xi para la unidad Ui, i = 1, 2, ..., N. Por tanto, habrá un conjunto
de valores poblacionales formado por {X1, X2, ..., XN}.
También, considérese una cierta función q de los N valores de Xi, que deno-
minaremos parámetro poblacional.
Seleccione una muestra S = {u1, u2, ..., un} mediante un procedimiento de
muestreo dado (siendo ui las unidades muestrales, i = 1, 2, ..., n), y considere los
valores que toma la característica X en la muestra como {x1, x2, ..., xn}. A par-
tir de estos valores se estima puntualmente el parámetro poblacional q median-
te un estimador q§ que utiliza la información muestral.
En general, un parámetro poblacional puede escribirse como una suma de
elementos de Yi en la población, tal que:
N
θ = ∑ Yi
i =1

donde Yi puede ser Xi para el total poblacional, Xi /N para la media aritmética,
o Ai /N para la proporción de clase Ai.
Generalmente, la forma del estimador a emplear es:
n
θ̂ = ∑ α iYi
i =1

donde dependiendo de que el muestreo a realizar sea con reposición o sin repo-
sición, obtendremos unos valores determinados ai a los que se les denomina pe-
sos o factores de elevación.
Para determinar si dicho estimador es insesgado, considérese el siguiente in-
dicador Ii, que es una variable aleatoria tal que Ii = 1, si ui ∈ S con probabilidad
pi, e Ii = 0 si ui ∉ S con probabilidad 1 − pi, ∀ ui ∈ Ω.
Para que q § sea un estimador insesgado de q, se tiene que cumplir que:

3∑ α Y 4 = E3∑ α Y (I )4 = ∑ α Y E[I ] = ∑ α Y π
n N N N
E[θ̂ ] = E i i i i i i i i i i i
i =1 i =1 i =1 i =1

Así, los valores de ai que determinan la expresión del estimador se obtienen


de la siguiente igualdad:
N N

∑ α iYiπ i = ∑ Yi
i =1 i =1

32 ©  Ediciones Pirámide

pi00302001_01.indd 32 8/3/16 10:47


Introducción al muestreo

de tal manera que:

1
1 = α iπ i ò α i = ,∀i
πi

donde pi es la probabilidad de que el individuo i-ésimo pertenezca a la muestra


de tamaño n.
El estimador lineal e insesgado que se deriva de las anteriores expresiones se
denomina estimador de Horvitz y Thompson. Dicho estimador, que definiremos
§ , será igual a:
por q HT

n
Y
θ̂ HT = ∑ πi
i =1 i

§ ] = q.
de tal manera que el estimador es insesgado dado que E [q HT
Aplicando este estimador a los parámetros poblacionales descritos arriba,
tendríamos que:

a) El estimador del total de la característica X sobre todos los elementos de


N n
x
la población definido por: τ = ∑ Xi es x̂HT = ∑ πi .
i =1 i =1 i

b) El estimador de la media aritmética de los valores de X sobre todos los


N n
1 x
elementos de la población definido por: µ =
N
∑ X i es µ̂HT = ∑ N πi .
i =1 i =1 i

c) El estimador del total de clase de los valores de A sobre todos los ele-
N n
a
mentos de la población definido por: A = ∑ Ai es âHT = ∑ πi .
i =1 i =1 i

d) El estimador de la proporción de clase de los valores de A sobre todos los


N n
1 a
elementos de la población definido por: p =
N
∑ Ai es p̂HT = ∑ N πi .
i =1 i =1 i

Cabe resaltar que el valor tomado por pi dependerá del método de muestreo
empleado. Por ejemplo, suponiendo que todos los elementos de la población tie-
nen idéntica probabilidad de ser seleccionados para la muestra y el muestreo es
sin reposición, entonces puede calcularse la probabilidad de que la unidad i-ési-
ma pertenezca a la muestra como:

©  Ediciones Pirámide 33

pi00302001_01.indd 33 8/3/16 10:47


Introducción a las técnicas de muestreo

πi =
1 n − 12
N −1

=
n

1Nn 2
N

que es una probabilidad igual para todas las unidades de la muestra. De esta for-
ma, el estimador insesgado de la media poblacional es exactamente la media arit-
mética muestral, tal que:

n
xi
µ̂HT ≡ x = ∑
i =1 n

Para obtener la varianza del estimador, supóngase que para cada i,


j = 1, 2, ..., N con i ≠ j consideramos la variable aleatoria producto IiIj, es decir,
IiIj = 1 si (ui, uj) ∈ S con probabilidad pij e IiIj = 0 si (ui, uj) ∈ S con probabilidad
1 − pij. De esta manera, E [IiIj] = pij y cov [IiIj] = pij − pipj.
Entonces, la varianza del estimador de Horvitz y Thompson puede escribir-
se como:

1 2 1 2
n N
Y Y
var (θ̂ HT ) = var ∑ πi = var ∑ πi Ii =
i =1 i i =1 i

1 2 1 2
N N N
Yi Y Yj
= ∑ var πi
I i + 2 ∑ ∑ cov i I i ,
πi
I =
πj j
i =1 i = 1 j .i

N N N
Y2 Y Yj
= ∑ πi2 var (I i ) + 2 ∑ ∑ πi cov (I i , I j ) =
i =1 i i = 1 j .i i π j

N N N
Yi 2 Y Y
= ∑ π2 (1 − π i ) + 2 ∑ ∑ πi π j (π ij − π iπ j )
i =1 i i = 1 j .i i j

Dado que la expresión de la varianza del estimador extiende sus índices has-
ta el valor N, y puesto que los datos muestrales lo hacen hasta n, parece necesa-
rio estimar dicha varianza dependiendo de los valores muestrales.
§ ) puede definirse por:
Para ello, un estimador insesgado de var (q HT

Y Y j π ij − π i π j
1 2
n n n
Y2
vâr (θ̂ HT ) = ∑ πi2 (1 − π i ) + 2 ∑ ∑ πi
i =1 i i = 1 j .i i π j π ij

34 ©  Ediciones Pirámide

pi00302001_01.indd 34 8/3/16 10:47


Introducción al muestreo

donde pi ya ha sido definido más arriba y donde:

Número de muestras que contienen pares de elementos


π ij = =
Número total de muestras

=
1 n−22
N −2

=
n(n − 1)

1Nn 2
N (N − 1)

El estimador de la varianza será insesgado si cumple la igualdad:


§ )] = var (q HT
E [vâr  (q HT § ). Para demostrarlo, comprobamos que:

Y Y j π ij − π i π j
3 4 3 1 24 =
n n n
Y2
E[vâr (θ̂ HT )] = E ∑ πi2 (1 − π i ) + 2E ∑ ∑ πi
i =1 i i = 1 j .i i π j π ij

Y Y j π ij − π i π j
3 4 3 1 2 4
N N N
Y2
=E ∑ πi2 (1 − π i )I i + 2E ∑ ∑ πi Ii I j =
i =1 i i = 1 j .i i π j π ij
N N N
Y2 Y Yj
= ∑ πi2 (1 − π i ) + 2 ∑ ∑ πi (π ij − π i π j ) = var (θ̂ HT )
i =1 i i = 1 j .i i π j

y, por tanto, puede decirse que el estimador es insesgado.

1.2.5.  Ejemplos numéricos

a)  Muestreo con reposición

Supongamos que la población está formada por los siguientes elementos:


U = {1, 3, 5}. Se pide construir muestras de tamaño dos con reemplazamiento y
calcular la media muestral y su varianza, así como el sesgo de la media y varian-
za muestrales.
La resolución sería la siguiente. En primer lugar, se construye un cuadro don-
de se consideran las diferentes muestras de tamaño dos que pueden construirse,
así como la media y la varianza muestrales de cada una de ellas. El número de
muestras que pueden formarse en el muestreo con reposición donde se tiene en
cuenta el orden de selección de los individuos es 32 = 9 muestras.

©  Ediciones Pirámide 35

pi00302001_01.indd 35 8/3/16 10:47


Introducción a las técnicas de muestreo

Muestras Media muestral (x̄) Varianza muestral (s2)

(1,1) 1 0
(1,3) 2 1
(1,5) 3 4
(3,1) 2 1
(3,3) 3 0
(3,5) 4 1
(5,1) 3 4
(5,3) 4 1
(5,5) 5 0

Estimador E [x̄] = 27/9 = 3 E [s2] = 12/9 = 4/3

A continuación, se calculan la media y la varianza de las medias obtenidas


para las muestras de tamaño dos. A estos resultados les consideramos como los
estimadores de la media y la varianza poblacionales.
Este procedimiento puede realizarse fácilmente sumando y dividiendo entre
el total de muestras construidas, cuya información puede verse en la última línea
del cuadro anterior. Sin embargo, también se puede construir la siguiente tabla
que resume los diferentes tipos de medias que se obtienen. En este ejemplo, las
medias que se obtienen son cinco, concretamente, 1, 2, 3, 4 y 5. Cada una de ellas
posee una determinada probabilidad de ocurrencia. Éstas son:

(x̄) 1 2 3 4 5

P(x̄) 1/9 2/9 3/9 2/9 1/9

Por tanto, a partir de esta información puede calcularse la media de las me-
dias muestrales (que es un estimador), simplemente utilizando la expresión:

192 + 2192 + 3192 + 4192 + 5192 =


5
1 2 3 2 1 27
E[x ] = ∑ xi P(xi ) = 1 9
=3
i =1

De forma similar, se realizará el mismo procedimiento para la varianza mues-


tral. En esta ocasión:

s2 0 1 4

P(s2) 3/9 4/9 2/9

36 ©  Ediciones Pirámide

pi00302001_01.indd 36 8/3/16 10:47


Introducción al muestreo

Y, también de forma idéntica, calculamos la media de las varianzas como:

12 12 12
3
3 4 2 4
E[s 2 ] = ∑ si2 P(si2 ) = 0 9
+1
9
+4
9
=
3
i =1

Finalmente, calculamos la media y la varianza poblacionales:

1+ 3 + 5 (1 − 3)2 + (3 − 3)2 + (5 − 3)2 8


µ= =3 y σ2 = =
3 3 3

De los resultados obtenidos, y confrontando los datos muestrales con los


poblacionales, se observa cómo la media de las medias muestrales (estimador de
la media poblacional) y la media poblacional son idénticas, mientras que la me-
dia de las varianzas muestrales (estimador de la varianza poblacional) y la va-
rianza poblacional no coinciden, siendo distintas. Por tanto, mientras el estima-
dor de la media es insesgado, E [x̄] − m = 0, el sesgo de la varianza es
E [s2] − s2 = − (4/3).

b)  Muestreo sin reposición

Suponga que la población está formada por los siguientes elementos:


U = {6, 4, 3, 8}. Se desea construir muestras de tamaño 2 sin reposición de las
unidades en la población, considerando que no interviene el orden de colocación
de los elementos en la muestra, y calcular la media aritmética muestral, su va-
rianza, el sesgo de la media aritmética y su error cuadrático medio.
La resolución de este ejercicio es como sigue. Puesto que el muestreo que se
llevará a cabo es sin reposición, el número posible de muestras que se obtendrán

es C4, 2 = 1242 = 6 , dado que asumimos que el orden no interviene, es decir, por
ejemplo, las muestras (6, 4) y (4, 6) se consideran idénticas. Por tanto, las proba-
bilidades de cada una de las muestras posibles serán iguales a:

1 1
P(Si ) = = , ∀ i = 1,..., 6
C4, 2 6

Dicho lo anterior, puede construirse la siguiente tabla que contiene todas las
muestras de tamaño 2, sus respectivas probabilidades de ocurrencia y la media
aritmética de cada una de las mismas.

©  Ediciones Pirámide 37

pi00302001_01.indd 37 8/3/16 10:47


Introducción a las técnicas de muestreo

Muestras (S) P(S) x̄

(6,4) 1/6 5
(6,3) 1/6 9/2
(6,8) 1/6 7
(4,3) 1/6 7/2
(4,8) 1/6 6
(3,8) 1/6 11/2

La obtención del estimador de la media aritmética poblacional puede reali-


zarse a través de la media aritmética. Para ello, se usarán los valores de x̄i, i =
= 1, ..., 6, siguiendo la tabla anterior, que contiene las medias correspondientes
a cada muestra. Para su cómputo, calculamos el valor esperado de la media arit-
mética, siendo éste igual a:

162 + 2 162 + 7162 + 2 162 + 6162 + 2 162 = 5,25


1 9 1 1 7 1 1 11 1
E[x ] = 5

Si obtenemos la media aritmética poblacional a través de la expresión que co-


nocemos de la estadística descriptiva, tal como:

(6 + 4 + 3 + 8)
µ= = 5,25
4

puede observarse que este valor coincide con el estimador muestral. Por tanto, el
sesgo de la media es exactamente cero, es decir:

B(x ) = E[x ] − µ = 5,25 − 5,25 = 0

Por otro lado, la incertidumbre asociada al estimador de la media aritmética


puede calcularse a través del cómputo de la varianza de la misma, usando la si-
guiente expresión, tal que:

var (x ) = E[x − 5,25]2 =


2 2

12 1 212 12 1 2 16 2 +
1 9 1 1 7 1
= (5 − 5,25)2 + − 5,25 + (7 − 5,25)2 + − 5,25
6 2 6 6 2
2

12 1 2 162 = 1,23
1 11 1
+ (6 − 5,25)2
+ − 5,25
6 2

38 ©  Ediciones Pirámide

pi00302001_01.indd 38 8/3/16 10:47


Introducción al muestreo

De esta forma, la relación entre el sesgo del estimador y su error de muestreo


usando la razón entre el sesgo y la desviación del estimador, proporciona el si-
guiente resultado:

B(x ) (5,25 − 5,25)


= =0
σ (x ) 1, 23

que también es cero, puesto que el sesgo es nulo.


Finalmente, dado que el sesgo es nulo, la varianza del estimador es exacta-
mente igual al error cuadrático medio, de tal manera que:

ECM (x ) = var (x ) + [sesgo (x )]2 = 1,23 + (0)2 = 1,23

1.3. EL MUESTREO MEDIANTE ENCUESTAS.


LA PLANIFICACIÓN DE LA ENCUESTA
El muestreo mediante encuestas es uno de los medios más usados para re-
cabar información de la población. Para tener éxito, hay que planificar bien
el muestreo. Son muchos los aspectos que pueden distorsionar los resultados
como, por ejemplo, si no se delimita bien a la población objetivo, si no se
adapta bien el contenido y la estructura del cuestionario a lo que se desea ave-
riguar, el trabajo de campo y los encuestadores. Además de los aspectos téc-
nicos, los recursos disponibles condicionan la extensión y complejidad de la
encuesta.
Una vez se han confeccionado las encuestas, los encuestadores, etc., para es-
tudiar las características poblacionales de las variables y seleccionar una parte
representativa de la población, previamente, es necesario realizar un diseño. En
el diseño muestral se detallan todos los aspectos relacionados con el tipo de
muestreo que se aplicará, unidades muestrales, estimadores, errores, etc.
No existe una regla general para elaborar un diseño muestral, pero es reco-
mendable que, como mínimo, se expliquen los siguientes apartados:

a) Objetivo del estudio, definición del marco y delimitación de la población


objetivo.
b) El procedimiento de selección de las unidades muestrales: no probabilís-
tico y probabilístico (aleatorio simple, estratificación, sistemático, etc.).
c) Características poblacionales (parámetros) y estimadores que se emplea-
rán.
d) Estudio y valoración de los errores muestrales.

©  Ediciones Pirámide 39

pi00302001_01.indd 39 8/3/16 10:47


Introducción a las técnicas de muestreo

e) Medición de los errores extramuestrales y sus posibles efectos. Suelen


producirse cuando no se presta la suficiente atención a los preparativos
relacionados con el trabajo de campo.

El cuestionario es un documento donde se plantean las preguntas y se regis-


tran sus respuestas. Las preguntas pueden clasificarse atendiendo a diferentes
criterios:

— Preguntas abiertas: el encuestado expone su respuesta libremente.


— Preguntas cerradas: las posibles respuestas han sido previstas y el encues-
tado sólo puede elegir una entre varias.

También se clasifican según la naturaleza de la variable:

— 
Preguntas cuantitativas. En ellas las respuestas suelen coincidir con una
medida o un número (ingresos mensuales, número de hijos, etc.). La ven-
taja de estas preguntas es que se miden en escalas numéricas y es posible
realizar todo tipo de operaciones.
— 
Preguntas de naturaleza cualitativa. En estas preguntas la respuesta se aso-
cia con un determinado atributo. Tiene el inconveniente que sus escalas
son ordinales y nominales, con lo que sólo se pueden estudiar las distri-
buciones de sus frecuencias. Para superar esta limitación, en muchos estu-
dios se adaptan las respuestas de estas preguntas a una escala de Likert,
con esta escala las respuestas son una secuencia de valores que van desde
lo más desfavorable hasta lo más favorable y el encuestado debe elegir una
opción entre las alternativas. Por ejemplo, ¿qué opinión tiene usted sobre
el transporte público?; las posibles respuestas, siguiendo una escala de
Likert, estarán comprendidas entre 1 (muy malo) y 5 (muy bueno).

Es importante formular preguntas claras, evitando las ambigüedades, con un


vocabulario adecuado al entrevistado al que se dirige. Además, es aconsejable
que los cuestionarios sean breves para evitar el efecto agotamiento y la pérdida
de interés del entrevistado.
En resumen, para llevar a cabo un muestreo con encuestas hay que planifi-
car el trabajo distinguiendo los siguientes apartados:

1. 
Diseño de la muestra. Consiste en precisar la población objetivo y el mar-
co de referencia muestral, el tipo de muestreo y el tamaño de la muestra
apropiado, aspectos todos interesantes relacionados con los estimadores,
sus distribuciones y las posibles fuentes de los errores.
2. 
El trabajo de campo o recogida de la información. La recogida de la infor-
mación debe hacerse con encuestadores adiestrados, en caso contrario se
corren riesgos de incluir errores ajenos al muestreo.

40 ©  Ediciones Pirámide

pi00302001_01.indd 40 8/3/16 10:47


Introducción al muestreo

3. 
La tabulación. En esta fase se depuran las respuestas de los cuestionarios
y se codifican para su posterior análisis. También en esta fase se suelen
llevar a cabo controles sobre la calidad de las respuestas aportadas por
cada encuestador.
4. 
Los resultados. La precisión de los resultados depende de los errores. Una
vez realizadas las estimaciones de los parámetros poblacionales, hay que
evaluar las precisiones mediante los errores muestrales y, por tratarse de
un muestreo por encuesta, es recomendable estudiar los errores extra-
muestrales (sesgo de no respuesta, efecto del entrevistador, etc.).

©  Ediciones Pirámide 41

pi00302001_01.indd 41 8/3/16 10:47


pi00302001_01.indd 42 8/3/16 10:47
2 Muestreo aleatorio simple

2.1. INTRODUCCIÓN
El muestreo aleatorio simple es una técnica de muestreo probabilístico en la
que todos los elementos de la población tienen idéntica probabilidad de ser se-
leccionados para la muestra. Un clásico ejemplo que ilustra a este tipo de mues-
treo es la realización de un sorteo entre todos los individuos de la población, de-
bidamente numerados —lo que implica que debemos conocer a todos los
individuos—. Introduciendo esos números en una urna, empezaríamos a extraer
al azar dichos números y todos aquellos individuos que tengan el número extraí-
do formarán la muestra. Obviamente, si la población es muy grande (infinita),
entonces la dificultad de realizar el proceso es mayor. Es por ello que, en la prác-
tica, este método puede automatizarse mediante el uso de ordenadores.
El muestreo aleatorio simple puede ser realizado con reposición o sin reposi-
ción, dependiendo de si los individuos de la población pueden ser seleccionados
más de una vez en la muestra. Por ejemplo, el del muestreo con reposición sería
el caso de extraer un número al azar de una urna y volver a introducirlo dentro
de la misma antes de la siguiente extracción. En el caso del muestreo sin reposi-
ción, el individuo seleccionado de la urna no entraría nuevamente en otra extrac-
ción o sorteo.
En este caso, surge la pregunta de determinar cuál es el mejor tipo de mues-
treo. ¿Es mejor el que se hace sin reposición o con reposición? La respuesta es
que, tanto desde el punto de vista de qué técnica genera estimaciones más preci-
sas como desde el punto de vista de qué técnica permite obtener la misma preci-
sión con menor tamaño de la muestra, puede concluirse que el muestreo aleato-
rio simple si reposición siempre es más eficiente (Pérez, 2005).
Los beneficios del muestro aleatorio simple pueden sintetizarse en que, gracias
a los ordenadores y al desarrollo de la informática en general, la generación de nú-
meros pseudoaleatorios es cada vez más fiable asegurando la obtención de mues-

©  Ediciones Pirámide 43

pi00302001_02.indd 43 8/3/16 10:53


Introducción a las técnicas de muestreo

tras representativas, de manera que la única fuente de error que puede afectar a
los resultados es el azar, error que puede calcularse de forma precisa o acotarse.
Por otro lado, las desventajas o inconvenientes del muestreo aleatorio simple
se encuentran en la dificultad de llevarlo a la práctica en investigaciones reales
cuando el marco muestral deba conocer a todos los individuos de la población y
que todos ellos sean potencialmente seleccionables. Esto hace que este requisito,
que muchas veces no se cumple en los estudios de mercado o de opinión, obligue
a emplear otras técnicas, algunas de las cuales se verán en capítulos siguientes.
En este capítulo dedicaremos la atención al muestreo aleatorio simple sin re-
posición (sin reemplazamiento).

2.2. ESTIMADORES DE LA MEDIA, TOTAL POBLACIONAL


Y PROPORCIONES
Sea una muestra S = {u1, u2, ..., un}, formada por n unidades dentro de una
población finita de tamaño N obtenida mediante un procedimiento de muestreo
dado, y considérense los valores {x1, x2, ..., xn} que toma la característica X en
dicha muestra.
Para estimar diversas características poblacionales de dicha variable X, como
son la media (m), el total poblacional (t) y la proporción (p), definidas en el ca-
pítulo 1 por las expresiones:
N N

∑ Xi ∑ Ai
i =1 i =1
µ= ; τ = Nµ ; p=
N N

respectivamente.
Asumiendo que xi son las observaciones muestrales, n es el tamaño de la
muestra y pi = n/N la probabilidad de que un individuo de la población sea ele-
gido, los estimadores insesgados para cada una de las expresiones anteriores en
el muestreo aleatorio simple serán:
n
xi xi ∑ xi
n n
µ̂ = x = ∑ N = ∑ N =
i =1
a)
i =1 πi i =1
n n
N
n n n
xi xi x
b) x̂ = ∑π ∑ n = = N ∑ ni = Nx
i =1 i i =1 i =1

44 ©  Ediciones Pirámide

pi00302001_02.indd 44 8/3/16 10:53


Muestreo aleatorio simple

n
ai ai ∑ ai
n n
c) p̂ = ∑ N =∑ N =
i =1

i =1 πi i =1
n n
N

siendo ai = 1 cuando el individuo i-ésimo, o la unidad muestral i-ésima, tiene un


determinado atributo, y cero en caso contrario. Por ejemplo, suponga que la va-
riable objetivo de nuestro estudio, A, es de tipo Bernouilli, tal que ai ∼ B(1, p), es
decir, los valores de la variable se refieren a dos resultados mutuamente excluyen-
tes (cara y cruz, hombre y mujer, verdadero y falso, etc.), siendo p la proporción
de casos que cumplen una condición. Supóngase que existen 20 elementos de 40
que poseen un determinado atributo. Entonces, el estimador de la proporción
poblacional puede construirse fácilmente como:

24

∑ ai
i =1 20
p̂ = = = 0,5
n 40

resultando que dicho atributo, ser mujer, lo posee el 50 % de las observaciones
muestrales.
Para evaluar la incertidumbre asociada a cada estimador, a continuación, se
definen las varianzas de cada uno de ellos. En primer lugar, aplicando la expre-
sión de la varianza del estimador para el total poblacional, X, queda:

1 2 1 2
n n n
xi2 n x x j [n(n − 1)/N (N − 1)] − (n/N )
var ( x̂) = ∑ 2 1−
N
+ 2∑ ∑ i
n n [n(n − 1)/N (N − 1)]
1 2
i =1 n i = 1 j .i

N N N

siendo f  = n/N la fracción del muestreo y representa el peso que tiene la muestra
respecto a la población, por tanto:

1 2 1 2
n N−n
(1 − f ) = 1 − =
N N

A esta expresión se la denomina factor de corrección de población finita. Cuan-


do su valor es superior a 0,95 se considera población infinita. A la inversa de la
fracción del muestreo: 1/f  = N/n, se le llama factor de elevación y se usa para ade-
cuar las estimaciones muestrales a la población.
El último término se puede simplificar, tal que:

©  Ediciones Pirámide 45

pi00302001_02.indd 45 8/3/16 10:53


Introducción a las técnicas de muestreo

1N (N − 1)2 − 1N 2 = − (N − n)
n(n − 1) n

1N (N − 1)2
n(n − 1) N (n − 1)

Tomando desviaciones respecto a la media de la variable x, se puede reescri-


bir la expresión atendiendo a:

(xi − x ) (x j − x ) (N − n)
1 2
n n n
(xi − x )2 n
var ( x̂) = ∑ 1− − 2∑ ∑ =
1 2 1 2
2
N n n N (n − 1)
1 2
i =1 n i = 1 j .i

N N N

3 4
n n n
N (N − n) 1
=
n2
∑ (xi − x )2 − n − 1 2 ∑ ∑ (xi − x )(x j − x )
i =1 i = 1 j .i

Teniendo en cuenta que:

n n n
2∑ ∑ (xi − x )(x j − x ) = − ∑ (xi − x )2
i = 1 j .i i =1

sabiendo que:

3 4
n n n n

∑ (xi − x ) = ∑ (xi − x )2 + 2 ∑ ∑ (xi − x )(x j − x )


i =1 i =1 i = 1 j .i

y asumiendo que:

3∑ (x − x )4
n

i =0
i =1

la expresión de la varianza se simplifica a:

1 2
n
N (N − n) 1 N (N − n) n n
var ( x̂) =
n2
1+
n −1
∑ (xi − x )2 = n2
∑ (x − x )2
n − 1 i =1 i
i =1

46 ©  Ediciones Pirámide

pi00302001_02.indd 46 8/3/16 10:53


Muestreo aleatorio simple

donde:

1 n ∑ xi2 − nx 2
∑ (x − x )2 (o ŝ 2 =
i =1
s2 = )
n − 1 i =1 i n −1

es la cuasivarianza, que es un estimador insesgado de la varianza poblacional:


N

∑ (xi − µ )2
i =1
σ2 =
N

Así, la expresión de la varianza para el estimador del total poblacional es:

1 2
N − n s2 s2
var ( x̂) = N 2 = N 2 (1 − f )
n N n

Una vez se ha obtenido la varianza del estimador del total poblacional, es fá-
cil derivar la varianza de la media. Ésta será igual a:

1 2
x̂ 1 s2
var (x ) = var = 2 var ( x̂) = (1 − f )
N N n

mientras que para el caso del estimador de la proporción poblacional, sabiendo


que ai ∼ B(1, p), dicha varianza es igual a:

p̂q̂
var ( p̂) =
n

siendo p la proporción de «éxitos» y q = 1 − p la proporción de «fracasos».


Teniendo en cuenta el factor de corrección para población finita (1 − f ), la
expresión final de la varianza de la proporción queda:

1 2
a1 + a2 + ! + an
var ( p̂) = (1 − f ) var =
n

1 2
var (a1 ) + var (a2 ) + ! + var (an )
= (1 − f ) =
n2

1 2 1 2 1 2
p̂q̂ + p̂q̂ + ! + p̂q̂ n( p̂q̂) p̂q̂
= (1 − f ) 2
= (1 − f ) 2
= (1 − f )
n n n

©  Ediciones Pirámide 47

pi00302001_02.indd 47 8/3/16 10:53


Introducción a las técnicas de muestreo

2.3. ESTIMACIÓN DEL ERROR DE MUESTREO


PARA UNA MUESTRA ALEATORIA SIMPLE
Los estimadores de la media, el total, la proporción y la varianza poblacio-
nal que se han visto, son estimadores que cumplen las propiedades deseables de
los estimadores puntuales para estimar un valor de un parámetro. Sin embargo,
en la práctica, lo más usual es obtener un rango de posibles valores entre los que
se encuentre el verdadero valor del parámetro, es decir, estimar intervalos de con-
fianza:

P(A  q  B) = 1 − a

donde A y B son los respectivos extremos del intervalo, q es el parámetro a esti-


mar y a es el nivel de significación.
El teorema de Chebyshev permite obtener la probabilidad de que una varia-
ble aleatoria tome determinados valores dentro un intervalo de amplitud k veces
la desviación típica (s).

1
P[x − kσ , X , x + kσ ] > 1 −
k2

Ejemplo

Dada la siguiente información sobre el gasto de los turistas, ¿qué intervalo


de valores contiene el gasto diario en euros con una probabilidad del 75 %?

Turistas 1 2 3 4 5 6 7 8 9 10

Gastos 20 21 18 14 20 19 17 18 16 14

Según el teorema de Chebyshev, para una probabilidad del 75 % se cumple:

1
0,75 = 1 − ò k2 = 4 ò k = 2
k2

De la anterior tabla de datos se obtiene la media muestral y la desviación tí-


pica:

48 ©  Ediciones Pirámide

pi00302001_02.indd 48 8/3/16 10:53


Muestreo aleatorio simple

10

∑ xi
i =1 177
x= = = 17,70 €
10 10
10

∑ (xi − x )2
i =1 54,1
ŝ 2 = = = 6 ò ŝ = ŝ 2 = 2,45 €
10 − 1 9

Aplicando el teorema de Chebyshev:

P[17,7 − 2(2,45) , X , 17,7 + 2(2,45)] > 0,75

P(12,8 , X , 22,6) > 0,75

Al menos el 75 % del gasto diario de los turistas estará entre los 12,8 € y los
22,6 €. Cuando la población es normal, el intervalo formado por dos veces la
desviación típica contendrá en torno al 95 % de los datos.
A continuación, en el siguiente apartado, se distinguen las diferentes expre-
siones que adoptan el error de muestreo y el intervalo de confianza en cada uno
de los estimadores.

2.3.1.  Estimación del error de muestreo

En esta sección expondremos las expresiones del error de muestreo distin-


guiendo para su cálculo el estimador utilizado, y asumiendo que la varianza po-
blacional es desconocida para los estimadores de la media y el total poblacional.
Las expresiones son:

a)  Para la media

El intervalo de confianza para la media de una población normal con varian-


za poblacional desconocida puede escribirse como:

3 ! 1 2 ! 1 24
ŝ 2 N − n ŝ 2 N − n
P x − tα /2; n − 1 < µ < x + tα /2; n − 1 = 1− α
n N n N

donde ta/2; n − 1 es el valor crítico de la variable t-Student al nivel de significación


a/2 para n − 1 grados de libertad.
La expresión anterior también puede escribirse como:

©  Ediciones Pirámide 49

pi00302001_02.indd 49 8/3/16 10:53


Introducción a las técnicas de muestreo

3 ! 1 24
ŝ 2 N − n
I µ(1− α )% = x ± tα /2; n − 1
n N

siendo la segunda parte de la misma lo que se define como error muestral o error
debido al muestreo. Este error, que denominaremos de aquí en adelante E, es el
error que se comete al estudiar sólo una muestra y no toda la población.
El error de muestreo puede escribirse como:

! 1 2
ŝ 2 N − n
E = tα /2; n − 1
n N

y en el caso extremo de que E = 0, no existiría error y el valor de la media mues-


tral coincidiría con la media poblacional. Por eso, mientras menor sea el error
debido al muestreo, más precisa será la estimación.

b)  Para el total

Se parte desde del intervalo de confianza para estimar el total con varianza
poblacional desconocida:

3 ! 1 2 ! 1 24 = 1 − α
ŝ 2 N − n ŝ 2 N − n
P x̂ − tα /2; n − 1 N2 < τ < x̂ + tα /2; n − 1 N2
n N n N

o, lo que es lo mismo:

!
2

3 1 24
ŝ 2 N−n
Iτ(1− α )% = x̂ ± tn − 1; α /2 N 2
n N

Ahora el error de muestreo referido al total, E, será igual a:

! 1 2
N − n ŝ 2
E = tα /2; n − 1 N2
N n

c)  Para la proporción

El error de muestreo para la proporción se obtiene a partir del siguiente in-


tervalo de confianza. Para construir el intervalo de confianza de la proporción
se supondrá que:

50 ©  Ediciones Pirámide

pi00302001_02.indd 50 8/3/16 10:53


Muestreo aleatorio simple

1 2
p̂q̂
p̂ ∼ N p,
n

Así, teniendo en cuenta el factor de corrección para población finita, el in-


tervalo queda:

3 ! 1 2 ! 1 24 = 1 − α
p̂(1 − p̂) N − n p̂(1 − p̂) N − n
P p̂ − zα /2 < p < p̂ + zα /2
n N n N

o, lo que es lo mismo:

3 ! 1 24
α )% p̂q̂ N − n
I (1−
p = p̂ ± zα /2
n N

El error de muestreo que se comete viene determinado por la expresión:

! 1 2
p̂q̂ N − n
E = zα /2
n N

2.4.  SELECCIÓN DEL TAMAÑO MUESTRAL


También en el muestreo resulta de interés conocer el tamaño muestral adecua-
do para estudiar, dados unos errores determinados y un margen de confianza.
A continuación, se exponen brevemente algunas expresiones para determinar
dicho tamaño muestral en cada estimador analizado, teniendo en cuenta si la po-
blación es finita o infinita:

a)  Poblaciones infinitas

En la práctica, cuando el factor de corrección de población finita es superior


a 0,95, o, lo que es lo mismo, si la muestra representa como máximo el 5 % de la
población, entonces se considera que la población es infinita y se puede prescin-
dir de dicho factor de corrección. Así:

1 2 1 2
N−n n
> 0,95 ò (1 − f ) = 1 − = (1 − 0,05) > 0,95
N N

©  Ediciones Pirámide 51

pi00302001_02.indd 51 8/3/16 10:53


Introducción a las técnicas de muestreo

Por eso, para determinar los tamaños muestrales se distingue entre esos dos
tipos de poblaciones.
Concretamente, en el caso de que la población sea considerada infinita, el
error de muestreo puede considerarse igual a una cierta cantidad (valor crítico
de la distribución Normal estándar para un nivel de confianza de a/2, za/2) de la
desviación típica del estimador, asumiendo que la varianza poblacional es cono-
cida, s 2:

! 1 2
σ2 N − n σ2
E = zα /2 ò E = zα /2
n N n

1 2
N−n
si > 0,95 . Despejando n, se obtiene el tamaño de la muestra que se ne-
N
cesita para estimar la media poblacional para un error fijado igual a E. De esta
manera:

zα2 /2σ 2
n=
E2

Solamente en el caso que s 2 sea desconocida, se sustituirá por ŝ 2.


Por ejemplo, el peso de los tomates exportados por una cooperativa tuvo en
muestras analizadas previamente una varianza estimada de 1,8. Si se quiere esti-
mar el peso medio de los tomates de tal forma que, con una probabilidad del
95 %, el error muestral sea de 0,25 gramos, el tamaño muestral será:

2
z0,05/2 ŝ 2 1,962 (1,8)
n= = ≈ 111
E2 (0,25)2

es decir, la muestra ha de estar formada por 111 tomates, sustituyendo s 2 por ŝ 2.
Para las proporciones, es práctica habitual, sobre todo cuando no se dispone
de estimaciones de la proporción poblacional, determinar el tamaño muestral
dándole el valor de máxima dispersión (este valor se produce cuando p = 0,5);
con ello se está asumiendo que el tamaño de la muestra es lo suficientemente
grande para que las estimaciones sean lo más precisas posible, resultando la ex-
presión:

2 2
z0,05/2 pq z0,05/2 (0,25)
n= 2
; p = 0,5 ò n=
E E2

52 ©  Ediciones Pirámide

pi00302001_02.indd 52 8/3/16 10:53


Muestreo aleatorio simple

Por ejemplo, si se quiere obtener un valor para el tamaño muestral apropia-


do para la estimación de la proporción, con una probabilidad del 95 %
(z0,05/2 = z0,025 = 1,96) y con un error de muestreo del 4 %, entonces:

(1,96)2 0,25
n= = 600,25
(0,04)2

por tanto, habría que seleccionar una muestra de 600 individuos.

b)  Poblaciones finitas

Cuando se pretende estimar el tamaño muestral para poblaciones finitas, es


decir, cuando el factor de corrección es:

1 2
N−n
, 0,95
N

entonces debe considerarse dicho factor de corrección dentro de la expresión de


la varianza del estimador. Para estimar el tamaño muestral apropiado para un
error dado de la media de una variable normal perteneciente a una población fi-
nita se parte de la expresión del error muestral:

! 1 2
σ2 N − n
E = zα /2
n N

Continuando con la anterior expresión, puede obtenerse el tamaño muestral


operando convenientemente, tal que:

1 2
E2 σ2 N − n E2 Nσ 2 nσ 2 E2 σ 2 σ 2
2
= ò 2 = − ò 2 + =
zα /2 n N zα /2 Nn nN zα /2 N n

y, por tanto:

σ2
n=
E2 σ 2
+
zα2 /2 N

donde, multiplicando numerador y denominador por N, queda finalmente la ex-


presión para n como:

©  Ediciones Pirámide 53

pi00302001_02.indd 53 8/3/16 10:53


Introducción a las técnicas de muestreo

Nσ 2
n=
NE 2
+σ2
zα2 /2

El tamaño muestral apropiado para un error dado del estimador del total po-
blacional es:

! 1 2
σ2 N − n
E = zα /2; n − 1 N2 ò
n N

1 2
E2 σ2 N − n Nσ 2
ò = òn=
N 2 zα2 /2 n N E2
+σ2
Nzα2 /2

Para la proporción, el tamaño de la muestra necesario para un determinado


error se obtiene mediante la expresión:

! 1 2
pq N − n Npq
E = zα /2 ò n=
n N NE 2
+ pq
zα2 /2

2.5.  EJERCICIOS RESUELTOS


Ejercicio 1

Para una población de 15.000 empresas se desea estimar el capital social me-
dio y el capital social total (en unidades monetarias). Además, se espera la pu-
blicación de una ley que beneficiará a las empresas que son sociedades anónimas.
Por ello, se quiere conocer si la forma jurídica predominante es Sociedad Anó-
nima y tener una aproximación de cuántas empresas podrán acogerse a la mejo-
ra de la futura ley.
Entre las condiciones exigidas del estudio se destaca que el error debido al
muestreo no puede ser superior al 5 % de los valores de los estimadores. Bajo esa
condición exigida, y sabiendo que obtener información de cada empresa tiene un
coste de 15 € ¿cuánto será el coste total del trabajo de campo?

54 ©  Ediciones Pirámide

pi00302001_02.indd 54 8/3/16 10:53


Muestreo aleatorio simple

Muestra piloto

Capital Forma Capital Forma


ID Nombre de la empresa ID Nombre de la empresa
social jurídica social jurídica

 1 Arju, S. A. 33.056 1 13 Formugy, S. A. 23.740 0


 2 Aurisma 27.046 1 14 Moglotresca 15.686 0
 3 Asia, S. L. 34.261 0 15 Tatinsa 30.231 1
 4 Localcenter 30.051 1 16 Diuparc  7.212 1
 5 Pesca, S. L. 33.657 1 17 Pronautical, S. L. 36.061 1
 6 Rocalo, S. A. 37.864 0 18 Nicomi, S. A. 48.081 1
 7 Tabalo, S. A. 21.035 0 19 Surolli, S. A. L.  6.010 0
 8 Sardinort 25.243 1 20 Plastic, S. A.  6.010 0
 9 Sopaisan 37.563 1 21 Publiespo, S. L.  6.010 0
10 Detergentes, S. L. 15.025 1 22 Refiner, S. A. 13.823 0
11 Fistrimar, S. L. 21.396 0 23 Costa Bayot  6.010 1
12 Panibérica, S. A. 15.266 0 24 Poubliscab, S. L.  7.212 1

Nota: toma el valor 1 cuando la empresa en cuestión es Sociedad Anónima.

Cuestiones

a) ¿Cuál es el valor medio y total del capital social de las empresas de esta
población?
b) ¿De qué tamaño debe ser la muestra y qué coste tendría si, para que al
estimar el capital social medio, el error debido al muestreo no fuera su-
perior al 5 %?
c) ¿Qué proporción de empresas son Sociedad Anónima? ¿De qué tamaño
debe ser la muestra para que al estimar la proporción el error debido al
muestreo no sea superior al 5 %? ¿Cuánto costará la recogida de infor-
mación con las condiciones exigidas?

Solución

Diseño muestral

— Población objetivo: 15.000 empresas, que conforman la población de em-


presas del estudio.
— Unidades muestrales: empresas.
— Parámetros: media y total poblacionales de la variable capital social y
proporción poblacional de la variable forma jurídica.
— Estimadores: media, total y proporción muestrales.
— Método de selección muestral: muestreo aleatorio simple.

©  Ediciones Pirámide 55

pi00302001_02.indd 55 8/3/16 10:53


Introducción a las técnicas de muestreo

a)  Para estimar el capital social medio de la población se usa el estimador


insesgado de varianza mínima, que es la media muestral. Usando los datos de la
muestra, los resultados de dicha estimación son:

24

∑ xi
i =1 537.549
x= = = 22.397,87 €
24 24

es decir, por término medio, el capital social de estas empresas es de 22.397,87 €.


Para estimar el error muestral es necesario conocer la varianza del estimador.
Primero, se calcula la cuasivarianza de la variable:

24

∑ (xi − x )2
i =1 3.610.145.707
ŝ 2 = = = 156.962.857,00 €
24 − 1 23

Así, con la información anterior podemos obtener la varianza de la media


muestral:

1 2 1 2
ŝ 2 N − n 156.962.857 15.000 − 24
var (x ) = = = 6.529.655,00 €
n N 24 15.000

Cabe resaltar que, en este ejemplo, el factor de corrección para poblaciones


finitas podría obviarse, ya que:

1 2
N−n
> 0,95
N

Para calcular el valor total del capital social de las 15.000 empresas sólo hay
que multiplicar el valor medio por el número total de empresas:

x̂ = Nx = 15.000(22.398) = 335.968.125,00 €

b) Suponiendo normalidad, y dado que la muestra es pequeña, el error


muestral es de 5.286,95 €, el cual se obtiene de la siguiente expresión:

E = t0,05/2; 23 var (x ) = 2,069 6.529.655 = 5.286,04 €

56 ©  Ediciones Pirámide

pi00302001_02.indd 56 8/3/16 10:53


Muestreo aleatorio simple

que, en términos relativos a la media, dicho error es:

E 5.286,04
E(%) = × 100 = × 100 = 23,60 %
x 22.398,00

Este error del 23,6 % es muy elevado, y en el estudio se exige que dicho error
no supere el 5 % del valor del estimador. Multiplicando el valor del estimador
(media muestral) por el porcentaje de error permitido, en este caso del 5 %, se
obtiene que el valor del error máximo permitido para la media es:

E(5%) = 0,05 × 22.398,00 = 1.119,90 €

A continuación, sólo hay que sustituir los respectivos valores en la expre-


sión del tamaño de la muestra para el error deseado y estimar el tamaño apro-
piado:

Nŝ 2 15.000(156.962.857)
n= 2 = = 517,18
NE 15.000(1.119,90)2
2
+ ŝ 2
+ 156.962.857
z0,05/2 (2,069)2

En resumen, si se desea realizar un estudio sobre el capital social de las


15.000 empresas y el error debido al muestreo no ha de ser superior al 5 %, es ne-
cesario que la muestra esté formada por 517 empresas. Por último, sabiendo que
cada encuesta tiene un coste de 15 €, el coste del trabajo de campo asciende a
los 7.755,25 €:

Coste = 517 × 15 € = 7.755,25 €

c) Para estimar la proporción de empresas que son Sociedad Anónima cal-


culamos la expresión:

24

∑ ai
i =1 13
p̂ = = = 0,54
24 24

es decir, se estima que el 54,2 % de las empresas de la población son Sociedad


Anónima.
Para determinar el error muestral de dicha estimación se calcula su varianza,
la cual se obtiene por la siguiente fórmula:

©  Ediciones Pirámide 57

pi00302001_02.indd 57 8/3/16 10:53


Introducción a las técnicas de muestreo

1 2
p̂(1 − p̂) N − n
var ( p̂) = =
n N

1 2
0,54(1 − 0,54) 15.000 − 24
= = 0,0103
24 15.000

siendo el error de muestreo igual a:

E = z0,05/2 var ( p̂) = 1,96 0,0103 = 0,199

Dado que las proporciones vienen expresadas en términos relativos, multipli-


cando por cien se tiene el error en porcentaje, tal que:

E(%) = E × 100 = 0,199 × 100 = 19,9 %

Pero en el ejercicio se especifica que el error no debe ser superior al 5 %


(E = 0,05). Por tanto, hay que determinar el tamaño muestral apropiado para di-
cho error. Para ello, se usa la expresión:

Np̂q̂ 15.000(0,54)(1 − 0,54)


n= 2 = = 372,02
NE 15.000(0,05)2
2
+ p̂q̂ + [(0,54)(1 − 0,54)]
z0,05/2 (1,96)2

En resumen, para estimar qué proporción de empresas son Sociedad Anóni-


ma con un error debido al muestreo que no sea superior al 5 %, son necesarias
372 empresas, aproximadamente.

Ejercicio 2

Se ha tomado una muestra piloto de 100 individuos para estudiar los ingre-
sos medios y totales (en unidades monetarias) y la proporción de personas casa-
das de una determinada población formada por 2.250 individuos. Se desean ob-
tener estimaciones con errores muestrales que no superen el 5 %.
En el cuadro siguiente se presenta la muestra piloto seleccionada mediante
muestreo aleatorio simple. La variable «estado civil» (estado) toma el valor 1
cuando el individuo en cuestión está casado.

58 ©  Ediciones Pirámide

pi00302001_02.indd 58 8/3/16 10:53


Muestreo aleatorio simple

ID Ingresos Estado ID Ingresos Estado ID Ingresos Estado ID Ingresos Estado

 1   655 1 26 1.854 0 51 1.856 0  76 1.200 1


 2 1.986 1 27 1.546 1 52   760 1  77   900 0
 3   851 1 28 1.300 1 53 1.845 0  78   687 1
 4 1.893 1 29 1.452 0 54 1.369 1  79 1.111 1
 5 1.000 0 30 1.784 1 55   900 1  80 1.715 1
 6 1.100 1 31   655 0 56 1.854 0  81 1.856 1
 7 1.965 1 32   701 0 57 1.546 1  82 2.100 0
 8 1.430 0 33   851 1 58 1.300 1  83 1.845 1
 9 1.630 1 34 1.893 0 59 1.452 1  84 1.369 0
10 1.250 1 35 1.000 1 60 1.784 1  85 2.001 0
11 1.331 0 36 1.100 1 61   655 0  86 1.854 1
12 1.985 1 37   823 0 62 1.986 0  87 1.546 0
13 1.430 1 38 1.430 1 63   851 1  88   699 1
14 1.570 1 39 1.630 0 64 1.893 0  89 1.452 1
15 2.200 1 40 1.250 1 65 1.000 0  90 1.784 0
16 1.200 0 41 1.331 0 66 1.100 1  91 1.555 1
17 1.966 0 42   901 1 67 1.965 0  92   899 0
18 1.575 1 43 1.430 1 68 1.430 1  93   925 1
19 1.111 0 44 1.570 0 69 1.630 1  94   963 0
20 1.715 1 45   755 1 70   691 0  95 1.200 1
21 1.856 1 46 1.200 1 71 1.331 1  96 2.050 1
22 2.100 0 47   865 1 72 1.985 0  97   945 0
23   667 1 48 1.575 1 73 1.430 1  98 1.000 1
24 1.369 0 49 1.111 0 74 1.570 0  99 1.564 1
25 2.001 1 50 1.715 1 75   860 1 100   745 1

Dado que la muestra puede considerarse grande, para facilitar la resolución,


a continuación, se dan algunos resultados:

100 100
— Para la variable ingresos: ∑ xi = 138.566,00, ∑ (xi − x )2 = 18.906.186,00 .
i =1 i =1

100
— Para la variable estado, que toma valores 0 y 1, ∑ ai = 62.
i =1

Cuestiones

a) Estimar los ingresos medios y totales. ¿De qué tamaño debe ser la mues-
tra para que el error de estimación de los ingresos medios de la pobla-
ción no sea superior al 5 % del valor de los estimadores?

©  Ediciones Pirámide 59

pi00302001_02.indd 59 8/3/16 10:53


Introducción a las técnicas de muestreo

b) Estimar la proporción de personas casadas. ¿De qué tamaño debe ser la


muestra para que el error de estimación de la proporción de personas ca-
sadas (ai = 1) no sea superior al 5 %?

Solución

Diseño muestral

— Población objetivo: 2.250 personas, que conforman la población del estu-


dio.
— Unidades muestrales: individuos.
— Parámetros: media y total poblacionales de la variable ingresos y la pro-
porción poblacional de personas casadas.
— Estimadores: media, total y proporción muestrales.
— Método de selección muestral: muestreo aleatorio simple.

a) Para estimar el ingreso medio poblacional se usa la media muestral:


100

∑ xi
i =1 138.566,00
x= = = 1.385,66 €
100 100

es decir, los ingresos medios de las personas de esta población ascienden a


1.385,66 €.
Para calcular el error muestral, a continuación se obtiene la cuasivarianza, tal
que:
100

∑ (xi − x )2
i =1 18.906.186,00
ŝ 2 = = = 190.971,58 €
100 − 1 99

Así, la varianza del estimador es:

1 2 1 2
ŝ 2 N − n 190.971,58 2.250 − 100
var (x ) = = = 1.814,23 €
n N 100 2.250

En este ejemplo, el factor de corrección para poblaciones finitas:

1 2
N−n
= 0,96 . 0,95
N

60 ©  Ediciones Pirámide

pi00302001_02.indd 60 8/3/16 10:53


Muestreo aleatorio simple

Por comodidad, si se prefiere, puede considerarse población infinita en el


cálculo de la varianza de la media y aproximar z0,05/2 = 1,96. De esta forma, el
error muestral se obtiene a partir de la expresión:

E = z0,05/2 var (x ) = 1,96 × 1.824, 84 = 83,73 €

es decir, el error muestral es de 83,73 €. Comparando éste con la media:

E 83,73
E(%) = × 100 = × 100 = 6,04 %
x 1.385,66

es decir, éste representa un 6,04 %.


Como el error supera el 5 % del valor del estimador, hay que aumentar la
muestra para reducirlo. Según el enunciado, el error máximo que se está dispues-
to a asumir es del 5 %, es decir:

E(5%) = (0,05)(1.385,66) = 69,28

Para este error, el tamaño muestral apropiado se obtiene mediante la expre-


sión en que se incluye la estimación de la cuasivarianza, tal que:

Nŝ 2 2.250 × 190.971,58


n= = ≈ 143,12
NE 2 2.250(69,28) 2
+ ŝ 2
+ 190.971,58
zα2 /2 (1,96)2

es decir, 146 individuos, aproximadamente.


Los ingresos totales serán:

x̂ = Nx = 2.250 × 1.385,66 = 3.117.735,00 €

b) Usando la variable de estado civil (estado), la proporción estimada de


casados es:

100

∑ xi
i =1 62
p̂ = = = 0,62
100 100

es decir, el 62 % de la población está casada.

©  Ediciones Pirámide 61

pi00302001_02.indd 61 8/3/16 10:53


Introducción a las técnicas de muestreo

Para medir la precisión de esa estimación se necesita el error muestral. Para


ello, primero hay que estimar la varianza del estimador:

1 2 1 2
N−n 0,62(1 − 0,62) 2.250 − 100
var ( p̂) = = = 0,0024
N 100 2.250

y, en segundo lugar, su error de muestreo, que es igual a:

E = z0,05/2 var ( p̂) = 1,96 × 0,0024 = 0,093

Multiplicando por 100 dicho error se tiene que el error en porcentaje es del
9,3 %, es decir:

E(%) = E × 100 = 0,093 × 100 = 9,3 %

Este error supera el 5 % exigido en el enunciado. Hay que estimar el tamaño
muestral adecuado para el error del 5 %: por tratarse de proporciones, E = 0,05,
y asumiendo que las proporciones son las estimadas previamente, tenemos que
el tamaño de la muestra puede calcularse como:

Np̂q̂ 2.250(0,62)(1 − 0,62)


n= 2 = = 312,00
NE 2.250(0,05)2
2
+ p̂q̂ + 0,236
z0,05/2 (1,96)2

es decir, con las condiciones exigidas, la muestra debe contener 312 indivi-
duos.

Ejercicio 3

Para hacer un estudio en una ciudad turística que recibe diariamente 1.500
turistas, se ha seleccionado una muestra aleatoria simple con tres variables: gas-
tos en consumo (gastos) y dos variables cualitativas. La primera, nacionalidad,
toma el valor 1 si el turista en cuestión es extranjero. La segunda, pernocta, toma
el valor 1 si el turista en cuestión pasa la noche en la ciudad.

62 ©  Ediciones Pirámide

pi00302001_02.indd 62 8/3/16 10:53


Muestreo aleatorio simple

ID Gastos Nacionalidad Pernocta

 1 48 1 0
 2 41 1 0
 3 34 1 1
 4 25 0 0
 5 32 1 1
 6 25 0 0
 7 36 1 0
 8 31 1 0
 9 30 0 0
10 38 1 0
11 31 1 1
12 19 1 1
13 26 1 0
14 27 1 0
15 22 1 0

Cuestiones

En el estudio de mercado se quiere conocer:

a) ¿Cuánto es el gasto medio de los turistas en la ciudad? ¿Cuál es el tama-


ño apropiado de la muestra si el error muestral no puede ser superior al
5 %?
b) ¿Qué proporción de turistas son extranjeros? ¿Cuál es el tamaño apropia-
do de la muestra si el error muestral no puede ser superior al 5 %?
c) ¿Qué proporción de turistas pernoctan en la ciudad? ¿Cuál es el tamaño
apropiado de la muestra si el error muestral no puede ser superior al 5 %?
d) Usando las proporciones estimadas con las variables cualitativas (nacio-
nalidad y pernocta), suponiendo que ambas variables son independien-
tes, construir una tabla de probabilidades conjuntas y estimar:

— Número de turistas extranjeros que pernoctan en la ciudad.


— Número de turistas nacionales que pernoctan en la ciudad
— Porcentaje de turistas nacionales que no pernoctan.

Solución

Diseño muestral

— Población objetivo: 1.500 turistas que diariamente visitan la ciudad.


— Unidades muestrales: turistas.

©  Ediciones Pirámide 63

pi00302001_02.indd 63 8/3/16 10:53


Introducción a las técnicas de muestreo

— Parámetros: gasto medio y gasto total poblacionales y proporciones po-


blacionales de las variables nacionalidad y pernoctaciones.
— Estimadores: media, total y proporción muestrales.
— Método de selección muestral: muestreo aleatorio simple.

a)  Variable gastos en consumo

15
La suma de los gastos es ∑ xi = 465. Así, el gasto medio diario de los turis-
i =1

tas que visitan la ciudad es:

15

∑ xi
i =1 465
x= = = 31 €
15 15

es decir, 31 €.
Para determinar el error muestral hay que calcular la cuasivarianza y, poste-
riormente, la varianza del estimador. Sus resultados son:

15

∑ (xi − x )2
i =1 812
ŝ 2 = = = 58
15 − 1 14

1 2 1 2
ŝ 2 N − n 58 15.000 − 15
var (x ) = = = 3,83
n N 15 15.000

Así, el error de muestreo es igual a:

E = z0,05/2 var (x ) = 1,96 × 3,83 = 3,84

siendo su porcentaje, en términos de la media, igual a:

E 4,2
E(%) = × 100 = × 100 = 13,54 %
x 31

Como el error debido al muestreo es del 13,54 %, y la condición es que el


error no supere el 5 % del valor del gasto medio en consumo, hay que aumentar
el tamaño muestral. Así, con un error del 5 %:

64 ©  Ediciones Pirámide

pi00302001_02.indd 64 8/3/16 10:53


Muestreo aleatorio simple

E(5%) = 0,05 × 31 = 1,55

Sustituyendo en la siguiente expresión, el tamaño muestral para este error


será:

Nŝ 2 1.500(58)
n= = = 87,33 turistas
NE 2 1.500(1,55)2
2

2
ŝ + 58
z0,05/2 (1,96)2

Los gastos totales en consumo que diariamente realizan los turistas en la ciu-
dad ascienden a:

x̂ = N × x = 1.500 × 31 = 46.500 €

b)  Variable nacionalidad

Esta variable diferencia a los turistas según sean extranjeros (caso favorable)
o nacionales. Para obtener qué porcentaje de turistas que visitan la ciudad son
extranjeros, tenemos que:
15

15 ∑ ai
i =1 12
∑ ai = 12 ò p̂ =
15
=
15
= 0,80
i =1

es decir, el 80 % de los turistas que visitan la ciudad son extranjeros, siendo el por-
centaje de los turistas nacionales que la visitan igual a q̂ = (1 − p̂) = (1 − 0,8) = 0,2,
es decir, el 20 %.
En cuanto a la varianza de la proporción y su error de muestreo, tenemos
que:

1 2 1 2
p̂(1 − p̂) N − n 0,8(1 − 0,8) 1.500 − 15
var ( p̂) = = = 0,0105
n N 15 15.000

E = z0,05/2 var ( p̂) = 1,96 × 0,0105 = 0,20

y, dado que las proporciones están expresadas en términos relativos, solamente


multiplicando por cien se tiene el error en porcentaje, tal que:

E(%) = E × 100 = 0,20 × 100 = 20 %

©  Ediciones Pirámide 65

pi00302001_02.indd 65 8/3/16 10:53


Introducción a las técnicas de muestreo

El error muestral es muy elevado (un 20 %). Por tanto, para estimar la pro-
porción con un error del 5 % (E = 0,05), asumiendo las proporciones muestrales
estimadas como conocidas, tenemos que:

Np̂q̂ 1.500(0,8)(0,2) 240


n= 2 = 2 = = 210,53
NE 15.000(0,05) 1,14
2
+ p̂ q̂ + 0,16
z0,05/2 (1,96)2

es decir, el tamaño de la muestra es 211 turistas.

c)  Variable pernoctaciones (pernocta)

La proporción de turistas que visitan la ciudad y pernoctan es del 26,7 %.


Este resultado puede obtenerse fácilmente de los siguientes cálculos:

15

15 ∑ ai
i =1 4
∑ ai = 4 ò p̂ =
15
=
15
= 0,267 ò q̂ = 0,733
i =1

La varianza y el error de muestreo son iguales a:

1 2 1 2
p̂(1 − p̂) N − n 0,267(0,733) 1.500 − 15
var ( p̂) = = = 0,0129
n N 15 15.000

E = z0,05/2 var ( p̂) = 1,96 × 0,0129 = 0,223

donde el error en porcentaje es igual a:

E(%) = E × 100 = 0,223 × 100 = 22,30 %

es decir, el error muestral es del 22,30 %. Si el error tiene que ser del 5 %, el nú-
mero de turistas a muestrear debería ser:

Np̂q̂ 293,33 293,33


n= = = ≈ 245
NE 2 1.500(0,05)2 1,199
2
+ p̂ q̂ + 0,223
z0,05/2 (1,96)2

66 ©  Ediciones Pirámide

pi00302001_02.indd 66 8/3/16 10:53


Muestreo aleatorio simple

d)  Una vez obtenidas las estimaciones de las variables nacionalidad y per-
nocta se puede construir una tabla 2 × 2 con las categorías de las variables cua-
litativas. Para ello, hay que multiplicar las proporciones entre las diferentes cate-
gorías de las dos variables para obtener una tabla de probabilidades conjuntas,
como se exponen en la siguiente tabla.
Siguiendo el ejemplo, con las proporciones estimadas para las variables na-
cionalidad y pernocta, se construye la tabla de probabilidades a partir de los pro-
ductos de dichas proporciones:

p̂ Nacionalidad q̂ Nacionalidad

p̂ Pernocta p̂ Nacionalidad p̂ Pernocta q̂ Nacionalidad p̂ Pernocta

q̂ Pernocta p̂ Nacionalidad q̂ Pernocta q̂ Nacionalidad q̂ Pernocta

Nota: si los sucesos son independientes, pij = pi. × p.j.

Posteriormente, multiplicando cada una de las probabilidades conjuntas por


el número total de individuos de la población (N), se obtiene la distribución de
éstos entre las diferentes alternativas.
Sustituyendo los resultados de las proporciones del ejercicio, la tabla de pro-
babilidades queda:

Tabla de probabilidades

p̂ Nacionalidad = 0,8 q̂ Nacionalidad = 0,2 Total filas

p̂ Pernocta = 0,267 0,8 × 0,267 = 0,214 0,2 × 0,267 = 0,053 0,267

q̂ Pernocta = 0,733 0,8 × 0,733 = 0,586 0,2 × 0,733 = 0,147 0,733

Total columnas 0,800 0,200 1,000

Según la tabla anterior, hay un 21,4 % de los turistas extranjeros que pernoc-
tan. Si se multiplica ese porcentaje por los 1.500 turistas que componen la po-
blación objetivo, resulta que, aproximadamente: 0,214 × 1.500 = 321 turistas ex-
tranjeros pernoctan en la ciudad. Sólo el 5,3 % de los turistas nacionales
pernoctan en la ciudad, es decir, 0,053 × 1.500 = 79 turistas. El 14,7 % de los tu-
ristas que no pernoctan son nacionales.

©  Ediciones Pirámide 67

pi00302001_02.indd 67 8/3/16 10:53


pi00302001_02.indd 68 8/3/16 10:53
3 Muestreo aleatorio estratificado

3.1.  EL MUESTREO ALEATORIO ESTRATIFICADO


En este tipo de muestreo la población se divide en diferentes capas o estra-
tos a partir de un criterio geográfico, económico, social, etc. Para aplicar este
tipo de muestreo es necesario que los estratos estén bien definidos para que no
existan solapamientos y, si es posible, conocer los tamaños de los estratos. La
muestra aleatoria estratificada se obtiene seleccionando aleatoriamente indivi-
duos de una población en cada uno de los estratos, respetando sus pesos o ta-
maños.
Entre las ventajas del muestreo estratificado frente al aleatorio simple, des-
taca la precisión; si la estratificación es la adecuada, el error de estimación será
inferior que en una muestra aleatoria simple del mismo tamaño. Esta ganancia
en la precisión de la estimación se debe a que los individuos dentro de los estra-
tos son homogéneos y distintos a los individuos que pertenecen a los restantes
estratos.

Procedimiento del muestreo estratificado

Las unidades de la población, N, atendiendo a un determinado criterio, se di-


viden en subpoblaciones o estratos:

L
N = N1 + N2 + ! + N L = ∑ Nh
h =1

siendo L el número de estratos. Una vez fijados los tamaños de los estratos
(N1, N2, ..., NL) se selecciona, dentro de cada uno de los mismos, aleatoriamen-

©  Ediciones Pirámide 69

pi00302001_03.indd 69 8/3/16 10:54


Introducción a las técnicas de muestreo

te, una muestra de tamaño nh, h = 1, 2, ..., L, y los tamaños de estas muestras in-
dependientes se denotan por (n1, n2, ..., nL). Con este procedimiento se completa
la muestra definitiva n, formada por la suma de las de cada estrato:

L
n = n1 + n2 + ! + nL = ∑ nh
h =1

N1 n1

N2 n2

N3 n3

Figura 3.1.  Partición de la población en estratos de diferente tamaño.

Para obtener los mejores resultados, una de las principales características


deseables de los estratos es que los elementos que los componen sean homogé-
neos dentro de ellos, es decir, que dentro de cada estrato las unidades presen-
ten puntuaciones parecidas, por ejemplo, niveles de rentas similares. Sin embar-
go, entre los estratos, es deseable que sean heterogéneos para que no haya
solapamientos. Volviendo al ejemplo de la renta, los límites de los estratos de-
ben estar bien definidos para que no exista confusión entre los grupos de per-
sonas con niveles de rentas bajos, medios y altos. Para que el muestreo estrati-
ficado obtenga los mejores resultados hay que elegir muy bien el criterio de
estratificación.

70 ©  Ediciones Pirámide

pi00302001_03.indd 70 8/3/16 10:54


Muestreo aleatorio estratificado

3.2. LOS ESTIMADORES DE LA MEDIA, EL TOTAL


Y LA PROPORCIÓN EN EL MUESTREO ESTRATIFICADO
3.2.1.  Estimador de la media de la población

Para estimar la media poblacional se usa su estimador o media muestral, que


en el muestreo estratificado es igual a la siguiente expresión:

L L
1
xst =
N
∑ N h xh = ∑ Wh xh
h =1 h =1

El estimador de la media poblacional depende de dos expresiones:

Nh
Wh =
N

que es el peso o la ponderación poblacional del estrato h, y la media muestral


dentro del estrato h:

nh
1
xh =
nh
∑ xih
i =1

La varianza de la media se obtiene a partir de las sumas ponderadas de las


varianzas de los estratos:

1 2 1 21 2
L L L
1 1 1 N h − nh ŝh2
var (xst ) = var
N
∑ Nh xh =
N2
∑ Nh2 var (xh ) = N2
∑ Nh2 Nh nh
=
h =1 h =1 h =1

1 2 1 2
L L
1 ŝh2 ŝh2
=
N2
∑ Nh2 (1 − fh )
nh
= ∑ Wh2 (1 − fh )
nh
h =1 h =1

1 21 2 y ŝ
N h − nh ŝh2
siendo var (xh ) = 2
h la cuasivarianza de cada estrato:
Nh nh

nh

∑ (xih − xh )2
i =1
ŝh2 =
nh − 1

©  Ediciones Pirámide 71

pi00302001_03.indd 71 8/3/16 10:54


Introducción a las técnicas de muestreo

o, lo que es lo mismo:
nh

∑ xih2 − nh xh2
i =1
ŝh2 =
nh − 1

1 2 es el factor de corrección por población finita para


N h − nh
La expresión
Nh
cada estrato.
Finalmente, a partir del intervalo de confianza para la media, el valor para
el error de estimación de la media viene dado por la siguiente expresión:

L
1 ŝh2
E = tα /2; n − 1 var (xst ) = tα /2; n − 1
N2
∑ Nh2 (1 − fh )
nh
h =1

Determinación del tamaño de la muestra (n) para el estimador de la media

En el muestreo estratificado, para fijar el tamaño de la muestra, hay que pre-


fijar el error de estimación que se está dispuesto a soportar y, además, elegir un
criterio de afijación.
Partiendo de la expresión para la media de la población estratificada, asu-
miendo normalidad e información poblacional, tenemos que el error de mues-
treo tiene la siguiente formulación:

L
1 σ h2
E = zα /2 var (xst ) = zα /2;
N2
∑ Nh2 (1 − fh )
nh
h =1

Tenemos que:

L
E2 1 σ h2
=
zα2 /2 N 2
∑ Nh2 (1 − fh )
nh
h =1

o, lo que es lo mismo:

1 2
L L L
N 2E2 N h − nh σ h2 σ2
zα2 /2
= ∑ N h2
Nh nh
; ∑ N h2 h − ∑ N hσ h2
nh h = 1
h =1 h =1

72 ©  Ediciones Pirámide

pi00302001_03.indd 72 8/3/16 10:54


Muestreo aleatorio estratificado

De esta forma,

L L
N 2E2 N h2σ h2
zα2 /2
+ ∑ N hσ h2 = ∑ nh
h =1 h =1

La incógnita n no aparece en la fórmula anterior. Para superar esta limita-


ción se utiliza la expresión del peso de la muestra de cada estrato en relación a
toda la muestra:

nh
wh = ò nh = nwh
n

y, a continuación, en la varianza de los estratos, se sustituye nh por nwh. De esta


forma, queda:

L L
N 2E2 N h2σ h2
zα2 /2
+ ∑ Nhσ h2 = ∑
h =1 h = 1 nwh

y, despejando n:

L
N h2σ h2

h = 1 wh
n= L
N 2E2
zα2 /2
+ ∑ N hσ h2
h =1

Como se puede apreciar, n depende del criterio del reparto (wh) que se apli-
que. Este criterio de reparto o afijación muestral se explicará en el epígrafe 3.3
de este capítulo.

3.2.2.  Estimador del total poblacional

El estimador apropiado del total de la población se obtiene multiplicando la


media muestral por el número total de individuos (N):

1 2
L

∑ Nh xh L
h =1
x̂st = Nxst = N
N
= ∑ Nh xh
h =1

©  Ediciones Pirámide 73

pi00302001_03.indd 73 8/3/16 10:54


Introducción a las técnicas de muestreo

Aplicando la varianza al estimador del total poblacional y teniendo en cuen-


ta la propiedad de la varianza del producto de una constante por una variable,
var (kX) = k2 var (X), la varianza del estimador del total queda:

L
ŝh2
var ( x̂st ) = var (Nxst ) = N 2 var (xst ) = ∑ Nh2 (1 − fh )
nh
h =1

Finalmente, suponiendo la varianza poblacional desconocida o muestras pe-


queñas, el error de estimación del total poblacional viene dado por la expresión:

L
ŝh2
E = tα /2; n − 1 var ( x̂st ) = tα /2; n − 1 var (Nxst ) = tα /2; n − 1 ∑ N h2 (1 − fh )
nh
h =1

La determinación del tamaño muestral para estimar el total poblacional con


un determinado error de estimación, E, tiene por expresión:
L
N h2σ h2

h = 1 wh
n= L
E2
+ ∑ N σ2
zα2 /2 h = 1 h h

3.2.3.  Estimador de la proporción

Ahora, la variable en estudio separa a los individuos en dos clases mutuamen-


te excluyentes, C y Cæ (acierto, fallo). Si denominamos Ah al número de unidades
Ah
del estrato h que pertenecen a la clase C, entonces Ph = es la proporción de
Nh
unidades de la clase C en el estrato h (proporción de aciertos en el estrato h). El
ah
estimador de la proporción poblacional es la proporción muestral ph = o pro-
nh
porción de unidades de la muestra de ese estrato que pertenecen a la clase C. Para
estimar la proporción poblacional se tiene en cuenta las proporciones de cada uno
de los estratos ponderadas por sus respectivos tamaños, de tal manera que:

L
1
p̂st =
N
(N1 p̂1 + ! + N L p̂h ) = ∑ Wh p̂h
h =1

74 ©  Ediciones Pirámide

pi00302001_03.indd 74 8/3/16 10:54


Muestreo aleatorio estratificado

donde:

nh

∑ aih
i =1
p̂h =
nh

es el estimador de las respectivas proporciones en cada estrato.


Por otro lado, la varianza de la proporción poblacional se obtiene a partir de
la suma ponderada de las respectivas varianzas de los estratos:

L
var ( p̂st ) = ∑ Wh2 var ( p̂h )
h =1

donde la varianza de cada estrato es:

p̂h q̂h
var ( p̂h ) = (1 − fh )
nh

y, sustituyendo en el estimador de la proporción poblacional, queda:

L
p̂h q̂h
var ( p̂st ) = ∑ Wh2 (1 − fh )
nh
h =1

El error de estimación para la proporción poblacional es:

L
p̂h q̂h
E = zα /2 var ( p̂st ) = zα /2 ∑ Wh2 (1 − fh )
nh
h =1

Siguiendo el mismo procedimiento que para los anteriores estimadores, se


tiene que para obtener el tamaño muestral de la proporción, puede emplearse la
siguiente expresión:

L
N h2 p̂h q̂h
∑ w
h =1 h
n= L
N 2E2
zα2 /2
+ ∑ N h p̂h q̂h
h =1

©  Ediciones Pirámide 75

pi00302001_03.indd 75 8/3/16 10:54


Introducción a las técnicas de muestreo

si se asume como desconocida la variación poblacional, hecho por el cual se in-


cluye en dicha fórmula la estimación de las proporciones en cada estrato, p̂h y su
complementario, q̂h, si éstas se conocieran. En caso no conocer p̂h, deberíamos
asumir el valor de la varianza máxima, p̂hq̂h = 0,25 en cada estrato, resultado que
se alcanza cuando p̂h = q̂h = 0,25, tal y como hemos comentado en el capítulo an-
terior.

3.3.  CRITERIOS DE AFIJACIÓN


Como ha podido apreciarse en el epígrafe anterior, en las ecuaciones para de-
terminar el tamaño de n para un error dado, el resultado siempre depende del
criterio del reparto (wh) que se aplique.
La afijación es el reparto, asignación, adjudicación, adscripción o distribu-
ción del tamaño muestral n entre los diferentes tamaños muestrales de los estra-
tos, nh, y se cumple que n1 + ... + nL = n. Por tanto, las afijaciones o asignacio-
nes explican de qué modo se van a repartir las n unidades muestrales entre los L
estratos: nh = nwh.
Existen cuatro criterios para realizar las afijaciones, que describiremos breve-
mente a continuación.

a)  Afijación uniforme

Cuando a todos los estratos les corresponden el mismo número de observa-


1 n
ciones muestrales. En tal caso, wh = y nh = .
L L

b)  Asignación o afijación proporcional

Con este criterio de reparto, las n unidades muestrales se seleccionan propor-


cionalmente a los tamaños de los estratos. Con este tipo de afijación se consigue
reflejar en el reparto de la muestra definitiva entre los estratos la importancia
­relativa o la proporcionalidad que cada estrato tiene en la población (muestras
autoponderadas). Por ello, en la afijación proporcional, las ponderaciones mues-
trales (wh) coinciden con las poblacionales (Wh):

1 2
N h nh N
Wh = = = wh ò nh = n h
N n N

76 ©  Ediciones Pirámide

pi00302001_03.indd 76 8/3/16 10:54


Muestreo aleatorio estratificado

c)  Afijación de Neyman o de varianza mínima

La asignación de la muestra entre los estratos se obtiene minimizando la va-


rianza global sujeta a la condición de que el tamaño de la muestra debe coincidir
con la suma de los tamaños muestrales de los estratos. Dicho de otra manera:

mín var (xst )

sujeto a:

∑ nh = n
h =1

La función de Lagrange para dicho problema de minimización puede escri-


birse como:

1 2 1 2
L L L
σ h2
φ (ni , λ ) = var (xst ) + λ ∑ nh − n = ∑ Wh2 (1 − fh )
nh
+λ ∑ nh − n
h =1 h =1 h =1

Para obtener las condiciones de primer orden de dicho problema de minimi-


zación derivamos respecto a nh y l. Igualando a cero dicho resultado, obtenemos
el siguiente sistema de ecuaciones, definido por:

∂φ (nh , λ ) σ2
= −Wh2 2h + λ = 0 , h = 1, 2,..., L
∂nh nh
L
∂φ (nh , λ )
∂λ
= ∑ nh − n = 0
h =1

Despejando respecto a nh, se obtiene la expresión para calcular las afijacio-


nes de varianza mínima. De esta manera:

σ h2 N h2 σ h2 N σ Nσ
λ = Wh2 2
= 2 2 ò λ = h h ò nh = n L h h
nh N nh N nh
∑ Nhσ h
h =1

Como se puede apreciar en la ecuación anterior, en la afijación de varianza


mínima, la ponderación, además de tener en cuenta el tamaño de los estratos

©  Ediciones Pirámide 77

pi00302001_03.indd 77 8/3/16 10:54


Introducción a las técnicas de muestreo

(Nh), también considera las desviaciones típicas (sh). De esta forma, si un estra-
to pequeño tiene una varianza muy grande (impreciso), se le puede compensar
dándole un peso mayor que otros estratos que pueden tener más individuos, pero
con menores varianzas.
El tamaño muestral n se estima atendiendo a la expresión del error debido al
muestreo, de tal manera que:
L
N h2σ h2

h = 1 wh
n= L
N 2E2
+ ∑ N hσ h2
zα2 /2 h =1

con wh igual a:

N hσ h
wh = L

∑ Nhσ h
h =1

Para el caso del total, la expresión a minimizar es:

mín var ( x̂st )

sujeto a:

∑ nh = n
h =1

donde la función de Lagrange es:

1 ∑ n − n2 = ∑ 1 ∑ n − n2
L L L
σ2
φ (ni , λ ) = var ( x̂st ) + λ h N h2 (1 − fh ) h + λ h
h =1 h =1 nh h =1

y las condiciones de primer orden son:

∂φ (nh , λ ) σ2
= −N h2 2h + λ = 0 , h = 1, 2,..., L
∂nh nh
L
∂φ (nh , λ )
∂nh
= ∑ nh − n = 0
h =1

78 ©  Ediciones Pirámide

pi00302001_03.indd 78 8/3/16 10:54


Muestreo aleatorio estratificado

Por tanto, resolviendo el sistema, la ecuación para estimar el tamaño mues-


tral para un error E previamente establecido, es:
L
N h2σ h2

h = 1 wh
n= L
E2
+ ∑ N σ2
zα2 /2 h = 1 h h

con wh igual a:

N hσ h
wh = L

∑ Nhσ h
h =1

d)  Afijación óptima

Es la asignación que minimiza el coste de la muestra para un error dado:

mín var (xst )

sujeto a:
L

∑ ch nh = C
h =1

donde ch es el coste de muestrear cada unidad en el estrato h, y C es el coste total.


El lagrangiano está definido por:

1 ∑ c n − C2
L
φ (nh , λ ) = var (xst ) + λ h h
h =1

Derivando y despejando nh, se obtiene que la proporción para cada uno de


los estratos es:

N hσ h
ch
wh = L

∑ N kσ k
k =1

ck

©  Ediciones Pirámide 79

pi00302001_03.indd 79 8/3/16 10:54


Introducción a las técnicas de muestreo

y el tamaño óptimo de la muestra, considerando que nh = nwh, se puede expresar


como:

N hσ h
ch
nh = n L

∑ N kσ k
k =1

ck

En esta asignación, además de tener en cuenta los tamaños de los estratos


y sus varianzas, se introducen las limitaciones impuestas por las disponibili-
dades económicas. Si el coste por unidad muestreada, ch, es constante en to-
dos los estratos (c1 = c2 = ... = cL = c), el tamaño óptimo para cada estrato se
reduce a:

N hσ h
nh = n L

∑ Nhσ h
h =1

que corresponde a la afijación de varianza mínima. Por tanto, la afijación de


Ney­man es un caso particular de la afijación óptima cuando los costes de mues-
trear las unidades de los estratos son iguales en todos los estratos.
Si los costes son iguales y también las varianzas en todos los estratos, enton-
ces resulta:

Nh
nh = n
N

que coincide con la expresión de la afijación proporcional.


Obviamente, todos estos planteamientos también pueden presentarse para el
total poblacional partiendo de mín var (xst).
Finalmente, en el caso de la estimación de la proporción, la afijación mues-
tral óptima o de coste mínimo es:

ph qh
Nh
ch
nh = n L
pk qk
∑ Nk ck
k =1

80 ©  Ediciones Pirámide

pi00302001_03.indd 80 8/3/16 10:54


Muestreo aleatorio estratificado

Si no existen costes o el coste por unidad muestreada es constante en todos


los estratos (c1 = c2 = ... = cL = c), resulta de la expresión anterior la afijación de
varianza mínima para proporciones:

N h ph qh
nh = n L

∑ Nk ph qh
k =1

3.4.  EJERCICIOS RESUELTOS


Ejercicio 1

Se ha tomado la siguiente muestra piloto para estimar el gasto medio de los


turistas. La variable gastos es el gasto por persona y día. La variable alojamien-
to es dicotómica; es igual a 1 cuando el turista ha elegido hotel, y 0 si se hospe-
da en un apartamento:

Turista Gastos Alojamiento Turista Gastos Alojamiento

 1 152 1 12 222 1
 2  65 0 13 185 1
 3 225 1 14  68 0
 4 170 1 15  69 0
 5  60 0 16  74 0
 6  74 0 17 205 1
 7 186 1 18  88 0
 8  75 0 19 175 1
 9 155 1 20  86 0
10  90 0 21  71 0
11 210 1 22  68 0

Se sabe que la población objetivo está formada por 2.500 turistas, de los cua-
les 1.075 han optado por alojarse en un hotel.

Cuestiones

Se pide estimar el gasto medio de los turistas:

a) Utilizando muestreo aleatorio simple. Para un error de 5 €, ¿de qué ta-


maño debe ser la muestra?

©  Ediciones Pirámide 81

pi00302001_03.indd 81 8/3/16 10:54


Introducción a las técnicas de muestreo

b) Mediante muestreo aleatorio estratificado. Para un error de 5 € y afija-


ción de varianza mínima, ¿de qué tamaño ha de ser la muestra?
c) Con los mismos datos, ¿qué método ha resultado más preciso?

Solución

Diseño muestral

— Población objetivo: 2.500 turistas.


— Unidad muestral: individuos.
— Parámetros: gasto medio de la población.
— Estimadores: media muestral.
— Método de selección muestral: muestreo aleatorio estratificado.
— Criterio de estratificación: tipo de alojamiento, hotel y apartamento.

a)  Solución mediante muestreo aleatorio simple

Usando la información de la muestra completa, sin estratificar, el gasto me-


dio del turista puede computarse fácilmente como:

22
x 2.773
x= ∑ 22i = 22
= 126,04
i =1

siendo la cuasivarianza igual a:

22

∑ (xi − x )2
i =1 78.676,95
ŝ 2 = = = 3.746,52
22 − 1 21

con factor de corrección:

N − n 2.250 − 22
= = 0,99
N 2.250

La varianza de la media es igual a:

1 2
ŝ 2 3.746,52
var (x ) = (1 − f ) = 0,99 × = 168,62
n 22

82 ©  Ediciones Pirámide

pi00302001_03.indd 82 8/3/16 10:54


Muestreo aleatorio estratificado

y el error de muestreo, considerando un nivel de significación del 5 %, es:

E = t0,05/2; 21 var (x ) = 2,08 × 169 = 27,04

que, en porcentaje, es igual a:

E 27,04
E(%) = × 100 = = 21,45 %
x 126

De esta manera, usando muestreo aleatorio simple, el error debido al mues-


treo es de 26 €, representando el 21,45 % del gasto medio.
Si el error no debe ser superior a 5 €, el tamaño apropiado de la muestra,
considerando que no tenemos información sobre la varianza poblacional del es-
timador (por lo que se empleará la cuasivarianza estimada), es igual a:

Nŝ 2 2.500 × 3.746,52


n= = = 467,89
NE 2
2.500 × 52
2
+ ŝ + 3.746,52
z0,05/2 1,962

es decir, aproximadamente 468 turistas.

b)  Solución mediante muestreo estratificado

Se dispone de información sobre dos estratos; por tanto, L = 2. En el mues-


treo estratificado, el gasto medio se obtiene mediante la expresión:

2
xst = ∑ Wh xh
h =1

Utilizando la información de cada estrato, las proporciones muestrales de


cada uno son:

1.075 1.425
W1 = = 0, 43 ; W2 = = 0,57
2.500 2.500

y las medias de cada estrato son iguales a:

10
x 1.885 888
x1 = ∑ 10i1 =
10
= 188,5 ; x2 =
12
= 74
i =1

©  Ediciones Pirámide 83

pi00302001_03.indd 83 8/3/16 10:54


Introducción a las técnicas de muestreo

Sustituyendo los resultados anteriores en la expresión de la media, tenemos


que:

2
xst = ∑ Wh xh = 0,43 × 188,5 + 0,57 × 74 = 123,20
h =1

es decir, el gasto medio de los turistas es de 123,20 €.


Para obtener el error debido al muestreo es necesario conocer las varianzas
dentro de cada estrato, que, como son desconocidas, se estiman mediante las
cuasivarianzas de cada estrato. Los resultados son:

10

∑ (xi1 − x1 )2
i =1 6.186,5 888
ŝ12 = = = 687,38 ; ŝ22 = = 80,72
10 − 1 9 12 − 1

y sustituyendo los valores en la expresión de la varianza del estimador de la me-


dia, tenemos que:

1 2
2
ŝh2
var (xst ) = ∑ Wh2 (1 − fh ) nh
=
h =1

1 21 2 1 21 12 2 = 15,00
1.075 − 10 687,38 1.425 − 12 80,72
= (0,43)2 + (0,75)2
1.075 10 1.425

Con este valor de la varianza, el error muestral del gasto medio con un nivel
de confianza del 95 % es:

E = t0,05/2; 21 var (xst ) = 2,08 × 15 = 8,06

En términos relativos, el error representa un 6,54 % del gasto medio, dado que:

E 8,06
E(%) = × 100 = = 6,54 %
xst 123,2

Ahora, suponga que se considera que el error de estimación para la media no


debe superar los 5 €, y que se estimará el tamaño de la muestra para ese error
siguiendo el criterio de afijación de varianza mínima. En tal caso, usando ese cri-
terio, las ponderaciones de cada estrato tenemos que:

84 ©  Ediciones Pirámide

pi00302001_03.indd 84 8/3/16 10:54


Muestreo aleatorio estratificado

N h ŝh 1.075 × 687,38


w1 = 2 = = 0,69
1.075 × 687,38 + 1.425 × 80,72
∑ Nh ŝh
h =1

N h ŝh 1.425 × 80,72


w2 = 2 = = 0,31
1.075 × 687,38 + 1.425 × 80,72
∑ Nh ŝh
h =1

y sustituyendo dichos resultados en la expresión de n, obtenemos que:

2
N h2 ŝh2 1.0752 × 687,38 1.4252 × 80,72
∑ +
h = 1 wh 0,69 0,31
n= 2 2 = = 40,44
N E 2
2.500 × 5
2 2
+ ∑ N h ŝh
2 + [(1.075 × 687,38) + (1.425 × 80,72)]
2
z0,05/2 h =1 1,962

Por tanto, para un error de 5 €, hay que muestrear a 40 individuos. El repar-


to de esos 40 individuos entre los estratos sigue la relación: nh = n × wh. Así:

n1 = 40 × 0,69 = 28

n2 = 40 × 0,31 = 12

c)  En resumen, con los mismos datos se consigue mayor precisión usando
el muestreo estratificado. En este ejercicio, cuando se usa muestreo aleatorio sim-
ple, el error muestral del gasto medio es del 21 % (26 €). Sin embargo, clasifican-
do los datos en dos estratos mediante el tipo de alojamiento, y aplicando mues-
treo estratificado, el error muestral del estimador del gasto medio es sólo del
6,54 % (8,06 €).

Ejercicio 2

La muestra piloto siguiente se ha obtenido de una población que está seg-


mentada en tres estratos o distritos. El distrito 1 se caracteriza por carecer de ser-
vicios mínimos; es un distrito «marginal» donde abunda la autoconstrucción de
viviendas en condiciones precarias. El distrito 2 está dotado de infraestructuras;
la mayoría son pisos menores a 100 m2 o viviendas de protección oficial. Por úl-
timo, el distrito 3 es donde residen las embajadas y están las sedes de las gran-
des empresas, y las viviendas suelen ser de lujo. Los datos son:

©  Ediciones Pirámide 85

pi00302001_03.indd 85 8/3/16 10:54


Introducción a las técnicas de muestreo

ID Rentas Distritos

 1  16 1
 2  13 1
 3  24 1
 4  31 1
 5  19 1
 6  21 1
 7 156 2
 8 174 2
 9 169 2
10 175 2
11 160 2
12 393 3
13 388 3
14 395 3
15 390 3

conociéndose también la información de:

15 15

∑ xi = 2.524 , ∑ xi2 = 755.280


i =1 i =1

Cuestiones

a) Mediante muestreo aleatorio simple, estimar los ingresos medios o rentas


medias poblacionales y su error muestral. ¿Cuál debe ser el tamaño de la
muestra para que el error debido al muestro no sea superior al 10 %?
b) Mediante muestreo aleatorio estratificado, estimar los ingresos medios
usando los distritos como estratos:

Distrito 1 Distrito 2 Distrito 3 N

Nh 1.100 800 600 2.500

Solución

Diseño muestral

— Población objetivo: 2.500 individuos.


— Unidad muestral: individuos.

86 ©  Ediciones Pirámide

pi00302001_03.indd 86 8/3/16 10:54


Muestreo aleatorio estratificado

— Parámetros: ingreso medio de la población.


— Estimadores: media muestral.
— Método de selección muestral: muestreo aleatorio estratificado.
— Criterio de estratificación: distritos.

a)  El estimador para calcular la media de los ingresos es igual a:

15

∑ xi
i =1 2.524
x= = = 168,26
15 15

mientras que el estimador de la varianza de la media de ingresos es igual a:

1 2 1 2
ŝ 2 N − n 21.577,27 2.500 − 15
var (x ) = = = 1.438,48(0,994) = 1.429,85
n N 15 2.500

teniendo en cuenta que la cuasivarianza es igual a:

1 2
15
1 755.280 − 16(168,26)2
ŝ 2 =
15 − 1
∑ xi2 − 15x 2 =
14
= 21.577,27
i =1

En cuanto al error de muestreo, éste es igual a:

E = t0,05/2;14 var (x ) = 2,14 1.429,85 = 80,92

siendo su porcentaje:

E 80,92
E(%) = × 100 = × 100 = 48,08 %
x 168,26

Puesto que el error muestral es del 48 %, lo que es muy elevado, si deseamos
reducirlo, deberíamos aumentar el tamaño de la muestra. Por ejemplo, si se de-
sea que el error debido al muestreo no supere los 15 € (E = 15), el tamaño mues-
tral será igual a:

Nŝ 2 2.500(21.577,27)
n= = = 321,04
NE 2 2.500(15)2
2
+ ŝ + 21.577,27
z0,05/2 1,962

©  Ediciones Pirámide 87

pi00302001_03.indd 87 8/3/16 10:54


Introducción a las técnicas de muestreo

es decir, se necesitará una muestra con 321 individuos.


b)  En la siguiente tabla se muestra un resumen de la información necesaria
para realizar los cálculos de la media muestral del muestreo estratificado, su va-
rianza, el error de muestreo y su porcentaje:

Distrito 1 Distrito 2 Distrito 3

Nh = 1.100 800 600

nh = 6 5 4

N h − nh
= 0,99 0,99 0,99
Nh

Nh
Wh = = 0,44 0,32 0,24
N

nh

∑ xih 20,67 169,5 391,5


i =1
xh = =
nh

Wh xh = 9,09 54,24 93,96

1 2=
n
1
ŝh2 =
nh − 1
∑ xih2 − nh xh2 40,27 71,7 9,67
i =1

1 2
ŝ 2 N − n
Wh2 = 6,67 14,25 2,40
n N

A partir de dicha información, la media y su varianza son iguales a:

3
xst = ∑ Wh xh = 157,29
h =1

1 2
3
ŝ 2 N − n
var (xst ) = ∑ Wh2 n N
= 23,33
h =1

mientras que su error y su porcentaje son iguales, respectivamente, a los siguien-


tes datos:

88 ©  Ediciones Pirámide

pi00302001_03.indd 88 8/3/16 10:54


Muestreo aleatorio estratificado

E = 2,14 var (xst ) = 2,14 23,33 = 10,34

E 10,34
E(%) = × 100 = = 6,57 %
xst 157,29

Comparando los resultados del muestreo estratificado con los resultados del
muestreo aleatorio simple, se observa que el error muestral ahora es del 6,57 %
frente al 50 % del aleatorio simple, indicando un reducción considerable del mis-
mo al estratificar la muestra.

Ejercicio 3

Para estimar el gasto medio en transporte público se ha estratificado a la po-


blación en cuatro estratos: estudiantes, empleados, parados y jubilados. Se ha to-
mado una muestra piloto de viajeros y a la pregunta de cuántos euros se gastan
mensualmente en transportes las respuestas fueron:

Número Estudiantes Empleados Parados Jubilados

 1 25 45 19 10
 2 30 42 17  9
 3 24 48 15 12
 4 26 47 16 11
 5 28 46 17  8
 6 24 41 19 10
 7 22 39 15  6
 8 28 44 14 15
 9 23 48 11 18
10 26 46 13  9
11 28 41 16  7
12 27 38 19
13 25 39 15
14 30 47
15 27 40
16 29 35
17 31
18 28

18 16 13 11

∑ xi1 = 481 ∑ xi 2 = 686 ∑ xi 3 = 206 ∑ xi 4 = 115


i =1 i =1 i =1 i =1

©  Ediciones Pirámide 89

pi00302001_03.indd 89 8/3/16 10:54


Introducción a las técnicas de muestreo

Se sabe que la población diaria está formada por 500 viajeros, repartidos
como sigue:

N1 = 165  ;  N2 = 128  ;  N3 = 110  ;  N4 = 97

Cuestiones

a) Estimar los gastos medios y los gastos totales, así como sus respectivos
errores muestrales.
b) Mediante el criterio de afijación de varianza mínima, determinar el ta-
maño apropiado de la muestra si el error muestral no puede superar los
0,5 €.

Solución

Diseño muestral

— Población objetivo: 500 viajeros que usan transporte público.


— Unidad muestral: individuos.
— Parámetros: gasto medio de la población.
— Estimadores: media muestral.
— Método de selección muestral: muestreo aleatorio estratificado.
— Criterio de estratificación: situación laboral (estudiante, parado y jubi­
lado).

a)  A continuación se computan las ponderaciones de cada estrato, Wh y wh,


y también las medias en los mismos, x̄h, de tal forma que:

N1 165 n1 18
W1 = = = 0,33 ; w1 = = = 0,31
N 500 n 58
N2 128 n2 16
W2 = = = 0,26 ; w2 = = = 0,28
N 500 n 58
N 110 n 13
W3 = 3 = = 0,22 ; w3 = 3 = = 0,22
N 500 n 58
N 97 n 11
W4 = 4 = = 0,19 ; w4 = 4 = = 0,19
N 500 n 58
1 18 481 1 16 686
x1 = ∑x =
18 i = 1 i1 18
= 26,72 ; x2 = ∑ x = 16 = 42,87
16 i = 1 i 2
1 13 206 1 11 115
x3 = ∑
13 i = 1
xi 3 =
13
= 15,85 ; x4 = ∑
11 i = 1
xi 4 =
11
= 10,45

90 ©  Ediciones Pirámide

pi00302001_03.indd 90 8/3/16 10:54


Muestreo aleatorio estratificado

Usando la información anterior, la media del muestreo estratificado es igual a:


4
xst = ∑ Wh xh = (0,332 × 6,72) + (0,26 × 42,87) + (0,22 × 15,85) + (0,19 × 10,45) =
h =1

= 25,44

Por otro lado, las cuasivarianzas muestrales son iguales a:


18

∑ xi12 − n1x12
i =1 12.963 − 18(26,7)2
ŝ12 = = = 7,70
18 − 1 17
16

∑ xi22 − n2 x22
i =1 29.656 − 16(42,9)2
ŝ22 = = = 13,96
16 − 1 15
13

∑ xi23 − n3x32
i =1 3.334 − 13(10,8)2
ŝ32 = = = 7,39
13 − 1 12
11

∑ xi24 − n4x42
i =1 1.325 − 11(10,5)2
ŝ42 = = = 11,22
11 − 1 10

Los factores de corrección es cada estrato son iguales a:

1 2 1 2 1 2 1 2
n1 18 n 16
(1 − f1 ) = 1 − = 1− = 0,89 ; (1 − f2 ) = 1 − 2 = 1 − = 0,88
N1 165 N2 128

1 2 1 2 1 2 1 2
n3 13 n 11
(1 − f3 ) = 1 − = 1− = 0,88 ; (1 − f4 ) = 1 − 4 = 1 − = 0,89
N3 110 N4 97

y la varianza de la media es igual a:

1 2 1 2 1 2
4
ŝh2 7,70 13,96
var (xst ) = ∑ Wh2 (1 − fh )
nh
= (0,33)2 (0,89)
18
+ (0,26)2 (0,88)
16
+
h =1

1 13 2 + (0,19) (0,89)1 11 2 = 0,15


7,39 11,22
+ (0,22)2 (0,88) 2

©  Ediciones Pirámide 91

pi00302001_03.indd 91 8/3/16 10:54


Introducción a las técnicas de muestreo

El error muestral es 0,77 €, y se obtiene de la expresión:

E = t0,05/2; 57 var (xst ) = 2 0,15 = 0,77

aproximándose a 2 el valor crítico de la t-Student, dado que t0,05/2; 57 = 2,002465.


Su porcentaje es igual a:

E 0,77
E(%) = × 100 = × 100 = 2,97 %
xst 25,44

El estimador del total poblacional, su varianza y los errores muestrales abso-


lutos y en porcentaje son:

x̂st = Nxst = 50 × 25,44 = 12.720


var ( x̂st ) = N 2 var (xst ) = 500 2 × 0,15 = 37.500

E = t0,05/2; 57 var ( x̂st ) = 2 37.500 = 387,30


E 387,30
E(%) = × 100 = × 100 = 3,06 %
x̂st 12.654

Si el error no puede ser superior a 0,5 € (E = 0,5), el tamaño apropiado de


la muestra se calculará a partir de las siguientes expresiones. En primer lugar, las
ponderaciones son iguales a:

165 × 7,70
w1 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × 11,22 )
458
= = 0,29
1.560
128 × 13,96
w2 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × 11,22 )
478
= = 0,31
1.560
110 × 7,39
w3 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × 11,22 )
299
= = 0,19
1.560
97 × 11,22
92 w4 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × ©  Ediciones
11,22 ) Pirámide
325
= = 0,21
1.560

pi00302001_03.indd 92 8/3/16 10:54


478
= = 0,31
1.560
110 × 7,39
w3 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × 11,22 )
299 Muestreo aleatorio estratificado
= = 0,19
1.560
97 × 11,22
w4 = =
(165 × 7,70 ) + (128 × 13,96 ) + (110 × 7,39 ) + (97 × 11,22 )
325
= = 0,21
1.560

siendo:

4
N h2 ŝh2 1652 × 7,70 1282 × 13,96 1102 × 7,39 972 × 11,22
∑ =
0,29
+
0,31
+
0,19
+
0,21
=
h = 1 wh

= 2.434.014,95

N 2E2 5002 × 0,52


2
= = 16.269,26
z0,05/2 1,962
4

∑ Nh ŝh2 = (165 × 7,70) + (128 × 13,96) + (110 × 7,39) + (97 × 11,22) =


h =1

= 4.958,62

Así, sustituyendo los valores en la expresión del tamaño de la muestra, resul-


ta que para el error dado son necesarios 114 individuos:
4
N h2 ŝh2

h = 1 wh 2.434.014,95
n= 4 = = 114,66
2
N E 2
16.269,26 + 4.958,62
2
z0,05/2
+ ∑ Nh ŝh2
h =1

siendo el reparto de la muestra entre los cuatro estratos igual a:


n1 = n × w1 = 114 × 0,29 ≈ 33
n2 = n × w2 = 114 × 0,31 ≈ 35
n3 = n × w3 = 114 × 0,19 ≈ 22
n4 = n × w4 = 114 × 0,21 ≈ 24

Ejercicio 4
Una ciudad de 600 habitantes está dividida en tres estratos (zona turística,
zona comercial y zona residencial). Se desea conocer la edad media de los habi-

©  Ediciones Pirámide 93

pi00302001_03.indd 93 8/3/16 10:54


Introducción a las técnicas de muestreo

tantes de esta ciudad. Se ha seleccionado la siguiente muestra piloto respetando


la proporción poblacional del tamaño de los estratos:

Estrato I: Estrato II: Estrato III:


zona turística zona comercial zona residencial

17 25 75
29 62 89
34 45 55
15 23 96
31 77
64

Cuestiones

a) Estimar la edad media y su error de muestreo.


b) ¿Qué tamaño debe tener la muestra si el error debido al muestreo no pue-
de superar los dos años?

Solución

Diseño muestral

— Población objetivo: 600 habitantes, que conforman la población.


— Unidad muestral: individuos.
— Unidad de medida: años.
— Parámetros: media poblacional de la variable edad de los habitantes.
— Estimadores: media muestral.
— Método de selección muestral: muestreo aleatorio estratificado.

a)  Para estimar la media, primero estimaremos las medias dentro de cada
uno de los estratos, de tal manera que:

1 4 17 + 29 + 34 + 15
x1 = ∑
4 i =1
xi1 =
4
= 23,75

1 5 25 + 62 + ! + 31
x2 = ∑
5 i =1
xi 2 =
5
= 37,20

1 6 75 + 89 + ! + 64
x3 = ∑
6 i =1
xi 3 =
6
= 76,00

94 ©  Ediciones Pirámide

pi00302001_03.indd 94 8/3/16 10:54


Muestreo aleatorio estratificado

Como los estratos muestrales guardan la misma proporción que tienen en la


población, se cumple: Wh = wh:

N1 n 4
W1 = = w1 = 1 = = 0,27
N n 15
N2 n 5
W2 = = w2 = 2 = = 0,33
N n 15
N3 n 6
W3 = = w3 = 3 = = 0,40
N n 15

Con la información anterior, sustituyendo los valores en la expresión de la


media poblacional:
3
xst = ∑ Wh xh = (0,27)(23,75) + (0,33)(37,2) + (0,40)(76) = 49,09
h =1

es decir, la edad media de esta población es de 49 años.


Para estimar el error muestral hay que calcular la varianza de la media:

1 2
3
ŝh2
var (xst ) = ∑ Wh2 (1 − fh )
nh
h =1

donde:

n1 n2 n3
f1 = ; f2 = ; f3 =
N1 N2 N3

En este ejemplo se pueden estimar los tamaños de los estratos en la pobla-


ción (Nh) expandiendo las muestras que forman cada estrato1. Como se supone
que la composición de cada muestra de los estratos tiene la misma proporción
que en la población, es decir:

Nh n
Wh = = wh = h ò N h = Nwh
N n

1
 Este método de expansión es ampliamente utilizado en los estudios con muestreo aleato-
rio estratificado cuando es muy difícil determinar el tamaño poblacional. Así, cuando los Nh
son desconocidos pero se supone que existe proporcionalidad entre la muestra y la población,
éstos se pueden estimar a partir del método de expansión.

©  Ediciones Pirámide 95

pi00302001_03.indd 95 8/3/16 10:54


Introducción a las técnicas de muestreo

así:

N1 n 4
W1 = = w1 = 1 = = 0,267 ò N1 = w1N = (0,267)600 = 160,00
N n 15
N2 n 5
W2 = = w2 = 2 = = 0,333 ò N2 = w2 N = (0,33)600 = 199,80
N n 15
N3 n 6
W3 = = w3 = 3 = = 0,4 ò N3 = w3 N = (0,4)600 = 240,00
N n 15

Ahora se pueden obtener las fracciones de muestreo dentro cada estrato:

nh
fh =
Nh

4 5 5
f1 = ; f2 = ; f3 =
160 200 240

Por último, para obtener la varianza de la media hay que estimar las cuasi-
varianzas muestrales de cada estrato:

nh

∑ xih2 − nh xh2
i =1
ŝh2 =
nh − 1

de tal manera que:

∑ x12 = (17)2 + (29)2 + ! + (15)2 = 2.511


i =1

∑ x22 = (25)2 + (62)2 + ! + (31)2 = 7.984


i =1

∑ x32 = (75)2 + (89)2 + ! + (64)2 = 35.812


i =1

siendo las cuasivarianzas de cada estrato iguales a:

96 ©  Ediciones Pirámide

pi00302001_03.indd 96 8/3/16 10:54


Muestreo aleatorio estratificado

∑ xi12 − 4x12
i =1 2.511 − 4(23,75)2
ŝ12 = = = 84,91
4−1 3
5

∑ xi22 − 5x22
i =1 7.984 − 5(37,2)2
ŝ22 = = = 266,20
5−1 4
6

∑ xi23 − 6x32
i =1 35.812 − 6(76)2
ŝ32 = = = 231,20
6−1 5
siendo la varianza igual a:

1 2 1 21 4 2 +
3
ŝh2 4 84,91
var (xst ) = ∑ Wh2 (1 − fh )
nh
= (0,267)2 1 −
160
h =1

1 21 2 1 21 2
5 266,2 6 231,2
+ (0,333)2 1 − + (0,19)2 1 − = 8,59
200 5 240 6

Finalmente, los errores de muestreo son iguales a:

E = t0,05/2;14 var (xst ) = 2,14 8,59 ≈ 6,27

E 6,27
E(%) = × 100 = × 100 = 12,76 %
xst 49,13

es decir, el error debido al muestreo es de 6,27 años, esto es, del 12,76 %.
b)  Dado que el error no debe ser superior a 2 años (E = 2), el tamaño mues-
tral apropiado para un error de 2 años se obtiene sustituyendo ese valor en la ex-
presión:
3
N h2 ŝh2

h = 1 wh
n= 3 =
N 2E2
2
z0,05/2
+ ∑ N h ŝh2
h =1

(160)2 (84,91) (200)2 (266,2) (240)2 (231,2)


+ +
0,27 0,33 0,40
= ≈ 148
(600)2 (2)2
+ [(160)(84,91) + (200)(266,2) + (240)(231,2)]
1,962

©  Ediciones Pirámide 97

pi00302001_03.indd 97 8/3/16 10:54


Introducción a las técnicas de muestreo

y, por tanto, habría que aumentar el tamaño muestral hasta los 148 individuos.
Por último, para repartir esos 148 individuos entre los tres estratos se utiliza el
criterio de afijación proporcional, teniendo como resultados el siguiente reparto:

⎧ n = 148 × 0,27 ≈ 40
1
nh ⎪⎪
wh = ò nh = nwh ò ⎨ n2 = 148 × 0,33 ≈ 49
n ⎪ n = 148 × 0,40 ≈ 59
⎪⎩ 3

Ejercicio 5
Para una población de 1.000 consumidores divida en dos estratos, se quiere
conocer el tamaño muestral necesario para estimar el consumo medio con el
error debido al muestreo igual a 1 €. Se sabe que:

Estratos Wh Sh ch

1 0,63 3 2
2 0,37 5 3

Como hay que ajustarse a un presupuesto, se utiliza el criterio de afijación


óptima. Utilizamos en este ejercicio el valor crítico t0,05/2 = 2, en vez de 1,96, por
simplicidad.

Solución

Diseño muestral
— Población objetivo: 1.000 consumidores, que conforman la población.
— Unidad muestral: individuos.
— Unidad de medida: unidades monetarias.
— Parámetros: media poblacional.
— Estimadores: media muestral.
— Método de selección muestral: muestreo aleatorio estratificado.
Los valores de wh de afijación óptima se obtienen sustituyendo los correspon-
dientes valores en la expresión:
N1ŝ1 630 × 3
c1 2 1.336,42
w1 = 2 = = = 0,56
N h ŝh 60 × 3 370 × 5 2.404,53
∑ c +
h =1 h
2 3

98 N2 ŝ2 370 × 5 ©  Ediciones Pirámide


c2 3 1.068,10
w2 = 2 = = = 0,44
N h ŝh 630 × 3 370 × 5 2.404,53
∑ c +
h =1 h
2 3

pi00302001_03.indd 98 8/3/16 10:54


N1ŝ1 630 × 3
c1 2 1.336,42
w1 = 2 = = = 0,56
N h ŝh 60 × 3 370 × 5 2.404,53
∑ c + Muestreo aleatorio estratificado
h =1 h
2 3

N2 ŝ2 370 × 5
c2 3 1.068,10
w2 = 2 = = = 0,44
N h ŝh 630 × 3 370 × 5 2.404,53
∑ c +
h =1 h
2 3

Así, el valor del tamaño muestral será igual a:

2
N h2 ŝh2 (630)2 (3)2 (370)2 (5)2
∑ +
h = 1 wh 0,56 0,44
n= 2 2 2 = 2 2 =
N E (1.000) (1)
+ ∑ N h ŝh
2 + [(630)(30) + (370)(5) ]
2 2
2
z0,05/2 h =1 22

14.157.159,09
= ≈ 53
250.000 + 14.920

Ejercicio 6

Se desea evaluar el riesgo de morosidad de una determinada entidad finan-


ciera de ámbito nacional que cuenta con oficinas repartidas en cuatro regiones
geográficas: 56 en la región A, 39 en la región B, 102 en la C y 38 en la D.
Se ha seleccionado una muestra aleatoria de oficinas bancarias para averi-
guar el porcentaje de morosos que tienen. En este estudio, se considera que exis-
te riesgo de morosidad si la sucursal tiene un 1,9 % o más de préstamos morosos.
Cuando a una sucursal se le considera morosa, se le asigna el valor 1.

Cuestiones

a) Estimar la proporción de sucursales en riesgo de morosidad y su error de


muestreo.
b) Si la proporción de morosos no debe tener un error superior al 5 %, ¿cuál
debe ser el tamaño de la muestra? Utilizar la afijación proporcional y la
afijación de varianza mínima.

Los siguientes datos corresponden a la muestra piloto:

©  Ediciones Pirámide 99

pi00302001_03.indd 99 8/3/16 10:54


Introducción a las técnicas de muestreo

Región A Región B Región C Región D

6,00  % 0,20  % 0,60  % 5,00  %


0,30  % 1,00  % 0,70  % 0,50  %
0,90  % 3,40  % 4,10  % 1,30  %
1,00  % 0,50  % 0,90  % 4,00  %
3,00  % 1,00  % 1,30  % 1,30  %
1,00  % 1,10  % 4,00  % 1,80  %
0,50  % 1,00  % 1,60  % 3,00  %
0,90  % 5,10  % 3,80  % 0,50  %
4,50  % 0,60  % 0,80  % 2,80  %
1,00  % 0,80  % 3,00  % 1,20  %
0,60  % 1,00  % 0,70  % 4,00  %
2,70  % 1,80  % 2,60  % 0,70  %
1,00  % 0,80  % 3,00  %
0,40  % 1,00  %
4,00  %
1,30  %
1,50  %
3,00  %
1,00  %
0,80  %

Solución

Diseño muestral

— Población objetivo: 235 oficinas, que conforman la población de sucursa-


les.
— Unidad muestral: créditos morosos.
— Parámetros: proporción poblacional de la variable morosidad.
— Estimadores: proporción muestral.
— Método de selección muestral: muestreo aleatorio estratificado.

a)  Antes de comenzar, hay que transformar las variables continuas en va-
riables cualitativas binarias (dicotómicas) para analizar la cuestión planteada.
Por ejemplo, usando la instrucción de Excel [=SI(regionA>1,9%;1;0)], puede ob-
tenerse la variable dicotómica para la región A. A continuación, se muestra la ta-
bla completa con las variables binarias ya calculadas, así como sus sumas y ta-
maños muestrales en la última fila:

100 ©  Ediciones Pirámide

pi00302001_03.indd 100 8/3/16 10:54


Muestreo aleatorio estratificado

Región A Región B Región C Región D

1 0 0 1
0 0 0 0
0 1 1 0
0 0 0 1
1 0 0 0
0 0 1 0
0 0 0 1
0 1 1 0
1 0 0 1
0 0 1 0
0 0 0 1
1 0 1 0
0 0 1
0 0
1
0
0
1
0
0

14 12 20 13

∑ ai1 = 4 ∑ ai1 = 2 ∑ ai1 = 7 ∑ ai1 = 6


i =1 i =1 i =1 i =1
n1 = 14 n2 = 12 n3 = 20 n4 = 13

En primer lugar, se calculan las proporciones dentro de cada estrato:

1 14 4 1 12 2
p̂1 = ∑
14 i = 1
ai1 =
14
= 0,29 ; p̂2 = ∑
12 i = 1
ai 2 =
12
= 0,17

1 20 7 1 13 6
p̂3 = ∑
20 i = 1
ai 3 =
20
= 0,35 ; p̂4 = ∑
13 i = 1
ai 4 =
13
= 0,46

y, seguidamente, los pesos de los respectivos estratos:

N1 56 N 39
W1 = = = 0,24 ; W2 = 2 = = 0,17
N 235 N 235
N3 102 N 38
W3 = = = 0,43 ; W4 = 4 = = 0,16
N 235 N 235

©  Ediciones Pirámide 101

pi00302001_03.indd 101 8/3/16 10:54


Introducción a las técnicas de muestreo

Con esta información, se construye el estimador de la proporción de créditos


morosos:

4
p̂st = ∑ Wh p̂h = (0,24 × 0,29) + (0,17 × 0,17) + (0,43 × 0,35) + (0,16 × 0,46) = 0,32
h =1

cuya proporción estimada es del 32 %.


En cuanto a la varianza de dicha estimación, primero debemos obtener las
varianzas de cada estrato, de tal manera que:

1 2
p̂1q̂1 N1 − n1 0,20
var ( p̂1 ) = W12 = 0,242 × (0,75) = 0,00062
n1 N1 14

1 2
p̂2 q̂2 N2 − n2 0,14
var ( p̂2 ) = W22 = 0,172 × (0,69) = 0,00023
n2 N2 12

1 2
p̂3q̂3 N3 − n3 0,23
var ( p̂3 ) = W32 = 0,432 × (0,80) = 0,00170
n3 N3 20

1 2
p̂4q̂4 N 4 − n4 0,25
var ( p̂4 ) = W42 = 0,162 × (0,66) = 0,00032
n4 N4 13

de tal manera que la varianza de la proporción en el muestreo estratificado es


igual a:

4
var ( p̂st ) = ∑ Wh2V ( p̂h ) = 0,00289
h =1

siendo el error muestral del 10,54 %, que se obtiene de la siguiente expresión asu-
miendo normalidad:

E = z0,05/2 var ( p̂st ) = 1,96 0,00289 ≈ 0,1054 ò E(%) = 10,54 %

b)  Si el error no debe ser superior al 5 %, el tamaño apropiado de la mues-


tra, siguiendo afijación proporcional (wh = Wh), es:

102 ©  Ediciones Pirámide

pi00302001_03.indd 102 8/3/16 10:54


Muestreo aleatorio estratificado

4
N h2 p̂h q̂h
∑ w
h =1 h
n= 4 =
N 2E2
2
z0,05/2
+ ∑ N h p̂h q̂h
h =1

562 × 0,20 392 × 0,14 1022 × 0,23 362 × 0,25


+ + +
0,24 0,17 0,43 0,16
= ≈ 135
235 × 0,052
+ [(56 × 0,20) + (39 × 0,14) + (102 × 0,23) + (36 × 0,25)]
1,962

y el reparto de la muestra de 135 individuos entre los cuatro estratos es:

⎧ n = 135 × 0,24 = 32 ; n = 135 × 0,17 = 23


⎪ 1 2
nh = n × wh ò ⎨
⎪ n3 = 135 × 0,43 = 58 ; n4 = 135 × 0,16 = 22

En caso de que el error no debe ser superior al 5 %, el tamaño apropiado de


la muestra, siguiendo afijación ajustada a unos costes, es:

N hSh
ch
wh = 4
N hSh
∑ ch
i =1

de tal manera que:

N1 p̂1q̂1 N2 p̂2 q̂2


c1 25,30 c2 14,53
w1 = 4
= = 0,24 ; w2 = 4
= = 0,14
N h p̂h q̂h 107,43 N h p̂h q̂h 107,43
∑ ch
∑ ch
i =1 i =1

N3 p̂3q̂3 N 4 p̂4q̂4
c3 48,65 c4 18,94
w3 = 4
= = 0,45 ; w4 = 4
= = 0,18
N h p̂h q̂h 107,43 N h p̂h q̂h 107,43
∑ ch
∑ ch
i =1 i =1

©  Ediciones Pirámide 103

pi00302001_03.indd 103 8/3/16 10:54


Introducción a las técnicas de muestreo

siendo el tamaño muestral igual a:

4
N h2 p̂h q̂h
∑ wh
h =1
n= 4 =
N 2E2
zα2 /2
+ ∑ N h p̂h q̂h
h =1

562 × 0,20 392 × 0,14 1022 × 0,23 362 × 0,25


+ + +
0,24 0,17 0,45 0,18
= ≈ 132
235 × 0,05 2
+ [(56 × 0,20) + (39 × 0,14) + (102 × 0,23) + (36 × 0,25)]
1,962

Por último, el reparto de la muestra de 132 individuos entre los cuatro estra-
tos es:

⎧ n = 132 × 0,24 = 31 ; n = 132 × 0,14 = 18


⎪ 1 2
nh = n × wh ò ⎨
⎪ n3 = 132 × 0,45 = 59 ; n4 = 132 × 0,18 = 24

104 ©  Ediciones Pirámide

pi00302001_03.indd 104 8/3/16 10:54


4 Muestreo sistemático

4.1.  INTRODUCCIÓN. EL MUESTREO SISTEMÁTICO


La condición necesaria para poder aplicar el muestreo sistemático es que la
población de la cual se va a seleccionar la muestra esté previamente ordenada
por algún criterio, como, por ejemplo, la fecha de nacimiento.
Para describir el proceso, considérese el siguiente ejemplo. Sean las N unida-
des de una población, las cuales están convenientemente ordenadas y numeradas
en una lista que abarca desde 1 hasta N (por ejemplo, la población de alumnos
matriculados en la facultad ordenados alfabéticamente). La selección de una
muestra sistemática, de tamaño n, consiste en elegir aleatoriamente la primera
unidad muestral, que se tomará como el arranque aleatorio a partir del cual se
selecciona el resto de la muestra sistemáticamente cada k individuos, es decir, si
la primera unidad corresponde al individuo que ocupa la posición j, el resto de
unidades muestrales ocuparían las posiciones siguientes:

j + k, j + 2k, ..., j + (n – 1)k

siendo k el patrón sistemático que determina cada cuántas posiciones deben


elegirse a los individuos. Suponga que se ha elegido aleatoriamente el arranque
en la posición 15 y k = 10; entonces, las unidades que pasan a formar parte de
la muestra serían aquellas que ocupasen las posiciones correspondientes a
{15, 25, 35, 45, ...}. Así, la selección muestral está condicionada por la elección
aleatoria del arranque y por el valor del patrón sistemático k.
El valor k se obtiene siguiendo un criterio práctico y su valor cumple:

N

n

©  Ediciones Pirámide 105

pi00302001_04.indd 105 8/3/16 10:54


Introducción a las técnicas de muestreo

En la práctica se toma el valor igual. Conocido k, se podrán determinar las


posiciones elegidas de la lista, y se debe verificar que:

j + (n – 1)k ¯ nk ¯ N

Entre las ventajas de utilizar este tipo de muestreo, destacan:

1. Extiende la muestra a toda la población, con lo que ninguna población


de individuos, por grande que sea la lista, queda sin representación.
2. Rapidez y facilidad para la selección de las unidades muestrales.

En cuanto a las desventajas, es posible que la varianza del estimador aumen-


te si existe periodicidad o ciertas variaciones cíclicas.

4.2. ESTIMACIÓN DE LA MEDIA, EL TOTAL Y LA PROPORCIÓN


POBLACIONAL
Una vez seleccionada la muestra sistemática, los estimadores que se utilizan
en este muestreo son los mismos que en el muestreo aleatorio simple. Por ello,
las expresiones son las mismas. Para estimar la media poblacional:

∑ xi
i =1
µ=
N

El estimador apropiado sigue siendo la media muestral,

∑ xi
i =1
x =
n

mientras que el estimador de la varianza de la media puede escribirse como en


el muestreo aleatorio simple sin reposición, según:

1 2
ŝ 2 N–n
var (x ) =
n N

106 ©  Ediciones Pirámide

pi00302001_04.indd 106 8/3/16 10:54


Muestreo sistemático

siendo la cuasivarianza igual a:

∑ (xi – x )2
i =1
ŝ 2 =
n–1

El error de estimación de la media, considerando que la varianza poblacio-


nal es desconocida, puede calcularse a partir de la expresión:

1 2
ŝ 2 N–n
E = tα /2;n – 1
n N

El estimador del total poblacional:

N
X = ∑ xi = N µ
i =1

se obtiene con la expresión:

x̂ = Nx

mientras que para estimar la varianza del total la expresión es:

1 2
ŝ 2 N–n
var ( x̂) = N 2
n N

donde el error de estimación es igual a:

E = tα /2;n – 1 var ( x̂)

Por último, el estimador de una proporción poblacional:

∑ ai
i =1
p=
N

©  Ediciones Pirámide 107

pi00302001_04.indd 107 8/3/16 10:54


Introducción a las técnicas de muestreo

es igual a:

∑ ai
i =1
p̂ =
n

donde la variable ai toma valores unos y ceros, como sabemos. La varianza del
estimador de la proporción es:

1 2
p̂q̂ N – n
var ( p̂) =
n N

y el error de estimación es:

E = tα /2 var ( p̂)

4.2.1.  El problema del cálculo de las varianzas

En general, se supone que las varianzas del muestreo sistemático son idénti-
cas a las del muestreo aleatorio simple. En concreto, y, por ejemplo, para el caso
de la media, dichas varianzas son iguales a:

— Muestreo aleatorio simple:

1 2
ŝ 2 N–n
var (x ) =
n N

— Muestreo sistemático:

ŝ 2
var (x ) = [1 + (n – 1) ρ ]
n

siendo r la correlación entre los pares de electos dentro de una misma


muestra sistemática.

108 ©  Ediciones Pirámide

pi00302001_04.indd 108 8/3/16 10:54


Muestreo sistemático

Demostración

Siguiendo a Azorín y Sánchez-Crespo (1994, p. 117), se computará la varian-


za del estimador de la media en función del coeficiente de correlación intra-
muestral.
Sea (xis, x1s) un par de valores en la muestra sistemática s. En cada muestra

s podemos formar 1 2n 2 pares distintos, es decir:


n! n(n – 1)
=
2!(n – 2)! 2

En las k muestras posibles, el número de pares es igual a:

n(n – 1)
k
2

y el total de pares distintos y no distintos es igual a kn(n – 1).


El coeficiente de correlación lineal entre todos los pares es:

k
2∑ ∑ (xis – x )(x1s – x )
s =1 i < s 1
ρ =
σ 2
kn(n – 1)

donde:

1 k n 1 k n
σ2 = ∑ ∑
kn s = 1 i = 1
(xis – x )2 y x = ∑∑x
kn s = 1 i = 1 is

Pues bien, la varianza de la media en la muestra sistemática s será igual a:

k
1
var (xs ) =
k
∑ (xs – x )2
s =1

1 n
donde xs = ∑x .
n i = 1 is

©  Ediciones Pirámide 109

pi00302001_04.indd 109 8/3/16 10:54


Introducción a las técnicas de muestreo

Operando en la expresión de la varianza, el resultado al que llegamos es el si-


guiente:

k k n k n

1 2 1 2
2 2
1 1 1 nx 1 1
var (xs ) =
k
∑ (xs – x )2 = k
∑ ∑
n i =1
xis –
n
=
k
∑ ∑ (xis – x )2
n i =1
=
s =1 s =1 s =1

1 ⎡ ⎤
n k k
= ⎢ ∑ ∑
Nn ⎢⎣ i =1 s =1
(xis – x ) + 2 ∑ ∑ (xis – x )(x1s – x ) ⎥ =
2

s =1 i < s ⎦⎥
1
= [N σ 2 + N (n – 1)σ 2 ρ ] =
Nn
σ2 2
= [1 + (n – 1) ρ ]
n

De esta forma, cuando r > 0 se producirá un incremento de la varianza del


estimador de la muestra sistemática s-ésima. Desde este punto de vista, ¿cuándo
coinciden las varianzas en el muestreo aleatorio simple y en el muestreo sistemá-
tico? La respuesta no es sencilla, pero, atendiendo a los resultados más comunes
de la literatura sobre muestras sistemáticas, se deben considerar tres situaciones
relacionadas con los valores que puede tomar r (y, por tanto, como está carac-
terizada la población). En este sentido, y teniendo en cuenta diferentes valores
del coeficiente de correlación, podemos decir lo siguiente:

a) Cuando la población es aleatoria, es decir, cuando sus electos están or-


denados al azar, entonces sucederá que r = 0. En tal caso, y cuando N
sea grande, podría suceder que las varianzas coincidiesen. En tal caso,

var (x–) ≅ var(x–s)

b) Cuando la población está ordenada, esto es, cuando los elementos den-
tro de la población están ordenados en magnitud de acuerdo con algún
esquema, entonces r < 0. En tal caso:

var (x–s) < var(x–)

c) Cuando la población es periódica, es decir, cuando los elementos de la


población tienen una variación cíclica, entonces, r > 0. En tal caso:

var (x–s) > var(x–)

110 ©  Ediciones Pirámide

pi00302001_04.indd 110 8/3/16 10:54


Muestreo sistemático

No obstante lo anterior, las expresiones que suelen utilizarse cuando se lleva


a cabo este tipo de muestreo son las que corresponden a las expresiones vistas en
el muestreo aleatorio simple.

4.3. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA


PARA UN LÍMITE DE ERROR DADO

Para calcular los tamaños muestrales necesarios para un determinado valor


del error de muestreo, también podemos emplear las expresiones ya comentadas
en el capítulo 2. Para recordarlas brevemente, y asumiendo que la varianza po-
blacional es desconocida, dichas expresiones se computarían a partir de:

a) Para la media:

Nŝ 2
n=
NE 2
+ ŝ 2
zα2 /2

b) Para el total:

Nŝ 2
n=
E2
+ ŝ 2
Nzα2 /2

c) Para la proporción:

Np̂q̂
n=
NE 2
+ p̂q̂
zα2 /2

donde N es el tamaño poblacional; el valor E, que se fija a priori, es el


error muestral que se está dispuesto a tolerar; s§2 es la cuasivarianza esti-
mada, que se usa cuando no se dispone de información de la varianza
poblacional, al igual que las proporciones estimadas p§, y za/2 es el valor
crítico de la Normal estándar para el nivel de significación a.

©  Ediciones Pirámide 111

pi00302001_04.indd 111 8/3/16 10:54


Introducción a las técnicas de muestreo

4.4.  MUESTREO SISTEMÁTICO REPLICADO


El muestreo sistemático replicado requiere la selección de más de una mues-
tra sistemática.
Para seleccionar varias muestras sistemáticas replicadas (ns) hay que elegir
aleatoriamente varios puntos de arranque entre los k′ = nsk primeros elementos.
Una vez elegidas las posiciones de arranque, las restantes observaciones hasta
completar la muestra (n) se obtienen seleccionando posiciones y eligiendo den-
tro de cada una de las muestras sistemáticas cada k′ posiciones.
El estimador de la media muestral es el promedio de las medias dentro de
cada una de las muestras sistemáticas replicadas:

ns

∑ xi
i =1
x =
ns

El numerador es la suma de las medias muestrales de cada una de las mues-


tras replicadas. Estas medias se obtienen mediante la expresión:

∑ xij
j =1
xi =
m

donde m = n/ns es el número de observaciones dentro de cada muestra replicada.


La varianza estimada de la media muestral es:

ns ⎡ ns ⎤
1 2
ns 2
∑ (xi – x )2 ⎢ ∑ x2 – 1 ∑ x ⎥
i =1 ⎢ i = 1 i ns i = 1 i ⎥
var (x ) = (1 – f ) = (1 – f ) ⎢ ⎥
ns (ns – 1) ⎣ ns (ns – 1) ⎦

El error de estimación de la media es:

ns

∑ (xi – x )2
i =1
E = tα /2;n – 1 var (x ) = tα /2;n – 1 (1 – f )
ns (ns – 1)

112 ©  Ediciones Pirámide

pi00302001_04.indd 112 8/3/16 10:54


Muestreo sistemático

Para estimar el total, la expresión es igual a:

x̂ = Nx

Mientras, la varianza para el estimador del total viene dada por:

var ( x̂) = N 2 var (x )

El error del total:

ns

∑ (xi – x )2
i =1
E = tα /2;n – 1 N 2 var (x ) = tα /2;n – 1 N 2 (1 – f )
ns (ns – 1)

Para estimar la proporción poblacional:

∑ p̂ij
j =1
p̂i =
m

donde las proporciones dentro de cada muestra sistemática son:

mi

∑ aij
j =1
p̂i =
mi

la varianza de la proporción:

ns

∑ ( p̂i – p̂)2
i =1
var ( p̂) = (1 – f )
ns (ns – 1)

y el error muestral:

ns

∑ ( p̂i – p̂)2
i =1
E = zα /2 var ( p̂) = zα /2 (1 – f )
ns (ns – 1)

©  Ediciones Pirámide 113

pi00302001_04.indd 113 8/3/16 10:54


Introducción a las técnicas de muestreo

4.5.  EJERCICIOS RESUELTOS


Ejercicio 1

En la tabla siguiente se presenta el gasto, expresado en unidades monetarias,


realizado por 200 turistas que visitaron un recinto comercial. Además, se puede
comprobar que en dicho cuadro aparece una variable dicotómica (Resid), que re-
presenta la nacionalidad; si toma el valor «1» el turista encuestado es extranjero
y si toma el valor «0» es un turista nacional.

ID Gasto Resid ID Gasto Resid ID Gasto Resid ID Gasto Resid

 1 87,26 1 51 54,14 0 101 26,51 1 151 75,65 0


 2 40,95 0 52 17,73 0 102 95,95 0 152 72,75 0
 3 42,90 1 53 21,27 0 103 53,60 0 153 86,92 0
 4 62,92 1 54 84,30 1 104 84,87 1 154 85,93 1
 5 23,33 0 55 38,47 0 105 13,31 1 155 22,88 0
 6 34,66 1 56 41,08 0 106 84,69 1 156 14,90 1
 7 74,65 1 57 66,92 0 107 52,01 0 157 26,49 0
 8 87,07 1 58 56,61 1 108 24,24 0 158 88,91 1
 9 63,44 1 59 65,35 1 109 46,87 0 159 97,50 1
10 78,87 0 60  2,72 0 110 53,52 1 160  5,98 0
11 56,62 0 61 37,41 1 111 33,05 1 161 97,29 1
12 49,23 0 62 35,97 1 112 16,56 1 162 58,18 0
13 58,28 0 63 39,27 1 113 80,81 0 163 76,35 0
14 25,38 0 64 55,11 1 114 67,63 1 164  6,96 0
15 43,42 1 65 87,88 0 115 62,73 1 165 36,37 1
16 45,13 0 66  0,20 0 116 10,44 1 166 29,86 0
17  7,35 1 67 15,92 0 117 99,11 0 167 26,25 1
18 23,74 1 68 42,20 0 118 11,13 0 168 61,97 1
19 99,05 0 69 58,45 1 119 74,10 1 169 47,59 1
20 65,28 0 70 58,06 0 120 23,15 1 170 79,09 1
21 53,38 1 71 64,92 0 121 52,31 0 171 78,60 1
22 71,40 1 72 63,75 0 122 39,34 1 172 31,51 1
23 86,61 1 73 32,19 1 123 20,66 1 173 70,51 0
24 30,90 1 74 74,10 0 124 39,90 1 174 97,56 1
25 93,95 0 75 17,69 1 125 31,86 1 175 61,29 1
26 95,71 0 76 17,49 0 126 16,64 1 176 42,26 1
27 63,38 1 77 20,02 0 127 43,73 1 177  8,40 1
28 14,38 0 78 86,67 0 128 31,98 1 178 64,01 1
29  0,31 1 79 24,91 0 129 72,02 0 179 18,31 1
30 30,44 0 80 26,23 1 130 96,61 1 180 89,77 1
31 92,94 0 81 39,94 0 131 94,12 1 181 85,67 0
32  5,97 0 82 11,10 0 132  8,78 1 182 85,29 1

114 ©  Ediciones Pirámide

pi00302001_04.indd 114 8/3/16 10:54


Muestreo sistemático

ID Gasto Resid ID Gasto Resid ID Gasto Resid ID Gasto Resid

33  8,82 1 83 78,59 0 133 79,01 1 183 85,21 0


34 91,24 0 84  3,44 1 134 55,25 0 184 79,86 1
35 96,81 1 85 76,71 0 135 29,54 1 185 95,15 1
36 66,91 0 86 76,40 0 136 23,24 0 186 77,19 1
37 46,45 1 87 65,00 0 137  0,39 1 187 23,80 0
38 97,98 1 88 93,84 0 138 62,96 0 188  4,30 1
39  8,02 0 89 79,01 1 139 64,37 1 189 93,28 1
40 17,94 1 90 78,96 0 140 19,00 0 190 28,33 1
41 40,85 1 91 30,56 1 141 61,67 1 191 52,93 0
42 77,98 1 92 21,25 0 142 77,62 0 192 88,49 0
43 87,68 0 93 90,59 1 143 61,14 0 193 83,62 1
44 41,33 0 94 39,50 1 144 13,86 0 194 38,73 1
45 84,99 0 95 56,65 1 145 65,16 1 195 64,61 1
46 41,22 0 96 82,07 0 146 91,36 0 196 13,04 1
47  3,31 0 97 17,73 1 147 66,88 0 197 14,67 0
48 36,87 1 98 55,35 0 148  7,77 0 198 45,32 1
49 89,54 1 99 50,41 1 149 85,11 1 199 45,87 1
50 13,06 0 100  6,86 1 150 23,14 0 200 63,54 1

Cuestiones

a) Determinar el gasto medio y total con sus respectivos errores. Seleccione


una muestra sistemática con arranque aleatorio utilizando, por ejemplo,
k = 10.
b) Con la variable Resid, estimar la proporción de turistas no residentes en
España y su error muestral.

Solución

Diseño muestral

— Población objetivo: listado ordenado de los turistas que visitaron un de-


terminado centro comercial a lo largo de un día.
— Parámetros: media y total poblacionales de la variable gasto y proporción
poblacional de la variable que diferencia entre turistas extranjeros y na-
cionales.
— Estimadores: media, total y proporción muestrales.
— Método de selección muestral: muestreo aleatorio sistemático con arran-
que aleatorio en el individuo 1.
— Patrón sistemático: para una muestra de 20 individuos y una población
de 200, k = 200/20 = 10.

©  Ediciones Pirámide 115

pi00302001_04.indd 115 8/3/16 10:54


Introducción a las técnicas de muestreo

a) Para proceder a estimar el gasto medio y el gasto total de los turistas hay
que obtener una muestra sistemática. Considerando que el primer individuo o
arranque debe estar entre las 10 primeras posiciones (valor que coincide con k);
en este ejemplo se ha elegido que el arranque aleatorio comience en el primer tu-
rista. De esta forma, se obtienen los siguientes datos a partir de las posiciones:
(1 + 10): (11 + 10); (21 + 10)...

Turistas (posición en la lista) Gastos

  1 87,26
 11 56,62
 21 53,38
 31 92,94
 41 40,85
 51 54,14
 61 37,41
 71 64,92
 81 39,94
 91 30,56
101 26,51
111 33,05
121 52,31
131 94,12
141 61,67
151 75,65
161 97,29
171 78,60
181 85,67
191 52,93

Con estos datos muestrales, y aplicando las expresiones de los estimadores,


se obtienen los siguientes resultados:

20

∑ xi
i =1
x = = 60,79
20

con cuasivarianza igual a:

20

∑ (xi – x )2
i =1
ŝ 2 = = 517,89
20 – 1

116 ©  Ediciones Pirámide

pi00302001_04.indd 116 8/3/16 10:54


Muestreo sistemático

y varianza:

1 2 1 2
ŝ 2 N–n 517,89 200 – 20
var (x ) = = = 23,30
n N 20 200

siendo el error del muestreo igual a:

E = t0,05/2;19 var (x ) = 2,09 23,3 = 10,09

10,09
E(%) = × 100 = 16,60 %
60,79

Así pues, el error de la media es de 10,09 unidades monetarias, lo que repre-


senta un 16,60 % del valor de la media muestral.
El estimador del gasto total es igual a:

x̂ = Nx = 200(60,79) = 12.158

y su varianza

var ( x̂) = N 2 var (x ) = 2002 (23,3) = 932.000

siendo su error de muestreo, también en porcentaje, igual a:

E = t0,05/2 N 2 var (x ) = 2,09 932.000 = 2.017,69

2.017,69
E(%) = × 100 = 16,60 %
12.158

es decir, el error muestral del gasto total es de 2.017,69 unidades monetarias, can-
tidad que representa el 16,6 % del estimador del gasto total.

b) Para estimar la proporción de turistas extranjeros, así como su error


muestral, se han modificado las condiciones. Ahora sólo se han seleccionado 10
individuos sistemáticamente y como arranque aleatorio se ha elegido al indivi-
duo que ocupa la posición 5, es decir, el quinto turista de la lista. De esta forma,
el patrón ahora es k = 200/10 = 20. La muestra obtenida es igual a:

©  Ediciones Pirámide 117

pi00302001_04.indd 117 8/3/16 10:54


Introducción a las técnicas de muestreo

Turistas Resid

  5 0
 25 0
 45 0
 65 0
 85 0
105 1
125 1
145 1
165 1
185 1

La proporción estimada, su varianza y el error de muestreo, también en por-


centajes, son iguales:

∑ ai
i =1 5
p̂ = = = 0,5
n 10

1 2 1 2
p̂q̂ N – n 0,5 × 0,5 200 – 10
var ( p̂) = = = 0,024
n N 10 200

E = z0,05/2 var ( p̂) = 1,96 0,024 = 0,3

E(%) = 0,3 × 100 = 30 %

Por tanto, la estimación de la proporción de mujeres en la población tiene un


error muestral del 30 %.

Ejercicio 2

La tabla del ejercicio 1 tiene ordenados a 200 turistas. Se pide tomar una
muestra piloto de 40 individuos mediante un muestreo sistemático replicado.

Cuestiones

Estimar el gasto medio por turista y el error de estimación.

118 ©  Ediciones Pirámide

pi00302001_04.indd 118 8/3/16 10:54


Muestreo sistemático

Solución

Diseño muestral

— Población objetivo: 200 turistas.


— Parámetros: gastos medios, totales y proporción de turistas extranjeros en
la población.
— Estimadores: media, total y proporciones. Los dos primeros medidos en
unidades monetarias.
— Método de selección muestral: muestreo aleatorio sistemático replicado.
Muestra piloto de 40 individuos.
— Patrón sistemático k = 200/40 = 5; número de muestras sistemáticas ns = 10.

Para seleccionar las muestras sistemáticas, primero es necesario obtener el


patrón sistemático:

N 200
k= = =5
n 40

Esto significa que si se toma una única muestra sistemática, se elegiría un nú-
mero entre 1 y 5 como arranque aleatorio.
Sin embargo, en el muestreo sistemático se están replicando 10 muestras, con
lo cual hay que introducir estas réplicas (ns) en el patrón sistemático. Así, k′ = nsk
representa el nuevo patrón sistemático para seleccionar las posiciones que serán
elegidas.
En este ejemplo, el valor del patrón sistemático replicado es k′ = 10 × 5 = 50.
Por tanto, en las muestras replicadas podrán seleccionarse como arranques alea-
torios aquellas posiciones que van de 1 al 50. A continuación, se completan las
muestras replicadas eligiendo cada k′ posiciones. El tamaño de las muestras sis-
temáticas replicadas es:

n 40
= =4
ns 10

Es decir, las 10 muestras sistemáticas replicadas deben ser de tamaño 4, tener


un número de arranque aleatorio comprendido entre 1 y 50 y avanzar 50 posi-
ciones cada vez que se seleccione un individuo.
Siguiendo este procedimiento, usando los datos del listado poblacional de
200 turistas, se han obtenido las muestras sistemáticas replicadas que se presen-
tan en la siguiente tabla:

©  Ediciones Pirámide 119

pi00302001_04.indd 119 8/3/16 10:54


Introducción a las técnicas de muestreo

Primer elemento Segundo elemento Tercer elemento Cuarto elemento


Muestra
Arranque Gasto «+50» Gasto «+100» Gasto «+150» Gasto

 1  1 87,26  51 54,14 101 26,51 151 75,65


 2 10 78,87  60  2,72 110 53,52 150  5,98
 3 20 65,28  70 58,06 120 23,15 170 79,09
 4 23 86,61  73 32,19 123 20,66 173 70,51
 5 25 93,95  75 17,69 125 31,86 175 61,29
 6 30 30,44  80 23,23 130 96,61 180 89,77
 7 35 96,81  85 76,71 135 29,54 185 95,15
 8 40 17,94  90 78,96 140 19,00 190 28,33
 9 45 84,99  95 56,65 145 65,16 195 64,61
10 50 13,06 100  6,86 150 23,14 200 63,54

Una interpretación sencilla de su contenido es la siguiente. Las filas de la ta-


bla contienen los elementos de las muestras replicadas de tamaño 4 asociadas
con las posiciones que ocupan en el listado. La columna denominada «Arran-
que» representa las posiciones seleccionadas al azar entre 1 y 50 para todas y
cada una de las 10 muestras construidas. Éstos son los arranques aleatorios. Las
restantes columnas están formadas por las posiciones y los valores de la variable
«Gasto» hasta construir totalmente la muestra de 50 individuos. Por ejemplo, la
información de la primera muestra sistemática estará formada por los gastos que
aparecen a continuación:

Elemento 1 2 3 4

Posición 1 51 101 151

Gastos en la primera muestra 87,26 54,14 26,51 75,65

Una vez se ha obtenido la información de las 10 muestras, se estiman las me-


dias dentro de cada muestra sistemática de tamaño 4, usando la expresión:

∑ xij
j =1
xi =
m

Los resultados pueden obtenerse construyendo la siguiente tabla:

120 ©  Ediciones Pirámide

pi00302001_04.indd 120 8/3/16 10:54


Muestreo sistemático

Elementos
Muestra Media
1 2 3 4

 1 87,26 54,14 26,51 75,65 60,89


 2 78,87  2,72 53,52  5,98 35,27
 3 65,28 58,06 23,15 79,09 56,40
 4 86,61 32,19 20,66 70,51 52,49
 5 93,95 17,69 31,86 61,29 51,20
 6 30,44 23,23 96,61 89,77 60,01
 7 96,81 76,71 29,54 95,15 74,55
 8 17,94 78,96 19,00 28,33 36,06
 9 84,99 56,65 65,16 64,61 67,85
10 13,06  6,86 23,14 63,54 26,65

donde:

87,26 + 54,14 + 26,51 + 75,65


x1 = = 60,89
4

78,87 + 2,72 + 53,52 + 5,98


x2 = = 35,27
4

13,06 + 6,86 + 23,14 + 63,54


x10 = = 26,65
4

Usando la anterior información, se puede estimar la media poblacional me-


diante el promedio de las medias correspondientes a las muestras replicadas,
tal que:

ns

∑ xi
i =1 60,89 + 35,27 + L + 26,65 521,37
x = = = = 52,137
ns 10 10

es decir, el gasto medio estimado de esta población de turistas es de 52,137 uni-


dades monetarias.

©  Ediciones Pirámide 121

pi00302001_04.indd 121 8/3/16 10:54


Introducción a las técnicas de muestreo

Para estimar el error de la media muestral es necesario conocer la varianza:

⎡ ns ns ⎤
1 2
2
⎢ x2 – 1 ⎥
⎢ ∑ i ∑
ns i =1
xi

i =1
var (x ) = (1 – f ) ⎢ ⎥
⎢⎣ ns (ns – 1) ⎥⎦
1 2
40 (29.282,69) – 10 (521,37)
1
= 1–
200 2 10(9)
=

= 18,72

El error de estimación es:

E = t0,05/2;9 var (x ) = 2,26 18,66 = 9,76

que, en términos relativos, es:

1 x 2 × 100 = 1 52,137 2 × 100 = 18,64 %


E 9,76
E(%) =

La estimación del gasto total poblacional es muy sencilla, y su valor es:

x̂ = Nx = 200(52,137) = 10.427,4

mientras que su varianza es igual a:

var ( x̂) = N 2 var (x ) = 2002 (18,66) = 746.400

El error de estimación del gasto total es:

E = t0,05/2;9 var ( x̂) = 2,26 746.400 = 1.952,51

valor que representa un 17,32 % del gasto total, es decir:

1 x̂ 2 × 100 = 110.427,4 2 × 100 = 17,32 %


E 1.805,64
E(%) =

122 ©  Ediciones Pirámide

pi00302001_04.indd 122 8/3/16 10:54


Muestreo sistemático

Ejercicio 3

En el cuadro siguiente se dispone de información sobre una población de 200


pasajeros que viajan en un avión, ordenados según los asientos (ID). La variable
«género» toma el valor 1 si el pasajero en cuestión es mujer y 0 si es hombre.

ID Género ID Género ID Género ID Género

 1 1 51 0 101 1 151 0
 2 0 52 1 102 0 152 0
 3 1 53 1 103 1 153 0
 4 1 54 1 104 1 154 1
 5 0 55 0 105 1 155 0
 6 1 56 0 106 1 156 1
 7 1 57 0 107 0 157 0
 8 1 58 1 108 1 158 1
 9 1 59 1 109 0 159 1
10 1 60 0 110 1 160 0
11 0 61 1 111 1 161 1
12 1 62 1 112 1 162 0
13 1 63 1 113 0 163 0
14 0 64 1 114 1 164 0
15 1 65 0 115 1 165 1
16 0 66 1 116 1 166 0
17 1 67 1 117 0 167 1
18 1 68 0 118 0 168 1
19 0 69 1 119 1 169 1
20 0 70 0 120 1 170 1
21 1 71 1 121 0 171 1
22 1 72 0 122 1 172 1
23 1 73 1 123 1 173 0
24 1 74 0 124 1 174 1
25 0 75 1 125 1 175 1
26 1 76 0 126 1 176 1
27 1 77 0 127 0 177 1
28 0 78 1 128 1 178 1
29 1 79 1 129 0 179 1
30 0 80 1 130 1 180 1
31 1 81 0 131 1 181 0
32 0 82 1 132 1 182 1
33 1 83 0 133 1 183 0
34 0 84 1 134 0 184 1
35 1 85 0 135 1 185 1
36 0 86 1 136 0 186 1
37 1 87 1 137 1 187 0

©  Ediciones Pirámide 123

pi00302001_04.indd 123 8/3/16 10:54


Introducción a las técnicas de muestreo

ID Género ID Género ID Género ID Género

38 1  88 0 138 0 188 1


39 0  89 1 139 1 189 1
40 1  90 0 140 0 190 1
41 1  91 1 141 1 191 0
42 1  92 0 142 0 192 0
43 0  93 1 143 1 193 1
44 1  94 1 144 0 194 1
45 1  95 1 145 1 195 1
46 1  96 0 146 0 196 1
47 0  97 1 147 1 197 0
48 1  98 0 148 0 198 1
49 1  99 1 149 1 199 1
50 0 100 1 150 1 200 1

Cuestiones

a) De la población de 200 pasajeros, seleccionar una muestra de veinte per-


sonas aplicando un muestreo aleatorio sistemático con cuatro muestras
replicadas.
b) Estimar la proporción de turistas extranjeros y su error de muestreo.

Solución
Diseño muestral

— Población objetivo: 200 pasajeros de avión.


— Parámetros: proporción de mujeres.
— Estimadores: proporciones.
— Método de selección muestral: muestreo aleatorio sistemático replicado.
Muestra piloto de 20 individuos.
— Patrón sistemático k = 200/20 = 10; número de muestras sistemáticas ns = 4.

a) Los datos esenciales para realizar el muestreo pueden resumirse en el si-


guiente cuadro:

ns =   4 k = N/n = 10

N = 200 (N – n)/N = 0,9

n =  20 ns(ns – 1) = 12

m =   5 k′ = nS × k = 40

124 ©  Ediciones Pirámide

pi00302001_04.indd 124 8/3/16 10:54


Muestreo sistemático

A partir de dicha información, las muestras replicadas estarán constituidas


por los elementos que aparecen en la siguiente tabla:

Muestra 1 Género Muestra 2 Género Muestra 3 Género Muestra 4 Género

  3 1   8 1  13 1  18 1


 43 0  48 1  53 1  58 1
 83 0  88 0  93 1  98 0
123 1 128 1 133 1 138 0
163 0 168 1 173 0 178 1
m1

∑ a1 j p̂2 =
4
= 0,8 p̂3 =
4
= 0,8
3
p̂4 = = 0,6
j =1 2
p̂1 = = = 0,4 5 5 5
m1 5

b) Para llevar a cabo la estimación de la proporción, simplemente debemos


tener en cuenta la información de la tabla anterior. Así, la proporción estimada
puede obtenerse fácilmente haciendo:

nsi

∑ p̂i
i =1 0,4 + 0,8 + 0,8 + 0,6
p̂ = = = 0,65
ns 4

mientras que su varianza es igual a:

1 23 4=
200 – 20 (0,4 – 0,65)2 + (0,8 – 0,65)2 + (0,8 – 0,65)2 + (0,6 – 0,65)2
var ( p̂) =
200 4×3

= 0,00846

siendo su error de muestreo:

E = z0,05/2 var ( p̂) = 1,96 0,00846 = 0,1802 ⇒ E(%) = 18,02 %

Ejercicio 4

Hay interés en conocer la proporción de automovilistas que son parados y


multados por la policía de tráfico. Se hace un seguimiento durante un período

©  Ediciones Pirámide 125

pi00302001_04.indd 125 8/3/16 10:54


Introducción a las técnicas de muestreo

de tiempo y se comprueba de 10 en 10 automóviles parados (k = 10) si han sido


multados. A lo largo del período de estudio pasaron por el control (población)
5.000 automóviles. Use los datos de la tabla siguiente para estimar la proporción
de conductores multados y su error de estimación. Además, estime el tamaño de
la muestra necesario para estimar p con un error de estimación del 1,2 %:

Automóviles parados Automovilistas multados

1 1
2 1
3 0

n 1
n

∑ ai = 140
i =1

Solución

Diseño muestral

— Población objetivo: 5.000 automovilistas.


— Parámetros: proporción de automovilistas multados.
— Estimadores: proporción muestral.
— Método de selección muestral: muestreo aleatorio sistemático replicado.
— Patrón sistemático k = 5.000/10 = 500; número de muestras sistemáticas
ns = 10.

Como no se conoce el número de automóviles que se pararon, es decir, el tama-


ño muestral, éste se puede obtener a partir de la expresión del patrón sistemático:

N N 5.000
k= ⇒ n= = = 500
n k 10

por tanto, de una muestra de 500 automóviles, 140 fueron multados. La propor-
ción de multados ha sido del 28 %:

p̂ =
∑ a1 =
140
= 0,28
n 500

126 ©  Ediciones Pirámide

pi00302001_04.indd 126 8/3/16 10:54


Muestreo sistemático

siendo su varianza igual a:

1 2 1 2
p̂q̂ N – n 0,28 × 0,72 5.000 – 500
var ( p̂) = = = 0,00036
n N 500 5.000

y su error muestral igual a:

E = z0,05/2 var ( p̂) = 1,96 0,00036 = 0,37 ⇒ E(%) = 3,7 %

donde su error muestral es del 3,7 %.

©  Ediciones Pirámide 127

pi00302001_04.indd 127 8/3/16 10:54


pi00302001_04.indd 128 8/3/16 10:54
5 Muestreo por conglomerados

5.1.  INTRODUCCIÓN. EL MUESTREO POR CONGLOMERADOS


La principal característica es que la población está formada por conglome-
rados y la muestra se obtiene mediante su elección. Los conglomerados están
formados por grupos de individuos. Si el muestreo es uniétapico, sólo se selec-
cionan conglomerados, y dentro de cada conglomerado no se realizará ningún
muestreo ya que se conocen los valores poblacionales de los mismos.
El muestreo de conglomerados sólo se diferencia del muestreo aleatorio sim-
ple en que las unidades muestrales o unidades primarias son conglomerados de in-
dividuos. Otra característica deseable del muestreo por conglomerados es que las
diferencias de los individuos dentro los conglomerados sean capaces de reprodu-
cir las diferencias poblaciones (heterogeneidad dentro) y que entre los conglome-
rados las diferencias sean pequeñas (homogeneidad entre)1. Bajo esas condiciones,
con muestras no necesariamente grandes, se pueden obtener estimadores precisos.
Algunos ejemplos prácticos de muestreo por conglomerados se refieren a la
selección de familias (conglomerado de individuos). Es frecuente que los conglo-
merados estén definidos por áreas (muestreo por áreas). Su empleo se justifica
por razones de economía (coste, tiempo y recursos). Por ejemplo, la selección de
parcelas geográficas de árboles (conglomerado de árboles), etc.
Pues bien, el muestro por conglomerados, que es aleatorio simple, utiliza es-
timadores similares a aquél.
La notación que emplearemos en este capítulo será la siguiente:

— 
xij representa al individuo j-ésimo que se encuentra dentro del i-ésimo
conglomerado.

1
  A diferencia del muestreo estratificado, los estratos deben ser homogéneos dentro de
ellos y heterogéneos entre ellos.

©  Ediciones Pirámide 129

pi00302001_05.indd 129 8/3/16 10:55


Introducción a las técnicas de muestreo

— N es el número de conglomerados en la población.


— n es el número de conglomerados seleccionados mediante muestreo alea-
torio simple.
— Mi es el tamaño del conglomerado i-ésimo (censo del conglomerado). Se
cumple:

N
M = ∑ Mi
i =1

Mj
— xi = ∑ xij es el valor de la suma total de la variable en el i-ésimo conglo-
j =1

merado. Dado que es un muestreo unietápico dentro de los conglomera-


dos, se realizan los cálculos con el censo y no con nuevas muestras.
M
— M = es el tamaño promedio del conglomerado en la población. Esta
N
expresión es muy útil cuando en la población los conglomerados tienen
tamaños parecidos.

5.2. ESTIMADORES DE LA MEDIA Y EL TOTAL


PARA LA POBLACIÓN
A continuación, destacaremos las expresiones más relevantes para estimar la
media, el total poblacional en el muestreo por conglomerados. Siguiendo la es-
tructura de los anteriores capítulos, abordaremos la explicación desde el punto
de vista práctico, más que desde demostraciones analíticas.

5.2.1.  Estimador de la media poblacional

Para estimar la media poblacional usando el conjunto de conglomerados se-


leccionados (n) se utiliza la siguiente expresión de la media:

∑ Mi xi
i =1
xC = n

∑ Mi
i =1

130 ©  Ediciones Pirámide

pi00302001_05.indd 130 8/3/16 10:55


Muestreo por conglomerados

que resulta ser un estimador de la razón2. La varianza entre los conglomerados


de dicho estimador, por ser un estimador de la razón, puede obtenerse median-
te la expresión siguiente:

∑ (Mi xi – Mi xC )2
1 21 nM 2
N–n 1 i =1
var (xC ) = 2
N n–1

El estimador de la varianza es asintóticamente insesgado, sus propiedades de-


seables mejoran cuando la muestra (n) es grande. También, el sesgo disminuye si
los conglomerados son de tamaños parecidos: M1  M2  ...  MN.
El error de estimación viene dado por la expresión:

∑ (Mi xi – Mi xC )2
1 21 nM 2
N–n 1 i =1
E = tα /2;n – 1 var (xC ) = tα /2;n – 1 2
N n–1

Partiendo del error muestral, se obtiene la expresión:

1 21 nM 2 ŝ
N–n 1
E = tα /2;n – 1 var (xC ) = tα /2;n – 1 2
2
C
N

y la cuasivarianza coincide con:

∑ (Mi xi – MxC )2
i =1
ŝC2 =
n–1

Para determinar el tamaño muestral, asumiendo ta/2, n − 1, tenemos que:

E N–n 2 E2 NŝC2 nŝC2 M 2 E 2 ŝC2 ŝC2


= ŝC ⇒ = – ⇒ + =
tα2 /2, n − 1 NnM 2 zα2 /2 NnM 2 NnM 2 zα2 /2 N n

2
  Este estimador será estudiado con mayor amplitud en el capítulo 7.

©  Ediciones Pirámide 131

pi00302001_05.indd 131 8/3/16 10:55


Introducción a las técnicas de muestreo

a partir de cuya expresión puede despejarse n, y obtenerse el siguiente resultado:

NŝC2
n=
NM 2 E 2
+ ŝC2
tα2 /2,n – 1

5.2.2.  Estimador del total poblacional

El estimador del total poblacional se obtiene mediante la expresión:

x̂C = MxC

La varianza del estimador del total es:

var ( x̂C ) = var (MxC ) = M 2 var (xC )

y el error de estimación del total poblacional es:

E = tα /2;n – 1 var ( x̂C )

De la expresión del error muestral del total:

E = tα /2;n – 1 var ( x̂C )

= tα /2;n – 1 M 2 var (xC )

= tα /2;n – 1 N 2 M 2 var (xC )

∑ (xi – MxC )2
1 2
N–n i =1
= tα /2;n – 1 N 2
Nn n–1

Al igual que para la media, para determinar el tamaño muestral, asumiendo


za/2, tenemos que:

1 2
E2 N–n 2
= N2 ŝC
tα2 /2,n – 1 Nn

132 ©  Ediciones Pirámide

pi00302001_05.indd 132 8/3/16 10:55


Muestreo por conglomerados

a partir de cuya expresión se puede obtener el tamaño muestral, tal que:

NŝC2
n=
E2
+ ŝC2
Ntα2 /2,n – 1

5.3.  ESTIMADOR DE LA PROPORCIÓN POBLACIONAL


Sea pi la proporción de individuos del conglomerado i-ésimo que tienen el
atributo de interés, por ejemplo, ser empresario. Para estimar mediante muestreo
por conglomerados la proporción de individuos de la población que son empre-
sarios se utiliza la siguiente expresión:

∑ Mi pi
i =1
p̂C = n

∑ Mi
i =1

Siguiendo la expresión de la varianza del estimador de la razón, la varianza


de la proporción entre los conglomerados es:

∑ (Mi pi – Mi p̂C )2

1 2
N–n i =1
var ( p̂C ) =
NnM 2 n–1

donde la última parte de la expresión es la cuasivarianza de los conglomerados:

∑ (Mi pi – Mi pC )2
i =1
ŝC2 =
n–1

y el error muestral de la proporción:

E = zα /2 var ( p̂C )

©  Ediciones Pirámide 133

pi00302001_05.indd 133 8/3/16 10:55


Introducción a las técnicas de muestreo

El tamaño apropiado para un error dado se obtiene despejando n de la ex-


presión del error muestral:

NŝC2
n=
NE 2 M 2
+ ŝC2
zα2 /2

5.4. ELECCIÓN ENTRE MUESTREO POR CONGLOMERADOS


Y MUESTREO ALEATORIO SIMPLE
Otra forma de expresar la varianza de la media muestral en el caso de mues-
treo por conglomerados es en función del coeficiente de correlación entre con-
glomerados, r:

ŝC2
var (xC ) = (1 – f ) [1 – ρ (M – 1)]
nM

teniendo en cuenta las condiciones:

(1 – f ) ˘ 0 ; (M – 1) ˘ 0

De la expresión anterior se deduce que si la correlación entre los conglome-


rados es positiva, a medida que ésta aumenta también se incrementa la varianza
del estimador. Por ello, si el signo de la correlación es positivo, es preferible uti-
lizar el muestreo aleatorio simple.
Por ejemplo, con el fin de valorar la conveniencia de utilizar el muestreo de
conglomerados frente al muestreo aleatorio simple, suponga los siguientes datos:

n 8
var (xC ) = 0,2148, N = 100, n = 8, ŝC2 = 386.073, M = 14,37 y f = =
N 100

Sustituyendo los valores en la expresión:

ŝC2
var (xC ) = (1 – f ) [1 – ρ (M – 1)]
nM

tenemos que:

1 8(14,37) 2[1 – ρ(14,37 – 1)]


386.073
(0,2148) = (1 – 0,08) ò ρ = –0,051

134 ©  Ediciones Pirámide

pi00302001_05.indd 134 8/3/16 10:55


Muestreo por conglomerados

donde el valor negativo indicará que el uso del muestreo por conglomerados
puede ser más recomendable que el muestreo aleatorio simple.

5.5.  EJERCICIOS RESUELTOS


Ejercicio 1

Se desea estudiar el consumo medio y el consumo total de electricidad en una


ciudad en la que hay censadas 5.000 viviendas (M = 5.000). Para ello, se han se-
leccionado 25 manzanas (n = 25) de las 108 manzanas de viviendas (N = 108)
que forman la ciudad. El cuadro siguiente recoge la información muestral del
consumo de las 25 manzanas de viviendas o conglomerados:

Conglomerados Viviendas (Mi) Consumo (xi) Mi xi (M i xi – MxC ) 2

 1 22 1.590 34.980 1.314.735.386


 2 24 1.510 36.240 1.224.949.601
 3 25 1.490 37.250 1.155.271.155
 4 23 1.610 37.030 1.170.274.838
 5 25 1.414 35.350 1.288.040.419
 6 21 1.720 36.120 1.233.363.828
 7 22 1.310 28.820 1.799.395.316
 8 23 1.427 32.821 1.475.964.238
 9 25 1.290 32.250 1.520.163.955
10 19 1.100 20.900 2.534.043.111
11 23 1.620 37.260 1.154.591.469
12 24 1.710 41.040 911.996.513
13 21 1.140 23.940 2.237.221.889
14 20 1.980 39.600 1.001.044.039
15 26 1.990 51.740 380.221.921
16 28 1.420 39.760 990.945.069
17 24 1.200 28.800 1.801.092.487
18 22 1.080 23.760 2.254.282.029
19 21 2.010 42.210 842.699.097
20 22 1.740 38.280 1.086.314.138
21 25 1.750 43.750 755.660.515
22 23 1.890 43.470 771.132.912
23 22 1.470 32.340 1.513.153.985
24 24 1.510 36.240 1.224.949.601
25 21 1.740 36.540 1.204.040.033

Sumas 575 890.491 32.845.547.541

©  Ediciones Pirámide 135

pi00302001_05.indd 135 8/3/16 10:55


Introducción a las técnicas de muestreo

Solución

Diseño muestral

— Población objetivo: 5.000 viviendas.


— Parámetros: consumo medio y total de electricidad.
— Estimadores: media y total muestrales.
— Método de selección muestral: muestreo aleatorio por conglomerados.
— Unidades muestrales: conglomerados de viviendas.

a) El consumo medio de electricidad por manzanas de viviendas (conglo-


merado) es de 1548,7 kW/h:

25

∑ Mi xi
i =1 890.491
xC = 25
= = 1.548,7
571
∑ Mi
i =1

Para estimar la varianza del consumo medio, primero se calcula la cuasiva-


rianza entre los conglomerados:

25

∑ (Mi xi – Mi xC )2
i =1 32.845.547.541
ŝC2 = = = 1.368.564.480,88
25 – 1 24

y sustituyendo en la expresión de la varianza de la media:

1 2 1 21 25(46) 2(1.368.564.480,88) =
N–n 1 108 – 25 1
var (xC ) = ŝ 2 =
2 C 2
N nM 108

= 19.881,95

siendo el error de estimación de 290,47 kW/h:

E = t0,05/2;24 var (xC ) = 2,06 19.881,95 = 290,47

136 ©  Ediciones Pirámide

pi00302001_05.indd 136 8/3/16 10:55


Muestreo por conglomerados

En términos relativos, el error es del 18,75 %:

11.548,7 2 × 100 = 18,75 %


290,47
E(%) =

Con estos resultados se puede estimar el tamaño de la muestra si el error no


debe ser superior al 10 % del consumo medio en electricidad:

E = 0,1 × 1.548,7 = 154,87

Así, bastará con sustituir los correspondientes valores de la expresión:

NŝC2 (108)(1.368.564.480,88)
n= = ≈ 57
NE M2 2
(108)(154,87)2 (46)2
+ ŝC
2
+ 1.368.564.480,88
tα2 /2,n – 1 (2,06)2

es decir, para estimar el consumo medio con esa precisión hay que ampliar la
muestra hasta los 53 conglomerados.

b) El consumo total estimado para esta población es de 7.743.500 kW/h:

x̂C = MxC = 5.000(1.548,7) = 7.743.500

siendo la varianza del consumo total:

var ( x̂C ) = var (MxC ) = M 2 var (x) = (5.000)2 (19.882,18) =


= 497.054.500.000,00

y el error muestral es 1.452.342,98 kW/h:

E = t0,05/2;24 var ( x̂C ) = 2,06 497.054.500.000,00 = 1.452.342,98

que en términos relativos el error es del 18,75 %:

1 2
1.452.342,98
E(%) = × 100 = 18,75 %
7.743.400

©  Ediciones Pirámide 137

pi00302001_05.indd 137 8/3/16 10:55


Introducción a las técnicas de muestreo

Ahora, hay que determinar el tamaño de n para un error del 10 % del gasto
total, es decir, un error igual a:

E = 0,1(7.743.400) = 774.340

Sustituyendo los correspondientes valores en la expresión de tamaño de la


muestra para el gasto total:

NŝC2 147.804.963.934,50
n= 2
= ≈ 57
E (774.340)2
+ ŝC2 + 1.368.564.480,88
tα2 /2,n – 1 108(2,06)2

para realizar el estudio con un error muestral igual al 10 % del valor del gasto to-
tal, son necesarios 53 conglomerados.

Ejercicio 2

Una población está formada por 2.100 individuos repartidos en 150 conglo-
merados y se ha obtenido la siguiente muestra de 15 conglomerados para esti-
mar la proporción de mujeres (ai = 1):

Conglomerados Mi pi Mi pi (M i pi – M i p̂C ) 2

 1 10 0,30 3 0,73
 2 11 0,55 6 3,09
 3 14 0,29 4 1,96
 4 13 0,38 5 0,00
 5 16 0,38 6 0,03
 6 12 0,42 5 0,14
 7 15 0,47 7 1,47
 8 17 0,24 4 6,54
 9 14 0,43 6 0,36
10 18 0,39 7 0,00
11 12 0,42 5 0,14
12 15 0,40 6 0,05
13 19 0,37 7 0,11
14 11 0,36 4 0,06
15 13 0,46 6 0,97

Sumas 210 81 15,65

138 ©  Ediciones Pirámide

pi00302001_05.indd 138 8/3/16 10:55


Muestreo por conglomerados

Solución

Diseño muestral

— Población objetivo: 2.100 individuos.


— Parámetros: proporción de mujeres.
— Estimadores: proporción muestral.
— Método de selección muestral: muestreo por conglomerados.
— Unidades muestrales: conglomerados de individuos.

La proporción estimada de mujeres en esta población es igual a:

15

∑ Mi pi
i =1 81
p̂C = 15
= = 0,386
210
∑ Mi
i =1

y la varianza de la proporción:

15

∑ (Mi pi – Mi p̂C )2

1 NnM 2
N–n i =1
var ( p̂C ) = 2
15 – 1

donde la cuasivarianza entre los conglomerados es:

15

∑ (Mi pi – Mi p̂C )2
i =1 15,65
ŝC2 = = ≈ 1,118
15 – 1 14

Sustituyendo en la varianza de la proporción:

1 (150)(15)(14) 2(1,118) = 0,000342


150 – 15
var ( p̂C ) = 2

el error muestral es del 3,62 %:

E = z0,05/2 var ( p̂C ) = 1,96 0,000342 = 0,0362 ⇒ E(%) = 3,62 %

©  Ediciones Pirámide 139

pi00302001_05.indd 139 8/3/16 10:55


Introducción a las técnicas de muestreo

Partiendo de la expresión del error muestral y despejando n, se obtiene el ta-


maño apropiado de la muestra para un error dado:

NŝC2
n=
NE M 2
2

2
+ ŝC2
z0,05/2

Con los resultados de este ejercicio:

N = 150; ŝC2 = 1,118; M = 14; z0,05/2 = 1,96; E = 0,01

se puede obtener el tamaño muestral adecuado para que el error no sea superior
al 1 % (E = 0,01), solamente incorporando nuevos individuos:

10(1,118)
n= = 89,05
150(14)2 (0,01)2
+ 1,118
1,962

donde, según los cálculos, para estimar la proporción poblacional de mujeres con
un error muestral del 1 % hay que seleccionar 89 conglomerados.

Ejercicio 3

Un inspector de Hacienda quiere estimar el ingreso medio y el ingreso total


de los contribuyentes de un determinado núcleo urbano. Para ello, decide tomar
una muestra piloto de 8 manzanas de viviendas (conglomerados). Los resultados
se presentan en la tabla siguiente:

Conglomerados xi Mi

1 84 12
2 59 12
3 62 18
4 66 15
5 65 16
6 50 14
7 86 15
8 86 10

140 ©  Ediciones Pirámide

pi00302001_05.indd 140 8/3/16 10:55


Muestreo por conglomerados

¿Cuántos conglomerados hay que seleccionar para que el error muestral no


sea superior a 5 unidades monetarias? Por simplicidad, asuma normalidad en los
cálculos de los errores muestrales.

Solución

Diseño muestral

— Población objetivo: contribuyentes de un determinado núcleo urbano.


— Parámetros: ingreso medio e ingreso total de los contribuyentes expresa-
dos en unidades monetarias.
— Estimadores: media y total muestrales.
— Método de selección muestral: muestreo aleatorio por conglomerados
uniétapicos. Se seleccionan los conglomerados a partir del muestreo alea-
torio simple.
— Unidades muestrales: conglomerados formados por manzanas de vivien-
das.

Conglomerados xi Mi Mi xi (M i xi – xC M i ) 2

1 84 12 1.008 33.020,1
2 59 12 708 13.991,5
3 62 18 1.116 15.234,6
4 66 15 990 1.836,7
5 65 16 1.040 3.808,7
6 50 14 700 69.696,0
7 86 15 1.290 66.122,4
8 86 10 860 29.387,8

Sumas 558 112 7.712 233.097,8

Como en este ejercicio no se conoce el tamaño de los conglomerados, el ta-


maño medio se puede estimar a partir de los tamaños de los conglomerados que
forman la muestra:

∑ Mi
ˆ = i =1 112
M = = 14
8 8

©  Ediciones Pirámide 141

pi00302001_05.indd 141 8/3/16 10:55


Introducción a las técnicas de muestreo

a) El ingreso medio estimado para esta población es igual a 68,86 unidades


monetarias:

∑ Mi xi
i =1 7.712
xC = 8
= = 68,86
112
∑ Mi
i =1

La varianza del ingreso medio:

∑ (M1xi – xC Mi )2

1 2
N–n 1 i =1
var (x ) = =
N nM 2 n–1

1 21 8(14) 21 2
100 – 8 1 233.097,8
= 2
=
100 7

= 19,54

y el error de muestreo será igual a 8,66 unidades monetarias, es decir:

E = t0,025/7 var (xC ) = 2,36 19,54 = 10,45

que en términos relativos equivale a un 21,58 % de los ingresos medios:

1 68,89 2 × 100 = 15 %
10,45
E(%) =

b) Para calcular el tamaño muestral requerido para que el error de los in-
gresos medios no sea superior a cinco unidades monetarias: E = 5, sólo hay que
sustituir en la expresión:

NŝC2
n=
NE 2 M 2
2
+ ŝC2
t0,05/2;n –1

142 ©  Ediciones Pirámide

pi00302001_05.indd 142 8/3/16 10:55


Muestreo por conglomerados

Por otro lado, la cuasivarianza poblacional muestral estimada es igual a:

∑ (Mi xi – xC Mi )2
i =1 233.097,8
ŝC2 = = = 33.299,68
n–1 7

De esta forma, el tamaño de muestra requerido es igual a 28 conglomerados:

100(33.299,68)
n= = 27,5 ≈ 28

1 2
100(5)2 (14)2
+ 33.299,68
2,362

Ejercicio 4
En un determinado municipio ocurre algo insólito, se están secando y mu-
riendo las palmeras. El ayuntamiento quiere tomar medidas, y quiere saber la
proporción de palmeras enfermas que existen en el municipio. Dado que hay mu-
chos jardines o zonas verdes, se ha decido que lo mejor es tomar como unidad
de estudio estas zonas verdes o los jardines públicos, muestreando cuatro de en-
tre las 50 zonas verdes dispersas por el municipio. Los resultados se presentan en
el cuadro siguiente:

Jardines Mi pi

1 52 0,10
2 56 0,20
3 61 0,03
4 46 0,05

Debido a que existen zonas verdes en los barrancos que se pueden conside-
rar «jardines» con palmeras salvajes, M es desconocido. Por simplicidad, asuma
normalidad en los cálculos de los errores muestrales.

Solución

Diseño muestral

— Población objetivo: palmeras de un determinado municipio.


— Parámetros: proporción de palmeras afectadas.

©  Ediciones Pirámide 143

pi00302001_05.indd 143 8/3/16 10:55


Introducción a las técnicas de muestreo

— Estimadores: proporción muestral.


— Método de selección muestral: muestreo aleatorio por conglomerados
uniétapicos. Se seleccionan los conglomerados a partir del muestreo alea-
torio simple.
— Unidades muestrales: conglomerados geográficos formados por jardines
o zonas verdes que contienen palmeras.

Jardines Mi pi Mi pi (M i pi – p̂C M i ) 2

1 52 0,10 5,20 0,03


2 56 0,20 11,20 33,64
3 61 0,03 2,03 14,82
4 46 0,05 2,30 4,56

Sumas 215 20,73 53,05

a) Los datos conocidos en el enunciado son N = 50 ; n = 4. Como no se co-


noce el número exacto de palmeras (M), se estima el tamaño medio poblacional
de los conglomerados usando la información muestral mediante la expresión:

∑ Mi
ˆ = i =1 215
M = = 53,75
4 4

La proporción de palmeras infectadas en el municipio es del 9,6 %:

∑ Mi pi
i =1 20
p̂C = 4
= = 0,096
215
∑ Mi
i =1

mientras que su varianza es igual a:

∑ (Mi pi – Mi p̂C )2

1 NnM 2 1 (50)(4)(53,75) 2
N–n i =1 50 – 4 53,05
var ( p̂C ) = 2
= 2
=
4–1 3

= 0,001408

144 ©  Ediciones Pirámide

pi00302001_05.indd 144 8/3/16 10:55


Muestreo por conglomerados

A partir de la varianza, construimos el error de muestreo y su porcentaje, cu-


yos datos son, respectivamente:

E = z0,05/2 var ( p̂C ) = 1,96 0,001408 = 0,0735 ⇒ E(%) = 7,35 %

b) Para saber cuántos jardines se deberían muestrear para que el error


muestral sea del 5 %, es decir, E = 0,05, se sustituyen los valores en la expresión
de n, tal que:

NŝC2
n=
NE M 2
2

2
+ ŝC2
z0,05/2

siendo:
4

∑ (Mi pi – Mi p̂C )2
i =1 53,05
ŝC2 = = = 17,683
4–1 3

Por tanto, el tamaño de la muestra será:

(50)(17,683)
n= = 7,92 ≈ 8
(50)(0,05)2 (53,75)2
+ 17,683
1,962

Es decir, para un error del 5 % son necesarios 8 conglomerados para estimar
la proporción de palmeras del municipio afectadas.

Ejercicio 5
Una cadena de hoteles formada por 360 hoteles está estudiando la posibili-
dad de implantar un nuevo sistema de control de calidad del servicio. Los hote-
les están distribuidos en 30 países (conglomerados). Con una muestra de cuatro
países se obtuvieron las siguientes puntuaciones.

Conglomerados Mi xi

U1 15 77
U2 14 81
U3 13 76
U4 10 91

©  Ediciones Pirámide 145

pi00302001_05.indd 145 8/3/16 10:55


Introducción a las técnicas de muestreo

Se desea estimar la puntuación media en la calidad del servicio. Por simplici-


dad, asuma normalidad en los cálculos de los errores muestrales.

Solución

Diseño muestral

— Población objetivo: los 360 hoteles de la cadena.


— Parámetros: puntuación media de la calidad del servicio.
— Estimadores: media muestral.
— Método de selección muestral: muestreo aleatorio por conglomerados
uniétapicos. Se seleccionan los conglomerados a partir del muestreo alea-
torio simple (o sistemático, si los hoteles están ordenados mediante una
lista).
— Unidades muestrales: conglomerados formados por los hoteles del país.

A partir del enunciado, se sabe que:

M 360
M = 360; N = 30; n = 4; M = = = 12
N 30

La puntuación media de la calidad del servicio puede calcularse a través de


la expresión:

∑ Mi xi
i =1 4.187
xC = 4
= = 80,52
52
∑ Mi
i =1

es decir, 80,52 puntos. La varianza de la muestra es:

∑ (Mi xi – xC Mi )2

1 2 1 21 4(12) 21 2
N–n 1 i =1 30 – 4 1 17.268,1
var (x ) = = =
N nM 2 3 30 2
3

= 8,68

cuyos datos han sido obtenidos de la siguiente tabla:

146 ©  Ediciones Pirámide

pi00302001_05.indd 146 8/3/16 10:55


Muestreo por conglomerados

Conglomerados Mi xi Mi xi (M i xi – xC M i ) 2

U1 5 86 430 2.786,6
U2 4 97 388 45,3
U3 3 100 300 3.451,6
U4 5 91 455 10.984,7

Sumas 17 374 1.573 17.268,1

El error muestral y su porcentaje pueden obtenerse fácilmente con las expre-


siones:

1 80,52 2 × 100 = 12 %
9,37
E = tα /2,3 var (xC ) = 3,18 8,68 = 9,37 ⇒ E(%) =

siendo el error muestral igual a 9,37 puntos, es decir, equivalente a un 7,2 % del
valor de la puntuación media.

Ejercicio 6

Se desea estudiar la proporción de turistas que demandan el producto «todo


incluido». Para ello, se ha seleccionado aleatoriamente la siguiente muestra pilo-
to de diez destinos turísticos (conglomerados) entre los 150 existentes. En la ta-
bla siguiente se presentan las proporciones de turistas que han elegido la opción
de «todo incluido» en cada conglomerado. Por simplicidad, asuma normalidad
en los cálculos de los errores muestrales.

ID Mi pi

 1 100 0,50
 2 120 0,14
 3 110 0,08
 4 123 0,11
 5  98 0,36
 6 113 0,10
 7 109 0,23
 8  99 0,18
 9 105 0,08
10 121 0,30

©  Ediciones Pirámide 147

pi00302001_05.indd 147 8/3/16 10:55


Introducción a las técnicas de muestreo

Solución

Diseño muestral

— Población objetivo: turistas que visitan los destinos turísticos.


— Parámetros: preferencia de los turistas por el «todo incluido».
— Estimadores: proporción muestral.
— Método de selección muestral: muestreo aleatorio por conglomerados
uniétapicos. Se seleccionan los conglomerados a partir del muestreo alea-
torio simple (o sistemático, si los destinos turísticos están ordenados me-
diante una lista).
— Unidades muestrales: conglomerados formados por los destinos turísticos.

ID Mi pi Mi pi (M i xi – p̂C M i ) 2

 1 100 0,50 50,00 879,89


 2 120 0,14 16,80 57,83
 3 110 0,08 8,80 184,16
 4 123 0,11 13,53 131,89
 5 98 0,36 35,28 235,62
 6 113 0,10 11,30 136,44
 7 109 0,23 25,07 8,43
 8 99 0,18 17,82 5,35
 9 105 0,08 8,40 167,80
10 121 0,30 36,30 136,71

Sumas 1.098 223,30 1.944,12

La proporción muestral de los conglomerados es igual a:

10

∑ Mi pi
i =1 223,3
p̂C = 10
= = 0,20
1.098
∑ Mi
i =1

es decir, el 20 % de los destinos turísticos ofrece el «todo incluido».


La varianza muestral es igual a:

1 NnM 2ŝ = 1 (150)(10)(110) 2(216) = 0,0017


N–n 150 – 10
var ( p̂C ) = 2
2
C 2

148 ©  Ediciones Pirámide

pi00302001_05.indd 148 8/3/16 10:55


Muestreo por conglomerados

sabiendo que:

10

∑ (Mi pi – Mi p̂C )2
i =1 1.944,12
ŝC2 = = = 216
10 – 1 9

El error muestral y su porcentaje son iguales a:

E = zα /2 var ( p̂C ) = 1,96 0,0017 = 0,08 ò E(%) = 8 %

por tanto, la proporción poblacional estimada del 20 % posee un error muestral
del 8 %. En este caso, lo más apropiado es aumentar el tamaño de la muestra
para que el error no sea superior al 5 % (E = 0,05). Para ello, se utiliza la siguien-
te expresión:

NŝC2 150 × 216 32.400


n= = = ≈ 23,26
NE 2 M 2 150 × 0,05 2
× 109,8 2
1.392,86
+ ŝC
2
+ 216
2
z0,05/2 1,962

es decir, para un error muestral del 5 % hay que aumentar el tamaño muestral
hasta los 23 conglomerados.

©  Ediciones Pirámide 149

pi00302001_05.indd 149 8/3/16 10:55


pi00302001_05.indd 150 8/3/16 10:55
6 Muestreo por conglomerados
en dos etapas

6.1. INTRODUCCIÓN
El muestreo por conglomerados en dos etapas es una extensión del concepto
del muestreo por conglomerados en una etapa. Un conglomerado es una colec-
ción conveniente de elementos (tales como las manzanas de casas) que contiene
un número elevado de individuos como para obtener una medición de todos ellos.
Por lo general, una vez seleccionados los conglomerados, en una segunda etapa,
se seleccionan dentro de cada conglomerado muestras aleatorias simples de los in-
dividuos que lo forman. Así pues, en el muestreo por conglomerados bietápico se
selecciona, por un lado, una muestra aleatoria de conglomerados, y, por otro
lado, se toma una muestra aleatoria de elementos dentro de cada conglomerado.
Un ejemplo puede ser un estudio de opinión de los universitarios. En una prime-
ra etapa se seleccionan aleatoriamente las universidades y, en una segunda etapa,
se seleccionan aleatoriamente a los estudiantes dentro de estas universidades.
A los conglomerados se les denomina unidades primarias. Dentro de cada
unidad primaria se realiza un submuestreo, con la finalidad de obtener informa-
ción de las unidades últimas.
Las ventajas del muestreo por conglomerados en dos etapas son variadas.
La primera es que se puede obtener una lista de conglomerados fácilmente. La
segunda es que cuando existe cierta homogeneidad entre los conglomerados
muestrales con muestras pequeñas se obtienen buenos resultados. La tercera es
abaratar el muestreo de campo; los individuos que se seleccionan dentro de con-
glomerados están juntos o físicamente próximos.
Entre las desventajas del muestreo, cabe destacar que la precisión es menor,
pues aparecen fuentes de variación que complican los cálculos algebraicos. La
primera fuente de variación es la debida a la selección de las unidades primarias
o conglomerados, y la segunda fuente es debida al submuestreo dentro de cada
conglomerado.

©  Ediciones Pirámide 151

pi00302001_06.indd 151 8/3/16 10:55


Introducción a las técnicas de muestreo

La notación que emplearemos en este nuevo marco es la siguiente:

— 
N es el número de conglomerados en la población.
— 
n es el número de conglomerados seleccionados en el muestreo aleatorio
simple.
— 
Mi es el número de elementos poblacionales en el conglomerado i-ésimo.
— 
mi es el número de elementos seleccionados dentro del conglomerado
i-ésimo.
N
— M = ∑ Mi es el número de elementos en la población.
i =1

M
— M = es el tamaño promedio de los conglomerados en la población.
N
n

∑ mi
i =1
— m = es el tamaño promedio de los conglomerados en la muestra.
n
xij es la j-ésima observación de la muestra del i-ésimo conglomerado.
— 

6.2.  TEOREMA DE MADOW

En el muestreo de conglomerados en dos etapas se disponen de dos conjun-


tos de unidades de muestreo cuya selección implica la existencia de dos fuentes
o tipos de variación. Estas fuentes son las que se deben a la selección aleatoria
de los conglomerados y al muestreo aleatorio dentro de cada uno de los con-
glomerados seleccionados. En la notación que se usa, se distinguirán dos sub­
índices, 1 y 2, para diferenciar entre las unidades primarias o conglomerados
(subíndice 1) y el muestreo de los individuos dentro de los conglomerados se-
leccionados (subíndice 2).
Siguiendo a Pérez (2005, pp. 430-431), y Azorín y Sánchez Crespo (1994), de-
finimos la esperanza de un estimador q§ bietápico como:

E(θ̂ ) = E1E2 (θ̂ ) = E1 [E2 (θ̂ )]

que es la esperanza (E1), sobre todas las muestras posibles de n unidades prima-
rias, de la esperanza (E2), condicionada a un conjunto fijo de n unidades prima-
rias, sobre todas las submuestras posibles dentro de dicho conjunto.

152 ©  Ediciones Pirámide

pi00302001_06.indd 152 8/3/16 10:55


Muestreo por conglomerados en dos etapas

Igualmente, la varianza del estimador q§ insesgado de q (es decir, E(q§) = q)


puede escribirse como:

var (θ̂ ) = E(θ̂ – θ )2 = E1E2 (θ̂ 2 + θ 2 − 2θθ̂ )


= E1E2 (θ̂ 2 ) + θ 2 – 2θ E2 (θ̂ )

y sustituyendo el valor:

E2 (θ̂ 2 ) = var2 (θ̂ ) + [E2 (θ̂ )]2

tenemos que:

var (θ̂ ) = E1{var2 (θ̂ ) + [E2 (θ̂ )]2 + θ 2 − 2θ E2 (θ̂ )}


= E1 [var2 (θ̂ )] + E1 [E2 (θ̂ )]2 + θ 2 – 2θ E1E2 (θ̂ )

Puesto que el estimador es insesgado, entonces E1E2(q§) = q. Así:

var (θ̂ ) = E1 [var2 (θ̂ )] + E1 [E2 (θ̂ )]2 – θ 2


= E1 [var2 (θ̂ )] + E1 [E2 (θ̂ )]2 – {E1 [E2 (θ̂ )]}2

y, por tanto:

var (θ̂ ) = E1 [var2 (θ̂ )] + var1 [E2 (θ̂ )]

es decir, la varianza del estimador bietápico está formada por dos fuentes de va-
riación. La primera corresponde al valor esperado de la varianza entre los con-
glomerados, y la segunda a las varianzas dentro de los conglomerados.

6.3. ESTIMADORES DE LA MEDIA, EL TOTAL


Y LA PROPORCIÓN
En general, en este apartado se asume que las probabilidades de seleccionar
las unidades son iguales, los conglomerados son de distinto tamaño y que, en
ambas etapas, el muestreo realizado es sin reposición.

©  Ediciones Pirámide 153

pi00302001_06.indd 153 8/3/16 10:55


Introducción a las técnicas de muestreo

6.3.1.  Estimador de la media poblacional

Como, en general, se desconocen los totales de los conglomerados xi, es po-


sible estimarlos mediante la expresión Mi x–i. Así, la media del muestreo por con-
glomerados en dos etapas es igual a:

∑ Mi xi
1M 2
N i =1
xcb =
n

donde la media dentro de cada conglomerado se estima mediante:

mj

∑ xij
j =1
xi =
mj

Para obtener la varianza del estimador, siguiendo el Teorema de Madow, la


varianza hay que descomponerla como:

var (xcb ) = E1 [var2 (xcb )] + var1 [E2 (xcb )]

Siguiendo a Scheaffer et al. (2007), quienes plantean la siguiente expresión


para cada una de las partes de la varianza, se puede expresar de la siguiente ma-
nera:

a) Variabilidad entre los conglomerados:

1 21 nM 2ŝ
n 1
var1 [E2 (xcb )] = 1 − 2
2
b
N

donde:

∑ (Mi xi – Mxcb )2
i =1
ŝb2 =
n–1

es la cuasivarianza entre conglomerados.

154 ©  Ediciones Pirámide

pi00302001_06.indd 154 8/3/16 10:55


Muestreo por conglomerados en dos etapas

b) Variabilidad dentro de los conglomerados:

n
ŝw2i
1 2m
1 mi
E1 [var2 (xcb )] =
nNM 2
∑ Mi2 1−
Mi
i =1 i

donde:

mi

∑ (xij – xi )2
j =1
ŝw2i =
m1 – 1

es la cuasivarianza dentro del i-ésimo conglomerado, la cuasivarianza


«dentro», para el conjunto de los conglomerados, es:

n
ŝw2i
1 2m
mi
ŜW2 = ∑ Mi2 1 − Mi
i =1 i

Agregando ambos términos, la varianza del estimador de la media poblacio-


nal queda:

1 21 nM 2ŝ + nNM
n 1 1
var (xcb ) = 1 − 2
2
b 2
ŜW2
N

En el caso de que todos los conglomerados fuesen del mismo tamaño:



Mi = M, ∀i, las expresiones se simplifican, tal que:

1 2
1 n 2
a) var1 [E2 (xcb )] = 1− ŝb
n N

donde:

∑ (xi – xcb )2
i =1
ŝb2 =
n–1

n
ŝw2i
1 2m
1 mi
b) E1 [var2 (xcb )] =
nN
∑ 1−
M
i =1 i

©  Ediciones Pirámide 155

pi00302001_06.indd 155 8/3/16 10:55


Introducción a las técnicas de muestreo

Así, la varianza del estimador de la media en el muestreo con conglomerados


del mismo tamaño queda:
n
ŝw2i
1 21 2 1 2m
n ŝb2 1 mi
var (xcb ) = 1 −
N n
+
nN
∑ 1−
Mi
i =1 i

El error de muestreo de la media muestral, asumiendo normalidad y mues-


tras grandes1, es:

E = zα /2 var (xcb )

Para determinar el tamaño muestral apropiado para un determinado error mues-


tral, por facilidad en los cálculos, se supone que los conglomerados son aproxima-

damente iguales, M1  ...  MN  M; por ello, las muestras dentro de los conglo-
merados son parecidas: m1  ...  mn  m. De esta forma, se puede estimar la media
poblacional como el promedio de las medias estimadas de los conglomerados:
n
1
xcb = ∑ x1
n i =1

Para determinar el valor óptimo de m para todos los conglomerados, admitiendo


que los conglomerados son del mismo tamaño y que la función de coste es lineal:

C = c1n + c2 nm

donde c1 y c2 son los costes individuales del trabajo de campo, es decir, de mues-
trear en una primera etapa a los n conglomerados y, después, a los individuos

dentro de cada conglomerado, que son en total nm . El valor de m que minimiza
la varianza de la media muestral para un coste total fijo es:

MŜW2 c1
m=
ŝb2 c2
con:
m
ŝw2i
1 2m
mi
ŜW2 = ∑ Mi2 1–
Mi
i =1 i

∑ (Mi xi – Mxcb )2
i =1
ŝb2 =
n–1

1
  Si la muestra es pequeña, se utiliza ta/2, n – k.

156 ©  Ediciones Pirámide

pi00302001_06.indd 156 8/3/16 10:55


Muestreo por conglomerados en dos etapas

Despejando n, se obtiene el tamaño apropiado para la muestra:

C
n=
c1 + mc2

6.3.2.  Estimación del total poblacional

El estimador del total poblacional es:

n n

∑ Mi xi ∑ Mi xi
1 2
N i =1 i =1
x̂cb = Mxcb = M =N
M n n

y la varianza del total es:

1 21 2
n N2 2 N2 2
var ( x̂cb ) = var (Mxcb ) = M 2 var (xcb ) = 1 – ŝb + ŜW
N n n

ya que:

M 1 N2
M = ; =
N M2 M2

y el límite para el error de estimación, suponiendo normalidad y muestras gran-


des, se obtiene a través de:

E = zα /2 var ( x̂cb )

Por ejemplo, suponiendo que los ingresos medios de una población de 1.500
individuos (M = 1.500) es x–cb = 677 y var (x–cb) = 1.821, la renta total de las fami-
lias de esta población es ligeramente superior al millón de euros:

x̂cb = Mxcb = 1.500 × 677 = 1.016.153,81

y su varianza:

var ( x̂cb ) = 1.5002 (1.821) = 4.097.250.000

©  Ediciones Pirámide 157

pi00302001_06.indd 157 8/3/16 10:55


Introducción a las técnicas de muestreo

mientras que su error debido al muestreo es igual a:

E = z0,05/2 var ( x̂cb ) = 1,96 4.097.250.000 = 125.459,14

siendo el porcentaje de dicho error igual al 12,35 %:

125.459,14
E(%) = = 12,35 %
1.016.154

6.3.3.  Estimador de la proporción

Para estimar la proporción poblacional se utiliza la expresión:

∑ Mi p̂i
i =1
p̂cb = n

∑ Mi
i =1

donde, dentro de cada conglomerado, se estiman las correspondientes propor-


ciones:

mj

∑ aij
j =1
p̂i = ; aij = (0;1)
mj

y, también, siguiendo a Scheaffer et al. (2007), el estimador de la varianza de la


proporción es:

1 21 2 11 – M 2 m
n 1 1 mi p̂i q̂i
var ( p̂cb ) = 1 –
N nM 2
ŝb2 +
nNM 2
∑ Mi2
i =1 i i

1 21 nM 2ŝ + nNM
n 1 1
= 1– 2
2
b 2
ŜW2
N

158 ©  Ediciones Pirámide

pi00302001_06.indd 158 8/3/16 10:55


Muestreo por conglomerados en dos etapas

donde:

∑ (Mi p̂i – Mp̂cb )2


i =1
ŝb2 =
n–1
n

11 – M 2 m
mi p̂i q̂i
ŜW2 = ∑ Mi2
i =1 i i

Finalmente, el límite del error de estimación es igual a:

E = zα /2 var ( p̂cb )

6.4.  EJERCICIOS RESUELTOS


Ejercicio 1

Se pretende estudiar la proporción de empresas que han superado la crisis.


Para ello, se llevó a cabo un muestreo en dos etapas. En la primera etapa se se-
leccionaron áreas geográficas formadas por conjuntos de empresas. En la segun-
da etapa se eligieron muestras aleatorias de empresas dentro de cada área selec-
cionada. Si una empresa presenta síntomas de haber superado la crisis se le
asigna un 1; en caso contrario, un 0.
En la tabla siguiente se tienen los resultados de las encuestas:

Ui Mi mi ai (ai = 1: supera la crisis)

 1 125 12 0 1 0 0 0 0 1 0 1 0 1 0
 2 136 14 1 0 0 0 0 1 1 0 1 0 1 0 0 1
 3 125 10 0 1 0 1 0 1 1 0 1 0
 4 141 13 0 0 0 1 0 1 0 1 0 1 0 0 0
 5 132 14 1 0 1 1 1 0 0 0 0 0 0 1 0 0
 6 124 15 0 1 1 0 1 0 0 1 0 0 0 0 1 0 1
 7 112 11 0 0 0 0 0 1 1 0 1 1 1
 8 153 14 1 0 1 0 0 0 0 1 1 0 0 1 0 1
 9 125  9 0 1 0 1 1 0 0 0 1
10 133 10 1 0 1 0 0 1 1 1 0 1

La población se ha dividido en 200 áreas geográficas.

©  Ediciones Pirámide 159

pi00302001_06.indd 159 8/3/16 10:55


Introducción a las técnicas de muestreo

Existe la siguiente limitación presupuestaria para el trabajo de campo:

C = 3.550 €
c1 = 5€
c2 = 7€

¿Cuántas áreas geográficas se pueden muestrear y, por término medio, cuán-


tas empresas se pueden muestrear por conglomerado?

Solución

Diseño muestral

— Población objetivo: empresas de una población.


— Parámetros: proporción de haber superado la crisis.
— Estimadores: proporción muestral.
— Método de selección muestral: muestreo aleatorio por conglomerados en
dos etapas. En la primera etapa se selecciona una muestra aleatoria de
áreas geográficas. En la segunda etapa se selecciona una muestra aleato-
ria de empresas dentro de cada área geográfica.
— Unidades muestrales: unidades primarias: los conglomerados de áreas
geográficas, y unidades secundarias: las empresas.

La siguiente tabla recoge los resultados más relevantes que servirán para
construir los diferentes estimadores:

1 2 1 2m
M i – mi mi p̂i q̂i
Ci Mi mi p§i p§i q§i Mi p§i (M i p̂i – Mp̂cb ) 2 M i2 1 –
Mi Mi i

 1 125 12 0,33 0,22 41,7 189,7 0,90 261,6


 2 136 14 0,43 0,24 58,3 8,1 0,90 290,2
 3 125 10 0,50 0,25 62,5 49,8 0,92 359,4
 4 141 13 0,31 0,21 43,4 145,4 0,91 295,7
 5 132 14 0,36 0,23 47,1 68,9 0,89 255,4
 6 124 15 0,40 0,24 49,6 34,1 0,88 216,3
 7 112 11 0,45 0,25 50,9 20,5 0,90 255,0
 8 153 14 0,43 0,24 65,6 102,6 0,91 372,0
 9 125  9 0,44 0,25 55,6 0,0 0,93 397,8
10 133 10 0,60 0,24 79,8 593,3 0,92 392,6

Sumas 1.306 554,4 1.212,5 3.096,0

160 ©  Ediciones Pirámide

pi00302001_06.indd 160 8/3/16 10:55


Muestreo por conglomerados en dos etapas

A partir de la información de la tabla, podemos decir que:

a) El 42 % de las empresas dan síntomas de haber superado la crisis, es decir:

10

∑ Mi p̂i
i =1 554,4
p̂ = 10
= = 0,42
1.306
∑ Mi
i =1

y la varianza del estimador es:

1 21 nM 2ŝ + nNM
n 1 1
var ( p̂cb ) = 1 – 2
2
b 2
ŜW2
N

1 21 (10)(130,6) 2(3.096) + (10)(200)(130,6) 134,7 =


10 1 1
= 1– 2 2
200

= 0,01724

sabiendo que:

10

∑ (Mi p̂i – Mp̂cb )2


i =1 1.212,5
ŝb2 = = = 134,7
10 – 1 9
10

11 – M 2 m
mi p̂i q̂i
ŜW2 = ∑ Mi2 = 3.096
i =1 i i

El error muestral es igual a:

E = zα /2 var ( p̂) = 1,96 0,01724 = 0,257 ⇒ E(%) = 25,7 %

Dado el elevado error muestral (25,7 %), es recomendable aumentar el tama-


ño de la muestra, tanto de conglomerados como de empresas.

©  Ediciones Pirámide 161

pi00302001_06.indd 161 8/3/16 10:55


Introducción a las técnicas de muestreo

b) Finalmente, como existen limitaciones presupuestarias (3.550 €), la so-


lución es incrementar el tamaño de los conglomerados, con una cifra de:

C 3.550
n= = = 11
c1 + mc2 5 + 46 × 7

y de las empresas, por término medio:

MŜW2 c1 130,6 × 3.096 × 5


m= = = 46
ŝb2 c2 134,7 × 7

es decir, se pueden muestrear 11 conglomerados y, dentro de cada uno de ellos,


por término medio, se pueden muestrear 46 empresas.

Ejercicio 2
Suponga que está navegando hacia el puerto el barco pesquero Mirage I y
trae su bodega llena de atún fresco. Por otro lado, una empresa china, Chinafish,
está dispuesta a comprar, ahora mismo, toda la carga del barco.
El patrón del barco informa que en la bodega hay 2.500 atunes repartidos en
100 cajas o contenedores.
Las condiciones que pone la empresa china es que si el atún es pequeño, es
decir, si pesa menos de 150 kg, pagaran 10 €/kg. Si el atún es grande, si pesa
150 kg o más, el precio será de 15 €/kg.
Sin pérdida de tiempo, se decide realizar el siguiente muestreo bietápico: en
una primera etapa, seleccionar 10 cajas de atunes. En una segunda etapa, seleccio-
nar aleatoriamente atunes de las cajas elegidas y pesarlos.
Pasada una hora, se dispone de la tabla siguiente, que contiene una muestra
piloto:

Cajas de atunes Mi mi Pesos de los atunes (kg)

 1 35  9 150 160 130 140 110 130  90 140 120


 2 46 11 100 130 140 100  90 120 110  90 150  80 160
 3 23  8 150 140 100 150 180 120 160 100
 4 35  7 130 100 150 180 150 120 150
 5 41  9 170  50 150  60 100  50  80  80  60
 6 38  8 160 130 140 180 120 130 100 120
 7 22  9 170 120 170 110 110  90 100  80 150
 8 36 11 160 140 160 170 160 120 150 110 120 110 120
 9 24  9 180 160 140  90 100 190 140  90 160
10 33 10 150 180 130 140 110 170 130 150 180 140

162 ©  Ediciones Pirámide

pi00302001_06.indd 162 8/3/16 10:55


Muestreo por conglomerados en dos etapas

Cuestiones

a) ¿Qué precio se debería cobrar por kilo de atún? ¿Cuál es el error mues-
tral?
b) ¿Qué proporción de atunes cumple los requisitos para cobrar 15 €/kg?

Solución

Diseño muestral

— Población objetivo: cargamento de atunes que se encuentran en la bode-


ga del barco.
— Parámetros: valor medio, total y proporción de atunes que pesan más de
150 kg.
— Estimadores: media, total y proporción muestrales de atunes que pesan
más de 150 kg.
— Unidades muestrales: unidades primarias: los conglomerados formados
por las cajas de atunes, y unidades secundarias: los atunes.
— Método de selección muestral: muestreo aleatorio por conglomerados
biétapicos. En una primera etapa se seleccionan, mediante muestreo alea-
torio sistemático (para abarcar toda la bodega del barco), cajas de atunes
o conglomerados. En la segunda etapa se selecciona, aleatoriamente den-
tro de cada caja, una muestra de atunes.

a) En la siguiente tabla se presentan algunos cálculos de interés:

ŝw2 i
1 2 1 2m
Cajas M i – mi mi
Mi mi x–i ŝw2 i M i xi (M i xi – Mxcb ) 2 M i2 1 –
de atunes Mi Mi i

 1 35  9 130 450 4.550 85.345 0,74 45.500


 2 46 11 115 707 5.311 1.108.908 0,76 103.519
 3 23  8 138 821 3.163 1.199.818 0,65 35.424
 4 35  7 140 667 4.900 412.341 0,80 93.333
 5 41  9  89 1.911 3.644 376.281 0,78 278.598
 6 38  8 135 629 5.130 760.624 0,79 89.571
 7 22  9 122 1.119 2.689 2.461.677 0,59 35.573
 8 36 11 138 516 4.975 513.635 0,69 42.248
 9 24  9 139 1.436 3.333 854.753 0,63 57.444
10 33 10 148 529 4.884 392.049 0,70 40.143

Sumas 42.579 8.165.432 821.354

©  Ediciones Pirámide 163

pi00302001_06.indd 163 8/3/16 10:55


Introducción a las técnicas de muestreo

A partir de la información del enunciado del ejercicio se conoce la siguiente


información:

M 2.500
N = 100; n = 10; M = 2.500; M = = = 25
N 100

Usando toda la información, el peso medio estimado de los atunes es igual a:


10

∑ Mi xi
1M 2 1 2.500 21 2
N i =1 100 42.579
xcb = = = 170,3
10 10

es decir, 170,3 kg, mientras que su varianza es igual a:

1 21 nM 2ŝ + nNM
n 1 1
var (xcb ) = 1 – 2
2
b 2
ŜW2
N

1 21 (10)(25) 2(907.270,2) + (10)(100)(25)


10 1 1
= 1– 2 2
(821.354) =
100
= 131,96

siendo:
10

∑ (Mi xi – Mxcb )2
i =1 8.165.432
ŝb2 = = = 907.270,2
10 – 1 9
ŝw2i
1 2m
10
mi
ŜW2 = ∑ Mi2 1 – Mi
= 821.354
i =1 i

El error debido al muestreo, asumiendo normalidad, es2:

E = 1,96 131,96 = 22,5

que, en porcentaje, representa:

1170,3 2100 = 13,2 %


22,5
E(%) =

2
  Si se usa t0,05/ 2,9 = 2,26, el error es del 15 %.

164 ©  Ediciones Pirámide

pi00302001_06.indd 164 8/3/16 10:55


Muestreo por conglomerados en dos etapas

El peso total de los 2.500 atunes es igual a:

x̂cb = Mxcb = 2.500(170,3) = 425.750

es decir, 425.750 kg.


b) Si los pesos de los atunes son superiores a 150 kg, el precio de venta es
de 15 €/kg, lo que supone un ingreso de 425.750 × 150 = 6.862.500,00 €. Si los
atunes pesan menos de 150 kg, el precio de venta será de 10 €/kg; ahora el in-
greso es 425.750 × 10 = 4.257.500 €. La decisión es complicada dado que el
error muestral es del 13,2 %. Como en este ejemplo no hay tiempo de aumentar
el tamaño muestral, la alternativa es estudiar qué proporción de atunes supera el
valor crítico de los 150 kg. Para ello, a continuación, se presenta la tabla de los
pesos de los atunes reconstruida. Ahora, a los atunes que pesan más de 150 kg
se les asigna el valor 1, y al resto 0:

Cajas de atunes Mi mi Atunes con peso mayor o igual a 150 kg

 1 35  9 1 1 0 0 0 0 0 0 0
 2 46 11 0 0 0 0 0 0 0 0 1 0 1
 3 23  8 1 0 0 1 1 0 1 0
 4 35  7 0 0 1 1 1 0 1
 5 41  9 1 0 1 0 0 0 0 0 0
 6 38  8 1 0 0 1 0 0 0 0
 7 22  9 1 0 1 0 0 0 0 0 1
 8 36 11 1 0 1 1 1 0 1 0 0 0 0
 9 24  9 1 1 0 0 0 1 0 0 1
10 33 10 1 1 0 0 0 1 0 1 1 0

La siguiente tabla resume los principales resultados que serán necesarios para
computar la fórmulas:

1 2 1 2m
Cajas M i – mi mi p̂i q̂i
Mi mi p§i p§i q§i Mi p§i (M i p̂i – Mp̂cb ) 2 M i2 1 –
de atunes Mi Mi i

 1 35  9 0,22 0,17 8 1,0 0,74 17


 2 46 11 0,18 0,15 8 0,2 0,76 22
 3 23  8 0,50 0,25 12 7,3 0,65 11
 4 35  7 0,57 0,24 20 125,6 0,80 34
 5 41  9 0,22 0,17 9 0,1 0,78 25
 6 38  8 0,25 0,19 10 0,5 0,79 27
 7 22  9 0,33 0,22 7 2,1 0,59 7
 8 36 11 0,45 0,25 16 57,3 0,69 20
 9 24  9 0,44 0,25 11 3,5 0,63 10
10 33 10 0,50 0,25 17 59,4 0,70 19
Sumas 117 257,0 192

©  Ediciones Pirámide 165

pi00302001_06.indd 165 8/3/16 10:55


Introducción a las técnicas de muestreo

Así, la proporción es igual a:

10

∑ Mi p̂i
i =1 117
p̂ = 10 = = 0,35
333
∑ Mi
i =1

es decir, solamente el 35 % de los atunes pesan más de 150 kg.


Sabiendo que:

10

∑ (Mi p̂i – Mp̂cb )2


i =1 257
ŝb2 = = = 10,70
10 – 1 24

11 – M 2 m
10
mi p̂i q̂i
ŜW2 = ∑ Mi2 = 192
i =1 i i

la varianza de la proporción es igual a:

1 21 nM 2ŝ + nNM
n 1 1
var ( p̂cb ) = 1 – 2
2
b 2
ŜW2 =
N

1 21 (10)(25) 2(10,70) + (10)(100)(25)


10 1 1
= 1– 2 2
(192) =
100

= 0,0018

mientras que su error es:

E = zα /2 var ( p̂) = 1,96 0,0018 = 0,083 ⇒ E(%) = 8,3 %

El error de la proporción es del 8,3 %. Para tener mejor información se pue-


de construir el intervalo:

p̂cb ± E = 0,35 ± 0,08 ⇒ [0,27; 0,43]

166 ©  Ediciones Pirámide

pi00302001_06.indd 166 8/3/16 10:55


Muestreo por conglomerados en dos etapas

con lo cual la proporción de atunes que pesan más de 150 kg se reparten entre
el 27 % y 43 % de la carga que trae el barco. Lo justo sería negociar una cantidad
de atunes comprendida entre el 27 % y el 43 % de la carga, vendiéndolos a 15 €/
kg, y el resto de atunes venderlos a 10 €/kg.

Ejercicio 3

Para estudiar el consumo medio y total de gasolina de los coches de alquiler se


ha tomado una muestra piloto de 10 agencias de alquiler entre las 100 empresas
existentes en el país. La flota total de coches de alquiler es 18.500 automóviles.

Agencias Mi mi Consumo de gasolina x–i ŝi2

 1 100 9 4 6 8 4 12 3  5 3 5 5,56 8,28


 2  95 9 5 4 6 8  2 4  8 4 3 4,89 4,36
 3  91 9 2 9 2 4  3 6  8 5 4 4,78 6,19
 4 110 9 4 5 5 2  6 8  2 1 9 4,67 7,50
 5  92 9 5 2 4 5  2 7  4 3 5 4,11 2,61
 6 101 9 3 8 3 7  4 4  5 8 2 4,89 5,11
 7 122 9 8 9 2 9  8 5  8 9 7 7,22 5,44
 8  86 9 6 8 9 6  7 8  2 3 6 6,11 5,36
 9  90 9 5 5 2 8  3 6 10 2 8 5,44 8,03
10  94 9 4 3 5 5  6 8  5 9 2 5,22 4,94

Cuestiones

a) Con la muestra piloto del cuadro anterior, y sabiendo que muestrear un


conglomerado cuesta 5 € y muestrear cada automóvil 15 €, estimar el
consumo medio y el consumo total de gasolina de la flota de coches de
alquiler del país.

Solución

Diseño muestral

— Población objetivo: coches de alquiler de un país.


— Parámetros: consumo medio y total de combustible.
— Estimadores: media y total muestral.
— Método de selección muestral: muestreo aleatorio por conglomerados en
dos etapas. En la primera etapa se seleccionan las agencias de alquiler, y
en la segunda etapa los automóviles.

©  Ediciones Pirámide 167

pi00302001_06.indd 167 8/3/16 10:55


Introducción a las técnicas de muestreo

— Unidades muestrales: conglomerados formados por agencias de alquiler


y, en la segunda etapa, automóviles.

a) La siguiente tabla resume los cálculos necesarios para computar las


fórmulas de interés:

ŝw2 i
1 2 1 2m
M i – mi M i – mi
Agencias M i xi (M i xi – Mxcb ) 2 M i2
Mi Mi i

 1 556 1.075 0,91 9.100


 2 464 3.401 0,91 8.170
 3 435 7.742 0,90 7.462
 4 513 89 0,92 11.110
 5 378 20.893 0,90 7.636
 6 494 840 0,91 9.292
 7 881 128.411 0,93 13.786
 8 526 8 0,90 6.622
 9 490 1.074 0,90 7.290
10 491 1.016 0,90 7.990

Sumas 5.228 164.549 88.458

A partir de la información del enunciado:

M 18.500
N = 100; n = 10; M = 18.500 ⇒ M = = = 185
N 100

el consumo medio de combustible puede obtenerse mediante la expresión:

10

∑ Mi xi
1M 2 118.500 21 2
N i =1 100 5.228
xcb = = = 2,83
10 10

mientras que la varianza es igual a:

1 21 nM 2ŝ + nNM
n 1 1
var (xcb ) = 1 – 2
2
b 2
ŜW2 =
N

1 21 (10)(185) 2(18.283,22) + (10)(100)(185)


100 – 10 1 1
= 2 2
(88.548) =
100

= 0,050

168 ©  Ediciones Pirámide

pi00302001_06.indd 168 8/3/16 10:55


Muestreo por conglomerados en dos etapas

sabiendo que:

10

∑ (Mi xi – Mxcb )2
i =1 164.549
ŝb2 = = = 18.283,22
10 – 1 9

ŝw2i
1 2m
10
Mi – mi
ŜW2 = ∑ Mi2 Mi
= 88.458
i =1 i

El error muestral, con un 5 % de nivel de significación, asumiendo normali-


dad, es:

1 2,83 2 × 100 = 15,19 %


0,43
E = 1,96 0,050 = 0,43 ⇒ E(%) =

Finalmente, el consumo total de combustible es:

x̂cb = Mxcb = 18.500 × 2,83 = 52.355

Ejercicio 4

Para estudiar la renta media familiar en una ciudad formada por 1.500 fami-
lias, distribuidas en 110 manzanas de viviendas, se ha seleccionado una muestra
piloto de siete manzanas de viviendas y dentro de ellas se han tomado muestras
aleatorias simples de familias. La tabla siguiente contiene los datos:

Ci Mi mi Renta familiar

1 20 5 154 936 449 652 398


2 10 3 921 753 996
3 20 5 241 425 821 175 985
4 20 5 314 518 455 905 631
5 10 3 1.002 859 625
6 15 4 211 341 678 902
7 10 3 801 375 998

©  Ediciones Pirámide 169

pi00302001_06.indd 169 8/3/16 10:55


Introducción a las técnicas de muestreo

Cuestiones

a) Estimar la renta media familiar y su error de muestreo.


b) Determinar el número de manzanas de viviendas que se pueden selec-
cionar y, por término medio, el número de familias que se pueden elegir
dentro de cada manzana de viviendas. Como datos adicionales, téngase
en cuenta que para hacer el muestreo se dispone de 3.000 €, para mues-
trear cada conglomerado el coste es c1 = 5 € por conglomerado y mues-
trear las familias dentro de cada conglomerado cuesta c2 = 10 € por fa-
milia.

Solución

Diseño muestral

— Población objetivo: 1.500 familias.


— Parámetros: rentas medias y totales poblacionales.
— Estimadores: media y total muestrales.
— Método de selección muestral: muestreo aleatorio por conglomerados en
dos etapas. En la primera etapa se seleccionan las manzanas de viviendas,
y en la segunda etapa se seleccionan las familias.
— Unidades muestrales: conglomerados formados por manzanas de vivien-
das y, en la segunda etapa, las familias.

a) A partir de la información del enunciado, tenemos que:

M 1.500
N = 110; n = 7; M = 1.500; M = = = 13,6
N 110

Construyendo la siguiente tabla, podemos computar los datos necesarios


para calcular la media muestral de cada conglomerado:

mj

∑ xij
j =1
xi =
mj

170 ©  Ediciones Pirámide

pi00302001_06.indd 170 8/3/16 10:55


Muestreo por conglomerados en dos etapas

Así:

Ci Mi mi Renta familiar x–i M i xi

1 20 5 154 936 449 652 398 517,8 10.356,0


2 10 3 921 753 996 890,0 8.900,0
3 20 5 241 425 821 175 985 529,4 10.588,0
4 20 5 314 518 455 905 631 564,6 11.292,0
5 10 3 1.002 859 625 828,7 8.286,7
6 15 4 211 341 678 902 533,0 7.995,0
7 10 3 801 375 998 724,7 7.246,7

Suma 64.664,4

El promedio estimado es igual a 67,72 €, que puede obtenerse fácilmente de


la expresión:

∑ Mi xi
1 2 11.500 21 2
N i =1 110 6.464,4
xcb = = = 67,72
M 7 7

mientras que para computar su varianza recurrimos previamente a las operacio-


nes que aparecen en la tabla siguiente:

ŝw2 i ŝw2 i
1 2 1 2m
M i – mi mi
Ci Mi mi x–i M i xi (M i xi – Mxcb ) 2 M i2 M i2 1 –
Mi mi Mi i

1 20 5 517,8 10.356,0 1.250.456 400 0,75 17.216,8 5.165.052,0


2 10 3 890,0 8.900,0 114.083 100 0,70 5.161,0 361.270,0
3 20 5 529,4 10.588,0 1.823.143 400 0,75 25.613,8 7.684.128,0
4 20 5 564,6 11.292,0 4.219.894 400 0,75 9.863,3 2.958.978,0
5 10 3 828,7 8.286,7 904.582 100 0,70 12.074,1 845.187,8
6 15 4 533,0 7.995,0 1.544.457 225 0,73 24.811,2 4.093.842,5
7 10 3 724,7 7.246,7 3.964.460 100 0,70 33.800,8 2.366.054,4

Suma 64.664,4 13.821.076 23.474.512,7

©  Ediciones Pirámide 171

pi00302001_06.indd 171 8/3/16 10:55


Introducción a las técnicas de muestreo

Así, las cuasivarianzas dentro y entre conglomerados son iguales a:

∑ (Mi xi – Mxcb )2
i =1 13.821.076
ŝb2 = = = 2.303.512,66
n–1 7–1

ŝw2i
1 2m
n
mi
ŜW2 = ∑ Mi2 1–
Mi
= 23.474.512,7
i =1 i

y la varianza es igual a:

1 21 nM 2ŝ + nNM
n 1 1
var (xcb ) = 1 – 2
2
b 2
ŜW2 =
N

1 21 (7)(13,6) 2(2.303.512,66) + (7)(110)(13,6)


7 1 1
= 1– 2 2
23.474.512,7 =
110

= 1.830,77

El error muestral, asumiendo normalidad, es igual a:

E = z0,05/2 var (xcb ) = 1,96 1.821 = 83,64 ⇒

1 677 2 × 100 = 12,4 %


83,64
⇒ E(%) =

b) Si para hacer el muestreo se dispone de 3.000 € y muestrear cada con-


glomerado tiene un coste de c1 = 5 € por conglomerado y muestrear a las fami-
lias dentro de cada conglomerado cuesta c2 = 10 € por familia, para estimar el
número de manzanas de viviendas que se pueden seleccionar y, por término me-
dio, el número de familias que se pueden elegir dentro de cada manzana de vi-
viendas, hay que usar la expresión:

MŜW2 c1
m=
ŝb2 c2

172 ©  Ediciones Pirámide

pi00302001_06.indd 172 8/3/16 10:55


Muestreo por conglomerados en dos etapas

y sustituyendo los valores:

13.821.076
ŝb2 = = 2.303.512,66 ; ŜW2 = 23.474.512,7 ; c1 = 5 ; c2 = 10
(7 – 1)

en dicha expresión, resulta que por término medio se pueden muestrear 8 indivi-
duos dentro de cada conglomerado:

(13,6)(23.474.512,7)(5)
m= = 8,3 ≈ 8
(2.303.512,66)(10)

Así, con el presupuesto de 3.000 € se pueden estimar 35 conglomerados.

C 3.000
n= = = 35,29
c1 + mc2 5 + (8)(10)

©  Ediciones Pirámide 173

pi00302001_06.indd 173 8/3/16 10:55


pi00302001_06.indd 174 8/3/16 10:55
7 Temas complementarios
en el muestreo

7.1.  EL ESTIMADOR DE LA RAZÓN


Cuando es necesario estimar la razón, o cociente entre dos variables aleato-
rias, por ejemplo, para repartir el gasto familiar usando el tamaño de la familia,
éste se obtiene dividiendo los gastos familiares (X ) entre el número de los miem-
bros que componen la familia (Y ). Así, en el estimador de la razón se utilizan
dos variables, la principal (gasto familiar X ) y la segunda variable o variable
auxiliar, que corresponde al tamaño familiar Y. Para obtener los mejores resul-
tados en las estimaciones es necesario que ambas variables presenten correlacio-
nes elevadas y positivas:

∑ xi
i =1
R= N

∑ yi
i =1

A partir de una muestra aleatoria simple de tamaño n se puede estimar el es-


timador de la razón:

∑ xi
i =1
r= n

∑ yi
i =1

©  Ediciones Pirámide 175

pi00302001_07.indd 175 8/3/16 10:56


Introducción a las técnicas de muestreo

El estimador de la razón puede ser usado con diversas finalidades:

— Para estimar la media de una población de la variable X usando la varia-


ble auxiliar Y, cuyos valores son conocidos para todos los individuos, la
expresión empleada es:

x = ry

— Para estimar el total de una población:

x̂ = rŷ

— Para estimar la proporción se utiliza directamente el estimador propuesto:

∑ xi
i =1
r= n

∑ yi
i =1

Estas expresiones de los estimadores de la razón son adecuadas para el mues-


treo aleatorio simple; dependiendo de la técnica muestral elegida, éstos sufren li-
geras modificaciones.
El estimador de la razón requiere que los valores de la variable auxiliar sean
conocidos para todos los individuos de la población. Entre los inconvenientes del
estimador de la razón, destaca que es un estimador sesgado para muestras pe-
queñas. También, para que este estimador sea insesgado, la representación de los
individuos mediante un gráfico de dispersión entre la variable principal (X ) y la
variable auxiliar (Y ) están próximos a una línea recta que parte del origen y tie-
ne pendiente positiva, es decir, entre las dos variables se debe dar una relación de
proporcionalidad; por ejemplo, el número de pasajeros que recibe un aeropuer-
to (X ) y el número de vuelos que opera en dicho aeropuerto (Y ) son dos varia-
bles que guardan proporcionalidad.
La varianza del estimador de la razón se obtiene mediante la expresión:

∑ (xi – ryi )2
1 2 1 2
N–n 1 i =1 N–n 1 2
var (r) = = s
nN y2 –1
n{ nN y2 r
sr2

176 ©  Ediciones Pirámide

pi00302001_07.indd 176 8/3/16 10:56


Temas complementarios en el muestreo

donde:

n n n n

∑ (xi – ryi )2 ∑ xi2 + r 2 ∑ yi2 – 2r ∑ xi yi


i =1 i =1 i =1 i =1
sr2 = =
n–1 n–1

El error muestral del estimador es:

E = tα /2;n – 1 var (r)

Ejercicio 1
Se desea realizar un estudio y estimar la razón de la apreciación o deprecia-
ción de una cartera de acciones debido a la crisis económica. La población está
formada por un paquete de 50 acciones que cotizan en la bolsa. Se dispone de
información completa sobre las cotizaciones antes de la crisis (2007), año en que
la cotización media de la cartera fue de 200 € por acción. En la siguiente tabla
se dispone de una muestra piloto:

Acciones Precio actual (xi) Precio 2007 (yi)

 1 265,00 196,10
 2 163,00 110,84
 3 275,00 209,00
 4 213,00 159,75
 5 477,00 362,52
 6 263,00 213,03
 7 378,00 287,28
 8 133,00  77,14
 9 274,00 142,48
10 338,00 236,60
11 408,00 240,72
12 173,00 117,64
13 491,00 328,97
14 231,00 168,63
15 180,00  93,60

Solución

En este ejercicio, tratándose de un estimador de la razón de la proporción,


interesa comparar las acciones en términos relativos; es decir, en qué porcentaje

©  Ediciones Pirámide 177

pi00302001_07.indd 177 8/3/16 10:56


Introducción a las técnicas de muestreo

han disminuido o aumentado las cotizaciones de las acciones en la actualidad


con respecto a los valores que tuvieron en el año 2007. Como primer paso, para
estudiar la viabilidad del estimador de la razón (insesgado) hay que hacer el grá-
fico de dispersión entre ambas variables, reflejándose que existe una relación de
proporcionalidad entre las dos; la relación entre los precios de las acciones en los
dos períodos (x, y) está próxima a la línea que pasa por el origen.

400,00

350,00

300,00

250,00

200,00

150,00

100,00

50,00

0,00
0,00 100,00 200,00 300,00 400,00 500,00 600,00

En la tabla siguiente se presentan, junto con la muestra piloto, algunos cálcu-


los que serán de utilidad para realizar las estimaciones:

Acciones Precio actual (xi) Precio 2007 (yi) (xi – ryi)2

 1 265,00 196,10 356


 2 163,00 110,84 7
 3 275,00 209,00 758
 4 213,00 159,75 333
 5 477,00 362,52 2.281
 6 263,00 213,03 2.058
 7 378,00 287,28 1.433
 8 133,00 77,14 455
 9 274,00 142,48 4.591
10 338,00 236,60 20
11 408,00 240,72 3.546
12 173,00 117,64 7
13 491,00 328,97 219

178 ©  Ediciones Pirámide

pi00302001_07.indd 178 8/3/16 10:56


Temas complementarios en el muestreo

Acciones Precio actual (xi) Precio 2007 (yi) (xi – ryi)2

14 231,00 168,63 172


15 180,00 93,60 1.981

Sumas 4.262,00 2.944,00 18.217

Medias 284,00 196,00 1.214

La razón estimada es del 1,45; al ser mayor que la unidad, las acciones se han
apreciado un 45 %, a pesar de la crisis:

∑ xi
i =1 4.262
r= n = = 1,45
2.944
∑ yi
i =1

Para estimar el error muestral hay que estimar la varianza de la razón:

1 2
N–n 1 2
var (r) = s
nN µ 2y r

donde la cuasivarianza es:

∑ (xi – ryi )2
i =1 18.217
sr2 = = = 1.301,21
n–1 14

Sustituyendo los valores en la expresión de la varianza de la razón:

115 × 50 2 × (200)
50 – 15 1
var (r) = 2
× 1.301,21 = 0,00152

y tomando como valor crítico ta/2;n – 1 = 2, el error muestral es igual 0,0794; por
tratarse de proporciones es del 7,94 %:

©  Ediciones Pirámide 179

pi00302001_07.indd 179 8/3/16 10:56


Introducción a las técnicas de muestreo

E = tα /2;n – 1 var (r) = 2 0,00152 = 0,0779 ; E(%) = 0,0779 × 100 = 7,79 %

El intervalo para el estimador de la razón con un nivel de confianza del 95 % es:

IC = (r ± E ) = (1,37;1,53)

Por tanto, con una probabilidad del 95 % las acciones se han revalorizado en-
tre un 37 % y un 53 %.

Ejercicio 2

Se quiere conocer la producción total de tomates de una determinada plan-


tación (X ) que cuenta con una superficie total de 5.000 m2. Para ello, se divide
la plantación en 50 áreas, no necesariamente del mismo tamaño, cuyas superfi-
cies son perfectamente conocidas (Yi). A continuación, se selecciona una mues-
tra aleatoria simple de 15 áreas; los resultados de dicha muestra piloto se presen-
tan en el cuadro siguiente:

Producción de tomates Superficie del área


Áreas cultivadas (xi – ryi)2
en el área (xi) en m2 (yi)

 1 1.588 60 5.754,1
 2 1.830 72 238,0
 3 1.690 64 5.936,1
 4 1.623 63 1.242,5
 5 1.908 92 168.609,8
 6 1.755 71 1.181,3
 7 1.543 58 6.603,3
 8 1.588 61 2.565,8
 9 1.645 63 3.277,4
10 1.677 66 186,1
11 1.650 65 140,3
12 1.688 68 663,8
13 1.776 70 140,0
14 1.590 61 2.772,4
15 1.601 64 142,9

Sumas 25.152 998 199.453,6

Medias 1.677 066,5

180 ©  Ediciones Pirámide

pi00302001_07.indd 180 8/3/16 10:56


Temas complementarios en el muestreo

Existe una elevada correlación positiva entre ambas variables; se recomien-


da hacer el gráfico de dispersión entre ambas variables y observar cómo existe
una relación de proporcionalidad entre las dos, igual que se hizo en el ejercicio
anterior.
Para estimar la producción total de tomates por metro cuadrado se usa el es-
timador de la razón:

∑ xi
i =1 25.152
r= n = = 25,2
998
∑ yi
i =1

Por tanto, la producción es de 25,2 kg de tomates por metro cuadrado, y la


producción total es 126.012 kg:

X̂ = rYˆ = 25,2 × 5.000 = 126.012

Para determinar el error, primero se calcula la varianza:

1 2 1 21 2
N–n 2 50 – 15 199.453,6
var ( X̂ ) = var (rYˆ ) = N 2 sr = 502 = 1.662.113,15
nN 15 × 50 14

Tomando como valor crítico ta/2;n – 1 = 2, el error muestral es:

E 2.578,46
E = 2 var ( X̂ ) = 2.578,46 ò E(%) = × 100 = × 100 = 2 %
X̂ 126.012

El intervalo de confianza para la producción total es:

IC = ( x̂ ± E ) = (123.433,6;128.590,5)

Además, dado que Y es conocida para toda la población, se puede obtener


la producción media:

∑ yi
i =1 5.000
µy = = = 100
N 50

©  Ediciones Pirámide 181

pi00302001_07.indd 181 8/3/16 10:56


Introducción a las técnicas de muestreo

La producción media estimada de tomates por área es 2.520 kg:

x = r µ y = 25,2 × 100 = 2.520

7.2. ESTIMACIÓN DEL TAMAÑO POBLACIONAL MEDIANTE


EL MÉTODO DE CAPTURAS Y RECAPTURAS
El procedimiento para estimar tamaños poblacionales de individuos es me-
diante el método de capturas y recapturas, es decir, se seleccionan individuos
aleatoriamente, se marcan, se devuelven a la población y, posteriormente, se
toma una nueva muestra y se comprueban cuántos individuos están marcados
(recapturados).
Dentro de estos métodos de estimación de tamaños poblacionales destaca el
estimador de Petersen, que requiere que se cumplan las siguientes condiciones:

— La población es cerrada, es decir, N es constante.


— Todos los individuos tienen la misma probabilidad de ser seleccionados.
— Se cumple la siguiente relación de proporcionalidad entre la población y
la muestra:

M R
=
N M

donde N es el tamaño poblacional, M es el número de individuos mues-


treados en la primera ocasión que fueron marcados y devueltos a la po-
blación y m es el número de individuos capturados en la segunda ocasión,
de los cuales R tienen la marca (recapturados). Despejando de la ecua-
ción anterior, se obtiene el estimador del tamaño poblacional:

M×m
N̂ =
R

Ejercicio 3

En una piscifactoría se desea estimar el tamaño de la población de peces.


Para ello, se han seleccionado 300 individuos (peces), se han marcado y se han
devuelto a la población. A continuación, se selecciona una muestra de 40 indivi-
duos y se observa que 29 están marcados. Estimar N y el error de estimación.

182 ©  Ediciones Pirámide

pi00302001_07.indd 182 8/3/16 10:56


Temas complementarios en el muestreo

Solución

M × m 300 × 40
N̂ = = ≈ 414
R 29

En la piscifactoría hay aproximadamente 414 peces.


Una de las principales críticas del método de Petersen es que sobreestima el
tamaño poblacional. Por ello, también se suele utilizar el estimador de Seber:

M × (m + 1)
N̂ =
(R + 1)

aplicando este estimador a los datos del ejercicio:

M × (m + 1) 300 × (40 + 1)
N̂ = = = 410
(R + 1) (29 + 1)

valor ligeramente inferior al obtenido con el estimador de Petersen.

7.3.  LA NO RESPUESTA
La no respuesta genera errores ajenos al muestreo. Se producen cuando, en
muestreos por encuestas, el entrevistado, con o sin intención, no da una respues-
ta a cuestiones concretas. Los efectos son más importantes cuando la no respues-
ta es debida a que la persona encuestada no responde porque oculta informa-
ción. Son errores no aleatorios que pueden producir sesgos, por lo que sus
efectos son serios cuando se realizan inferencias.

7.3.1.  El sesgo producido por la no respuesta

E =) p̂1 – p̂)

Puede medirse a partir de la siguiente expresión:

E = ) p̂1 – p̂) ò E = ) p̂1 – (W1 p̂1 + W2 p̂2 ));


W1 + W2 = 1 ; W1 = 1 – W2
E = ) p1 – [(1 – W2 ) p̂1 + W2 p̂2 ]) ò E = )W2 p̂1 – W2 p̂2 ));
E = W2 ) p̂1 – p̂2 )

©  Ediciones Pirámide 183

pi00302001_07.indd 183 8/3/16 10:56


Introducción a las técnicas de muestreo

donde:

N1

∑ ai
N1 N i =1
W1 = ; W2 = 2 ; p̂1 = ; p̂2 = 1
N N N1

El procedimiento consiste en estratificar a la población en dos estratos. El


primero contiene a los individuos que responden (N1), y el segundo a los indivi-
duos que no responden (N2). Además, se supone que todos los individuos que no
responden es porque ocultan información, es decir, p2 = 1.

Ejercicio 4

Se ha observado que una cadena comercial formada por 550 tiendas, cuan-
do un cliente hace una reclamación por escrito, sólo responden a dicha reclama-
ción 430 tiendas. Dentro de estas que responden a las reclamaciones de los clien-
tes resultó que el 65% de las reclamaciones dan la razón al cliente.
Se sospecha que las restantes tiendas no atienden a las reclamaciones porque
el cliente siempre tiene la razón (p§2 = 1). Medir el error de no respuesta:

120
W2 = = 0,22 ; p̂1 = 0,65; p̂2 = 1
550
E = W2 ) p̂1 – p̂2 ) = 0,22 × )0,65 – 1) = 0,077 ò E = 7,7 %

En resumen, en el supuesto extremo de que los clientes tengan siempre la ra-


zón, el sesgo de no respuesta que introducen en el estudio las tiendas que no res-
ponden es del 7,7 %.

Ejercicio 5

En una encuesta realizada a 900 individuos, 150 no respondieron a la pregun-


ta ¿cuánto dinero ganas todos los meses? De los que sí respondieron, dos de cada
tres cobran más de 1.050 € al mes. Se piensa que los que no contestaron es por-
que están recibiendo un subsidio y pueden perderlo.
En el supuesto de que todos los que no responden a la pregunta lo hacen por-
que ocultan información, estimar el error de no respuesta:

184 ©  Ediciones Pirámide

pi00302001_07.indd 184 8/3/16 10:56


Temas complementarios en el muestreo

150 2
W2 = = 0,17 ; p̂1 = ≈ 0,67; p̂2 = 1
900 3
E = W2 ) p̂1 – p̂2 ) = 0,17 × )0,67 – 1) = 0,056 ò E = 5,6 %

7.3.2.  La imputación de valores omitidos

La falta de respuesta parcial se produce cuando, sólo para alguna respuesta,


el entrevistado no responde; en tal caso, puede que sea necesario imputar a la
respuesta omitida un valor coherente. A este proceder se le denomina imputa-
ción. Entre los métodos tradicionales de imputación, se pueden distinguir:

— La imputación simple, que le asigna al dato que falta el valor de la media.
— La imputación mediante regresión, que realiza un ajuste a una ecuación
lineal sólo para los individuos de los que exista información completa; a
continuación, usando la estimación se predicen los valores omitidos.
— Imputación no paramétrica (hot-deck). Las faltas de respuesta se cumpli-
mentan con las de otros individuos parecidos (individuos donantes).
— Estimación por máxima verosimilitud. Las imputaciones se realizan me-
diante un proceso iterativo que en cada paso va añadiendo nueva infor-
mación, y se detiene cuando converge, cuando las matrices de covarian-
zas estimadas en dos pasos consecutivos son similares.

En cualquier método de imputación que se realice utilizando variables auxi-


liares es importante que éstas estén correlacionadas con la variable que se impu-
ta el valor.

7.3.3. La evaluación de la información procedente


de los encuestadores. El método del submuestreo

Es un método en el que una muestra aleatoria se divide en submuestras del


mismo tamaño que se denominan submuestras interpenetrantes. Este procedi-
miento tiene, entre otras aplicaciones, gran utilidad para evaluar la información
suministrada por los encuestadores. Cuando la información se obtiene mediante
encuestas, con las submuestras se puede saber si existen posibles errores no mues-
trales debidos al sesgo del entrevistador. Los errores debido al encuestador pue-
den tener diferentes fuentes: falta de preparación del encuestador, diferentes mo-
dos de entrevistar, preguntas subjetivas, como, por ejemplo, que en una de las
cuestiones el encuestador debe valorar la actitud del encuestado en relación a un
tema concreto...

©  Ediciones Pirámide 185

pi00302001_07.indd 185 8/3/16 10:56


Introducción a las técnicas de muestreo

El procedimiento comienza repartiendo entre los k entrevistadores la mues-


tra de individuos a encuestar, así se obtendrán k submuestras del mismo tama-
ño. A continuación, se realizan las estimaciones para las submuestras, y si los
valores de las estimaciones son parecidos, entonces se supone que el error de-
bido al entrevistador es despreciable. Por ejemplo, si se utiliza como estimador
la media muestral y los valores estimados de la medias de las K submuestras
son parecidos entre sí al estimador de la media poblacional. En caso contrario,
hay que estudiar por qué para algunos encuestadores los resultados son dife-
rentes.
El procedimiento asigna a cada entrevistador una submuestra de tamaño
m = n/k y estima la media poblacional a partir de las medias de las submuestras:

∑ xi
i =1
X =
k

donde la media, dentro de cada submuestra, es:

∑ xij
j =1
xi =
m

para estimar la varianza de la media:

1 2
N – n ŝk2
V (X ) =
N k

la cuasivarianza:

∑ (xi – X )2
j =1
ŝk2 =
k –1

el error muestra:

E = tα /2;n – k V (X )

186 ©  Ediciones Pirámide

pi00302001_07.indd 186 8/3/16 10:56


Temas complementarios en el muestreo

Ejercicio 6

Se trabaja con una encuesta que se le ha pasado a 5.000 consumidores. Se


prevé que las puntuaciones pueden variar dependiendo del encuestador. Para
comprobarlo, se ha seleccionado una muestra aleatoria de 140 encuestas repar-
tidas entre los 14 encuestadores, es decir, 14 submuestras de tamaño 10 cada una.
¿Es posible que las puntuaciones difieran en función del encuestador? En el
cuadro siguiente se dispone de la información muestral; la segunda columna con-
tiene la puntación media para cada encuestador:

10 i

Encuestadores
∑ xi 1
j =1
xi =
10

 1 64,8
 2 65,9
 3 64,5
 4 64,4
 5 63,8
 6 63,8
 7 57,8
 8 63,9
 9 65,9
10 65,8
11 63,6
12 63,1
13 72,5
14 65,6

Solución

10 i

Encuestadores
∑ xi 1 (xi – X ) 2
j =1
xi =
10

 1 64,8 0,02
 2 65,9 1,51
 3 64,5 0,03
 4 64,4 0,07
 5 63,8 0,76
 6 63,8 0,76

©  Ediciones Pirámide 187

pi00302001_07.indd 187 8/3/16 10:56


Introducción a las técnicas de muestreo

10 i

Encuestadores
∑ xi 1 (xi – X ) 2
j =1
xi =
10

 7 57,8 47,22
 8 63,9 0,60
 9 65,9 1,51
10 65,8 1,27
11 63,6 1,15
12 63,1 2,47
13 72,5 61,29
14 65,6 0,86

Suma 119,52

El estimador para la puntuación media poblacional es:

∑ xi
i =1 905,4
X = = = 64,67
k 14

Para estimar el error muestral, se calcula la varianza:

1 2
N – n ŝk2
var (X ) =
N k

La cuasivarianza es:

∑ (xi – X )2
j =1 119,52
ŝk2 = = = 9,19
k –1 13

Sustituyendo en la expresión de la varianza del estimador:

1 2
5.000 – 140 9,19
var (X ) = = 0,64
5.000 14

188 ©  Ediciones Pirámide

pi00302001_07.indd 188 8/3/16 10:56


Temas complementarios en el muestreo

En este ejercicio, para estimar el error se toma ta/2 = 2:

E = tα /2 var (X ) = 2 0,64 = 1,6

El intervalo de confianza es:

LI = X – E = 64,67 – 1,6 = 63,1


LS = X + E = 64,67 + 1,6 = 66,3

En resumen, se observa que hay dos encuestadores que se alejan demasiado


de los límites del intervalo de confianza. El entrevistador número 7 por defecto,
y el encuestador número 13 por exceso. Por ello, antes de realizar inferencias es
recomendable averiguar los motivos de dichas desviaciones y evitar las conse-
cuencias derivadas del sesgo del encuestador.

7.4.  MUESTREO CON MUESTRAS COMPLEJAS


Es la selección de una muestra a partir de un diseño muestral que combina
diferentes procedimientos muestrales. Por ejemplo, en encuestas donde el mues-
treo se realiza en varias etapas, en la primera se estratifica a la población, en la
segunda se seleccionan aleatoriamente conglomerados, y en la tercera se eligen
aleatoriamente a los individuos dentro de los conglomerados.
A continuación, presentamos algunos ejemplos en los que se aplican mues-
tras complejas.

7.4.1. Muestreo bietápico estratificado aplicado


a un ejemplo de auditoría financiera o de estados
contables

A continuación se plantea un ejemplo de una de las tareas a realizar cuando


se procede a auditar los estados contables de una empresa, en este caso distribui-
dora de bienes en dos mercados. Suponga que el auditor procede a fiscalizar el
área de clientes del activo corriente de la empresa; es decir, está interesado en
realizar una auditoría parcial de los estados contables.
El objetivo es seleccionar una muestra piloto que sea representativa de los
derechos de cobro por venta de mercaderías y localizar los posibles errores o
irregularidades, si los hubiere, y dar con ello por fiable (o no) la información
contable.

©  Ediciones Pirámide 189

pi00302001_07.indd 189 8/3/16 10:56


Introducción a las técnicas de muestreo

Previamente, se realizará una pequeña prueba de cumplimiento del sistema


de control interno para estimar si esa área se considera crítica, o no.

Ejercicio 7

En este ejercicio el auditor de cuentas ha de verificar la validez y razonabili-


dad de la información contable vinculada al área de clientes. Se sabe que la em-
presa vende a crédito durante el año en un porcentaje que oscila entre el 15 % y
el 30 % de las ventas de mercaderías.
A tal fin, primero se estima si la facturación del ejercicio es previsiblemente
razonable o no a través de una prueba de cumplimiento (medias sobre factura-
ción neta), lo que nos permitirá identificar esa área como crítica, o no. Según la
información suministrada por la empresa, la facturación media neta anual es de
1.150 €.

Solución

1.  Prueba de cumplimiento

Estimaremos si la facturación neta del ejercicio es previsiblemente razonable


o no, lo que nos permitirá identificar esa área como crítica o no.

Diseño muestral

— Método de selección: muestreo aleatorio estratificado con conglomerados


en dos etapas.
— Etapas: en la primera fase se divide a la población atendiendo a dos es-
tratos («1» y «2»)1, y dentro de cada estrato se tomará una muestra alea-
toria de conglomerados. A continuación, en la segunda fase, dentro de
cada conglomerado seleccionado se elegirá una muestra aleatoria de las
facturas.
— Unidades muestrales: en la primera etapa, conglomerados, las unidades
muestrales son los clientes, y en la segunda etapa serán las facturas.
— Estimadores: dado que el auditor no conoce el número total de factu-
ras, lo más recomendable es estimar la media utilizando el estimador de
la razón.

A continuación, se explican las expresiones dentro de cada estrato y, después,


la expresión para toda la población.

1
  Cada estrato se refiere a mercados diferentes donde la empresa vende sus productos.

190 ©  Ediciones Pirámide

pi00302001_07.indd 190 8/3/16 10:56


Temas complementarios en el muestreo

Dentro del estrato 1 se selecciona una muestra aleatoria de conglomerados y


se obtiene el valor medio de las facturas mediante:

n1

∑ Mi1xi1
i =1
x1 = n1

∑ Mi1
i =1

donde el valor medio de las facturas de cada cliente se obtiene:

mi

∑ xij1
j =1
xi1 =
mi1

para estimar la varianza de la media:

ŝb21
1 21 21 n 2 1 2 1 2
n1
n1 1 1 mi1 ŝi12
var (x1) = 1 –
N1 M12
+
n1N1M12
∑ Mi12 1–
Mi1 mi1
1 i =1

donde las respectivas cuasivarianzas se obtienen a través de las expresiones:

n1 mi

∑ (Mi1xi1 – M1x1)2 ∑ (xij – xi )2


i =1 i =1
ŝb21 = ; ŝi12 =
n1 – 1 mi – 1

Para el segundo se estrato se procede igual que en el primero:

n2

∑ xi 2
i =1
x2 =
n2
n

∑ xi 2
i =1
x2 = n

∑ m2i
i =1

ŝb22
1 21 n 2 1 2 1 2
n2
n2 1 mi 2 ŝi22
var (x2 ) = 1 –
N2
+
n2 N2
∑ 1–
Mi 2 mi 2
2 i =1

©  Ediciones Pirámide 191

pi00302001_07.indd 191 8/3/16 10:56


Introducción a las técnicas de muestreo

Para estimar la media poblacional atendiendo al peso de los estratos:

2
NhM h M
xst = ∑ Wh xh , con: Wh = NM
= h
M
h =1

La varianza del estimador de la media poblacional:

2
var (xst ) = ∑ Wh2 var (xh )
h =1

El error muestral:

E = zα /2 var (X st )

en la práctica se toma za/2 = 2.

mi 1

∑ xi 1 n1

11 – M 2 m
mi 1 ŝi21
∑ M i21
i =1
Ui Mi mi ∑ xi xi 1 = mi 1 ŝi21 M i 1 xi 1 (M i 1xi 1 – M 1x1) 2
∑ mi 1
i =1 i1 i1

i =1

 1 286 26 39.955 1.537 639.413 439.505 10.200.293.012 1.828.720.912


 2 198 18 30.330 1.685 600.092 333.630 23.799.762 1.188.182.988
 3 176 16 27.006 1.688 568.189 297.066 1.717.480.806 1.000.013.432
 4 242 22 37.227 1.692 613.385 409.497 5.039.367.132 1.484.392.889
 5 176 16 27.555 1.722 645.789 303.105 1.253.407.812 1.136.589.219
 6 220 20 30.726 1.536 611.112 337.986 273.006 1.344.446.423
 7 231 21 30.442 1.450 506.558 334.862 13.296.962 1.170.150.113
 8 198 18 33.816 1.879 550.760 371.976 1.120.073.556 1.090.505.395
 9 198 18 25.748 1.430 738.410 283.228 3.055.933.680 1.462.052.706
10 165 15 24.930 1.662 669.119 274.230 4.131.725.562 1.104.046.743

∑ 190 307.735 3.385.085 26.555.651.293 12.809.100.820

∑ Mi1xi1
i =1 3.385.085
x1 = n = = 1.619,66
2.090
∑ Mi1
i =1

192 ©  Ediciones Pirámide

pi00302001_07.indd 192 8/3/16 10:56


Temas complementarios en el muestreo

n1

∑ (Mi1xi1 – M1x1)2
i =1 26.555.651.293
ŝb21 = = = 2.950.627.921,44
n1 – 1 10 – 1

ŝb21
1 21 21 n 2 1 2 1 2
n1
n1 1 1 mi1 ŝi12
var (x1) = 1 –
N1 M12
+
n1N1M12
∑ Mi12 1–
Mi1 mi1
1 i =1

1 21 (209) 21 2 1 2
10 1 2.950.627.921 1
var (x1) = 1 – + (12.809.100.820) ≈ 6.167
65 2
10 10 × 65 × (209)2

mi 2

∑ xi 2 n2

11 – M 2 m
mi 2 ŝi22
∑ M i22
i =1
Ui Mi mi ∑ xi xi 2 = mi 2 ŝi22 M i 2 xi 2 (M i 2 xi 2 – M 2 x2 ) 2
∑ mi 2
i =1 i2 i2

i =1

11 72 8 2.858 357 28.528 25.722 32.936.121 16.432.251


12 99 11 3.682 335 25.344 33.138 2.812.329 20.072.102
13 162 18 5.509 306  9.294 49.581 328.334.400 12.044.639
14 72 8 2.268 284 24.226 20.412 122.080.401 13.954.176
15 153 17 4.818 283 19.286 43.362 141.633.801 23.606.253
16 162 18 5.237 291 21.347 47.133 245.611.584 27.665.369
17 144 16 4.070 254  7.185 36.630 26.718.561 8.277.178
18 99 11 2.153 196 12.664 19.377 146.023.056 10.029.859
19 72 8 866 108  3.059 7.794 560.126.889 1.761.696

∑ 1.035 115 31.461 283.149 1.606.277.142 133.843.523

n2

∑ Mi 2 xi 2
i =1 283.149
x2 = n2 = = 273,57
1.035
∑ Mi 2
i =1

n2

∑ (Mi 2 xi 2 – M2 x2 )2
i =1 1.606.277.142
ŝb22 = = = 200.784.643
n2 – 1 9–1

©  Ediciones Pirámide 193

pi00302001_07.indd 193 8/3/16 10:56


Introducción a las técnicas de muestreo

ŝb22
1 21 21 n 2 1 2 1 2
n2
n2 1 1 mi 2 ŝi22
var (x2 ) = 1 –
N2 M 22
+
n2 N2 M 22
∑ Mi22 1–
Mi 2 mi 2
2 i =1

1 21 (115) 21 2 1 2
9 1 200.784.643 1
var (x2 ) = 1 – + (22.309.405) ≈ 1.353
45 2
9 9 × 45 × (115)2

Para valorar la media poblacional a partir de las estimaciones obtenidas por


cada estrato:

2
xst = ∑ Wh xh
h =1

las ponderaciones de los estratos son:

N1 65 N 45
W1 = = = 0,59 ; W2 = 2 = = 0,41
N 110 N 110

El estimador poblacional de la media poblacional y su error muestral:

2
xst = ∑ Wh xh = 0,59 × 1.619,66 + 0,41 × 273,57 = 1.067,76
h =1

2
var (xst ) = ∑ Wh2 var (xh ) = 0,592 × 6.167 + 0,412 × 1.350 ≈ 2.373,67
h =1

E = zα /2 var (X st ) = 2 2.373,67 = 97,44

E 97,44
E(%) = × 100 = = 9,12 %
xst 1.068,99

Intervalo para la estimación de la media poblacional:

xst – E = 971,35
Intervalo: 5x st + E = 1.166,63

194 ©  Ediciones Pirámide

pi00302001_07.indd 194 8/3/16 10:56


Temas complementarios en el muestreo

Recordemos que el valor proporcionado por la empresa en relación a la fac-


turación media anual neta de los clientes es de 1.068,99 €. En este sentido, se ob-
serva que dicha cifra está dentro del intervalo de confianza (971,35; 1.166,63), lo
que nos lleva a afirmar que para esta área, el sistema de control interno de la em-
presa auditada funciona correctamente.

2.  Pruebas sustantivas

La realización de pruebas sustantivas supone ir directamente a los saldos de


los clientes al final del ejercicio auditado y dar validez (o no) a los mismos. Siem-
pre se habrán de llevar a cabo pruebas sustantivas, si bien la cantidad, alcance y
naturaleza de las mismas estará en función de la existencia o no de fallos en el
funcionamiento del sistema de control interno de la empresa auditada.
El primer paso para dar validez a los saldos de los clientes, una vez sean se-
leccionados y por ello formen parte de la muestra, es lo que se denomina llevar
a cabo la circularización de los clientes; esto es, preguntarles directamente si los
saldos de la contabilidad de la empresa auditada coinciden con los que ellos pre-
sentan en su propia contabilidad, lo que conlleva acudir obviamente a fuentes de
información externa (FVE) para verificar la información interna.
Si coinciden, se da el saldo por válido. Si no coinciden o el cliente no respon-
de, el auditor ha de solicitar a la empresa auditada la información necesaria (las
facturas con esos clientes, los extractos bancarios o los libros de caja para veri-
ficar los cobros o derechos aún no cobrados, etc.) para dar validez a los saldos
correspondientes, lo que supone acudir a fuentes de verificación interna (FVI).
Con la finalidad de identificar qué sesgos son relevantes o no, el auditor de-
cide que si los saldos no coinciden (haya el cliente respondido o no) y las dife-
rencias son superiores al 5 % del valor de la facturación, se considera que puede
haber una «irregularidad»; en caso contrario, se admite que la diferencia no es
relevante.
En la siguiente tabla se presenta una muestra piloto de los clientes seleccio-
nados para el proceso de circularización, distinguiendo entre los mercados en los
que opera la empresa distribuidora, que hemos denominado A (señalados con
un 1) y B (señalados con un 2), para las diferencias de los saldos contables de la
factura de mayor valor. Los clientes que van acompañados de un «1» en la co-
lumna diferencia significa que hay coincidencia entre las fuentes de verificación
interna (FVI) y las fuentes de verificación externa (FVE).
La muestra fue seleccionada siguiendo un muestreo aleatorio estratificado.
Dentro de cada estrato se realiza una selección de la factura de mayor cuantía y
se procede a la verificación interna y a la verificación externa; se comparan, se
observa si existen discrepancias y si éstas son considerables (más del 5 % del va-
lor de la factura); en tal caso, se considera que existe una «irregularidad», y se le
asigna un 1.

©  Ediciones Pirámide 195

pi00302001_07.indd 195 8/3/16 10:56


Introducción a las técnicas de muestreo

Saldo % saldo
Facturas FVI FVE Saldo > 5 % Estratos
(FVI  –  FVE) factura

 1 3.272 3.272 0 0 % 0 1


 2 4.762 4.762 0 0 % 0 1
 3 4.670 4.670 0 0 % 0 1
 4 3.373 3.373 0 0 % 0 1
 5 16.552 16.552 0 0 % 0 1
 6 15.656 15.656 0 0 % 0 1
 7 17.076 17.076 0 0 % 0 1
 8 13.576 13.576 0 0 % 0 1
 9 18.200 18.258 –58 0 % 0 1
10 12.086 12.044 42 0 % 0 1
11 16.350 16.350 0 0 % 0 1
12 16.100 15.891 209 1 % 0 1
13 15.235 15.235 0 0 % 0 1
14 18.021 18.021 0 0 % 0 1
15 16.586 16.928 –342 –2 % 0 1
16 17.788 17.788 0 0 % 0 1
17 17.510 15.350 2.160 12 % 1 1
18 13.824 13.824 0 0 % 0 1
19 4.660 4.660 0 0 % 0 2
20 3.778 3.778 0 0 % 0 2
21 4.200 3.930 270 6 % 1 2
22 4.014 4.014 0 0 % 0 2
23 3.684 3.684 0 0 % 0 2
24 1.571 1.571 0 0 % 0 2
25 1.044 899 145 14 % 1 2
26 1.176 1.176 0 0 % 0 2
27 2.138 1.989 149 7 % 1 2
28 1.891 1.891 0 0 % 0 2
29 1.201 1.192 9 1 % 0 2
30 2.242 2.242 0 0 % 0 2
31 1.976 1.976 0 0 % 0 2
32 1.400 1.379 21 2 % 0 2
33 2.056 2.056 0 0 % 0 2
34 1.427 1.427 0 0 % 0 2

La solución de este apartado del ejercicio es mediante muestreo estratificado.


A continuación se presenta la información necesaria para resolverlo:

N1 = 100 ; N2 = 75 ⇒ N = 175

N1 100 N 75
W1 = = = 0,57 ; W2 = 2 = = 0,43
N 175 N 175

196 ©  Ediciones Pirámide

pi00302001_07.indd 196 8/3/16 10:56


Temas complementarios en el muestreo

n1 n2

∑ ai1 ∑ ai 2
i =1 1 i =1 3
p̂1 = = = 0,056 ; p̂2 = = = 0,188
n1 18 n2 16

se observa que mientras en el mercado A la proporción de facturas erróneas está


en torno al 5,6 %, en el mercado B o estrato 2 la proporción de facturas con dis-
crepancias es muy elevado, llegando al 18,8 %.
Para obtener el estimador de la proporción poblacional:

2
p̂st = ∑ Wh ph = 0,57 × 0,056 + 0,43 × 0,188 = 0,113
h =1

Es decir, se estima que el 11,3 % de las facturas de la empresa presenta «dis-


crepancias». Para determinar el error debido al muestreo, primero se calculan las
varianzas de cada estrato:

1 2= 1 2
p̂1q̂1 N1 – n1 0,056 × (1 – 0,056) 100 – 18
var ( p̂1) = = 0,0024
n1 N1 18 100

1 2= 1 2
p̂2 q̂2 N2 – n2 0,188 × (1 – 0,188) 75 – 16
var ( p̂2 ) = = 0,0075
n2 N2 16 75

La varianza de la proporción poblacional se obtiene a partir de la suma pon-


derada de las proporciones de cada estrato:

2
var ( p̂st ) = ∑ Wh2 var ( p̂h ) = (0,57)2 × 0,024 + (0,43)2 × 0,0075 = 0,00217
h =1

El error debido al muestreo aproximando za/2 = 2, es, aproximadamente, del


9,3 %:

E = zα /2 var ( p̂st ) = 2 0,00217 ≈ 0,093

En resumen, existe un 11,3 % de facturas con las que existen discrepancias en-
tre las pruebas de verificación interna y externa, dándose las mayores discrepan-
cias en el mercado B.

©  Ediciones Pirámide 197

pi00302001_07.indd 197 8/3/16 10:56


Introducción a las técnicas de muestreo

7.4.2. Muestreo estratificado por conglomerados


para proporciones

A continuación se plantea el siguiente ejemplo ilustrativo.

Ejercicio 8

Una población turística ofrece dos tipos de alojamientos: hoteles para turis-
tas de sol y playa y hoteles rurales. En la actualidad, hay alojados 25.200 turis-
tas en los 250 hoteles de la población, de los cuales 150 son de sol y playa y los
restantes 100 hoteles son rurales.
El procedimiento de selección ha consistido en elegir, dentro de cada estrato,
una muestra aleatoria simple de hoteles que son considerados como «conglome-
rados de turistas», y, dentro de cada hotel, se ha anotado el número de turistas
que están alojados, el número de turistas que afirman que repetirían las vacacio-
nes en el hotel y el gasto medio realizado por persona y día durante la estancia
en el hotel.
La finalidad del estudio es estimar la proporción de turistas que están dis-
puestos a repetir la estancia en el hotel.
De encuestas anteriores, se sabe que en total 15.710 turistas contestaron que
repetirían obtener el gasto medio estimado por persona y día y los ingresos to-
tales que se generarían si todos los turistas que responden que repetirían real-
mente lo hicieran.
El diseño muestral debe ser un muestreo estratificado en dos estratos, que di-
ferencia entre los tipos de alojamientos de sol y playa frente a los rurales, y den-
tro de cada estrato se seleccionan aleatoriamente los conglomerados (hoteles)
como unidades en la primera etapa y, como unidades muestrales de la segunda
etapa se elige aleatoriamente una muestra de turistas alojados. En el cuadro si-
guiente se presenta la muestra piloto:

Turismo rural

Hoteles Alojados Entrevistados Repetiría Hoteles Alojados Entrevistados Repetiría

1 306 204 101 1 114 67 40


2 327 218 123 2  84 49 44
3 365 243 110 3  68 40 39
4 346 231 102 4  48 28 20
5 407 271 112 5 120 69 35
6 340 227 102 6 109 64 35
7 344 229 141 7  60 35 27

198 ©  Ediciones Pirámide

pi00302001_07.indd 198 8/3/16 10:56


Temas complementarios en el muestreo

Turismo rural

Hoteles Alojados Entrevistados Repetiría Hoteles Alojados Entrevistados Repetiría

 8 365 243 135  8 121 71 41


 9 400 265 131  9  66 39 22
10 433 287 111 10 102 60 42
11 354 236 126 11  83 48 40
12 320 213 124 12  55 31 29
13 336 224 121 13 119 70 49
14 335 221 119 14  88 51 40
15 372 248 118 15 109 63 38
16 435 290 144 16  85 50 26
17 345 221 101 17  65 38 31
18 390 259 105 18 102 60 35
19 374 249 133 19  94 56 47
20 306 204 148 20 51 36
21 305 201 148
22 408 272 117
23 330 219 142
24 305 201 103

Los estimadores utilizados son:

— Dentro de cada estrato se obtiene la proporción de turistas que repetirían,


mediante la expresión:

nh

∑ Mih p̂ih
i =1
p̂h = nh

∑ Mih
i =1

cuando h = 1 se refiere a los hoteles de sol y playa, con h = 2 son los ho-
teles rurales. Dentro de cada hotel o conglomerado, la proporción de tu-
ristas que repetirían es:

mj

∑ aijh
j =1
p̂ih = mj

∑ Mih
j =1

©  Ediciones Pirámide 199

pi00302001_07.indd 199 8/3/16 10:56


Introducción a las técnicas de muestreo

— La varianza de la proporción de los conglomerados dentro de cada estra-


to viene dada por la expresión:

21 2
nh

∑ (Mih p̂ih – M h p̂h )2


1 21 1 21 m – 12
nh
nh 1 i =1 1 Mih – mih p̂ih q̂ih
var ( p̂h ) = 1 –
Nh N h M h2 nh – 1
+
nh N h M h2
∑ M h2 Mih
i =1 ih

— Para la estimar la proporción poblacional atendiendo al peso de los es-


tratos:

L
p̂st = ∑ Wh p̂h
h =1

— La varianza del estimador de la proporción poblacional:

L
var ( p̂st ) = ∑ Wh2 var ( p̂h )
h =1

L
var (xst ) = ∑ Wh2 var (xh )
h =1

el error muestral:

E = zα /2 var ( p̂st )

Hoteles de sol y playa

nh

1 21 m – 1 2
M ih – mih p̂ih q̂ih
Hoteles Mi1 mi1 ai1 p̂i 1 M i 1 p̂i 1 (M i 1 p̂i 1 – M 1 p̂1) 2 ∑ M h2 M ih
i =1 ih

1 306 204 101 0,50 151,5 994,46 38,43


2 327 218 123 0,56 184,5 2,15 40,39
3 365 243 110 0,45 165,2 317,15 45,59
4 346 231 102 0,44 152,8 915,41 42,66
5 407 271 112 0,41 168,2 219,88 49,71
6 340 227 102 0,45 152,8 915,65 42,06

200 ©  Ediciones Pirámide

pi00302001_07.indd 200 8/3/16 10:56


Temas complementarios en el muestreo

Hoteles de sol y playa

nh

1 21 m – 1 2
M ih – mih p̂ih q̂ih
Hoteles Mi1 mi1 ai1 p̂i 1 M i 1 p̂i 1 (M i 1 p̂i 1 – M 1 p̂1) 2 ∑ M h2 M ih
i =1 ih

 7 344 229 141 0,62 211,8 827,88 41,05


 8 365 243 135 0,56 202,8 389,78 45,43
 9 400 265 131 0,49 197,7 216,12 51,13
10 433 287 111 0,39 167,5 242,37 52,43
11 354 236 126 0,53 189,0 35,58 44,23
12 320 213 124 0,58 186,3 10,60 39,29
13 336 224 121 0,54 181,5 2,36 41,92
14 335 221 119 0,54 180,4 7,02 43,14
15 372 248 118 0,48 177,0 36,42 46,58
16 435 290 144 0,50 216,0 1.086,69 54,56
17 345 221 101 0,46 157,7 643,40 48,25
18 390 259 105 0,41 158,1 621,35 47,73
19 374 249 133 0,53 199,8 279,96 46,91
20 306 204 148 0,73 222,0 1.518,27 30,62
21 305 201 148 0,74 224,6 1.725,75 30,79
22 408 272 117 0,43 175,5 56,78 50,19
23 330 219 142 0,65 214,0 957,14 38,31
24 305 201 103 0,51 156,3 715,11 39,63

Sumas 8.548 5.676 2.917 4.392,8 12.737,25 1.051,03

La proporción de turistas que repetirían en hoteles de sol y playa es del


51,4 %:

n1

∑ Mi1 p̂i1
i =1 4.392,8
p̂1 = n1 = ≈ 0,514
8.548
∑ Mi1
i =1

Para estimar la varianza del primer estrato:

N1 = 150 ; n1 = 24

1 21 24 × (356,17) 21 2
24 1 12.737,25 1
var ( p̂1) = 1 – + (1.051,03) ≈ 0,00016
150 2
23 24 × 150 × (356,17)2

©  Ediciones Pirámide 201

pi00302001_07.indd 201 8/3/16 10:56


Introducción a las técnicas de muestreo

Hoteles rurales

nh

1 21 m – 1 2
M ih – mih p̂ih q̂ih
Hoteles Mi1 mi1 ai1 p̂i 1 M i 1 p̂i 1 (M i 1 p̂i 1 – M 1 p̂1) 2 ∑ M h2 M ih
i =1 ih

 1 114 67 40 0,60 68,1 48,27 19,53


 2 84 49 44 0,90 75,4 204,97 5,61
 3 68 40 39 0,98 66,3 26,92 1,19
 4 48 28 20 0,71 34,3 719,63 7,26
 5 120 69 35 0,51 60,9 0,06 22,50
 6 109 64 35 0,55 59,6 2,26 19,29
 7 60 35 27 0,77 46,3 219,81 7,78
 8 121 71 41 0,58 69,9 76,76 21,09
 9 66 39 22 0,56 37,2 570,30 11,53
10 102 60 42 0,70 71,4 105,85 15,25
11 83 48 40 0,83 69,2 64,88 8,58
12 55 31 29 0,94 51,5 93,32 2,66
13 119 70 49 0,70 83,3 492,32 17,75
14 88 51 40 0,78 69,0 62,54 11,02
15 109 63 38 0,60 65,7 21,48 19,36
16 85 50 26 0,52 44,2 286,01 15,15
17 65 38 31 0,82 53,0 65,37 7,13
18 102 60 35 0,58 59,5 2,60 17,65
19 94 56 47 0,84 78,9 316,17 8,76
20 83 51 36 0,71 58,6 6,37 11,03

Sumas 1.775 1.040 716 1.222,2 3.385,88 250,10

La proporción de turistas que repetirían en hoteles rurales es del 68,8 %, li-


geramente superior al turismo de sol y playa:

n2

∑ Mi 2 p̂i 2
i =1 1.222,2
p̂2 = n2 = ≈ 0,688
1.775
∑ Mi 2
i =1

Para estimar la varianza del primer estrato:

N2 = 100 ; n2 = 20

1 21 20 × (88,75) 21 2
20 1 3.385,88 1
var ( p̂2 ) = 1 – + (250,01) ≈ 0,00092
100 2
19 20 × 100 × (88,75)2

202 ©  Ediciones Pirámide

pi00302001_07.indd 202 8/3/16 10:56


Temas complementarios en el muestreo

Para estimar la proporción poblacional de turistas que repetirían se usa la ex-


presión:

2
p̂st = ∑ Wh p̂h
h =1

N1 150 N 100
W1 = = = 0,6 ; W2 = 2 = = 0,4
N 250 N 250

Sustituyendo, resulta que la proporción de turistas que repetirían sus vaca-


ciones en los hoteles de la cadena es del 58,4 %:

2
p̂st = ∑ Wh p̂h = 0,6 × 0,514 + 0,4 × 0,688 ≈ 0,584
h =1

Para determinar el error muestral:

2
var ( p̂st ) = ∑ Wh2 var ( p̂h ) = (0,6)2 × 0,00016 + (0,4)2 × 0,00092 = 0,0002
h =1

Tomando za/2 = 2, el error debido al muestreo es del 2,85 %:

E = zα /2 var ( p̂st ) = 2 0,0002 ≈ 0,0285

©  Ediciones Pirámide 203

pi00302001_07.indd 203 8/3/16 10:56


pi00302001_07.indd 204 8/3/16 10:56
Bibliografía

Azorín, F. y Sánchez Crespo, J. L. (1994). Métodos y aplicaciones del muestreo. Alianza


Universidad Textos.
Badii, M. H., Guillén, A., Landeros, J. y Cerna, E. (2011). Análisis y aplicación de mues-
treo multietápico, estimación de submuestreo y muestreo de respuesta aleatoria. In-
ternational Journal of Good Conscience, 6(2), pp. 88-95.
Guillen, A., Badii, M. H., Prado, J. L., Abreu, J. L. y Valenzuela, J. (2011). Concepto y
aplicación de muestreo conglomerado y sistemático. International Journal of Good
Conscience, 6(2), pp. 186-194.
Medina, F. y Galván, M. (2007). Imputación de datos: teoría y práctica. Repositorio
CEPAL-Serie Estudios estadísticos y prospectivos, n.o 54, Santiago de Chile, Chile.
Montgomery, D. C. (1997). Design and Analysis of Experiments. John Wiley.
Naciones Unidas (2007). Diseño de muestras para encuestas de hogares. Directrices prác-
ticas. Estudios de métodos. Departamento de Asuntos Económicos y Sociales, Divi-
sión de Estadística. Serie F n.o 98. Nueva York.
Peralta Astudillo, M. J., Rúa Vieytes, A., Raquel Redondo Palomo, R. y Del Campo
Campos, C. (2007). Estadística. Problemas resueltos, 2.a ed. Madrid: Pirámide.
Pérez López, C. (2005). Muestreo estadístico: conceptos y problemas resueltos. Madrid:
Pearson.
Romero Ramos, E. (2015). Estadística para todos. Madrid: Pirámide.
Scheaffer, R. L., Mendenhall, W. y Ott, L. (2006). Elementos de muestreo, 6.a ed. Madrid:
Paraninfo.

©  Ediciones Pirámide

pi00302001_08.indd 205 8/3/16 10:56


pi00302001_08.indd 206 8/3/16 10:56
pi00302001_08.indd 207 8/3/16 10:56
TÍTULOS RELACIONADOS

Análisis cuantitativo de la actividad turística, J. Alegre Martín, M. Cladera Munar, C. N.


Juaneda Sampol.
Árboles de decisión y ELECTRA I, M. Ruiz Rodríguez, S. Martínez Fierro, J. M.ª Biedma Fe-
rrer y A. Martín Navarro.
Cien ejercicios de econometría, J. Bernardo Pena Trapero, J. A. Estavillo Dorado, M.ª E.
Galindo Frutos, M.ª J. Leceta Rey, M.ª del M. Zamora Sanz.
Curso básico de matemáticas para la economía y dirección de empresas I, M. López Ca-
chero y A. Vegas Pérez.
Curso básico de matemáticas para la economía y dirección de empresas II, M. López Ca-
chero y A. Vegas Pérez.
Curso elemental de Estadística Descriptiva, A. Hernández Bastida.
Econometría. M. Díaz Fernández y M.ª del M. Llorente Marrón.
Ejercicios de econometría I, F. Palacios González (coord.), R. M.ª García Fernández y J. M.
Herrerías Velasco.
Ejercicios de estadística descriptiva y probabilidad para economía y administración
de empresas. J. M. Casas Sánchez, C. García Pérez, L. F. Rivera Galicia y A. I. Zamora Sanz.
Ejercicios de inferencia estadística y muestreo para economía y administración de
empresas. J. M. Casas Sánchez, C. García Pérez, L. F. Rivera Galicia y A. I. Zamora Sanz.
Estadística. Problemas resueltos, M.ª J. Peralta Astudillo, A. Rúa Vieytes, R. Redondo Palomo y
C. del Campo Campos.
Introducción a la econometría. F. J. Trívez Bielsa.
Introducción a las matemáticas financieras (Manual + Guía del alumno), S. Cruz Rambaud
y M.ª del C. Valls Martínez.
Introducción a las matemáticas financieras. Problemas resueltos, M.ª del C. Valls Martínez
y S. Cruz Rambaud.
Introducción a las técnicas de muestreo, J. Boza Chirino, J. V. Pérez-Rodríguez y J. de León
Ledesma.
Matemática de los seguros de vida, R. Moreno Ruiz, O. Gómez Pérez-Cacho, E. Trigo Martí-
nez.
Matemáticas para la economía y la empresa, S. Calderón Montero y M. L. Rey Borrego.
Matemáticas para el éxito empresarial, E. M. Fedriani Martel y M.ª del C. Melgar Hiraldo.
Métodos de valoración de empresas, V. Caballer Mellado.
Microeconometría y decisión, B. Cabrer Borrás, A. Sancho Pérez y G. Serrano Domingo.
Predicción y simulación aplicada a la economía y gestión de empresas, A. Pulido San
Román y A. M.ª López García.
Problemas de estadística. J. López de la Manzanara Barbero.
Problemas resueltos de estadística, S. Zubelzu y A. Ercoreca.
Problemas resueltos de estadística para las ciencias sociales, J. M.ª Sarabia, C. Trueba,
L. Remuzgo, V. Jordá y F. Prieto.
Sistemas informáticos aplicados al turismo. A. Guevara Plaza (coord.).
Técnicas de programación y control de proyectos. C. Romero López.

Si lo desea, en nuestra página web puede consultar el catálogo completo o descargarlo:

www.edicionespiramide.es

pi00302001_08.indd 208 8/3/16 10:56

Potrebbero piacerti anche