Sei sulla pagina 1di 12

Captulo 1

Muestreo sistematico
El muestreo sistematico es un tipo de muestreo que es aplicable cuando los
elementos de la poblacion sobre la que se realiza el muestreo estan ordenados.
Este procedimiento de muestreo se basa en tomar muestras de una manera direc-
ta y ordenada a partir de una regla determinstica, tambien llamada sistematica.
Concretamente, a partir de una sola unidad que se selecciona en primer lugar, el
resto de unidades de la muestra vienen determinadas automaticamente al apli-
carle a dicha unidad una regla seleccion sistematica. Bajo este procedimiento de
muestreo, por ejemplo, seleccionamos cada vigesimo nombre de una lista, cada
decimosegunda casa de un lado de una calle, cada quincuagesima pieza de una
lnea de montaje, etc..
En este captulo consideramos el dise no muestral sistematico mas sencillo
llamado muestreo sistematico uniforme de paso k. La obtencion de una muestra
sistematica de tama no n de una poblacion de N elementos se consigue siguiendo
el siguiente procedimiento.
1. Conseguir un listado ordenado de los N elementos de la poblacion.
2. Determinar el tama no muestral n.
3. Denir el tama no del salto sistematico k dado por k = N/n.
4. Elegir un n umero aleatorio entre 1 y k (=arrranque aleatorio). Este
numero permite obtener la primera unidad muestral.
5. A partir de la posicion , dando un salto de k unidades, obtendremos la
segunda unidad de la muestra u
+k
y de esta forma, saltando de k en k
unidades, el resto de la muestra estara formada por las unidades u
+2k
,
u
+3k
, . . ., u
+(n1)k
.
Ejemplo 1 Consideramos una poblacion de 5000 agricultores pertenecientes a
una determinada zona y de la que se pretende extraer una muestra sistematica
de 10 agricultores. El procedimiento a seguir es el siguiente:
Denir el tama no del salto sistematico k = 5000/10 = 500.
1
2
Selecciona un numero aleatorio r entre 1 y 500, (por ejemplo 96).
Seleccionar los restantes elementos de la muestra, 96, 96+500=596,
596+500=1096, 1596, 2096, 2596, 3096, 3596, 4096, 4596.
En realidad, bajo muestreo sistematico, clasicamos las unidades de la po-
blacion en n zonas o las de tama no k, las numeramos de izquierda a derecha
empezando por la primera unidad de la primera la y pasando a a primera
unidad de la siguiente la una que se haya agotado la la anterior. Una vez
numeradas las N = nk unidades podemos expresarlas de la siguiente forma:
i 1 2 3 . . . j . . . k
1 u
1
u
2
u
3
. . . u
j
. . . u
k
2 u
k+1
u
k+2
u
k+3
. . . u
k+j
. . . u
k+k
3 u
2k+1
u
2k+2
u
2k+3
. . . u
2k+j
u
2k+k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i u
(i1)k+1
u
(i1)k+2
u
(i1)k+3
. . . u
(i1)k+j
. . . u
(i1)k+k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n u
(n1)k+1
u
(n1)k+2
u
(n1)k+3
. . . u
(n1)k+j
. . . u
(n1)k+k
Con estas especicaciones, el espacio muestral esta formado por las siguientes
k muestras posibles:
(S
1
) = {u
1
, u
1+k
, u
1+2k
, . . . , u
1+(n1)k
}
(S
2
) = {u
2
, u
2+k
, u
2+2k
, . . . , u
2+(n1)k
}
.
.
.
(S
k
) = {u
k
, u
k+k
, u
k+2k
, . . . , u
k+(n1)k
}
Cada una de estas muestras tiene probabilidad igual a 1/k = n/N de ser selec-
cionada. Las probabilidades de inclusion de primer y segundo orden correspon-
diente a este dise no muestral son

i
=

sS;u
i
s
p(s) =
1
k
=
n
N
, i = 1, 2, . . . , N,
para la probabilidad de primer orden y

ij
= P[(u
i
, u
j
) s]
_
1/k si ui y uj estan en la misma muestra
0 en otro caso
Ejemplo 2 Dada la poblacion siguiente
u
i
u
1
u
2
u
3
u
4
u
5
u
6
u
7
u
8
u
9
X
i
1 3 5 2 4 6 2 7 3
se desea obtener una muestra sistematica de tama no 3. Determinar el espacio
muestral.
3
1. Tenemos el listado ordenado de los 9 elementos.
2. Tama no muestral n = 3.
3. El tama no del salto sistematico es k = N/n = 9/3 = 3.
4. Elegir un numero aleatorio r entre 1 y 3.
Para r = 1, se tiene que la muestra viene dada por {u
1
, u
1+3
, u
1+6
}.
Para r = 2, se tiene que la muestra viene dada por {u
2
, u
2+3
, u
2+6
}.
Para r = 3, se tiene que la muestra viene dada por {u
3
, u
3+3
, u
3+6
}.
A diferencia de los que puede ocurrir en el muestreo aleatorio, ninguna su-
cesion grande de elementos queda sin representacion. En consecuencia, si los
elementos considerados en el orden en que aparecen en la lista tienen a for-
mar grupos o zonas de elementos parecidos respecto de la caracterstica que se
estudia, el muestreo sistem atico puede ser mas representativo que el muestreo
aleatorio simple.
En el muestreo sistematico existe, pues un efecto que podemos llamar de
extension o estraticacion si cada grupo de k elementos consecutivos a partir del
primero se considera como un estrato. Debe tenerse en cuenta, sin embargo, que
en el muestreo estraticado aleatorio la seleccion se efect ua independientemente
en cada estrato, mientras que en el muestreo sistematico todos los elementos
seleccionados ocupan el mismo lugar o numero de orden dentro de cada grupo
de k elementos.
El efecto anterior sera benecioso para la representatividad de la muestra
cuando hay rachas o estratos sucesivos constituidos por elementos iguales o pa-
recidos entre si. Por el contrario, si en la ordenacion de elementos poblacionales
existe cierta periodicidad y k es igual al periodo o m ultiplo de este, la represen-
tatividad disminuye.
En el ejemplo anterior apreciamos que el tama no del salto sistematico es un
numero entero, pero que ocurre si este tama no k no es entero?
Una alternativa para solucionar este problema consiste en considerar el lis-
tado ordenado de todos los elementos de la poblacion como circular (es decir,
el elemento N +1 coincide con el elemento 1). En este caso el procedimiento se
desarrolla de la siguiente manera.
Denir el tama no del salto sistematico, k, como el entero mas cercano a
N/n.
Elegir un numero aleatorio, r, entre 1 y k.
Seleccionar los elementos de la lista: r, r + k, r + 2k, . . ., r + (n 1)k
teniendo en cuenta que la lista es circular.
Las ventajas e inconvenientes de este metodo de muestreo son, en resumen:
Ventajas
4
Extiende la muestra a toda la poblacion.
Recoge el posible efecto de estraticacion debido al orden en que
guran las unidades de la poblacion.
No presenta problemas de calculo algebraico.
El error de muestreo suele ser inferior que en muestreo aleatorio sim-
ple o incluso que en estraticado.
Inconvenientes
La posibilidad de aumento de la varianza si existe periodicidad en la
poblacion.
El problema teorico que se presenta en la estimacion de las varianzas
No hay independencia en la seleccion de unidades en las distintas
zonas, ya que las unidades extradas en cada zona dependen de la
seleccionada en la primera zona.
En general solo hay seleccion aleatoria para la primera unidad de la
muestra.
1.1. Estimadores lineales insesgados
Las estimaciones del total, media, proporcion y total de clase poblacionales
son los siguientes:
Total
= X

X
stm
= N

x
j
,
siendo

x
j
la media de la muestra sistematica j resultante a partir del punto
de arranque j, m
j
.
Media
=

X

X
stm
=

x
j
,
siendo

x
j
la media de la muestra sistematica siendo

x
j
la media de la
muestra sistematica j resultante a partir del punto de arranque j, m
j
.
Proporcion
= P

P
stm
=

P
j
,
siendo

P
j
la proporcion de la muestra sistematica j resultante a partir del
punto de arranque j, m
j
.
Total de clase
= A

A
stm
= N

P
j
,
siendo

P
j
la proporcion de la muestra sistematica j resultante a partir del
punto de arranque j, m
j
.
5
Ejemplo 3 Dada la poblacion siguiente
u
i
u
1
u
2
u
3
u
4
u
5
u
6
u
7
u
8
u
9
X
i
1 3 5 2 4 6 2 7 3
se desea obtener una muestra sistematica de tama no 3. Determinar la distribu-
cion de probabilidad del estimador del total y el de la media.
Solucion. Las muestras posibles son (1, 2, 2), (3, 4, 7) y (5, 6, 3) siendo la
probabilidad de cada una de ellas k = 1/3. Se tiene que:
S(X) P(X)

X
stm
= N

X
j

X
stm
=

X
j
(1,2,2) 1/3 15 5/3
(3,4,7) 1/3 42 14/3
(5,6,3) 1/3 42 14/3
La distribucion de probabilidad en el muestreo de estos estimadores viene dado
por:
P(

X
stm
= 15) =
1
3
, P(

X
stm
= 42) =
2
3
.
P(

X
stm
= 5/3) =
1
3
, P(

X
stm
= 14/3) =
2
3
.
Ademas dicho estimador es insesgado ya que:
E(

X
stm
) = 15
1
3
+ 42
2
3
=
99
3
= 33 = X.
E(

X
stm
) =
5
3
1
3
+
14
3
2
3
=
33
9
=

X.
1.2. Varianza de los estimadores
Bajo muestreo sistematico las varianzas de los estimadores de los parametros
vienen dadas por las siguientes expresiones:
Para la media,
V (

X
stm
) =
1
k
k

j=1
(

X
j


X)
2
,
donde el ndice j indica que se trata de la muestra sistematica asociada
al j-esimo punto de arranque y la expresion

X
j
denota la media de la
muestra sistematica asociada al j-esimo punto de arranque.
Para el total,
V (

X
stm
) =
N
2
k
k

j=1
(

X
j


X)
2
,
6
Para la proporcion,
V (

P
stm
) =
1
k
k

j=1
(

P
j
P)
2
,
siendo

P
j
la proporcion de la muestra sistematica asociada al j-esimo
punto de arranque.
Para el total de clase
V (

A
stm
) =
N
2
k
k

j=1
(

P
j
P)
2
.
Ejemplo 4 Considerando el Ejemplo 3, calcular la varianza del estimador

X
stm
considerando la denicion y la formula dada en la teora.
Para ello, notar que
E[

X
stm
] =
5
9
+
28
9
=
33
9
,
y por lo tanto, aplicando la denicion de varianza de variable aleatoria es
V ar(

X
stm
) = E[

X
2
stm
] (E[

X
stm
])
2
=
_
5
3
_
2
1
3
+
_
14
3
_
2
2
3

_
33
9
_
2
= 2.
Aplicando la formula de la varianza para muestreo aleatorio simple, se tiene
que
V ar(

X
stm
) =
1
k
k

j=1
(

X
j


X)
2
=
1
3
_
_
5
3

33
9
_
2
+ 2
_
14
3

33
9
_
2
_
= 2.
1.3. Descomposicion de la varianza
Vamos a realizar la siguiente descomposicion de la suma de cuadrados para
el analisis de la varianza poblacional.
n

i=1
k

j=1
(X
ij


X)
2
=
n

i=1
k

j=1
(X
ij

X
j
)
2
+
n

i=1
k

j=1
(

X
j


X)
2
+ 2
n

i=1
k

j=1
(X
ij

X
j
)(

X
j


X).
7
El termino
n

i=1
k

j=1
(X
ij

X
j
)
2
,
representa la variacion dentro de las muestras. Por el contrario, el termino
n

i=1
k

j=1
(

X
j


X)
2
,
representa la variacion entre muestras. Si denimos la cuasivarianza entre las k
muestras posibles, o cuasivarianza intermuestral, como
S
2
bs
=
1
k 1
n

i=1
k

j=1
(

X
j


X)
2
, (1.1)
y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral como
S
2
ws
=
1
N k
n

i=1
k

j=1
(X
ij

X
j
)
2
, (1.2)
se tiene en cuenta la siguiente division de la cuasivarianza poblacional,
(N 1)S
2
= (k 1)S
2
bs
+ (k(n 1))S
2
ws
.
Seg un esta nomenclatura, podemos expresar las varianzas de los estimadores de
la siguiente forma:
V (

X
smt
) =
1
k
k

j=1
(

X
j


X)
2
=
1
nk
n

i=1
k

j=1
(

X
j


X)
2
=
k 1
k
S
2
bs
n
=
_
1
1
k
_
S
2
bs
n
=
_
1
n
nk
_
S
2
bs
n
=
_
1
n
N
_
S
2
bs
n
= (1 f)
S
2
bs
n
.
V (

X
smt
) =
N
2
nk
n

i=1
k

j=1
(

X
j


X)
2
=
N
2
nk
n

i=1
k

j=1
(

X
j


X)
2
=
N
2
nk
S
2
bs
(k 1)
= N
2
(1 f)
S
2
bs
n
.
8
Se observa que las varianzas de los estimadores aumenta cuanto aumenta la cua-
sivarianza intermuestral S
2
bs
. Por lo tanto, para conseguir una mayor eciencia
en el estimador, la variacion entre muestras debe ser lo mas peque na posible, es
decir, que haya homogeneidad dentro de las muestras y que todas las posibles
muestras sean lo mas parecidas entre s. Por otra parte,
V (

X
smt
) = (1 f)
S
2
bs
n
=
k 1
kn
S
2
bs
=
(N 1)S
2
(N k)S
2
ws
N
=
N 1
N
S
2

N k
N
S
2
ws
=
2

nk k
n
S
2
ws
=
2

n 1
n
S
2
ws
V (

X
smt
) = N
2
_

n 1
n
S
2
ws
_
.
Por lo tanto, la varianza de los estimadores sera menor cuanto mayor sea la
cuasivarianza intramuestral S
2
ws
. Por lo tanto, conviene que la variacion dentro
de la muestras sea lo mas grande posible, es decir, que haya heterogeneidad
entre las muestras.
En el caso del estimador del total de clase y de la proporcion, se obtienen
expresiones similares del tipo
V (

X
smt
) = (1 f)
S
2
bs
n
V (

X
smt
) = N
2
(1 f)
S
2
bs
n
V (

P) =
2

n 1
n
S
2
ws
V (

A) = N
2
_

n 1
n
S
2
ws
_
,
donde, en este caso,
S
2
ws
=
1
N k
n

i=1
k

j=1
(A
ij
P
j
)
2
, S
2
bs
=
1
k 1
n

i=1
k

j=1
(P
j
P)
2
Ejemplo 5 Consideramos el ejemplo 3 para el cual habamos obtenido la dis-
tribucion en el muestreo para el estimador de la media y del total y la varianza
del estimador.
V ar(

X
stm
) =
15
2
3
+
2 42
2
3
33
2
= 162.
Sin embargo, las varianzas tambien pueden calcularse a partir de las formulas
deducidas para la descomposicion de la varianza.
La cuasi-varianza entre las 3 muestras posibles, o cuasivarianza intermues-
9
tral, viene dado por
S
2
bs
=
1
k 1
n

i=1
k

j=1
(

X
j


X)
2
=
1
3 1
_
n

i=1
_
5
3

33
9
_
2
+ 2
_
14
3

33
9
_
2
_
=
3
2
_
5
3

33
9
_
2
+ 3
_
14
3

33
9
_
2
=
18
2
.
An alogamente, la cuasivarianza intramuestral, o cuasivarianza dentro de las
muestras, viene dada por
S
2
ws
=
1
N k
n

i=1
k

j=1
(X
ij

X
j
)
2
,
=
1
9 3
_
(1 5/3)
2
+ 2(2 5/3)
2
+ (3 14/3)
2
+ (4 14/3)
2
+
(7 14/3)
2
+ (5 14/3)
2
+ (6 14/3)
2
+ (3 14/3)
2

=
14
6
,
y nalmente la cuasivarianza poblacional es igual a
S
2
=
1
N 1
n

i=1
k

j=1
(X
ij


X)
2
=
32
8
.
Y comprobamos que se cumple la igualdad
(N 1)S
2
= (N k)S
2
ws
+ (k 1)S
2
bs
Ademas, utilizando la expresion para la varianza del estimador mediante la cua-
sivarianza intermuestral se tiene que
V ar(

X
stm
) = N
2
(1
3
9
)
9
3
= 162,
que coincide con el valor obtenido aplicando la denicion de varianza de variable
aleatoria.
1.3.1. Comparaci on con el muestreo aleatorio simple
La cuasivarianza intermuestral permite comparar el muestreo sistematico con
el muestreo aleatorio simple. As, debido a que tenemos las siguientes expresiones
V ar(

X) = (1 f)
S
2
n
, V ar(

X
smt
) = (1 f)
S
2
bs
n
,
10
se tiene que el muestreo aleatorio simple tiene mas (menos) precision que el
muestreo sistematico cuando S
2
< S
2
bs
(S
2
> S
2
bs
) y coinciden en precision
cuando S
2
= S
2
bs
. Analogamente, tenemos que
V ar(

X) = N
2
(1 f)
S
2
n
, V ar(

X
smt
) = N
2
(1 f)
S
2
bs
n
.
Ejemplo 6 Comparar el muestreo sistematico dado en el Ejemplo 3 con el
realizado mediante muestreo aleatorio simple.
En este caso particular, se tiene que la cuasivarianza intermuestral S
2
bs
viene
dada por S
2
bs
= 9 y la cuasi-varianza poblacional es de S
2
= 4. Como S
2
< S
2
bs
,
entonces el muestreo aleatorio simple en este caso particular tiene mas precision
que el realizado mediante muestreo sistematico.
Pasamos ahora al problema de estimacion de las varianzas
1.4. Estimaci on de la varianza de los estimado-
res
La estimacion de la varianza de los estimadores es uno de los problemas que
plantea el uso de este metodo de muestreo ya que no hay un metodo directo
para obtener dichas estimaciones a partir de una muestra sistematica. En este
punto, presentamos tres metodos para aproximar la varianza de los estimadores
1. Si la ordenacion de los elementos en la poblacion puede considerarse
aleatoria, los resultados que proporcionar una muestra sistematica y una
muestra aleatoria simple son similares. Por tanto, podemos estimar la
varianza de los estimadores de los parametros usuales como si se tratase
de un muestreo aleatorio simple. En el caso del estimador de la media

V (

X
stm
) = (1 f)
S
2
j
n
,
donde

S
2
j
es la cuasi-varianza de la muestra tomada, m
j
. Para el resto de
los estimadores se tiene que

V (

X
stm
) = N
2
(1 f)

S
2
j
n

V (

P
stm
) = (1 f)

P
j

Q
j
n 1

V (

A
stm
) = N
2
(1 f)

P
j

Q
j
n 1
.
Para detectar este aleatoriedad en la poblacion examinamos la cuasiva-
rianza intermuestral S
2
bs
y si esta cercana a la cuasivarianza poblacional
podemos suponer que la poblacion es aleatoria.
11
2. Metodo de las diferencias sucesivas.
Se basa en utilizar la suma de los cuadrados de las diferencias entre cada
dos elementos consecutivos de la muestra, y ajustando este resultado con-
venientemente por una costante, aproximar la estimacion de la varianza
del estimador de la media mediante la expresion

V (

X
sist
) =
(1 f)
2n(n 1)
n1

i=1
(X
i
X
i+1
)
2

V (

X
sist
) =
N(N n)
2n(n 1)
n1

i=1
(X
i
X
i+1
)
2
3. Metodo de las muestras interpenetrantes
En ocasiones, no podemos estimar la varianza del estimador en funcion
de la informacion contenida en una sola muestra sistematica. Se llaman
muestras interpenetrantes al conjunto formado por dos o mas muestras
elegidas bajo el mismo esquema de muestreo de forma que cada una de
ellas proporciona un estimador del parametro poblacional de interes.
Sea

1
,

2
, . . . ,

k
, estimadores insesgados del parametro poblacional y
con varianza igual a V

) basados en k muestras independientes. Su me-


dia

c
=
1
k
k

i=1

i
,
es tambien un estimador insesgado de ya que
E[

c
] =
1
k
k

i=1
E[

i
] =
k
k
= ,
y su varianza puede calcularse facilmente como
V (

c
) =
1
k
2
k

i=1
V (

i
) =
V

)
k
.
Ademas, un estimador insesgado de esta varianza viene dada por

V (

c
) =
1
t(t 1)
(
t

i=1

2
i
t

2
c
).
Para aplicar este metodo al muestreo sistematico, en vez de tomar una
muestra sistematica de tama no n a partir de un unico arranque aleatorio,
se toman t muestras sistematicas de tama nos n/t a partir de t arranques
aleatorios.
Ejemplo 7 Para t = 2, es decir, considerando dos muestras sistematicas
con distintos arranques, obtener las expresiones de los estimadores de los
parametros usuales y las estimaciones de sus varianzas considerando el
metodo de las muestras interpenetrantes.
12
Para el estimador de la media

X
c
=

x
1
+

x
2
2
,

V (

X
c
) =
(

x
1

x
2
)
2
4
.
Para el estimador del total

X
c
= N

x
1
+

x
2
2
,

V

X
c
=
N
2
(

x
1

x
2
)
2
4
.
Para el estimador de la proporcion y el total de clase basta con sustituir
las medias muestrales por las proporciones muestrales en las expresiones
anteriores de la media y el total, respectivamente.
Ejemplo 8 En un proceso de control de calidad se trata de analizar la pro-
duccion de piezas en serie de 13 m aquinas. Para ello se controlaron las piezas
producidas por las 13 maquinas en el primer momento de su funcionamiento.
La distribucion de piezas producidas por cada maquina en el primer minuto de
funcionamiento es:
Maquina 1 2 3 4 5 6 7 8 9 10 11 12 13
N umero piezas 5 5 4 2 5 4 5 4 3 4 4 3 2
Para estimar el n umero de piezas defectuosas en el proceso de produccion
se realiza un muestreo sistematico 1 en 5, es decir, se selecciona una de cada
cinco piezas empezando por la primera pieza de la primera maquina hasta que
se agoten sus piezas para pasar a continuacion a la primera pieza de la segunda
maquina hasta que se agoten sus piezas y as sucesivamente. Suponiendo que
la primera pieza producida por cada maquina es defectuosa y las demas son
correctas, se pide
Calcular la varianza del estimador de la proporcion de piezas defectuosas
producidas por las maquinas. Existira ganancia en precision respecto de
un muestreo aleatorio simple con fraccion de muestreo del 20 %?
Calcular el coeciente de correlacion intermuestral.
Suponiendo que la distribucion de la poblacion es aleatoria, estimar la
varianza para cada muestra sistematica. Con que muestra sistem atica
nos quedaremos que mejor represente a la produccion?