Sei sulla pagina 1di 43

MUESTREO PROBABILSTICO:

MUESTREO ALEATORIO SIMPLE


Escrito por Carlos Ochoa el 8 de abril 2015
Definicin
El muestreo aleatorio simple (M.A.S.) es la tcnica de
muestreo en la que todos los elementos que forman el
universo y que, por lo tanto, estn descritos en el marco
muestral, tienen idntica probabilidad de ser seleccionados
para la muestra. Sera algo as como hacer un sorteo justo
entre los individuos del universo: asignamos a cada persona
un boleto con un nmero correlativo, introducimos los
nmeros en una urna y empezamos a extraer al azar boletos.
Todos los individuos que tengan un nmero extrado de la
urna formaran la muestra. Obviamente, en la prctica estos
mtodos pueden automatizarse mediante el uso de
ordenadores.

Dependiendo de si los individuos del universo pueden ser


seleccionados ms de una vez en la muestra, hablaremos de
M.A.S. con reposicin o sin reposicin. Si usamos
reposicin, el hecho de que seleccione un individuo al azar
para mi muestra no impedira que este mismo individuo
pudiese volver a ser seleccionado en una siguiente seleccin.
Sera equivalente a decir que cada vez que extraigo un
nmero al azar de mi urna, vuelvo a colocar el nmero antes
de la siguiente extraccin. Si por el contrario no usamos
reposicin, un individuo seleccionado para la muestra una vez
ya no entrara nuevamente en el sorteo.
La pregunta obvia es, qu es mejor, usar reposicin o no usar
reposicin? Es un simple problema matemtico.Csar Prez
Lpez, en su libro Muestreo Estadstico (Pearson, 2005)
desarrolla de forma muy clara una comparacin entre ambas
tcnicas. Tanto si lo miramos desde el punto de vista de qu
tcnica genera estimaciones ms precisas como desde el
punto de vista de qu tcnica me permite tener la misma
precisin con menor tamao de muestra, se puede concluir
que el muestreo aleatorio simple sin reposicin siempre
es ms eficiente.
Para poder observar este resultado, partimos de la siguiente
expresin para el tamao de muestra en un M.A.S. sin
reposicin. La frmula relaciona el tamao de muestra
necesario cuando el universo es finito con el tamao
necesario cuando el universo es infinito:

donde n0 es el tamao de muestra necesario para un universo


infinito y N es el tamao del universo finito. Es posible
demostrar que el tamao de muestra cuando usamos
reemplazo (nr) es siempre igual al tamao necesario para
universo infinito (nr=n0). Si eso sucede, podemos afirmar que

Por lo tanto, el tamao de muestra cuando no usamos


reposicin siempre es menor al necesario si usamos
reposicin. Este resultado coincide con la intuicin: si estamos
empleando reposicin y por azar incluimos un individuo ms
de una vez en la misma muestra, el efecto es similar a reducir
el tamao de la muestra ya que observo menor diversidad de
individuos. Del mismo modo, si el universo es infinito, ambos
mtodos coinciden, dado que la probabilidad de seleccionar al
mismo individuo dos veces en la misma muestra tiende a ser
infinitamente pequea.

Beneficios del muestreo aleatorio simple


El desarrollo de la informtica ha permitido que disear una
muestra aleatoria simple sea extremadamente rpido y fiable.
La generacin de nmeros aleatorios mediante software
estrictamente son nmeros pseudo-aleatorios es cada vez
ms fiable.
De esta forma, al usar M.A.S. nos aseguramos la obtencin
de muestras representativas, de manera que la nica
fuente de error que va a afectar a mis resultados va a ser el
azar. Y lo que es ms importante, este error debido al azar
puede calcularse de forma precisa (o al menos acotarse).
Puedes consultar el siguiente post para obtener ms
informacin.

Inconvenientes del muestreo aleatorio simple


El nico inconveniente del M.A.S. es la dificultad de llevarlo a
la prctica en investigaciones reales. Recordemos: al ser
una tcnica probabilstica, necesito un marco muestral con
todos los individuos y que todos ellos sean seleccionables
para mi muestra. Un requisito que difcilmente puede
cumplirse en la mayora de estudios de mercado y opinin
reales, lo que nos obligar a emplear otras tcnicas.
E

EL MUESTREO: QU ES Y POR
QU FUNCIONA
Escrito por Carlos Ochoa el 19 de febrero 2015
Cada vez que miro las estadsticas de este modesto blog,
siempre observo la misma pauta: el trfico de visitas cumple
de forma precisa el principio de Pareto: el 20% de los posts
generan el 80% de las visitas. Y entre este 20% de posts ms
visitados destacan con mucha diferencia los posts dedicados
a cmo calcular el tamao de una muestra representativa
para hacer un estudio de opinin.
Viendo el gran inters que despierta esta cuestin, nos
proponemos inaugurar hoy una serie de posts dedicados al
muestreo: qu es, tcnicas de muestreo, cuando conviene
usar una tcnica u otra, etc. Esperamos que estos contenidos
sean de utilidad, ya sea a estudiantes de investigacin,
personas con curiosidad en estos temas o profesionales que
tengan estos conceptos un poco oxidados.

Qu es el muestreo?
El muestreo es el proceso de seleccionar un conjunto de
individuos de una poblacin con el fin de estudiarlos y poder
caracterizar el total de la poblacin.
La idea es bastante simple. Imagina que queremos saber algo
de un universo o poblacin, por ejemplo, qu porcentaje de
los habitantes de Mxico fuma habitualmente. Una forma de
obtener este dato sera contactar con todos los habitantes de
Mxico (122 millones de personas) y preguntarles si fuman.
La otra forma sera seleccionar un subconjunto de individuos
(por ejemplo, 1.000 personas), preguntarles si fuman y usar
esta informacin como una aproximacin de la informacin
que busco. Pues bien, este grupo de 1.000 personas que me
permiten conocer mejor cmo se comportan el total de
mexicanos es una muestra, y la forma en que los selecciono
es el muestreo.
En la definicin anterior hemos introducido dos trminos
fundamentales a lo largo de esta serie de posts:
Universo o poblacin: Es el total de individuos que
deseo estudiar o caracterizar. En el ejemplo anterior
es la poblacin de Mxico, pero podemos pensar en
todo tipo de universos, ms generales y ms
concretos. Por ejemplo, si quiero saber cuanto fuman
de media los fumadores de Mxico, el universo en este
caso seran los fumadores de Mxico.

Muestra: Es el conjunto de individuos del universo


que selecciono para estudiarlos, por ejemplo a travs
de una encuesta.
Por qu funciona el muestreo?
El muestreo es til gracias a que podemos acompaarlo de un
proceso inverso, que llamamos generalizacin. Es decir,
para conocer un universo lo que hacemos es (1) extraer una
muestra del mismo, (2) medir un dato u opinin y (3)
proyectar en el universo el resultado observado en la
muestra. Esta proyeccin o extrapolacin recibe el nombre de
generalizacin de resultados.
La generalizacin de resultados aade cierto error al mismo.
Imagina que tomamos una muestra al azar de 1.000 personas
de Mxico y les preguntamos si fuman. Obtengo que el 25%
de la muestra fuma. La simple lgica nos dice que si de 1.000
mexicanos elegidos al azar el 25% fuma, este dato debera
ser indicativo de lo que obtendramos si preguntsemos a los
122 millones de mexicanos. Ahora bien, el azar podra haber
hecho que haya escogido para mi muestra ms fumadores de
lo que correspondera a la proporcin exacta que hay en el
universo o, por el contrario, que en mi muestra los fumadores
estn algo infra-representados. El azar podra hacer que el
porcentaje de fumadores en la poblacin fuese algo diferente
del 25% que hemos observado en la muestra (tal vez un
25,2%, por ejemplo). Por lo tanto, la generalizacin de
resultados de un muestra a un universo conlleva aceptar que
cometemos cierto error, tal y como ilustra el siguiente
esquema.

Afortunadamente, el error que cometo al generalizar


resultados puede acotarse gracias a la estadstica. Para ello
usamos dos parmetros: el margen de error, que es la
mxima diferencia que esperamos que haya entre el dato
observado en mi muestra y el dato real en el universo, y
el nivel de confianza, que es el nivel de certeza que tengo
de que realmente el dato real est dentro del margen de
error.
Por ejemplo, en nuestro caso de fumadores mexicanos, si
selecciono una muestra de 471 individuos y les pregunto si
fuman, el resultado que obtenga tendr un margen de error
mximo de +-5% con un nivel de confianza del 97%. Esta
forma de expresar los resultados es la correcta cuando
usamos muestreo.

El tamao de la muestra
Qu tamao de muestra necesito usar para estudiar cierto
universo? Depende del tamao del universo y del nivel de
error que est dispuesto a aceptar, tal y como explicbamos

en su da en este post. Cuanta ms precisin exija, mayor


muestra necesito. Si quiero tener una certeza absoluta en mi
resultado, hasta el ltimo decimal, mi muestra tendr que ser
tan grande como mi universo.
Pero el tamao de la muestra tiene una propiedad
fundamental que explica porqu el muestreo se usa tanto en
tantos mbitos del conocimiento. Esta propiedad podra
resumirse como sigue: a medida que estudio universos
mayores, el tamao de muestra que necesito cada vez
representa un porcentaje menor de dicho universo.
Este fenmeno lo explican de forma muy didctica en
Gaussianos.com, un interesante blog dedicado a las
matemticas. Supongamos que queremos hacer una encuesta
para saber un porcentaje (podra ser el de gente que fuma)
con un nivel de error determinado, por ejemplo un margen de
error del 5% y una confianza del 95%. Si el universo a
estudiar fuese de tan slo 100 personas, mi muestra tendra
que ser de 79,5 individuos (es decir, 79,5% del universo, lo
que representa un parte muy importante del total del
universo). Si el universo fuese de 1.000 personas, mi muestra
debera ser de 277,7 personas (27,7% del universo). Y si mi
universo fuese de 100.000 personas, la muestra necesaria
sera de 382,7 personas (3,83% del universo).
Por lo tanto, a medida que trabajo con universos ms
grandes, la muestra que necesito debe ir creciendo pero de
forma no proporcional, tiende a estancarse y cada vez
representa un porcentaje ms pequeo del universo. De
hecho, a partir de cierto tamao de universo (en torno a
100.000 individuos), el tamao de la muestra ya no necesita
crecer ms. La siguiente tabla nos muestra algunos ejemplos:
Tamao de muestra necesaria para tener un error del
5% con un nivel de confianza del 95%

Universo

Muestra
necesaria

10

10

100%

100

80

80%

1.000

278

27,8%

10.000

370

3,7%

100.000

383

0,38%

1.000.000

384

0,038%

10.000.000

385

0,004%

100.000.000

385

0,0004%

Los datos anteriores nos dicen que por grande que sea el
universo, con 385 personas puedo estudiar cualquier dato con
el mismo nivel de error (margen de 5%, confianza de 95%).
Por esta razn el muestreo es tan poderoso: nos permite
hacer afirmaciones altamente precisas de una gran cantidad
de individuos a travs de un parte muy pequea de los
mismo.
Como contrapartida, el ejemplo anterior ilustra que el
muestreo no funciona bien en universos pequeos. Si tengo
una clase de 10 alumnos, la opinin de cada uno de ellos es
fundamental para conocer la opinin global, no puedo
prescindir de ninguno. Si no quiero superar el error que nos
hemos propuesto, en un universo de 10 individuos necesito
encuestar a todos ellos.

Ventajas e inconvenientes del muestreo


Resumimos a continuacin las principales ventajas e
inconvenientes de usar muestreo frente a estudiar todo un
universo.
Ventajas:
Necesitamos estudiar menos individuos, necesitamos
menos recursos (tiempo y dinero).
La manipulacin de datos es mucho ms simple. Si
con una muestra de 1.000 personas tengo suficiente,
para qu quiero analizar un fichero de millones de
registros?
Inconvenientes:
Introducimos error (controlado) en el resultado, debido
a la propia naturaleza del muestreo y a la necesidad
de generalizar resultados.

Tenemos el riesgo de introducir sesgos debido a una


mala seleccin de la muestra. Por ejemplo, si la forma
en que selecciono individuos para la muestra no es
aleatoria, mis resultados pueden verse seriamente
afectados.

La muestra aleatoria simple: definicin y alternativas


La teora del muestreo se basa en el concepto de muestra
aleatoria simple. Una muestra aleatoria simple es aquella
muestra en la que se seleccionan individuos del universo de
forma totalmente aleatoria. Esto implica que todos los
individuos deben tener idntica probabilidad (no nula) de ser
seleccionados en mi muestra.
Pero una cosa es la teora y otra la prctica. Slo en entornos
muy controlados es posible hacer muestras aleatorias. Por
otra parte, cuando tenemos universos compuestos por grupos
homogneos (entre si) de personas, podemos aprovechar esta
agrupacin para mejorar la calidad de mi muestra (o reducir
el tamao de la misma).

MUESTREO PROBABILSTICO O
NO PROBABILSTICO
Escrito por Carlos Ochoa el 27 de febrero 2015
Vimos en un reciente post qu es el muestreo y qu ventajas
nos ofrece cuando queremos estudiar una poblacin. Hoy
veremos las dos grandes famlias de tcnicas de muestreo
existentes. Para ello, empezaremos definiendo el concepto
de marco muestral.
Marco muestral

Un marco muestral es una lista de elementos que componen


el universo que queremos estudiar y de la cul se extrae la
muestra. Estos elementos a investigar pueden ser individuos,
pero tambin pueden ser hogares, instituciones y cualquier
otra cosa susceptible de ser investigada. Cada uno de estos

elementos presentes en el marco muestral se conoce


como unidades muestrales.

Pongamos un ejemplo. Supongamos que queremos medir la


satisfaccin de los clientes de una empresa. Para poder
generar un marco muestral, podramos acceder al sistema
informtico de la empresa y extraer una lista de todas las
personas que han contratado un producto en el ltimo ao.
Cada una de las personas de esa lista seran unidades
muestrales. Seleccionando un conjunto de estos clientes,
obtendra una muestra.
La proporcin existente entre el tamao de la muestra y el
tamao del marco muestral se conoce como fraccin
muestral, y ya vimos en un post anterior que esta fraccin
junto al tamao del marco muestral, define la precisin de los
resultados que obtendr al encuestar la muestra.
Muestreo probabilstico

Hablaremos de muestro probabilstico siempre que se


cumplan
dos
condiciones:
(1) Todos los elementos de mi poblacin tienen una
probabilidad mayor de cero de ser seleccionados en la
muestra.
(2) Conozco de forma precisa dicha probabilidad para cada
elemento, lo que se conoce como probabilidad de inclusin.
El cumplimiento de ambos criterios es el que hace posible
obtener resultados no sesgados cuando estudio la muestra.
En ocasiones, estos resultados no sesgados requieren usar
tcnicas de ponderacin (weighting), pero esta ponderacin
es posible precisamente porque conozco qu probabilidad
tengo de que cada individuo sea seleccionado en mi muestra.
Las muestras generadas en estas condiciones se conocen
tambin como muestras probabilsticas.

La definicin anterior nos lleva a concluir que slo podemos


hacer muestreo probabilstico si dispongo de un marco
muestral. El censo de un pas, el conjunto de direcciones de
hogares en una poblacin o la lista de clientes de una
empresa, son ejemplos de marcos muestrales que hacen
posible un muestreo probabilstico. En cada uno de estos
casos, el universo a estudiar es diferente: habitantes de un
pas, hogares de una poblacin y clientes de una empresa,
respectivamente.
Una vez tengo un marco muestral, la forma exacta que
empleo para seleccionar mi muestra define las diferentes
tcnicas de muestreo probabilstico: Muestreo aleatorio
simple, muestreo sistemtico, muestreo estratificado,
muestreo por conglomerados, muestreo desproporcionado
Muestreo no probabilstico

Sin embargo, no es sencillo cumplir con los requisitos


impuestos
por
el
muestreo
probabilstico:
(1) Disponer de un marco muestral es algo relativamente
poco
habitual
en
estudios
de
mercado.
(2) Lograr que todos los individuos de la poblacin tengan una
probabilidad no nula de ser seleccionados es un requisito
igualmente exigente, ms an conocer la probabilidad de
inclusin exacta de cada unidad muestral. Todos los individuos
que no pueden ser seleccionados en una muestra se suelen
referir como unidades fuera de cobertura.
Por todas estas razones, as como por razones de coste, los
investigadores recurren con frecuencia a otras tcnicas de
muestreo, agrupadas dentro de lo que se conoce como
muestreo no probabilstico. En estas tcnicas alternativas, es
habitual seleccionar elementos para la muestra basndose en
hiptesis relativas a la poblacin de inters, lo que se conoce
como criterios de seleccin. Por ejemplo, seleccionar una
muestra buscando individuos por la calle, tratando de que la
mitad sean hombres y la mitad mujeres (coincidiendo con la
distribucin que se supone en la poblacin) sera un criterio
de muestreo no probabilsitico.
En estos casos, debido a que la seleccin de las unidades de
la muestra no es aleatorio, cuando hablamos de muestreo no
probabilstico no deberamos hablar de estimaciones de error.
Dicho de otra forma, una muestra no probabilstica nos

informa de cmo es un universo pero no nos permite saber


con qu precisin: no podemos establecer unos mrgenes de
error y unos niveles de confianza.
Algunas tcnicas de muestreo de este tipo son: el muestreo
por conveniencia, muestreo secuencial, muestreo por cuotas,
muestreo discrecional y muestreo por bola de nieve.
Error de muestreo

Tal y como hemos indicado, no es posible conocer qu margen


de error vamos a tener en un estudio (por ejemplo, los
resultados de una encuesta) cuando empleamos muestreo no
probabilstico. Esto incluye encuestas hechas seleccionando a
personas por la calle y entrevistndolas cara a cara, o
haciendo llamadas telefnicas al azar o a travs de una
muestra obtenida en un panel online. En ninguno de estos
casos se cumplen los criterios exigidos por el muestreo
probabilstico: tener un marco muestral con unidades para las
que puedo calcular la probabilidad de que sean seleccionadas
en mi muestra. En encuestas cara a cara por la calle no tengo
el listado de individuos que componen el universo. En la
encuesta telefnica, aunque disponga de un listado telefnico,
no todos los individuos tienen un telfono fijo o aparecen en
las guas pblicas. En el caso de un panel online, las personas
que no acceden a internet no pueden se seleccionadas y
tienen probabilidad de inclusin nula.
Sin embargo, es habitual encontrar estudios hechos con estas
tcnicas que indican margen de error y nivel de confianza. Es
una prctica formalmente incorrecta, pero que suelen usar los
investigadores con el objetivo de dar una indicacin de la
influencia que tiene el tamao muestral empleado en la
precisin de los resultados. Debera leerse como si esta
muestra fuese probabilstica, ofrecera un margen de error X.
A este respecto, hay diversidad de opiniones sobre la bondad
de indicar el margen de error en estas circunstancias, como
se puso de manifiesto en un debate descrito en el siguiente
post.

MUESTREO PROBABILSTICO:
MUESTREO ESTRATIFICADO
Escrito por Carlos Ochoa el 16 de abril 2015
Vimos en un post anterior la definicin, ventajas e
inconvenientes del muestreo aleatorio simple. Veamos ahora
el muestreo estratificado.

Esta tcnica, perteneciente a la familia de muestreos


probabilsticos, consiste en dividir toda la poblacin objeto de
estudio en diferentes subgrupos o estratos disjuntos, de
manera que un individuo slo puede pertenecer a un estrato.
Una vez definidos los estratos, para crear la muestra se
seleccionan individuos empleando una tcnica de muestreo
cualquiera a cada uno de los estratos por separado. Si por

ejemplo empleamos muestreo aleatorio simple en cada


estrato,
hablaremos
de muestreo
aleatorio
estratificado (M.A.E. en adelante). Del mismo modo,
podramos usar otras tcnicas de muestreo en cada estrato
(muestreo sistemtico, aleatorio con reposicin, etc.).
Los estratos suelen ser grupos homogneos de individuos,
que a su vez son heterogneos entre diferentes grupos. Por
ejemplo, si en un estudio esperamos encontrar un
comportamiento muy diferente entre hombres y mujeres,
puede ser conveniente definir dos estratos, uno por cada
sexo. Si la seleccin de estos estratos es correcta (1) los
hombres deberan comportarse de forma parecida entre ellos,
(2) las mujeres deberan comportarse de forma muy similar
entre ellas y (3) hombres y mujeres deberan mostrar
comportamientos dispares entre s.
Si la anterior condicin se cumple (estratos homogneos
internamente, heterogneos entre s) el uso del muestreo
aleatorio estratificado reduce el error muestral, mejorando la
precisin de nuestros resultados al realizar un estudio sobre la
muestra.
Es relativamente habitual definir estratos de acuerdo a
algunas variables caractersticas de la poblacin como son la
edad, sexo, clase social o regin geogrfica. Estas variables
permiten dividir fcilmente la muestra en grupos mutuamente
excluyentes y con bastante frecuencia, permiten discriminar
comportamientos diferentes dentro de la poblacin.

Tipos de muestreo estratificado


Dependiendo del tamao que asignamos a los estratos,
hablaremos de diferentes tipos de muestreo estratificado.
Tambin se acostumbra a hablar de diferentes formas de
afijacin de la muestra en estratos.
(1) Muestreo estratificado proporcionado
Cuando seleccionamos una caracterstica de los individuos
para definir los estratos, suele ocurrir que el tamao de las
subpoblaciones resultantes en el universo son diferentes. Por
ejemplo, queremos estudiar el % de la poblacin que fuma en
Mxico y pensamos que la edad puede ser un buen criterio
para estratificar (es decir, pensamos que existen diferencias

importantes en el hbito de fumar dependiendo de la edad).


Definimos 3 estratos: menores de 20 aos, de 20 a 44 aos y
mayores de 44 aos. Es de esperar que al dividir toda la
poblacin mexicana en estos 3 estratos no resulten grupos de
igual tamao. Efectivamente, si miramos datos oficiales,
obtenemos:
* Estrato 1 Poblacin Mexicana menor de 19 aos: 42,4
millones (41,0%)
* Estrato 2 Poblacin Mexicana de 20 a 44 aos: 37,6
millones (36,3%)
* Estrato 3 Poblacin Mexicana mayor de 44 aos: 23,5
millones (22,7%)
Si usamos muestreo estratificado proporcionado, la
muestra deber tener estratos que guarden las mismas
proporciones observadas en la poblacin. Si en este ejemplo
queremos crear una muestra de 1.000 individuos, los estratos
tendrn que tener un tamao como sigue:
Estrato
1
2
3

Poblacin
42,4M
37,6M
23,5M

Proporcin
41,0%
36,3%
22,7%

Muestra
410
363
227

(2) Muestreo estratificado uniforme


Hablaremos de una afijacin uniforme cuando asignamos el
mismo tamao de muestra a todos los estratos definidos, sin
importar el peso que tienen esos estratos en la poblacin.
Siguiendo con el ejemplo anterior, un muestreo estratificado
uniforme definira la siguiente muestra por estrato:
Estrato
1
2
3

Poblacin
42,4M
37,6M
23,5M

Proporcin
41,0%
36,3%
22,7%

Muestra
334
333
333

Esta tcnica favorece los estratos que tienen menos peso en


la poblacin, equiparndolos en importancia a los estratos
ms relevantes. Globalmente, reduce la eficiencia de nuestra
muestra (menor precisin en los resultados), pero como
contrapartida permite estudiar caractersticas particulares de

cada estrato con mayor precisin. En nuestro ejemplo, si


queremos emitir alguna afirmacin especfica sobre la
poblacin del estrato 3 (mayores de 44 aos), podremos
hacerlo con menor nivel de error muestral si empleamos una
muestra de 333 unidades que si lo hacemos con una muestra
de 227 (como ocurra en el muestreo estratificado
proporcional).
(3) Muestreo estratificado ptimo
desviacin estndar)

(respecto

la

En este caso, el tamao de los estratos en la muestra no


guardar proporcionalidad con la poblacin. Por el contrario,
se define el tamao de los estratos proporcionalmente a la
desviacin estndar de las variables objeto de estudio. Es
decir, se toman estratos de mayor tamao en los estratos con
mayor variabilidad interna para representar mejor en el total
de la muestra los grupos poblacionales ms difciles de
estudiar.

Eficiencia de los diferentes muestreos estratificados


Las preguntas inevitables son: cuando conviene emplear la
estratificacin?, qu tipo de estratificacin es ms
conveniente?
El muestreo estratificado proporcional produce
siempre menor o igual error muestral que el
muestreo aleatorio simple, es decir, es ms
preciso. La igualdad se produce cuando las medias o
las proporciones que estamos analizando son iguales
en todos los estratos. Por lo tanto, la estratificacin
produce ms beneficio cuanto ms diferentes sean los
estratos entre s.
El muestreo estratificado ptimo es siempre
igual
o
ms
preciso
que
el
muestreo
estratificado proporcional. Ambos mtodos son
igual de precisos cuando las desviaciones tpicas
dentro de cada estrato son iguales, en cuyo caso
ambos mtodos son totalmente equivalentes. Por lo
tanto, la estratificacin ptima produce ms beneficio
cuanto ms diferencias existan entre las desviaciones
dentro de cada grupo, situacin en la que podremos

reducir el tamao muestral de los grupos ms


homogneos en beneficio de los ms heterogneos.
Como contrapartida, es un mtodo ms complejo y
que requiere tener mucha informacin a priori de la
muestra que estudiamos, algo que normalmente no
tenemos.

Tamaos de muestra requeridos por cada tcnica


Vemos que la estratificacin puede proporcionar beneficios. Si
estas tcnicas pueden emplearse para estimar de forma ms
precisa ya sean medias (p.e. media de cigarrillos consumidos
por los fumadores de Mxico) o proporciones (p.e. proporcin
de la poblacin de Mxico que fuma), tambin pueden
permitirnos reducir el tamao de muestra requerido para
lograr una estimacin con un nivel de error determinado.
La siguiente tabla resume el tamao de muestra requerido al
emplear cada tcnica, en funcin del error mximo que
estamos dispuestos a aceptar y de las caractersticas del
propio universo, que consideraremos de tamao infinito (si
fuese finito, debe aplicarse un factor de correccin).

Para interpretar el cuadro anterior es necesario tener en


cuenta lo siguiente:

L es el nmero de estratos en que particionamos la


muestra y h es un ndice que se refiere a un estrato
concreto. Por lo tanto, h puede variar entre 1 y L
estratos.
p es la proporcin que buscamos en el total de la
poblacin (p.e. % de fumadores). Por lo tanto, (1-p) es
la proporcin de la muestra complementaria, la que no
cumple el criterio buscado (no fumadores). Del mismo
modo, ph es dicha proporcin dentro de cada uno de
los estratos.
2 es la varianza que el dato buscado (en el caso de
estimar medias) tiene en el total de la poblacin.
Asimismo, h2 es la varianza dentro de cada estrato.
e es el margen de error aceptado.
Wh es el peso que el estrato tiene en la muestra
(tamao del estrato respecto al total de la muestra). Si
hablamos de estratificacin proporcional, cada Wh es
igual a la proporcin que ese estrato representa en la
poblacin. Si hablamos de estratificacin ptima, cada
Wh se calcula en funcin de la dispersin dentro de
cada estrato.
Es posible demostrar a partir de las frmulas anteriores que
los diferentes mtodos de estratificacin slo reducen el
tamao de la muestra si los valores de p y vara entre
estratos. De lo contrario, todas las expresiones son
equivalentes. Veamos un ejemplo: si tomamos la expresin de
tamao de muestra requerido para estimar una media
mediante un muestreo estratificado ptimo

y consideramos que todas las varianzas de los estratos son


iguales (h=) y que el tamao de los estratos es idntico
(Wh=1/L), el resultado que obtenemos es

MUESTREO PROBABILSTICO:
MUESTREO SISTEMTICO
Escrito por Carlos Ochoa el 5 de mayo 2015
Siguiendo con nuestra serie de posts dedicados a las tcnicas
de muestreo y tras examinar el muestreo estratificado, hoy
echaremos un vistazo al muestreo sistemtico.

El muestreo sistemtico era muy popular en el pasado, antes


de que la incorporacin de la informtica hiciese trivial un
problema que siempre haba dado muchos quebraderos de
cabeza a los investigadores: elegir individuos de forma
aleatoria dentro de una muestra. En la medida en que los
ordenadores nos han facilitado la tarea de generar nmeros
aleatorios, este problema ha desaparecido.
Tambin se sigue utilizando para seleccionar individuos a lo
largo del tiempo. Por ejemplo, para estudiar la satisfaccin de
un servicio, podemos elegir sistemticamente encuestar a 1
de cada n clientes que nos visitan. En estas circunstancias, en
las que puede existir diferente varianza entre individuos en

diferentes periodos de tiempo, el muestreo sistemtico puede


ser incluso ms preciso que el muestreo aleatorio puro.
En qu consiste el muestreo sistemtico?
Es una tcnica dentro de la categora de muestreos
probabilsticos y que por lo tanto requiere tener un control
preciso del marco muestral de individuos seleccionables junto
con la probabilidad de que sean seleccionados consistente
en escoger un individuo inicial de forma aleatoria entre la
poblacin y, a continuacin, seleccionar para la muestra a
cada ensimo individuo disponible en el marco muestral.
El muestreo sistemtico es un proceso muy simple y que slo
requiere la eleccin de un individuo al azar. El resto del
proceso es trivial y rpido. Los resultados que obtenemos son
representativos de la poblacin, de forma similar al muestreo
aleatorio simple, siempre y cuando no haya algn factor
intrnseco en la forma en que los individuos estn listados que
haga que se reproduzcan ciertas caractersticas poblacionales
cada cierto nmero de individuos. Este suceso es realmente
poco frecuente.
El proceso
De forma concreta, el proceso que seguiramos en un
muestreo sistemtico sera el siguiente:
1. Elaboramos una lista ordenada de los N individuos de la
poblacin, lo que sera el marco muestral.
2. Dividimos
el
marco
muestral en n fragmentos,
donde n es el tamao de muestra que deseamos. El tamao
de estos fragmentos ser
K=N/n
donde K recibe el nombre de intervalo o coeficiente de
elevacin.
3. Nmero de inicio: obtenemos un nmero aleatorio
entero A, menor o igual al intervalo. Este nmero
corresponder al primer sujeto que seleccionaremos para la
muestra dentro del primer fragmento en que hemos dividido
la poblacin.
4. Seleccin
de
los
n-1
individuos
restantes: Seleccionamos los siguientes individuos a partir

del individuo seleccionado aleatoriamente, mediante una


sucesin aritmtica, seleccionando a los individuos del resto
de fragmentos en que hemos dividido la muestra que ocupan
la misma posicin que el sujeto inicial. Esto equivale a decir
que seleccionaremos los individuos
A, A + K, A + 2K, A + 3K, ., A + (n-1)K
Ejemplo
Supongamos que tenemos un marco muestral de 5.000
individuos y deseamos obtener una muestra de 100 de ellos.
Dividimos en primer lugar el marco muestral en 100
fragmentos
de
50
individuos.
A
continuacin
seleccionamos un nmero aleatorio entre 1 y 50, para extraer
el primer individuo al azar del primer fragmento: por ejemplo
el 24. A partir de este individuo, queda definida la muestra
extrayendo los individuos de la lista con intervalos de 50
unidades, tal y como sigue
24, 74, 124, 174, , 4.974
Propiedades del muestreo sistemtico
Las principales ventajas son:
o Obtiene buenas propiedades de representatividad,
similares a la de un muestreo aleatorio simple o
incluso superiores, pero de forma ms rpida y simple,
al evitar la necesidad de generar tantos nmeros
aleatorios como individuos en la muestra.
o Respecto al muestreo aleatorio, el muestreo
sistemtico puede garantizarnos una seleccin
perfectamente equitativa de la poblacin. Esto puede
ser de utilidad si se distinguen grupos dentro de
universo, lo que nos podra evitar la necesidad de usar
estratos. Si existe diferente varianza entre los
individuos de los fragmentos, este muestreo puede
ser mejor que el aleatorio. Lo veremos luego.
Como desventajas, slo existe la ya mencionada posibilidad
de que el orden en que se han listado los candidatos a la
muestra tenga algn tipo de periodicidad oculta que coincida
con el intervalo escogido para generar la muestra sistemtica.
En este caso, podramos generar una muestra sesgada.
Eficiencia del muestreo sistemtico

El muestreo sistemtico se ide para mejorar las propiedades


del muestreo aleatorio simple, pero el grado de mejora es
variable dependiendo de las propiedades del universo
estudiado.
Para entender las propiedades de este muestreo, hay que
tener en cuenta una cosa: si fijamos el intervalo o coeficiente
de elevacin segn el tamao de la muestra que necesitamos,
slo hay un elemento aleatorio dentro del proceso de
muestreo: la unidad inicial que seleccionamos del primer
bloque de individuos. El resto queda fijado de antemano. Esto
equivale a decir que slo tenemos k posibles muestras
diferentes a obtener y que el muestreo es simplemente
escoger una de las k muestras disponibles.
Es posible demostrar que cuanto ms supera la varianza
dentro de las k posibles muestras que podemos generar a la
varianza poblacional, ms precisin ganamos usando el
muestreo sistemtico respecto al aleatorio simple. Lo anterior
puede interpretarse diciendo que el muestreo sistemtico es
ms preciso que el aleatorio simple cuando la variabilidad
dentro de las posibles muestras es superior a la variabilidad
dentro de las unidades de la poblacin. La precisin del
muestreo sistemtico coincide con la del aleatorio simple
cuando ambas variabilidades coinciden, y esto se da cuando
la disposicin de los elementos en la poblacin es totalmente
aleatoria.

MUESTREO PROBABILSTICO:
MUESTREO POR
CONGLOMERADOS
Escrito por Carlos Ochoa el 18 de mayo 2015
Con este post dedicado al muestreo por conglomerados
cerramos el primer gran bloque de posts dedicados
almuestreo probabilstico. A partir de la prxima publicacin
abordaremos tcnicas de muestreo no probabilstico, las ms
habituales cuando hablamos de investigacin online.

El muestreo por conglomerados es una tcnica que aprovecha


la existencia de grupos o conglomerados en la poblacin que
representan correctamente el total de la poblacin en
relacin a la caracterstica que queremos medir. Dicho de otro
modo, estos grupos contienen toda la variabilidad de la
poblacin. Si esto sucede, podemos seleccionar nicamente
algunos de estos conglomerados para realizar el estudio.
Podemos ver esta tcnica desde otro punto de vista. Mientras
que en todas las tcnicas vistas hasta ahora las unidades de
muestreo coinciden con las unidades a estudiar (individuos),
en el muestreo por conglomerados las unidades de muestreo
son grupos de unidades de estudio, algo que puede resultar
muy beneficioso en relacin al coste del propio muestreo. A
cambio, es habitual obtener una menor precisin al usar esta
tcnica, causada por falta de heterogeneidad dentro de los
conglomerados.
El proceso de muestreo
El primer paso para aplicar esta tcnica es definir los
conglomerados. Se trata de identificar una caracterstica que
permita dividir la poblacin en grupos disjuntos (sin

solapamiento) y exhaustiva (todos los individuos deben estar


en un grupo), de tal manera que los grupos no difieran entre
s en relacin a aquello que queremos medir. Una vez hemos
definido estos conglomerados, seleccionaremos al azar
algunos de ellos para estudiarlos.
Un criterio habitual para definir conglomerados es el
geogrfico. Por ejemplo, si queremos estudiar que proporcin
de la poblacin argentina fuma, podemos dividir el total de la
poblacin en provincias y seleccionar algunas de ellas para
ser estudiadas. Si no tenemos razones para pensar que el %
de fumadores va a cambiar de una provincia a otra, esta
solucin nos permitir concentrar el esfuerzo de muestreo en
un nico entorno geogrfico. Si el estudio se va a hacer
mediante entrevistas personales, esto representa un
importante ahorro de costes de desplazamientos.
Una vez definimos los conglomerados, el siguiente paso es
seleccionar los conglomerados a estudiar, ya sea mediante un
muestreo aleatorio simple o sistemtico.
Por ltimo, una vez hemos seleccionado los conglomerados a
estudiar, podemos investigar a todos los sujetos que forman
parte de los mismos, o bien aplicar un nuevo proceso de
muestreo dentro del conglomerado, por ejemplo obteniendo
una muestra mediante muestreo aleatorio simple o
sistemtico. Si optamos por esta posibilidad, estaremos
hablando de un muestreo en dos etapas o bietpico: la
primera etapa es la seleccin del conglomerado, la segunda la
de individuos dentro del conglomerado. Si por el contrario
estudiamos todos los individuos del conglomerado,
hablaremos de muestreo por conglomerados unietpico.
Muestreo estratificado y muestreo por conglomerados
La idea del muestreo por conglomerados recuerda a la
del muestreo estratificado. En ambos casos dividimos la
poblacin en grupos. Sin embargo, los principios detrs de
ambas tcnicas son en cierto modo opuestos.
El muestreo estratificado es especialmente adecuado cuando
los grupos (estratos) son muy homogneos internamente y
muy diferentes entre s. En ese caso, conviene asegurar que
tenemos representantes en nuestra muestra que provienen
de todos los estratos. Por el contrario, el muestreo por
conglomerados es muy adecuado cuando los grupos en que

dividimos la poblacin son muy similares entre s, por lo que


no hay gran diferencia entre estudiar individuos de un grupo o
de otro.
Es por ello que pese a que ambas tcnicas dividen la
poblacin (en estratos o conglomerados) el proceso de
seleccin de individuos es radicalmente diferente.
Ventajas
y
desventajas
conglomerados

del

muestreo

por

La principal ventaja de esta tcnica es de tipo


operativa: seleccionar un conglomerado a estudiar
suele ser ms fcil y econmico que hacer una
muestra aleatoria o sistemtica. Hemos visto por
ejemplo que usar conglomerados geogrficos puede
representar un importante ahorro en desplazamientos
de personas.
Curiosamente, es habitual hacer estudios a travs de
Internet en los que se sigue pensando en trminos de
estudiar slo unas zonas geogrficas, cuando en
realidad a travs de Internet no obtenemos ningn
beneficio operativo; al contrario, incurrimos en mayor
riesgo de tener menor precisin por diferencias entre
las regiones estudiadas y el resto de la poblacin. Esta
prctica es una herencia injustificada de tcnicas que
eran buenas en entrevistas personales, pero que no lo
son al usar otras metodologas.
Como principal inconveniente, al usar muestreo por
conglomerados corremos un riesgo importante: que
los conglomerados no sean realmente homogneos
entre ellos. En el ejemplo anterior sobre fumadores en
Argentina, podra suceder que en una de las provincias
exista ms propensin a fumar, por ser una regin
ms urbana, por razones culturales, etc.
Eficiencia del muestreo por conglomerados
Cmo podemos comparar esta tcnica con otras vistas con
anterioridad? Lo bien o mal que va a funcionar esta tcnica va
a depender, de forma similar a como ocurra en el muestreo
estratificado, de la relacin entre varianza dentro y fuera de
los conglomerados.

Esta relacin se suele expresar con un coeficiente de


correlacin intraconglomerados (), que se define como
el coeficiente de correlacin lineal entre todos los pares de
valores de la variable en estudio medidos sobre las unidades
de los conglomerados y extendido a todos los conglomerados.
En
definitiva,
este
coeficiente
es una
medida
de
la homogeneidad en el interior de los conglomerados.
Cuanto menor sea el coeficiente de homogeneidad
intraconglomerados , mayor eficiencia arrojar el muestreo
por conglomerados. Recordemos que lo ideal es que los
conglomerados sean tan heterogeneos como el total de la
muestra, con el fin de que la seleccin de un conglomerado
concreto nos de la misma informacin que la seleccin de
individuos al azar del total de la poblacin.
Si comparamos el muestreo aleatorio simple con el muestreo
por conglomerados, es posible demostrar que si =0 ambos
mtodos son equivalentes. Esta condicin implica que los
conglomerados son exactamente tan heterogeneos como el
total de la poblacin. El peor caso sera =+1 , mientras que
el ms favorable sera el de=-1/(M-1), donde M es el
tamao del conglomerado. Sin embargo, normalmente va a
ser siempre mayor que 0, ya que lo normal es que las
unidades de un conglomerado tengan cierto parecido entre s.
Otra forma de ver el impacto de este problema es calcular el
tamao de muestra necesario al emplear muestreo por
conglomerados para lograr la misma precisin de un
muestreo aleatorio simple. Esta expresin es la que sigue
nc = na (1 + (M-1) )
donde nc es el tamao de muestra en muestreo por
conglomerados y naes el tamao de muestra que
necesitaramos en muestreo aleatorio simple. Por lo tanto, el
factor (1+(M-1) es la variacin del tamao de muestra que
necesitamos debido al uso de conglomerados. Normalmente
ser un incremento. Este factor se conoce como efecto de
diseo.
E

MUESTREO NO
PROBABILSTICO: MUESTREO
POR CONVENIENCIA
Escrito por Carlos Ochoa el 29 de mayo 2015
Iniciamos con este post la segunda parte de nuestra serie
dedicada a tcnicas de muestreo. Esta segunda parte
describir las tcnicas de muestreo no probabilstico.
Recordemos: hablamos de muestreo no probabilstico cuando
no tenemos acceso a una lista completa de los individuos que
forman la poblacin (marco muestral) y, por lo tanto, no
conocemos la probabilidad de que cada individuo sea
seleccionado para la muestra.
La principal consecuencia de esta falta de informacin es que
no podremos generalizar resultados con precisin estadstica.
El muestreo por conveniencia

Es una tcnica comnmente usada. Consiste en seleccionar


una muestra de la poblacin por el hecho de que sea
accesible. Es decir, los individuos empleados en la
investigacin se seleccionan porque estn fcilmente
disponibles, no porque hayan sido seleccionados mediante un
criterio estadstico. Esta conveniencia, que se suele traducir
en una gran facilidad operativa y en bajos costes de
muestreo, tiene como consecuencia la imposibilidad de hacer
afirmaciones generales con rigor estadstico sobre la
poblacin.
Por ejemplo, supongamos que queremos conocer la opinin
de los estudiantes universitarios chilenos acerca de la poltica.
Una muestra probabilstica requerira acceder a un censo del
total de estudiantes de todas las universidades chilenas con el
fin de seleccionar al azar un grupo de individuos y
encuestarlos. Una muestra por conveniencia podra consistir
en dirigirme a 3 universidades cercanas, simplemente porque
estn en la poblacin en la que reside el encuestador, y
encuestar a unos cuantos individuos que acepten participar al
salir de las aulas por la maana.

Las limitaciones de este tipo de muestreo son obvias. En el


ejemplo anterior, podra suceder que diferentes tipos de
universidades correlacionen con estratos sociales y con
opiniones polticas. Es ms, si selecciono estudiantes de 3
universidades concretas y los encuesto por la maana, sus
opiniones podran ser diferentes de las de estudiantes del
turno de tarde (que tal vez trabajan al mismo tiempo que
estudian).
Significa lo anterior que los resultados de una muestra por
conveniencia son totalmente irrelevantes, que no nos dicen
nada de la poblacin? No exactamente. Si tenemos buenas
razones para pensar que la seleccin por conveniencia no va
a introducir sesgos respecto al total de la poblacin, los
resultados que obtendr pueden ser una buena imagen del
universo estudiado. El problema es que no sabr
exactamente cmo de buena es esa imagen: no puedo
usar herramientas estadsticas como el margen de error y el
intervalo de confianza para medir la precisin de mis

resultados. Los lectores del estudio tendrn que confiar en los


criterios de la seleccin hecha por el investigador.
Los estudios clnicos

No debemos ver el muestreo por conveniencia como un


mtodo intil. De hecho, es habitual su uso exitoso en muchos
mbitos. Por ejemplo, los estudios clnicos con voluntarios. En
dichos estudios, se solicita a personas con ciertas
caractersticas fsicas que acudan voluntariamente para
formar parte de algn tipo de investigacin o incluso algn
tratamiento. El investigador clnico que usa esta tcnica est
considerando que cualquier individuo que cumpla con una
cierta caractersticas (por ejemplo, ser diabtico) va a ser
representativo del universo. O dicho de otra manera, el hecho
de que un individuo vea o no vea la solicitud de voluntarios,
acceda o no a participar, sea de una regin o de otra, etc. no
va a afectar a sus resultados en el estudio.
A diferencia del ejemplo anterior sobre estudiantes chilenos,
en el caso del estudio clnico el uso de un muestreo por
conveniencia parece apropiado y no hace pensar que se
vayan a producir sesgos en los resultados. La clave est
en considerar si la conveniencia en la seleccin
realmente va a representar un sesgo.
Estudios piloto

Otro uso frecuente de este tipo de muestreo es la realizacin


de un estudio piloto. Una muestra por conveniencia en una
fase inicial de un proyecto nos puede dar informacin
sobre tendencias y resultadosque vamos a encontrar al
usar una muestra probabilstica. Esta informacin podemos
usarla para modificar el planteamiento del estudio antes de
incurrir en una tcnica de muestreo ms costosa.
Ventajas e inconvenientes

Dadas las caractersticas de este tipo de muestreo, sus pros y


sus contras son evidentes.
La principal virtud del muestreo por conveniencia es su
conveniencia! Simple, econmico, rpido Nos puede dar
informacin valiosa en muchas circunstancias, especialmente
cuando no existen razones fundamentales que diferencien a

los individuos que tengo accesibles de los que forman el total


de la poblacin.
El principal defecto, la falta de representatividad, la
imposibilidad de hacer aseveraciones estadsticas sobre los
resultados y el riesgo de incurrir en sesgos debido al criterio
de muestreo empleado. En el peor de los casos, mi muestra
conveniente puede presentar un sesgo sistemtico respecto al
total de la poblacin, lo que producira resultados
distorsionados.
Margen de error y nivel de confianza

Es un tema que tratamos en un post anterior. No es correcto


usar muestreo por conveniencia y expresar los resultados del
estudio indicando un margen de error y un nivel de confianza.
Sin embargo, es algo que se suele hacer.
Si optas por calcular ese margen de error, deberas indicar
que no corresponde a la muestra empleada, sino a una
muestra del tamao aleatoria simple de ese tamao. Y, en
cualquier caso, siempre que usemos una muestra por
conveniencia, deberamos acompaar los resultados con
una descripcin de cmo se ha obtenido dicha
muestra para que el lector valore qu credibilidad puede dar
a los resultados.

MUESTREO NO
PROBABILSTICO: MUESTREO
POR CUOTAS
Escrito por Carlos Ochoa el 12 de junio 2015
Llegamos al fin, en nuestra serie de posts dedicada al
muestreo, al mtodo estrella entre los muestreos no
probabilsticos: el muestreo por cuotas. Esta tcnica es la que
suele usarse en investigacin online a travs de
paneles. Podemos ver el muestreo por cuotas como la versin
no probabilstica del muestreo estratificado. Consta de
tres fases:

1. Segmentacin
En primer lugar, dividimos la poblacin objeto de estudio en
grupos de forma exahustiva (todos los individuos estn en un
grupo) y mutuamente exclusiva (un individuo slo puede
estar en un grupo), de forma similar a la divisin en estratos
empleada en el muestreo estratificado. Normalmente esta
segmentacin
se
hace
empleando
alguna
variable
sociodemogrfica como sexo, edad, regin o clase social.
2. Fijamos el tamao de las cuotas
A continuacin, fijamos el objetivo de individuos a encuestar
para cada uno de estos grupos. Normalmente definiremos
estos objetivos de forma proporcional al tamao del grupo en
la poblacin. Por ejemplo, si hemos definido unos segmentos
por sexo en una poblacin en la que hay un 60% de mujeres y
un 40% de hombres, y queremos obtener una muestra de
1.000 personas, definiremos un objetivo de 600 mujeres y 400
hombres. Estos objetivos se conocen como cuotas. En este
ejemplo, tendramos una cuota por sexo de 600 mujeres y
400 hombres. En ocasiones se definen cuotas no
proporcionales a la poblacin, por ejemplo para poder
profundizar en el anlisis de un grupo especfico.
3. Seleccin de participantes y comprobacin de cuotas
Por ltimo, se buscan participantes para cubrir cada una de
las cuotas definidas. En este punto es donde nos alejamos de
un muestreo probabilstico: en el muestreo por cuotas
aceptamos que la seleccin de individuos no sea
aleatoria, puede ser una seleccin mediante muestreo por
conveniencia. Por ejemplo, en un estudio en el que hayamos
definido una cuota de 100 personas menores de 25 aos y
100 personas de 25 o ms aos, podramos salir a la calle y
abordar a las personas que encontramos a nuestro paso,
preguntarles su edad y encuestarlas si no hemos cubierto
nuestro objetivo.

De acuerdo a la descripcin anterior, la diferencia entre el


muestreo estratificado y el muestreo por cuotas est en la
forma en que selecciono participantes. En el muestreo
estratificado dispongo de una lista de posibles entrevistados,
todos ellos con una cierta probabilidad (conocida) de ser
seleccionados. En el muestreo por cuotas no. Voy obteniendo
candidatos a formar parte de la muestra de forma no aleatoria
y voy comprobando antes de entrevistar si son vlidos para
mi estudio (es decir, si puede formar parte de una de mis
cuotas o ya he excedido mi objetivo). Cuando debo descartar
a un posible participante por efecto de una cuota (es la mujer
101 cuando mi cuota es de 100 mujeres), hablamos de un
individuo descartado por ser quota-full.

La eleccin de variables

La pregunta que nos podemos plantear es: qu variables


debo escoger en un muestreo por cuotas? cmo segmento la
poblacin? Esta cuestin es un factor clave en este tcnica.
Pensemos cual es la finalidad de usar cuotas: es lograr que
la muestra sea lo ms representativa posible del

universo estudiado. Cuando definimos cuotas por sexo y edad


en
una
muestra,
lo
que
garantizamos
es
que,
independientemente de que el mtodo de seleccin de
individuos no sea puramente aleatorio, al menos la muestra
va a guardar unas proporciones idnticas al universo en
cuanto a sexo y edad.
Visto desde este punto de vista, debemos elegir para definir
cuotas aquellas variables que cumplan doscondiciones: (1)
que ms puedan verse alteradas respecto a la poblacin por
el proceso de seleccin no aleatorio que empleamos, y (2)
que ms puedan incidir en el dato que queremos medir.

Veamos los dos criterios anteriores en un ejemplo concreto:


una muestra obtenida de un panel online. Supongamos que
queremos medir a travs de una muestra extrada de un
panel online el % de personas que fuman en una poblacin .
Qu variables deberamos seleccionar para definir cuotas?
De entrada, aquellas variables que pensemos que pueden
aparecer distorsionadas por el hecho de seleccionar la
muestra en un panel online respecto a la poblacin: por
ejemplo la edad (en los paneles online suele haber mayor
proporcin de jvenes que en la poblacin) y clase social (los
paneles tienen dificultades para captar personas de clases
bajas, especialmente en Amrica Latina).
Podramos prescindir de cuotas de regin. Los paneles
online no suelen captar en una regin concreta, sino que
captan a travs de medios online que son accesibles desde
cualquier regin. Salvo que estemos en un pas con grandes
diferencias entre regiones a nivel socioeconmico, no sera
necesario. Si, adems, no esperamos que haya diferencias en
el hbito de fumar por regiones, no tendra ningn beneficio
forzar una cuota de este tipo.
Si atendemos al segundo criterio (cuotas que puedan afectar
al resultado medido), podramos optar por aadir una cuota
de sexo: el hbito de fumar suele variar entre hombres y
mujeres y, salvo que trabajemos con un panel en el que nos
garanticen que la composicin por sexo es perfecta, es
recomendable controlar esta cuota tambin.

Muestreo por cuotas y representatividad

El uso de cuotas en un muestreo no probabilstico no nos va a


permitir transformarlo en probabilstico. Seguiremos sin poder
calcular el margen de error y el nivel de confianza sobre los
resultados. Es decir, el uso de cuotas no nos permite medir
el grado de precisin de nuestros resultados.

Significa esto que es lo mismo usar o no usar cuotas? Es el


muestreo por conveniencia es equivalente al muestreo por
cuotas? La respuesta es NO. El uso de cuotas pone cierto
control a los sesgos que pueden producirse por el mtodo de
seleccin empleado, nos garantiza que en una serie de
variables clave vamos a reproducir la composicin de la
poblacin en nuestra muestra. El problema es que, pese a que
es una prctica comn por parte de muchos investigadores,
no vamos a poder afirmar cuan representativa es nuestra
muestra. Las cuotas mejoran la representividad, pero no
sabemos cunto.
Pese a todo, el muestreo por cuotas es uno de los mtodos de
muestreo ms populares y prcticamente el nico mtodo

viable cuando hacemos investigacin online (salvo que


contemos con un panel probabilstico). Usar cuotas es un
sistema efectivo y econmico de obtener muestras que
proporcionan informacin relevante.

Ventajas e inconvenientes

La principal ventaja del muestreo por cuotas es que


ofrece resultados tiles a un coste efectivo y, si se han
elegido correctamente las variables sobre las que segmentar,
dichos resultados suelen ser fiables.
Los principales inconvenientes son dos: (1) la imposibilidad de
acotar el error que estamos cometiendo al usar este tipo de
muestreo y (2) el riesgo de obviar una cuota relevante en un
estudio. Por ejemplo, si en un estudio electoral no fijamos una
cuota por regiones y resulta que la tendencia de voto es muy
diferente en unas regiones respecto a otras, los resultados
globales estarn fuertemente distorsionados.
Errores frecuentes al usar cuotas en Internet

El muesteo por cuotas es muy popular. La mayor parte de


estudios telefnicos y personales, ante la falta de un marco
muestral preciso (como podra ser un censo de poblacin)
emplean cuotas para asegurar un nivel de representatividad
aceptable. Esta tcnica tambin predomina en estudios online
a travs de paneles. Sin embargo, el medio online tiene sus
particularidades y es frecuente que algunos investigadores no
las tengan en cuenta, limitndose a reproducir tcnicas
empleadas en medios offline. Esta prctica puede producir
resultados de menor calidad y en algunos casos mayores
costes.

Algunos ejemplos:
Cuotas geogrficas

* En offline la regin del respondiente es una variable


clave a controlar cuando hacemos encuestas personales, por
razones obvias. Si los encuestadores estn en una ciudad,
todos los respondientes sern de esa ciudad. Es por ello que
la regin es una cuota clave. Tambin es habitual limitar la
muestra a unas cuantas ciudades, las ms importantes de
cada pas, para reducir el coste.
* En online la regin no es tan importante, es simple
encontrar personas de diferentes ciudades. No tiene un sobrecoste encuestar gente de una o de diez ciudades. Por ello, si
el factor geogrfico no es clave, podramos no controlar las
cuotas geogrficas. Si es importante, podemos fijar cuotas
para obtener respuesta de todas las regiones, no de unas
pocas ciudades. De esta forma, obtendremos mejores datos y
a menor coste, ya que podemos usar todo el panel para
obtener resultados.

Cuotas por clase social


* En offlinela clase social no suele considerarse una cuota
clave en los pases europeos y en Norteamrica, al menos no
en todos los estudios. Las diferencias entre clases

sociales existen pero no son tan profundas como en otras


regiones como Latinoamrica. Justamente en esta ltima
zona, al recolectar los datos mediante entrevista personal, las
clases sociales altas son de difcil acceso mientras que las
clases sociales bajas son ms simples de obtener.
* En online la clase social es ms relevante que en offline,
especialmente en pases con una adopcin de Internet media
o baja. Curiosamente, en estos pases la situacin en Internet
es inversa a la situacin offline: es ms fcil acceder a clases
altas en Latinoamrica a travs de Internet y es muy difcil
acceder a clases bajas.

Cuotas por sexo y edad


* En offlinesexo y edad son variable tpicas a controlar
mediante cuotas. En campo personal no suelen dar muchos
problemas, mientras que en campo telefnico es ms sencillo
acceder a mujeres que a hombres, y a personas mayores
frente a jvenes. Con la irrupcin del mvil el problema se ha
agravado: los jvenes apenas usan el telfono fijo.
* En online ambas variables deben controlarse, igual que
en offline. Los paneles online acceden ms fcilmente a gente
joven, especialmente en la franja de los 20 a 35 aos.
Tambin es habitual que los paneles recluten ms mujeres
que hombres, porque son ms demandadas para estudios de
mercado, por lo que es necesario controlar la variable sexo.

MUESTREO NO
PROBABILSTICO: MUESTREO
POR BOLA DE NIEVE
Escrito por Carlos Ochoa el 30 de junio 2015
Finalizamos con este post nuestra serie dedicada a tcnicas
de muestro. Hoy vamos a hablar de una tcnica conocida
como bola de nieve (snowball sampling).

El muestreo por bola de nieve es una tcnica de muestreo no


probabilstica en la que los individuos seleccionados para ser
estudiados reclutan a nuevos participantes entre sus
conocidos. El nombre de bola de nieve proviene justamente
de esta idea: del mismo modo que una bola de nieve al rodar
por una ladera se va haciendo ms y ms grande, esta
tcnica permite que el tamao de la muestra vaya creciendo
a medida que los individuos seleccionados invitan a participar
a sus conocidos.

La bola de nieve se usa con frecuencia para acceder


a poblaciones de baja incidencia y a individuos de
difcil acceso por parte del investigador. En estudios en los
que se quiere estudiar un colectivo muy especfico (por
ejemplo, personas aficionadas a la filatelia o coleccionismo de
sellos), puede resultar mucho ms efectivo obtener una
muestra a travs de conocidos y amigos de los propios
coleccionistas, que mediante una seleccin puramente
aleatoria, en la que una gran cantidad de individuos
candidatos a participar seran descartados. Supuestamente,
es muy probable que un coleccionista de sellos conozca a
otros coleccionistas de sellos, lo que hace de esta tcnica una

forma efectiva de muestrear un colectivo que de otra manera


resultara de difcil acceso para el investigador.
Por lo tanto, la bola de nieve funciona especialmente bien
cuando el rasgo distintivo de la poblacin que queremos
estudiar tiende a agrupar a dichos individuos, a favorecer su
contacto social. Es algo ms habitual de lo que podra parecer
a simple vista. Es obvio que coleccionistas, practicantes de un
deporte o aficionados a un tipo de msica pueden cumplir con
esta propiedad. Pero tambin aplica a otros colectivos como
pacientes de una enfermedad rara, por poner un ejemplo, ya
que su circunstancia personal facilita que estas personas
entren en contacto con otras personas con el mismo rasgo
(por ejemplo, en la consulta del mdico, en asociaciones,
etc.).

Proceso
El proceso de creacin de una muestra mediante bola de
nieve se fundamenta en usar la red social de unos individuos
iniciales para acceder a un colectivo. Podramos dividir este
proceso en los siguientes pasos:
1. Definir un programa de participacin, en el que se
describa el proceso por el que un individuo invita o
refiere a otros para que participen.
2. Identificar colectivos u organizaciones que puedan
facilitar el acceso a unos individuos iniciales que
cumplan con el rasgo caracterstico del estudio.
3. Obtener contactos iniciales y pedirles su participacin.
Esta parte sera similar a una tcnica de muestreo
convencional, pero destinada a obtener un tamao de
muestra reducido.
4. Solicitar a los participantes, una vez finalizada la
entrevista, el acceso a otros contactos.
5. Asegurar la diversidad de contactos mediante una
correcta seleccin de los individuos iniciales y
promoviendo que la recomendacin no se limite a
contactos muy cercanos.

Tipos de muestreo bola de nieve

Bsicamente podemos identificar dos tipos de muestreo bola


de nieve:
1. Muestreo lineal: Cada individuo participante debe
recomendar a otro individuo, de forma que la muestra
crece a un ritmo lineal.
2. Muestreo exponencial: Cada individuo debe invitar a
participar a dos o ms individuos. De esta forma, cuanta
ms gente participa en el estudio, ms gente se aade
al mismo.

Ventajas e inconvenientes
Las principales ventajas de esta tcnica son:
Permite muestrear a poblaciones de difcil acceso.
Es un proceso econmico y sencillo.

Requiere poca planificacin y pocos recursos


humanos: los propios sujetos entrevistados hacen de
mano de obra.
Respecto a los inconvenientes:
Falta de control sobre cmo se constituye la muestra,
ya que est en manos de los propios encuestados y su
criterio para seleccionar nuevos individuos.
Como toda tcnica no probabilstica, la bola de
nieve no garantiza representatividad, ni permite
conocer el grado de precisin que ofrecer.
Esta tcnica es especialmente sensible al sesgo de
muestreo. Dado que los individuos participantes se
obtienen
por
invitacin
de
individuos
ya
seleccionados, podra suceder que todos los individuos
compartan
ciertas
caractersticas
o
rasgos,
independientemente del rasgo objeto de estudio, por
lo que el muestreo estara accediendo slo a un
subgrupo de la poblacin a estudiar. Este problema se
pone especialmente de manifiesto si la seleccin de
individuos iniciales no es suficientemente diversa.
Tamao de muestra incontrolado: la tcnica no
permite fijar a priori con precisin el tamao de
muestra que vamos a obtener.

Otras consideraciones
Sin duda, el principal problema de la bola de nieve es
el riesgo de sesgos de comunidad: accedemos a un
subgrupo de individuos dentro de nuestro target y el
reclutamiento de nuevos miembros no logra salir de ese
subgrupo. El nico remedio contra este mal es hacer una
buena seleccin inicial de individuos, que nos garantice que
cualquier subgrupo existente sea accesible en la red de
contactos de los individuos iniciales.
Cabe destacar que esta tcnica muchas veces es la nica
posible cuando nos dirigimos a colectivos reducidos en los
que no es posible tener un marco muestral. Es por ellos que
muchos investigadores trabajan en perfeccionar la tcnica
para corregir sus sesgos. En concreto, una de las tcnicas ms
prometedores
en
las
que
se
trabaja
se
conoce
como Respondent Driven Sampling, un sistema que trata de

corregir mediante un modelo matemtico los posibles sesgos


introducidos en la seleccin de individuos.
Finalizamos as la serie de posts dedicadas al muestreo,
esperamos que os haya resultado de utilidad y, como
siempre, cualquier duda la aclararemos va comentarios. Nos
vemos en prximas entradas!

Potrebbero piacerti anche