Sei sulla pagina 1di 7

¿Qué tamaño de muestra necesito?

 CALCULADORA DE MUESTRAS. Gracias a esta aplicación, indicando unos datos


básicos sobre la población que deseas investigar y el máximo error que estás
dispuesto a tolerar, obtienes una estimación del tamaño de muestra que necesitas
para tu encuesta.

A menudo recibimos consultas relativas a esta calculadora: qué fórmulas emplea,


qué significa margen de error, nivel de confianza... Hoy nos proponemos explicar
cómo funciona exactamente.

El problema

El problema a resolver es el siguiente: queremos estudiar un universo de personas


(por ejemplo, personas de Brasil entre 15 y 65 años, un total de 136 millones de
personas) mediante una encuesta a una muestra de este universo. Por el hecho de
que la muestra es de un tamaño inferior al total del universo, vamos a cometer
cierto error en los datos que observemos. Si estamos dispuestos a aceptar un % de
error determinado, ¿cuál es el tamaño de muestra mínimo que necesito encuestar?

 La forma en que mido el error

Cuando quiero fijar el máximo error que estoy dispuesto a aceptar en una
encuesta, lo habitual es referirnos a dos parámetros: el margen de error y el
nivel de confianza. ¿Qué significa cada cosa?
El margen de error es el intervalo en el cuál espero encontrar el dato que quiero
medir de mi universo. El dato puede ser en general de dos tipos: una media o una
proporción. Por ejemplo, si quiero calcular la media de hijos que tienen los
habitantes de Brasil entre 15 y 65 años, me gustaría poder decir que la media es
2,1 hijos/persona con un margen de error del 5%. Eso significaría que espero que la
media esté entre 2,1 - 5% y 2,1 + 5%, lo que da un intervalo de 2,00 <-> 2,21.
Si quisiera definir un margen de error para una proporción, procedería de forma
similar. Por ejemplo, me gustaría poder estimar el número de personas de Brasil
entre 15 y 65 años que viven en un piso de propiedad, afirmando que son un total
de 61.35 millones personas (45% de la población) con un margen del 5% de error,
lo que significaría que la realidad está entre 68 millones (50%) y 54,5 millones
(40%).
El nivel de confianza expresa la certeza de que realmente el dato que buscamos
esté dentro del margen de error. Por ejemplo, siguiendo con el caso anterior, si
obtenemos un nivel de confianza del 95%, podríamos decir que el porcentaje de
personas de mi universo que viven en un piso de propiedad, en el 95% de los casos
se encontrará entre el 40% y el 50%. O dicho de otra manera, si repitiese 100
veces mi encuesta seleccionando muestras aleatorias del mismo tamaño, 95 veces
la proporción que busco estaría dentro del intervalo y 5 veces fuera.

Relación entre error y tamaño de muestra

Margen de error, nivel de confianza y tamaño de la muestra siempre van de la


mano. Si quiero obtener un margen de error y un nivel de confianza determinado
(por ejemplo, error del 5% con confianza 95%) necesitaré un tamaño de muestra
mínimo correspondiente. Modificar cualquiera de los 3 parámetros, altera los
restantes:

1. Reducir el margen de error obliga a aumentar el tamaño de la muestra.

2. Aumentar el nivel de confianza obliga a aumentar el tamaño de la muestra.

3. Si aumenta el tamaño de mi muestra, puedo reducir el margen de error o


incrementar el nivel de confianza.

Pero, ¿qué fórmulas gobiernan la relación entre los parámetros anteriores? El


conjunto de teoremas que se conocen como LEY DE LOS GRANDES NÚMEROS viene
a nuestro rescate. Estos teoremas son los que dan soporte matemático a la idea de
que el promedio de una muestra al azar de una población de gran tamaño tenderá
a estar cerca de la media de la población completa. En concreto, el teorema del
límite central demuestra que, en condiciones muy generales, la suma de
muchas variables aleatorias independientes (en el ejemplo, los habitantes de Brasil
que tienen piso de propiedad) «se aproxima bien» a una distribución
normal (también llamada campana de Gauss).

Gracias al teorema del límite central, cuando calculamos una media (p.e. hijos por
persona) o una proporción (p.e. % de personas con piso de propiedad) sobre una
muestra, podemos saber cuál es la probabilidad de que el universo tenga ese
mismo valor o un valor parecido.  El valor que calculemos en la muestra será el
más probable para nuestro universo y a medida que nos alejamos de este valor
(por arriba o por abajo) cada vez serán valores menos probables. En mi ejemplo, si
el 45% de mi muestra de brasileños tiene piso de propiedad, puedo afirmar que
45% es el valor más probable del universo estudiado. Un porcentaje de 44% será
algo menos probable, 43% aún menos, etc... Lo mismo sucede para valores
superiores: 46% es menos probable que 45%.

La forma en que disminuye la probabilidad a medida que me alejo de la media


corresponde a una distribución gaussiana. Podemos fijar un intervalo alrededor del
valor más probable, de manera que englobemos el 95% de la probabilidad (nivel de
confianza). La distancia a la que me tengo que alejar del valor más probable para
englobar este 95% determina el margen de error.

 Según el gráfico anterior, para una distribución normalizada (media 0, desviación


1) si queremos englobar los valores que cubren el 95% de los casos, tengo que
definir un margen de error entre -1,96 y +1,96 de la media. Si quiero cubrir el 99%
de los casos, el margen debe alejarse hasta +-2,58.

Y entonces, ¿qué está haciendo la calculadora?


Conociendo la propiedad anterior, es muy fácil adaptar las fórmulas de la
distribución gaussiana a cualquier caso (sea cuál sea la media y
desviación). Vamos a ver con detalle el caso de la estimación de una proporción.
Para ello usamos la siguiente fórmula:

 Donde:

n = El tamaño de la muestra que queremos calcular


N = Tamaño del universo (p.e. 136 millones de brasileños entre 15 y 65 años)
Z = Es la desviación del valor medio que aceptamos para lograr el nivel de
confianza deseado. En función del nivel de confianza que busquemos, usaremos un
valor determinado que viene dado por la forma que tiene la distribución de Gauss.
Los valores más frecuentes son:

Nivel de confianza 90% -> Z=1,645

Nivel de confianza 95% -> Z=1,96

Nivel de confianza 99% -> Z=2,575

e = Es el margen de error máximo que admito (p.e. 5%)


p = Es la proporción que esperamos encontrar. Este parámetro suele confundir
bastante a primera vista: ¿cómo voy a saber qué proporción espero, si justamente
estamos haciendo una encuesta para conocer esta proporción?

La razón de que esta p aparezca en la fórmula es que cuando una población es


muy uniforme, la convergencia a una población normal es más precisa, lo que
permite reducir el tamaño de muestra. Si en mi ejemplo, yo espero que como
máximo el % de personas que tengan un piso de propiedad sea un 5%, podría usar
este valor como p y el tamaño de mi muestra se reduciría. Si por el contrario,
desconozco completamente qué puedo esperar, la opción más prudente sería usar
el peor caso: la población se distribuye a partes iguales entre propietarios y no
propietarios, por lo que p=50%.
Como regla general, usaremos p=50% si no tengo ninguna información sobre el
valor que espero encontrar. Si tengo alguna información, usaré el valor aproximado
que espero (ajustando hacia el 50% ante la duda).

 La fórmula anterior podemos simplificarla cuando trabajamos con universos de


tamaño muy grande (se considera muy grande a partir de 100.000 individuos),
resultando lo siguiente:

 Ejemplo: Retomamos nuestro caso anterior. Tenemos una población de 136


millones de brasileños entre 15 y 65 años, queremos saber qué % de ellos vive en
un piso de propiedad, con un margen de error del 5% y un nivel de confianza del
95%. Supondremos que no tenemos ninguna información previa sobre cuál puede
ser el % de propietarios que podemos obtener en la encuesta. En este caso puedo
usar la fórmula simplificada pues 136 millones > 100.000, y usaremos p=50% pues
no tengo información previa sobre el resultado esperado:

n = 1,962 * 0,5 * (1 - 0,5) / 0,052  = 384,16 -> 385

Debo encuestar por lo tanto a 384 personas para mantenerme dentro de los
niveles de error definidos.

Si a raíz de un estudio realizado el año anterior obtuvimos que el % de brasileños


propietarios de su vivienda era del 20%, y se espera que el dato de este año no
haya variado en más de 5 puntos (entre 15% y 25%), podríamos reemplazar p por
el peor caso esperado = 25%. El resultado sería:

n = 1,962 * 0,25 * (1 - 0,25) / 0,052  = 288,12 -> 289

Y si estoy tratando de estimar una media


Las fórmulas anteriores se emplean para determinar el tamaño de muestra que
necesito cuando quiero estimar una proporción, pero existen unas fórmulas
equivalentes cuando lo que trato de estimar es una media (por ejemplo, la edad
media de los habitantes de un país). Las fórmulas son idénticas teniendo en cuenta
que p(p-1) en realidad es una medida de la varianza de la población. Si estimo una
media, debo usar una estimación de dicha varianza en la fórmula, en lugar de p(p-
1). De esta forma, el tamaño de la muestra cuando trabajo con universos finitos es

Donde
σ2: Es la varianza que esperamos encontrar en la población (es el cuadrado de la
desviación estándar, σ). Nuevamente, es un dato que debemos obtener de un
estudio previo o de una estimación propia.

Nuevamente, podemos simplificar esta fórmula cuando el tamaño del universo es


muy grande.

Ejemplo: Supongamos que queremos estimar cual es el coeficiente intelectual


medio de la población mundial con un margen de error de +-20 y un nivel de
confianza del 99% (corresponde a Z=2,575). Sabemos de un estudio anterior que
la desviación estándar de este coeficiente intelectual es 50. Usando la fórmula para
universos grandes (puesto que la población mundial es mayor a 100.000
individuos), tendríamos
n = 2,5752 * 502 / 202 = 41,44 ->  42
CÁLCULO DEL TAMAÑO DE LA MUESTRA DESCONOCIENDO EL TAMAÑO DE LA
POBLACIÓN
La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de la
población es la siguiente:

En donde
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada 
Q = probabilidad de fracaso 
D = precisión (error máximo admisible en términos de proporción)

CÁLCULO DEL TAMAÑO DE LA MUESTRA CONOCIENDO EL TAMAÑO DE LA POBLACIÓN


La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente:

En donde, N = tamaño de la población Z = nivel de confianza, P = probabilidad de


éxito, o proporción esperada Q = probabilidad de fracaso D = precisión (Error máximo
admisible en términos de proporción).

Potrebbero piacerti anche