Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Los primeros dos conceptos, muestreo aleatorio (random sampling) y error muestral
(sampling error) son fundamentales para entender la lógica de la estadística inferencial.
Sumados los otros dos, la distribución muestral de las medias de la muestras (sampling
distribution of sample means) y teorema del límite central (Central Theory Theorem), tenemos
una buena base de estadística inferencial. En una línea, todos estos cuatro conceptos son
clave para la esta rama de la estadística.
Esta idea nace con el reconocimiento de que, gracias al muestreo aleatorio, hay un infinito
números de muestras posibles, más allá de que a la hora de investigar solamente trabajes
con una (la cual puede no llegar a ser representativa de la población por la infinita posibilidades
de muestras que hay, aunque hay pocas chances de ello). El error muestral se define como la
diferencia entre una determinada estadística de una muestra y la de un parámetro de la
población que es causa del “destino” (que no es buscada, sino que se da por la aleatoriedad de
la muestra y la muestra que elegimos).
Es obvio que este es un concepto abstracto, y nunca nadie se va a tomar el trabajo de tomar
1000 muestras de la misma población investigando lo mismo. De todas formas, el punto es: se
puede construir una distribución muestral si se quiere.
Si de todas formas de llevar a cabo el tedioso trabajo de buscar la media de 1000 muestras, se
puede graficar una curva con los datos obtenidos. Lo importante es que la curva resultante es
la curva de una distribución normal. Acá se observa la relación existente entre la distribución
muestral de las medias de las muestras y la población de donde se extraen las muestras; el
nombre que recibe dicha relación se denomina Teorema del límite central.
Ahora sí, definición de Teorema del Límite Central (spoiler: no es tan lindo):
● Si una cantidad de muestras aleatorias de tamaño n son extraídas de una población con
una media (mu, 𝜇) y un desvío estándar (σ), la distribución muestral de las medias de
las muestras van a tener una media igual a 𝜇 y un desvío estándar igual a σ/√n. A
medida de que n crece, la distribución muestral se va a acercar a la distribución normal.
Vamos con la traducción: tenemos una población, que mide una media 𝜇 y un desvío estándar
σ. También tenemos una distribución muestral de las medias de las muestras construida de esa
población. Esa distribución tiene una muestra, que tiene que ser igual a la media de la
población. También va a tener su desvío estándar, llamado error estándar de la media; este va
a ser igual al desvío estándar de la población σ dividido por la raíz cuadrada de n (número de
casos en cada muestra). En otras palabras, la distribución muestral de las medias de las
muestras se va a parecer eventualmente a una distribución normal. Pongo fotito que quizás se
entiende mejor: