Sei sulla pagina 1di 15

Estadística I

196

Unidad XII - TEORIA DE LAS MUESTRAS

1. TEORÍA DE LAS MUESTRAS

Sabemos que la descripción de los datos muestrales se logra con tres conceptos
básicos:
 Medidas de tendencia central: la media es el estadístico muestral más conocido
 Medidas de dispersión o variabilidad: el desvío estándar es el utilizado con más
frecuencia
 Forma o tipo de distribución: simetría y curtosis.

La pregunta a contestar ahora es ¿qué puede deducirse de la población de la cual


se obtuvo la muestra?

Para ubicar éste interrogante a nivel práctico, supongamos que acabamos de ob-
tener una muestra de 25 cubiertas. Los cubiertas fueron sometidos a una prueba para
determinar los km. que duraban. Con los datos muestrales pueden obtenerse distintas
medidas descriptivas - media, mediana, desvío estándar, asimetría, curtosis. Sin embargo,
no nos interesa la muestra en sí porque las cubiertas fueron inutilizadas en el proceso de
prueba y ya no se pueden vender. Lo importante es obtener información sobre la pobla-
ción total de cubiertas.

De alguna manera debemos deducir información sobre la población y hacer infe-


rencia o tomar decisiones sobre la población en base a los resultados obtenidos de la
muestra.

Supongamos que tomamos otra muestra de 25 cubiertas y que las sometemos a


una prueba con el mismo procedimiento. ¿Coincidirá la media de la segunda muestra con
la de la primera? ¿Y el desvío estándar?-

Al analizar éstas preguntas vemos que es necesario investigar la variabilidad de


los estadísticos muestrales resultantes de la repetición del muestreo.

Sabemos, por las propiedades de la media aritmética, que la media aritmética de


un conjunto definido de datos es una constante, por tanto puede variar al variar el con-
junto de datos (la muestra). Los resultados obtenidos varían de muestra en muestra de
manera aleatoria, vamos a analizar esos estadísticos muestrales que son variables aleato-
rias para estimar parámetros poblacionales y para tomar decisiones acerca de la pobla-
ción.

En la Teoría de las Muestras se estudia que tipo de relaciones existen entre


una población y las muestras que pueden seleccionarse a partir de ella, con el objeto
de describir estas relaciones y analizar qué provecho se puede obtener de ellas.

Para evitar desarrollos teóricos complejos, el tema será presentado empíricamente


tomando como modelo un ejemplo. La resolución del ejemplo permitirá la obtención de
ciertas conclusiones generales.
Estadística I
197

2. DISTRIBUCIONES MUESTRALES.

Si hacemos la selección de todas las muestras posibles, de un tamaño determina-


do, la distribución de los resultados se denomina distribución muestral.

Cualquier distribución de probabilidad (y por lo tanto, cualquier distribución


muestral) puede ser descripta parcialmente por su media y su desvío estándar.

Si tomáramos una serie de muestras y calculáramos la media aritmética es poco


probable que los resultados coincidan, es de esperar alguna variabilidad en las medias
observadas. Esta variabilidad en las estadísticas de las muestras proviene de un error de
muestreo debido al azar. Esto es así porque hay diferencias entre cada muestra y la po-
blación, y entre las diversas muestras que pueden extraerse de ella, debido únicamente a
los elementos seleccionados en cada muestra.

El desvío estándar de la distribución muestral de medias, mide el grado hasta el


cuál es de esperar que varíen las medias de las diferentes muestras, debido a este error
cometido en el proceso de muestreo. Muestra la dispersión de las medias muestrales.

Aunque en la práctica solo se selecciona una muestra, se debe examinar el con-


cepto de distribución muestral, a fin de poder utilizar la teoría de la probabilidad para
hacer inferencias en cuanto a los valores de la población.

Se pueden presentar dos alternativas al realizar el muestreo

 Caso con reposición o para poblaciones infinitas: Hay poblaciones muy


numerosa, por lo que su tamaño puede considerarse “infinito”. Otras pobla-
ciones son pequeñas, pero cuando las extracciones se realizan con reposi-
ción, el número de extracciones que pueden realizarse es infinito porque el
contenido de la población no se agota, motivo por el cuál se las considera
poblaciones infinitas.
 Caso sin reposición o para poblaciones finitas: en este caso si las extrac-
ciones se realizan sin reponer, el contenido de la población se agota con cada
extracción y el número de extracciones posibles es finito.

El estudio de todas las muestras que pueden extraerse de una población (finita o
infinita), nos va a permitir:
 calcular las medidas de tendencia central para el estadístico muestral
 calcular las medidas de dispersión o variabilidad
 determinar la forma que tiene la distribución

3. DISTRIBUCIÓN MUESTRAL DE LA MEDIA. CON REPOSICIÓN Y


SIN REPOSICIÓN.

Si seleccionamos todas las muestras posibles, de tamaño n, de una población y


calculamos la media aritmética de cada muestra obtenemos una distribución muestral de
medias.
Estadística I
198

El siguiente ejemplo nos va a permitir construir la distribución muestral de medias


para los casos de muestreo con reposición y sin reposición.

En el taller de la concesionaria se realizan tres tipos de servicios: service progra-


mado (S), atención de problemas de garantías (G) y otros arreglos (A). En un mes se
realizan los siguientes servicios:

Servicio Autos atendidos


S 300
G 100
A 200

La media  y la varianza  de la población son iguales a:



300  100  200
x   200 autos
3

 2x 
300  2002  100  2002  200  2002  6.666,67 autos2
3

El gráfico de la distribución poblacional, llamado “de bastones”:

Servicios del taller

Servicios

100 200 300

Autos
Estadística I
199

 CON REPOSICION

Si se seleccionan muestras con reposición de tamaño n = 2. Como la selección


de muestras con reposición impide que con la selección se agote el conjunto de ele-
mentos muestreados, el sistema es equivalente a trabajar con una población de tamaño
infinito.

Si seleccionamos muestras de dos servicios realizados por el taller con reposi-


cion, obtenemos la siguiente población de muestras de tamaño n = 2:

S-S S-G S–A


G-S G-G G-A
A-S A-G A-A

El total de muestras de tamaño n = 2, que pueden extraerse de una población de


tamaño N = 3, con reposición es M = Nn = 32 = 9.

Esta observación permite obtener la

1ª Conclusión: El total de muestras con reposición de tamaño n que pueden


extraerse de una población de tamaño N es:

M = Nn

El cuadro anterior contiene todas las muestras posibles, que en total son 9. Puede
plantearse la siguiente pregunta: ¿cuántas muestras de tamaño n deben extraerse en
la vida real, cuando se desea realizar una investigación estadística mediante el muestreo
con reposición? La respuesta a esta pregunta da lugar a la

2ª Conclusión: Para realizar una investigación estadística por muestreo es


suficiente una sola muestra de tamaño n.

A continuación se calcularán las medias muestrales de cada una de las M mues-


tras seleccionadas

Media
Ensayo Muestra Resultados
muestral
1 S S 300 300 300
2 S G 300 100 200
3 S A 300 200 250
4 G S 100 300 200
5 G G 100 100 100
6 G A 100 200 150
7 A S 200 300 250
8 A G 200 100 150
9 A A 200 200 200
Total 1.800
Estadística I
200

Se puede observar que hay varios resultados para el valor de la media muestral, y
que ellos dependen de cómo se encuentren conformadas las M muestras diferentes de
tamaño n = 2. Los resultados presentados en el cuadro anterior constituyen el conjunto
de medias muestrales calculadas a partir de la población de medias muestrales definidas
previamente, lo que implica que el cuadro contiene una población de medias muestra-
les de tamaño M, y ese conjunto se denomina Distribución muestral de las medias.

Esto da a la media muestral una característica no descubierta hasta este momento,


que origina la:

3ª conclusión: la media muestral resulta ser una variable mientras la con-


formación de la muestra no se encuentre definida, lo cual no entra en contradicción
con la primera propiedad de la media aritmética, que dice que ella es una constante para
un conjunto definido de valores.

Esta conclusión puede ser generalizada del siguiente modo: por el mismo princi-
pio que rige para la media, cualquier cálculo muestral (es decir cualquier otra medida
de posición y/o de dispersión que se obtenga a partir de los datos muestrales), y no sólo
la media aritmética puede considerarse como variable.

Considerando que la media muestral es variable y que el cuadro precedente cons-


tituye la población de medias muestrales, se pueden obtener tanto la media poblacional
como la variancia poblacional de la variable media muestral, es decir que se puede cal-
cular la

 
 x 1.800
  200 autos, lo que permite formular la
x M 9

4ª conclusión: la media de la población de medias muestrales es igual a la


media de la variable xi, es decir que
 
x x

Para esa misma población de medias muestrales se calcula la varianza poblacio-


nal:
Media
Ensayo (xi-x)2
muestral
1 300 10.000
2 200 0
3 250 2.500
4 200 0
5 100 10.000
6 150 2.500
7 250 2.500
8 150 2.500
9 200 0
Total 1.800 30.000
Estadística I
201

 x  x 
2
2 i 30.000 6.666,66
 x    3.333,33  , lo cual permite enunciar la
M 9 2

5ª conclusión: la varianza de la población de medias muestrales es igual a la


varianza de la variable xi dividida por n, es decir que

2
2 
x x
    
x n x n

Con lo cual se obtienen dos conclusiones adicionales, en particular, sobre la base


de que el tamaño de una muestra es, como mínimo, de 2 elementos:
 La variable tiene x menor dispersión que la variable xi.
 Por consiguiente,  x2   x2 debido a que n  2 .

El gráfico de la Distribución muestral de medias del número de servicios del ta-


ller, es el siguiente:

Servicios

100 200 300

Autos

en el que se observa:
 los valores extremos de la variable media muestral son coincidentes con
los de la variable xi (en este caso son 100 y 300), y
 a medida que el tamaño n de la muestra crece, como la cantidad de muestras
posibles aumentará considerablemente, aparecerán para la media muestral
nuevos valores, que siempre oscilarán entre los valores extremos ya determi-
nados.
Estadística I
202

Es decir que, en ese caso, la gráfica de bastones que se observa más arriba pre-
sentará nuevos valores y una mayor cantidad de bastones. En el límite, cuando n crezca
indefinidamente, la variable media muestral se convertirá en continua y la gráfica de bas-
tones se transformará en un área, lo que permite obtener la

6ª conclusión: en el muestreo con reposición, cuando n , la varia-


ble media muestral se distribuye normalmente con parámetros
2
   y 2  x .
x x x n
2

Es decir que x   N (x ; x ) si n.
n
Obsérvese que en esta última conclusión no se menciona para nada cuál es la dis-
tribución de la variable xi, por lo cual se puede afirmar que esta conclusión se cumple
cualquiera sea la forma que toma la distribución de xi. Si ella fuera normal, el gráfico
siguiente permite comparar cómo se verían tanto la distribución de las dos variables in-

volucradas en este análisis

Esta última conclusión suele encontrarse en los libros de texto bajo la denomina-
ción de Teorema Central del Límite.

 SIN REPOSICION O PARA POBLACIONES FINITAS

Si seleccionamos muestras de dos servicios realizados por el taller SIN reposi-


cion, obtenemos la siguiente población de muestras de tamaño n = 2:

S-G S–A
G-A

Esto permite obtener la


Estadística I
203

1ª conclusión: El total de muestras sin reposición de tamaño n que pueden


N
extraerse de una población de tamaño N es   .
 n

Es decir que esta primera conclusión tiene una diferencia comparada con la indi-
cada para el caso con reposición.

 N  3  3!
M        3
n
    2 2! 3  2 !

El siguiente cuadro contiene las medias muestrales de cada una de las muestras
que aparecen en el cuadro anterior:

Media
Ensayo Muestra Resultados
muestral
1 S G 300 100 200
2 S A 300 200 250
3 G A 100 200 150
Total 600

Las conclusiones

2ª conclusión: Para realizar una investigación estadística por muestreo es


suficiente una sola muestra de tamaño n, y

3ª conclusión: la media muestral resulta ser una variable mientras la con-


formación de la muestra no se encuentre definida

no tienen modificación alguna en su texto, por lo que son válidas para los casos sin repo-
sición.

Ahora verificaremos cuál es el valor de la media poblacional de la variable media


muestral.

 

x 600
  200 autos
x M 3

con lo cual comprobamos que tampoco se modifica la 4ª conclusión, y que también en el


caso sin reposición  
x x

A continuación calcularemos la varianza de la variable media muestral:


Ensayo Media muestral (xi-x)2
1 200 0
2 250 2.500
3 150 2.500
Total 600 5.000
Estadística I
204

 x  x 
2
2 i 5.000
 x    1.666,67
M 3

lo cual permite decir que en el caso sin reposición la variancia de la variable aleato-
ria media muestral es diferente al caso con reposición. Por consiguiente, la 5ª con-
clusión es:

2 N  n
2
 Nn
  x   x
x n N1 x n N 1

6.666,66 3  2
2
   1.666,67
x 2 3 1

N n
el coeficiente se denomina factor de corrección para poblaciones finitas.
N 1
Finalmente, la 6ª conclusión es similar a la señalada para el caso con reposición,
es decir que en el muestreo sin reposición, cuando n , la variable media muestral se
distribuye normalmente con media poblacional x  x y variancia poblacional
 x2 N  n
2  .
x n N 1

 x2 N  n
Es decir que x   N (x ; ) si n.
n N 1

4. MUESTREO DE POBLACIONES CON DISTRIBUCIÓN NORMAL Y


SIN DISTRIBUCIÓN NORMAL.

Ahora que conocemos la media y el desvío estándar de la distribución muestral de


medias, nos preguntamos: ¿qué distribución seguirá la distribución muestral de medias?

Se puede demostrar que si se muestrea con reemplazamiento en una población


con distribución normal, con media x y desvió estándar x, la distribución en él mues-
tro de la media, para cualquier tamaño de n también tendrá una distribución normal con

media  x y desvió estándar  x  x
n

A medida que aumenta el tamaño de la muestra, la distribución en el muestreo


seguirá siendo una distribución normal con media x. Pero al aumentar el tamaño de la
muestra el desvío estándar se vuelve menor, con lo que hay más medias muestrales cerca
de la media poblacional.

La distribución en el muestreo de la media nos va a permitir determinar la proba-


bilidad de que la media muestral tome determinados valores, usando la variable estanda-
rizada y trabajando con las tablas de la distribución normal estandarizada
Estadística I
205

x  x x  x
z  
x x
n

Pero en realidad, más que encontrar las probabilidades de que las medias mues-
trales tomen determinados valores, nos interesa encontrar aquellos valores que determi-
nen un intervalo en el que estarían incluidas el 95 % de las medias, y esto también lo po-
demos calcular mediante la variable estandarizada:
 
x  x  z x  x  x  x
n n

En muchos casos no se tiene conocimiento real de la forma de la población o se


sabe que la población no está normalmente distribuida. No es realista suponer que la po-
blación siempre estará normalmente distribuida. ¿Cómo será la distribución muestral de
la media para poblaciones no normales?. Esto nos lleva al teorema quizás más importante
de la estadística básica.

Según el teorema central del límite, en el caso de muestras aleatorias grandes,


la forma de la distribución muestral de la media se aproxima a la distribución de probabi-
lidad normal. La aproximación es más exacta en el caso de muestras grandes que en el de
muestras pequeñas. Ésta es una de las conclusiones más útiles de la estadística. El teore-
ma central del límite se cumple en el caso de todas las distribuciones, aunque se cuente
con información acerca de la forma de la distribución de la población de la que se toma la
muestra.

Si la población tiene una distribución normal, entonces, en el caso de cualquier


tamaño de muestra, la distribución muestral de las medias también será normal. Si la dis-
tribución poblacional es simétrica (pero no normal), se verá que la forma normal de la
distribución muestral de las medias se presenta con muestras de tamaño n = 10. Por otra
parte, si se comienza con una distribución sesgada, quizá se requieran muestras de 30 o
más para observar la característica de normalidad. Este concepto se muestra en el gráfico
siguiente para diversas formas de población. Observe la convergencia hacia una distribu-
ción normal sin que importe la forma de la distribución de la población. La mayoría de
los especialistas en estadística consideran que una muestra de 30 o mayor es lo bastante
grande para aplicar el teorema central del límite.
Estadística I
206

Lind, Douglas A.. Estadística aplicada a los negocios y la economía, 15th Edition. McGraw-
Hill Interamericana, 2012.

El teorema central del límite es de importancia crucial en el uso de la inferencia


estadística para llegar a conclusiones respecto a la población. Permite hacer inferencias
en cuanto a la media de la población sin tener que conocer la forma específica de la dis-
tribución de la población.

Esto significa que el estadístico muestral calculado (media, desvío estándar, pro-
porciones) suministra la información para estimar los valores de la población.

Cuando el muestreo se realiza sin reemplazamiento en poblaciones que son de


tamaño finito N y , sobre todo, cuando el tamaño de la muestra - n - no es pequeño en
comparación con el tamaño de la población - N -, se debe usar un factor de corrección
para poblaciones finitas (cpf) para desarrollar la distribución particular en el muestreo.
Estadística I
207

Nn
N 1

Este factor expresa la proporción de observaciones que no han sido consideradas


en la muestra:

n Nn Nn
1  
N N N 1

5. DISTRIBUCIÓN MUESTRAL DE PROPORCIONES PARA CASOS CON


REPOSICIÓN Y SIN REPOSICIÓN.

La distribución muestral de medias se utiliza para variables cuantitativas. Cuando


se analizan variables cualitativas, la característica que se suele considerar es la propor-
ción de éxitos.

Por ejemplo, a la concesionaria le interesaría conocer la proporción real de clien-


tes satisfechos con los servicios prestados por el taller.

CON REPOSICION

Al analizar la distribución muestral de medias, cuando se obtuvo la 3ª conclu-


sión, se indicó que cualquier cálculo muestral podía ser considerado como variable y
que, como tal, podía estudiarse su Distribución Muestral, por lo que también se estudia
el caso de la variancia muestral o de la proporción muestral.

En cuanto a la proporción, recordemos que es un cálculo en el que se relacionan


la cantidad de elementos de una cierta característica A (suceso A) y el total de elementos
f
n, ya estudiado en las “frecuencia relativa” (hi = i ) de la “Distribuciones de fre-
n
cuencias”, en el que se trabaja con muestras.

El concepto de proporción también aparece en la Distribución Binomial como


la probabilidad p, que es la probabilidad denominada elemental de que se presente un
suceso particular A cuando se realiza un experimento. Este concepto de proporción es
poblacional.

La relación entre la frecuencia relativa muestral hi y la probabilidad elemental po-


blacional p es evidente, sólo que deben distinguirse y aclararse los siguientes aspectos:
 en la Distribución Binomial la variable x resulta ser el número de veces que se
desea que aparezca el suceso A, mientras que en una Distribución de frecuencias
el número de veces que se presentan los elementos de un cierto intervalo se de-
nomina fi.
 lo que en la Distribución Binomial se simboliza con x en la Distribución de fre-
cuencias se simboliza con fi.
 como en la Distribución Binomial se demostró que:
Estadística I
208

E(x)=np V(x)= npq

se verifica que :

E(fi)=np V(fi)=npq

 esto permite calcular la esperanza matemática y la varianza de la variable propor-


ción hi:

 f i  1 1
E (hi )  h  E  
 E ( f i )  np  p
 n n n

 f i  1 1 pq
V (hi )   h2  V  
 2 V ( f i )  2 npq 
 n n n n

lo cual, en virtud de que la 6ª conclusión es también válida para cualquier cálculo mues-
tral, permite decir que en el muestreo con reposición la variable proporción muestral
pq
hi se distribuye normalmente con media poblacional p y varianza poblacional
n
si n  .

pq
Es decir que: hi  N ( p; ) si n  .
n

 SIN REPOSICION O PARA POBLACIONES FINITAS

Cuando se trabaja sin reposición (lo que equivale a trabajar con poblaciones fini-
tas) la variable proporción muestral tiene una distribución normal con media pobla-
pq N  n
cional p y varianza poblacional cuando n  .
n N 1

En la expresión de la varianza aparece el factor de corrección para casos sin re-


posición, como en el caso de la Distribución muestral de las medias.

pq N  n
En definitiva, para casos sin reposición hi  N ( p; ) si n .
n N 1

6. DISTRIBUCIÓN MUESTRAL DE LOS DESVÍOS ESTÁNDAR CON REPO-


SICIÓN Y SIN REPOSICIÓN

El desvío estándar muestral (Sx) es, para muestras de tamaño n>30, como cual-
quier cálculo muestral y en función de la generalización de la 3ª conclusión, una variable
que posee su media y su varianza poblacionales, las cuales son:

E( S )   
x S x
x
Estadística I
209

 x2
y V (S x )   S2 
x 2n

por lo cual se puede decir que la variable desvío estándar muestral Sx se distribuye
2
normalmente con parámetros esperanza matemática x y varianza x .
2n

 x2
Sx  N (  x ; ) si n   .
2n

PREGUNTAS TEORICAS:

1) La media muestral es una variable. ¿Cómo es su dispersión respecto de la dispersión


de la variable xi?
a) mayor
b) menor
c) igual

2) Una de estas afirmaciones es verdadera. Indique cuál.



a)   x
x
n
b)  2   x2
x
c) el total de muestras posibles de tamaño n con reposición es igual a Nn

3) ¿Cuál es la forma de la distribución de la variable media muestral cuando el tamaño de


la muestra tiende a infinito?
a) Poisson
b) Binomial
c) Normal
Estadística I
210

TEORIA DE LAS MUESTRAS


DISTRIBUCIONES MUESTRALES

EN POBLACIONES INFINITAS
Variables Media Varianza Desvío Estándar
Poblacional Poblacional Poblacional
Media  x2 x
muestral E ( x)  x  x V ( x)   2  DS( x )   
x n x n
x
Proporción
muestral E (hi )  h  p pq pq
hi
V (hi )   h2  DS (hi )   h 
n n
Desvío
Estándar  x2 x
DS (S x )   S 
muestral E (Sx )    x V (Sx )   S2  x
2n
Sx Sx x 2n

EN POBLACIONES FINITAS
Variables Media Varianza Desvío Estándar
Poblacional Poblacional Poblacional
Media  x2 N  n x N n
muestral E ( x )  x  x V ( x)   2  DS ( x)   
x n N 1 x n N 1
x
Proporción
muestral E (hi )  h  p pq N  n pq N n
hi V (hi )   h2  DS (hi )   h 
n N 1 n N 1

Potrebbero piacerti anche