Teoria 6

J.
Gibergans Báguena / DMA3 – EUETIB / UPC Tema 6: Muestreo aleatorio y estimación puntual
TEMA 6
MUESTREO ALEATORIO Y
ESTIMACIÓN PUNTUAL
6.1. Introducción
6.2. Conceptos de muestra aleatoria, estadístico y estimador
6.3. Método de los momentos
6.4. Método de máxima verosimilitud
6.5. Propiedades de los estimadores
6.6. Distribución de la media muestral. Teorema del Límite Central.
6.1. INTRODUCCIÓN
La inferencia estadística es una parte de la Estadística que comprende los métodos y

procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una
pequeña parte de la misma (muestra). Toda inferencia se acompaña una medida de la
incertidumbre en términos de probabilidad.
Según el objeto de estudio, la inferencia se clasifica en:
 Inferencia paramétrica: se ocupa de aquellos casos en los que la distribución de

probabilidad de la población se supone conocida salvo los valores que toman ciertos
coeficientes denominados parámetros de la distribución. En este contexto, el objetivo es
estimar, dar intervalos de confianza o contrastar hipótesis sobre dichos parámetros.
 Inferencia no paramétrica: trata problemas similares cuando se tiene una distribución

poblacional totalmente desconocida, sobre la cual solo se realizan suposiciones muy
generales, como por ejemplo que se trata de una distribución continua, que tiene una única
moda, etc.
Según el tipo de información considerada, la inferencia estadística se divide en:
 Inferencia clásica: trata los parámetros poblacionales desconocidos como valores fijos o
constantes.
 Inferencia bayesiana: considera que los parámetros desconocidos del modelo son variables
aleatorias, para las cuales debe fijarse una distribución inicial, denominada distribución a
priori. Utilizando información muestral junto con esta distribución a priori, los métodos
bayesianos hacen uso de la regla de Bayes para ofrecer una distribución a posteriori sobre los
parámetros.
VI - 1
MEE – Electricidad – 2009-10-P J. Gibergans Báguena / DMA3 – EUETIB / UPC
6.2. CONCEPTOS DE MUESTRA ALEATORIA, ESTADÍSTICO Y ESTIMADOR
6.2.1. Muestreo
Como ya se indicó a principio de curso, entendemos por población, el conjunto homogéneo de

individuos sobre los que se estudian una o varias características. En muchas ocasiones no se puede
observar toda la población, por lo que se termina estudiando una muestra.
Una muestra es un subconjunto de la población. El tamaño muestral es el número de individuos de la

muestra. Es deseable que una muestra sea lo más representativa posible de la población de
procedencia para que la información que suministra pueda ser utilizada con éxito para obtener
conclusiones sobre la población. Es obvio que, en general, cuanto mayor sea el tamaño muestral
mayor será la representatividad de la muestra.
Un método de muestreo no es más que un procedimiento empleado para la obtención de la muestra.

Algunos de los métodos de muestreo más importantes son los siguientes: aleatorio simple, sistemático,
estratificado, por conglomerados, polietápico, por cuotas, etc.
6.2.2. Muestra aleatoria simple y estadístico
Uno de los objetivos de la inferencia estadística es la estimación puntual de los parámetros

desconocidos de una distribución de probabilidad. Un parámetro es un valor numérico que describe
la función de densidad (en el caso continuo) o de masa de probabilidad (en el caso discreto) de una
variable aleatoria X.
Una muestra aleatoria simple, de tamaño n , de una variable aleatoria X , con distribución teórica
f ( x) , son n variables aleatorias X 1 , X 2 ,..., X n , independientes e idénticamente distribuidas, con
distribución común f ( x) .
Una realización de la muestra son los valores particulares x1 , x2 ,..., xn , observados para las variables
X 1 , X 2 ,..., X n . Como consecuencia de todo ello, la función de probabilidad conjunta de X 1 , X 2 ,..., X n
es:
f ( x1 , x2 ,..., xn )  f ( x1 ) f ( x2 )... f ( xn )
Llamaremos estadístico a cualquier función T de la muestra. Por tanto, un estadístico

T ( X 1 , X 2 ,..., X n ) , también es una variable aleatoria, con una distribución de probabilidad denominada
distribución en el muestreo de T.
1 n
Por ejemplo, el estadístico T ( X 1 , X 2 ,..., X n )   X i , se llama media muestral y que suele
n i 1
designarse por X . Más adelante, estudiaremos con detalle la distribución en el muestreo de X .
VI - 2
J. Gibergans Báguena / DMA3 – EUETIB / UPC Tema 6: Muestreo aleatorio y estimación puntual
6.2.3. Estimación puntual
Supongamos ahora que pretendemos obtener información acerca del valor desconocido del parámetro
 que caracteriza la distribución teórica de cierta población. Y disponemos de una muestra.
Podemos resolver el problema de dos formas distintas:
 Proporcionar un intervalo numérico en cual pueda afirmarse con cierta confianza que se
encuentra el valor de  que caracteriza la distribución de la población. Este método de
estimación será estudiado en el próximo tema.
 Proporcionar una estimación puntual del parámetro, es decir, seleccionar un valor que
constituya un pronóstico individual sobre el parámetro. La forma de proceder para obtener
una estimación puntual del valor desconocido del parámetro consiste en seleccionar un
estadístico ˆ  T ( X 1 , X 2 ,..., X n ) , función únicamente de las observaciones muestrales y,
tomar como estimación el valor de T calculado a partir de la muestra obtenida.
Los estadísticos utilizados para estimar los parámetros de una distribución de probabilidad se
denominan estimadores.
A continuación estudiamos los dos métodos de estimación puntual más importantes: método de los
momentos y el método de máxima verosimilitud.
6.3. MÉTODO DE LOS MOMENTOS

El método de los momentos fue desarrollado por primera vez por Kart Pearson en 1902. Él consideró
que unos buenos estimativos de los parámetros de una función de probabilidad son aquellos para los
cuales los momentos de la función de densidad de probabilidad alrededor del origen son iguales a los
momentos correspondientes de la información de la muestra.
Así pues, el método consiste en:
1) Igualar los momentos de la población: 1  E  X  ,  2  E  X 2  ,  3  E  X 3  , … con los

n n n
correspondientes momentos muestrales: a1  1
n  xi , a2  1
n  xi2 , a3  1
n  xi3 ,…
i 1 i 1 i 1
2) Se igualan tantos momentos como parámetros desconocidos hay que estimar, y se resuelve el
sistema de ecuaciones resultante.
Ejemplo: Estimar el valor del parámetro de la distribución exponencial: f ( x)   exp( x) , con

x  0 ,   0 . Como tenemos que determinar un parámetro, igualamos los momentos:

1 1 n
  E  X    x e  x dx  ...  y x  xi
0
 n i 1
1 1
De manera que: x  
 x
VI - 3
6.4. MÉTODO DE LA MÁXIMA VEROSIMILITUD

El método de la máxima verosimilitud fue desarrollado por R.A. Fisher (1922). Él razonó que el
mejor valor de un parámetro de una distribución de probabilidad debería ser el valor que maximizara
la probabilidad conjunta o función de verosimilitud de ocurrencia de la muestra observada.
n
L   f ( xi )
i 1
Debido a que muchas funciones de densidad de probabilidad son exponenciales, algunas veces es
conveniente trabajar con la función logaritmo de la verosimilitud:
n
ln L   ln  f ( xi ) 
i 1
Ejemplo: De nuevo vamos a estimar el valor del parámetro de la distribución exponencial:

f ( x)   exp(  x) , con x  0 ,   0 pero ahora aplicando el método de la máxima
verosimilitud.
Para un valor dado xi la densidad de probabilidad exponencial es: f ( xi )   e  xi , por tanto, la

función logaritmo de verosimilitud es:
 
n n n n
ln L   ln  f ( xi )    ln  e  xi    ln    xi   n ln     xi
i 1 i 1 i 1 i 1
d (ln L)
El máximo valor de ln L ocurre cuando  0 , es decir, cuando:
d
d (ln L) n n 1 1 n 1
   xi  0   x   
d  i 1  n i 1 i x
Observación: En el caso de la distribución exponencial, las estimaciones por los dos métodos
coinciden, pero, en general, no tiene porqué ocurrir.
VI - 4
6.5. PROPIEDADES DE LOS ESTIMADORES

De lo visto hasta ahora en la estimación puntual la importancia de seleccionar el estimador adecuado
en cada caso. Una primera propiedad deseable en un estimador es que sea insesgado. De forma
intuitiva se puede decir que un estimador para un parámetro es insesgado si, al seleccionar un gran
número de muestras de un tamaño determinado, la media de todas las estimaciones obtenidas del
parámetro está próxima al verdadero parámetro.
Llamamos sesgo del estimador ˆ a la diferencia: Sesgo(ˆ)  E ˆ    .
Si esta diferencia es nula, decimos que el estimador es insesgado o centrado.
Llamamos error cuadrático medio (ECM) de un estimador ˆ  T ( X 1 , X 2 ,..., X n ) del parámetro  a

la esperanza:
ECM (T )  E (ˆ   ) 2 
Cuanto menor sea el error cuadrático medio más concentrada estará la distribución del estimador
alrededor del parámetro  y por tanto, más probable será que la estimación ˆ esté cerca del valor
desconocido de  .
Teorema: Sea ˆ un estimador del parámetro  . El error cuadrático de un estimador es la suma de

su varianza más el sesgo al cuadrado, es decir:
ECM (ˆ)  Var (ˆ)  Sesgo 2 (ˆ)

Demostración:

    E ˆ  E ˆ     E ˆ   
2 2 2
ECM (ˆ)  E  (ˆ   ) 2   E  ˆ  E ˆ   E ˆ   

 
2
 Var (ˆ)  E ˆ   
Ejemplo: Tomamos una muestra de tamaño 3 de una población N (  , ) , y consideramos tres

estimadores de  :
2X  2X2  X3 2 X1  X 2  X 3 X  X2  X3
ˆ1  1 , ˆ 2  , ˆ 3  1 X
3 3 3
Sabemos que: E  X    y Var ( X )  n , por tanto:

2
2 E  X 1   2 E  X 2   E  X 3  2  2  
E  ˆ1    
3 3
4Var  X 1   4Var  X 2   Var  X 3 
ECM  ˆ1   Var ( ˆ11 )   2
9
Análogamente obtenemos:
 4  6  
2 2
2
ECM  ˆ 2   Var ( ˆ 2 )    y ECM  ˆ 3   Var ( ˆ 3 ) 
 3  9 3
El error cuadrático medio de ̂3 es el menor de los errores cuadráticos de los tres estimadores
cualquiera que sea el valor de  y de  2 . Por lo tanto, el mejor estimador es ̂3 , pero no podemos
comparar los estimadores ̂1 y ̂2 porque no conocemos los valores de  y de  2 .
VI - 5
Un estimador ˆn se dice que es asintóticamente insesgado para  si:
lim E ˆn    ,   
n 
Ejemplo: Sea X 1 , X 2 ,..., X n una muestra aleatoria simple de una variable aleatoria X con E  X    .
3 X 1  X 2  ..  X n
El estimador: ˆ n  es asintóticamente insesgado para  :
n
n2
lim E  ˆ n   lim 
n  n  n
Finalmente, otra propiedad deseable para un estimador es la consistencia. Intuitivamente un

estimador consistente es aquel que se aproxima, al crecer el tamaño muestral, al verdadero valor del
parámetro.
Un estimador ˆn se dice consistente en media cuadrática para estimar un parámetro  si:
lim ECM ˆn   0

n 
De acuerdo con la definición de error cuadrático medio, una condición necesaria y suficiente para que
ˆn sea consistente es que sea asintóticamente insesgado y que lim Var ˆn   0 .
n 
Ejemplo: Hemos visto que ˆ  X es un estimador insesgado para el parámetro  . Además hemos
visto que Var ( ˆ )  Var ( X )  n , por tanto, es fácil ver que se trata de un estimador consistente en
2
media cuadrática.
Se dice que el estimador ˆ1 es más eficiente que el estimador ˆ2 si:
Var (ˆ )  Var (ˆ )
1 2
Un estimador es óptimo cuando es insesgado y de varianza mínima.
VI - 6
6.6. DISTRIBUCIÓN DE LA MEDIA MUESTRAL
Sea X 1 , X 2 ,..., X n una muestra aleatoria simple de una variable aleatoria X con E  X    y
Var ( X )   2 . Tal y como se ha visto en los anteriores ejemplos, un estimador razonable del
parámetro  es la media muestral:
X  X 2  ...  X n
X 1
n
Propiedades:
1 n  1 n 1 n 1
E  X   E   X i    E  X i      n  
 n i 1  n i 1 n i 1 n
1 n  1 n n 2
Var ( X )  Var   X i   2 Var ( X i )  2 Var ( X i ) 
 n i 1  n i 1 n n
6.6.1. Distribución de la media muestral en poblaciones normales con varianza conocida
Sea X 1 , X 2 ,..., X n una muestra aleatoria simple de una variable aleatoria X normal con media  con
y varianza  2 conocida. Entonces a partir de las propiedades de la normal y de lo dicho
anteriormente, la media muestral X sigue una distribución normal con media  y varianza n . Por
tanto, la variable tipificada:
X 
Z sigue una distribución normal estándar N(0,1).
/ n
Ejemplo: Consideremos las alturas de un grupo de estudiantes. Sabemos que se trata de una variable
aleatoria normal con media de 172 cm y desviación típica 11 cm. Hemos tomado una muestra de 15
estudiantes tomados al azar.
a) ¿Cuál es la probabilidad quela media de la muestra sea inferior a 170 cm?
 X   170  172 
P ( X  170)  P     P ( Z  0,70)  P ( Z  0,70)  0, 2420
  / n 11/ 15 
b) ¿Cuál es la probabilidad que la diferencia entre la media de la muestra de estos 15 estudiantes y la

media poblacional sea menor de 1 cm?

P (| X   |  1)  P (1  X    1)  P 
1  0

 
X    0 1 0 
 
 / n / n / n
 
 P

1  0

X  0  
1 0 

 P( 0,35  Z  0,35) 
 11/ 15 11/ 15 11/ 15 
 
 2 P ( Z  0,35)  2 · 0,3632  0,7264
Observemos que no ha participado para nada la media poblacional de 172 cm, por lo que en caso de
ser desconocida ya tendríamos información sobre ella.
VI - 7
6.6.2. Distribución de la media muestral en poblaciones normales con varianza

desconocida
Sea X 1 , X 2 ,..., X n una muestra aleatoria simple de una variable aleatoria X normal con media  con
y varianza  2 desconocida. Entonces, habrá que estimar la varianza a partir de la muestra calculando
la varianza muestral corregida:
1 n
S n21  
n  1 i 1
( X i  X )2
En este caso la variable tipificada:

X 
tn 1 
S n 1 / n
no sigue una distribución normal sino que sigue una distribución t de Student con n-1 grados de
libertad.
La distribución t de Student con n grados de libertad que denotaremos por tn es muy parecida a la
distribución normal estándar: es simétrica alrededor del cero, pero su desviación típica es un poco
mayor que la de la normal estándar, es decir, los valores que toma esta variable están más dispersos.
No obstante, a medida que aumenta el número de grados de libertad más se parece a la normal
estándar tal y como se muestra en la figura 6.1.
Figura 6.1. Distribución t de Student
Esta distribución de debe a W.S. Gosset al final del siglo XIX. Gosset trabajaba en la empresa
cervecera Guinness y utilizaba el seudónimo Student para firmar sus trabajos de investigación.
Ejemplo: Veamos de nuevo el ejemplo anterior, pero ahora en el caso en que no conocemos la
varianza poblacional.
Consideremos las alturas de un grupo de estudiantes. Sabemos que se trata de una variable aleatoria
normal con media de 172 cm y desviación típica poblacional desconocida. Hemos tomado una
VI - 8
muestra de 15 estudiantes tomados al azar de la que hemos hallado su desviación típica corregida
obteniendo un resultado de 11,187 cm.
a) ¿Cuál es la probabilidad quela media de la muestra sea inferior a 170 cm?
 X  170  172 
P ( X  170)  P    P (t14  0,6924)  P(t14  0,6924) 0, 25
 S / n 11,187 15 
 n 1 
b) ¿Cuál es la probabilidad que la diferencia entre la media de la muestra de estos 15 estudiantes y la

media poblacional sea menor de 1 cm?

P (| X   |  0,746)  P(1  X    1)  P 
1  0

X  0


1 0 



 S n 1 / n S n 1 / n Sn 1 / n 
 
P

 1  0


X  0

1 0


 P (0,3462  t14  0,3462) 
 11,187 / 15 11,187 / 15 11,187 / 15 
 
 2 P (t14  0,3462) 0,734
De nuevo, observemos que no ha participado para nada la media poblacional de 172 cm, por lo que en
caso de ser desconocida ya tendríamos información sobre ella.
Antes de pasar al siguiente apartado, queda por justificar porqué en la fórmula de la varianza
muestral corregida se ha dividido por n-1 en lugar de dividir por n tal y como hacíamos con la
varianza en el tema dedicado a la estadística descriptiva.
Observemos que:
1 n

 Xi  X  1 n

 ( X i  E[ X ]  ( E[ X ]  X ) 
2 2
S n2   
n i 1 n i 1

1 n

 ( X i  E[ X ]2  ( E[ X ]  X )2  2( X i  E[ X ]( E[ X ]  X ) 
n i 1

1 n 
   ( X i  E[ X ]) 2  n ( E[ X ]  X ) 2 
n  i 1 
Si calculamos su valor esperado:
1  n 
E  Sn2   E    ( X i  E[ X ]) 2  n ( E[ X ]  X ) 2   
 n  i 1 
1 n 
   E ( X i  E[ X ]) 2   n E  ( E[ X ]  X ) 2   
n  i 1 
1 n  1 n 1 n 1 2
  Var[ X ]  n Var[ X ]    n Var[ X ]  Var[ X ]  Var[ X ]  
n  i 1  n n n
Así pues, el valor esperado de S n2 es menor que  2 . Por esta razón se define la varianza muestral corregida
por:
VI - 9
1 n n 2
S n21  
n  1 i 1
( X i  X )2 
n 1
Sn
De manera que:
n
E  S n21   E  Sn2   Var ( X )   2
n 1  
Resumiendo, Sn2 tiende a subestimar la varianza de la población. Para corregir este defecto dividimos
por n-1 en lugar de por n, definiendo de esta forma la varianza muestral corregida que es un estimador
insesgado de la varianza.
6.6.3. Teorema del Límite Central
Si X 1 , X 2 ,..., X n constituyen una muestra aleatoria de una población de media  y varianza 2,
entonces sea cual sea la distribución de la variable aleatoria X, se tiene que la distribución de:
X 
/ n
es la distribución normal estándar N(0,1) conforme n   . En la práctica, para n > 30.
Ejemplo: Una empresa de mensajería que opera dentro de la ciudad tarda una media de 35 minutos en
llevar un paquete con una desviación típica de 8 minutos. Supongamos que durante el día de hoy de
han repartido 200 paquetes.
¿Cuál es la probabilidad que la media del tiempo de entrega esté entre 30 y 35 minutos?
Sea la variable X = ”tiempo de entrega del paquete”. No sabemos qué distribución sigue pero como
que el tamaño de la muestra es superior a 30, entonces, aplicando el teorema del límite central,
tenemos que:
X 
N (0,1)
/ n
Por tanto,
 30  35 X  35 35  35 
P (30  X  35)  P      P (8,84  Z  0) 0,5
 8 / 200 8 / 200 8 / 200 
VI - 10

Teoria 6

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Teoria 6

Caricato da

Copyright:

Formati disponibili

J.

La inferencia estadística es una parte de la Estadística que comprende los métodos y

Según el objeto de estudio, la inferencia se clasifica en:

 Inferencia paramétrica: se ocupa de aquellos casos en los que la distribución de

 Inferencia no paramétrica: trata problemas similares cuando se tiene una distribución

Según el tipo de información considerada, la inferencia estadística se divide en:

6.2. CONCEPTOS DE MUESTRA ALEATORIA, ESTADÍSTICO Y ESTIMADOR

Como ya se indicó a principio de curso, entendemos por población, el conjunto homogéneo de

Una muestra es un subconjunto de la población. El tamaño muestral es el número de individuos de la

Un método de muestreo no es más que un procedimiento empleado para la obtención de la muestra.

6.2.2. Muestra aleatoria simple y estadístico

Uno de los objetivos de la inferencia estadística es la estimación puntual de los parámetros

Llamaremos estadístico a cualquier función T de la muestra. Por tanto, un estadístico

6.2.3. Estimación puntual

Podemos resolver el problema de dos formas distintas:

6.3. MÉTODO DE LOS MOMENTOS

1) Igualar los momentos de la población: 1  E  X  ,  2  E  X 2  ,  3  E  X 3  , … con los

Ejemplo: Estimar el valor del parámetro de la distribución exponencial: f ( x)   exp( x) , con

6.4. MÉTODO DE LA MÁXIMA VEROSIMILITUD

Ejemplo: De nuevo vamos a estimar el valor del parámetro de la distribución exponencial:

Para un valor dado xi la densidad de probabilidad exponencial es: f ( xi )   e  xi , por tanto, la

6.5. PROPIEDADES DE LOS ESTIMADORES

Llamamos sesgo del estimador ˆ a la diferencia: Sesgo(ˆ)  E ˆ    .

Si esta diferencia es nula, decimos que el estimador es insesgado o centrado.

Llamamos error cuadrático medio (ECM) de un estimador ˆ  T ( X 1 , X 2 ,..., X n ) del parámetro  a

Teorema: Sea ˆ un estimador del parámetro  . El error cuadrático de un estimador es la suma de

ECM (ˆ)  Var (ˆ)  Sesgo 2 (ˆ)

Ejemplo: Tomamos una muestra de tamaño 3 de una población N (  , ) , y consideramos tres

Sabemos que: E  X    y Var ( X )  n , por tanto:

Un estimador ˆn se dice que es asintóticamente insesgado para  si:

Finalmente, otra propiedad deseable para un estimador es la consistencia. Intuitivamente un

lim ECM ˆn   0

Un estimador es óptimo cuando es insesgado y de varianza mínima.

6.6. DISTRIBUCIÓN DE LA MEDIA MUESTRAL

6.6.1. Distribución de la media muestral en poblaciones normales con varianza conocida

a) ¿Cuál es la probabilidad quela media de la muestra sea inferior a 170 cm?

b) ¿Cuál es la probabilidad que la diferencia entre la media de la muestra de estos 15 estudiantes y la

6.6.2. Distribución de la media muestral en poblaciones normales con varianza

En este caso la variable tipificada:

Figura 6.1. Distribución t de Student

a) ¿Cuál es la probabilidad quela media de la muestra sea inferior a 170 cm?

b) ¿Cuál es la probabilidad que la diferencia entre la media de la muestra de estos 15 estudiantes y la

Si calculamos su valor esperado:

6.6.3. Teorema del Límite Central

es la distribución normal estándar N(0,1) conforme n   . En la práctica, para n > 30.

Potrebbero piacerti anche