Sei sulla pagina 1di 14

5 ESTIMACION

Objetivo: Aprender la construcción y características de los estimadores de los parámetros más


comunes, de manera puntual y por intervalo.

5.1 ESTIMACIÓN DE PARÁMETROS.

La parte de las matemáticas que trata de resolver problemas en base al análisis realizado sobre datos
que han sido obtenidos de la manera más adecuada posible (en base a un buen diseño de muestreo) se
conoce como estadística.

La estadística descriptiva organiza, resume y presenta los datos, mientras que la estadística inferencial
toma decisiones respecto a una población en base a todo un estudio que hace sobre una parte de tal
población, conocida como muestra.

Descriptiva

Estadística
Puntual
Estimación de
parámetros
Por intervalo
Inferencial

Prueba de
hipótesis

5.1.1 ESTIMACIÓN PUNTUAL

Generalmente los parámetros de las distribuciones que describen adecuadamente a un conjunto de


datos son desconocidos por lo que surge la necesidad de “estimarlos”.

Definición 1: Un estimador es una función de las variables aleatorias X 1 , X 2 ,K , X n . Es también una


variable aleatoria y su función de distribución de probabilidad puede obtenerse a partir de la
distribución conjunta de X 1 , X 2 ,K , X n .

Ejemplo 1: Supón que el parámetro de interés es θ . Entonces θˆ = f ( X 1 , X 2 , K, X n ) es un estimador


de θ .

Existen dos tipos de estimadores; puntual si solo se presenta un número como posible valor del
parámetro θ , y por intervalo si se presenta un conjunto de números dentro del cual puede estar el
valor de θ .
Por ejemplo cuando decimos; edad promedio de 35 años, estatura promedio de 1.65m, calificación
promedio de 9.3, etc. son estimaciones puntuales.

1
Como ya se dijo θˆ es una v.a y tiene una distribución de probabilidad. Supón que θˆ1 y θˆ2 son
estimadores diferentes del parámetro θ y que tienen una distribución acampanada, con E θˆ1 = θ y ( )
( )
E θˆ > θ .
2

¿Qué estimador es mejor?


Si tenemos que elegir entre uno de los dos, nos decidiríamos por el primero es decir θˆ1 ya que en
promedio le pega al verdadero valor del parámetro; esto significa que si se repite muchas veces el
muestreo obteniendo estimaciones θˆ11 , θˆ12 , ... , θˆ1k gran número de estos valores están cerca del
parámetro de interés, sin embargo no ocurre lo mismo si usamos θˆ para estimar al parámetro ya que
2
sólo una pequeña proporción de estos valores están cerca de θ .
Pero si las distribuciones de los dos estimadores son acampanadas y centradas en θ con V θˆ1 < V θˆ2 . ( ) ( )
¿Qué estimador es mejor? Bajo estas circunstancias θˆ1 es mejor ya que tiene una menor dispersión,
esto garantiza que la proporción de estimadores del parámetro que se acercan al parámetro es mayor
que la proporción correspondiente de los valores de θˆ2 .

Definición 2: θˆ es un estimador insesgado de θ si E θˆ = θ . ()


2
Definición 3: i) El error cuadrático medio del estimador está dado por ECM θˆ = E θ − θˆ . () ( )
ii) La eficiencia de θˆ1 relativa a θˆ2 se define como Er =
ECM θˆ1 ( )
ECM θˆ2
.
( )
Observaciones:
1) El error cuadrático medio es un medio para comparar estimadores, así, si ECM θˆ1 < ECM θˆ2 ( ) ( )
decimos que θˆ es “mejor” que θˆ .
1 2

2) Si Er < 1 , se dice que θˆ1 es más eficiente que θˆ2 .


( ) ()
3) Sesgo θˆ = E θˆ − θ
1

ECM (θˆ ) = E (θ − θˆ )
2

= E [θ − θˆ + E (θˆ ) − E (θˆ )]
2

= E [(E (θˆ ) − θˆ ) − (E (θˆ ) − θ )]


2

= E (E (θˆ ) − θˆ ) − 2(E (θˆ ) − θˆ )(E (θˆ ) − θ ) + (E (θˆ ) − θ ) 


2 2

 

= E [E (θˆ ) − θˆ] − 2 E [E (θˆ ) − θˆ]Sesgo(θˆ ) + E [Sesgo(θˆ )]


2 2

() ( )[ ( ) ( )]
= V θˆ − 2 Sesgo θˆ E θˆ − E θˆ + Sesgo 2 θˆ ()
() ()
ECM θˆ = V θˆ + Sesgo 2 θˆ ()

2
()
Si el estimador es insesgado, se tiene que Sesgo θˆ = 0 y entonces ECM θˆ = V θˆ . () ()
Sería muy bueno encontrar el estimador insesgado de varianza mínima, para esto se utiliza la cota de
Cramér-Rao, la cual se presenta como

()
V θˆ ≥
1
nE [ ln f X ( x;θ )]
∂ 2
∂θ

()
Si V θˆ =
1
se dice que se tiene el estimador insesgado de varianza mínima para el
nE [ ln f X ( x;θ )]
∂ 2
∂θ

parámetro θˆ .

Ejemplo 2: Si X es una v.a con media µ y varianza σ 2 y X 1 , X 2 ,K , X n es una m.a de tamaño n de X,


se tiene que la media muestral X y la varianza muestral S 2 son estimadores puntuales de la media y la
varianza poblacional respectivamente. ¿Son insesgados estos estimadores?

Solución

1 n
La media muestral está dada por la expresión X = ∑ X i . Entonces su esperanza es:
n i =1

( ) 1 n 
E X = E  ∑ X i  = µ ∴ X sí estima de manera insesgada a la media poblacional.
 n i =1 

La varianza muestral esta dada por


1 n
S2 = ∑ ( xi − x) 2
n − 1 i =1

=
1 n 2

n − 1 i =1
(
xi − 2 xi x + x
2
)
1 n 2 n n
2
=  ∑
n − 1  i =1
x i − 2 x ∑
i =1
x i + ∑
i =1
x 

1 n 2 n
2
=  ∑
n − 1  i =1
x i − 2 xn x + ∑
i =1
x 

1 n 2 2
= ∑ xi − 2n x + n x 
2

n − 1  i =1 
1 n 2 2
=  ∑
n − 1  i =1
xi − n x 

Entonces ( )
E S2 =
1 n
 ∑
n − 1  i =1
( )
E xi2 − nE x ( )
2 

3
σ2 
Recuerda que

X ~ N  x; µ x = µ , σ x2 = 
n 
y que ( )
V ( X ) = E X 2 − E 2 (X ) y por tanto

( )
E X2 = V ( X ) + E 2 (X )

Utilizando toda esta información tenemos que


1  σ 2 
( )
ES =2

n −1 
2
(
n σ + µ − n
2
) + µ 2 
 n 
=
1
n −1
(
nσ 2 + nµ 2 − σ 2 − nµ 2 )
σ 2 (n − 1)
= = σ 2 Entonces S 2 estima de manera insesgada a la varianza poblacional.
n −1

Ejemplo 3: Supón que se tiene una m.a de tamaño 2n de una población denotada por X con media µ y
1 2n 1 n
varianza σ 2 y que µ̂1 = ∑ i 2 n∑
2n i =1
X y µ̂ =
i =1
X i son dos estimadores para la media poblacional µ .

¿Cuál estimador recomendarías?

Solución
 1 2n 
E (µˆ 1 ) = E  ∑ X i  = µ
 2n i =1 

1 n 
E (µˆ 2 ) = E  ∑ X i  = µ
 n i =1 

Ambos estimadores son insesgados, entonces hay que considerar otro criterio. Veamos cuales son sus
errores cuadráticos medios.

( )
ECM (µˆ 1 ) = V X =
σ2
2n

nσ 2 σ 2
ECM (µˆ 2 ) = =
n2 n
σ n 1
2
Er = = <1
2n σ 2 2

Entonces yo recomendaría a µ̂1 porque estima de manera más eficiente a la media poblacional.

4
Ejemplo 4: Si X 1 , X 2 ,K , X 7 es una m.a de una población que tiene media µ y varianza σ 2 .
Considera los siguientes estimadores de µ :
1 7
θˆ1 = ∑ X i
7 i =1
θˆ2 = (2 X 1 − X 6 + X 4 )
1
2

a) ¿Alguno de estos estimadores es insesgado?


b) ¿Cuál es mejor? ¿Por qué?

Solución

( ) 1
7
( )
1
a) E θˆ1 = (7 µ ) = µ y E θˆ2 = (2 − 1 + 1) µ = µ . Ambos estiman de manera insesgada a la medio
2
poblacional.

( ) ( ) σ 2
b) ECM θˆ1 = V X =
7
( ) ( )
ECM θˆ2 = V θˆ2 = (6σ 2 ) = σ 2
1
4
3
2
Entonces θˆ1 es más eficiente que θˆ2 .

Ejemplo 5: Considera que se toman tres muestras aleatorias de tamaños 10, 8 y 6 de una población con
media µ y varianza σ 2 . S12 , S 22 y S 32 las varianzas correspondientes de las muestras. ¿Será S 2 un
estimador insesgado de la varianza poblacional?
S2 =
1
24
(
10 S12 + 8S 22 + 6 S 32 )

Solución

( )
Ya vimos que E S 2 = σ 2 entonces E (S 2 ) =
1
24
(10 + 8 + 6)σ 2 = σ 2 , por tanto sí es un estimador
insesgado del la varianza poblacional.

Ejemplo 6: Supón que Y1 , Y2 , Y3 forman una muestra aleatoria de una distribución exponencial con
1 y
función de densidad f Y ( y ;θ ) =exp −  con y > 0 . Considera los siguientes estimadores para θ :
θ  θ
Y +Y Y + 2Y2
θˆ1 = Y 1 , θˆ2 = 1 2 , θˆ3 = 1 , θˆ4 = Y .
2 3
a) ¿Cuáles de estos son estimadores insesgados?
b) Considerando sólo a los estimadores insesgados ¿Cuál tiene menor varianza?

5
Solución

a) Todos son insesgados.


( ) σ
( ) σ
( ) ( )
2 2
b) V θˆ1 = σ 2 , V θˆ2 = , V θˆ3 = = V θˆ4 . Entonces θˆ3 y θˆ4 tienen menor varianza.
2 3

Ejemplo 7: Demuestra que la media muestral es el estimador de varianza mínima para la media
poblacional de una distribución normal con media µ y varianza σ 2 .

Solución

Ya vimos que la media muestral es un estimador insesgado de la media poblacional µ .


 1  x − µ 2 
La f.d.p de la normal está dada por la expresión f X x; µ , σ ( 2
) =
1
exp −   
σ 2π  2  σ  

1 x−µ 
2

(
ln f X x; µ , σ 2
) = ln
1
−  
σ 2π 2  σ 


ln f X (x; µ , σ 2 ) =
1
[2( x − µ )] = x −2µ
∂µ 2σ 2
σ

2
∂
(   1
)  1
E  ln f X x; µ , σ 2  = E  4 ( x − µ ) 2  = 4 E ( x − µ ) 2 =
1 1
V (X ) = 2
 ∂µ  σ  σ σ2
2
σ ( )

Entonces CCR =
σ2
n
( )
= V X por lo tanto X es el estimador insesgado de varianza mínima para µ .

Definición 4:
i) Se dice que θˆ * es un estimador óptimo de θ si ECM θˆ * ≤ ECM θˆ ∀θˆ . ( ) ()
ii) Se dice que θˆn (estimador de θ basado en una muestra de tamaño n es consistente para θ si
lim P(| θˆ − θ |< ε ) = 1 o equivalentemente cuando lim ECM (θˆ ) = 0 .
n n
n →∞ n →∞

Ejemplo 8: X es un estimador óptimo y consistente de µ para N µ , σ 2 ya que ( )


( ) ( )
V X = ECM X = CCR y lim ECM X = lim
n→∞
( ) n→∞
σ2
n
=0

6
MÉTODO DE LOS MOMENTOS PARA ESTIMAR PARÁMETROS.

Este método da por hecho que los momentos muéstrale son una buena aproximación de los momentos
poblacionales, por lo tanto se igualan ambos momentos y de ahí se despeja el estimador del parámetro
de interés.

µ k = E (X k ) k-ésimo momento poblacional de la v.a X.

1 n
mk = ∑
n i =1
Xi
k
k-ésimo momento muestral de la v.a X.

µ k = mk y de aquí se despeja el estimador.

El estimador del parámetro θ obtenido por el método de los momentos se escribe con una tilde sobre la
~
teta de la forma θ .

( ) ( )
Ejemplo 9: Sea X ~ N x; µ , σ 2 estima θ = µ , σ 2 en base a una muestra aleatoria de tamaño n
usando el método de los momentos.

Solución

Tenemos dos parámetros a estimar por lo tanto necesitamos los dos primeros momentos muestrales y
los dos primeros momentos poblacionales.
Se igualan los primeros momentos; µ~ = x

Se igualan también los segundos momentos


µ 2 = E (X 2 ) = σ 2 + µ 2 = ∑ xi2 = m2 entonces µ̂ = x
1 n
n i =1
1 n
σ~ 2 + µ~ 2 = ∑ xi2
n i =1

()
σ~ 2 + x =
2 1 n 2
∑ xi
n i =1

σ~ 2 =
1 n 2
∑ xi − x () 2
=
1 n 2
 ∑
n  i =1
() 2
xi − n x 
n i =1 

σ~ 2 =
1 n
(
∑ xi − x
n i =1
)2

Ejemplo 10: Determina los estimadores por momentos para los parámetros α , β de la distribución
gamma, en base a una m.a de tamaño n.

7
Solución

Igualando los dos primeros momentos poblacionales con los muestrales tenemos un sistema de dos
ecuaciones con dos incógnitas que se tiene que resolver.

α~
µ1 = ~ = X = m1
β
~ ~
α α2 1 n
µ 2 = ~ 2 + ~ 2 = ∑ X i2 = m2
β β n i =1
Despejando α~ de la primera ecuación y sustituyendo en la segunda tenemos que:
~
α~ = β X

~ ~ 2
βX β2X 1 n 2
~
β2
+ ~
β2
= ∑ Xi
n i =1

X 1 n 2
∑ Xi
2
~ + X =
β n i =1

( )
2
X 1 n 2 1 n
∑ ∑
2
~ = X − X = X i2 − X
β n i =1
i
n i =1

Finalmente se tiene que los estimadores por el método de los momentos para los parámetros de la
2
~ nX ~ nX
distribución Gamma son: β = y α~ = β X =
∑ (X ) ∑ (X )
n 2 n 2

i
2
−X i
2
−X
i =1 i =1

Ejemplo 11: Sea X una v.a binomial con parámetros n y p desconocidos, encuentra los estimadores
por el método de los momentos para tales parámetros en base a una muestra aleatoria de tamaño k .

Solución

µ1 = np = X = m1
1 k 2
µ 2 = np (1 − p) + n 2 p 2 = ∑ X i = m2
k i =1

1 k
X (1 − ~p ) + X = ∑ X i2
2

k i =1
1 k
p X + X = ∑ X i2
2
X−~
k i =1

8
X−~
pX =
1 k

k i =1
2 1 k
X i2 − X = ∑ X i − X
k i =1
( )
2

( )
k
1
pX = X − ∑ Xi − X
2
~
k i =1
~
p = 1−
1 k

k X i =1
(
Xi − X
2
)
2
X kX
n~ = ~ =
( )
k
p
k X − ∑ Xi − X
2

i =1

Ejemplo 12: Sea una población con distribución Geométrica con parámetro p . Encuentra el estimador
para el parámetro usando el método de los momentos y en base a una muestra aleatoria de tamaño n .

Solución
1 1
µ1 = ~ = X = m1 ∴ ~p =
p X

MÉTODO DE MÁXIMA VEROSIMILITUD.

Definición 5: La función de verosimilitud de n variables aleatorias se define como su densidad


conjunta f X1 , X 2 ,K, X n ( x1 , x2 , K, x n ) . En particular si X 1 , X 2 ,K, X n es una muestra aleatoria de la
densidad f ( x;θ ) entonces la función de verosimilitud de la muestra está dada por
L(θ ) = f X 1 , X 2 ,K, X n ( x1 , x 2 , K , x n ) = f ( x1 ;θ ) f ( x 2 ;θ )L f ( x n ;θ )
n
L(θ ) = ∏ f ( xi ;θ )
i =1

Definición 6: Se dice que θˆ es un estimador máximo verosímil si maximiza la función de


verosimilitud.

Recuerda que el método para maximizar es en base a derivar parcialmente respecto al parámetro de
interés, igualar a cero y despejar el valor que hace posible esta ecuación.
Por facilidad de cálculo y dado que las funciones L(θ ) y ln L(θ ) se maximizan en el mismo punto, se

acostumbra encontrar al estimador máximo verosímil resolviendo la ecuación ln L(θ ) = 0
∂θ

Cuando se tiene un vector de parámetros a estimar por ejemplo θ = (θ 1 , θ 2 ,K ,θ k ) la manera de


proceder es resolver las k ecuaciones siguientes:
∂ ∂
ln L(θ ) = ln L(θ1 ,θ 2 , K , θ k ) = 0
∂θ 1 ∂θ 1

9
∂ ∂
ln L(θ ) = ln L(θ1 ,θ 2 , K, θ k ) = 0
∂θ 2 ∂θ 2
M
∂ ∂
ln L(θ ) = ln L(θ1 , θ 2 ,K ,θ k ) = 0
∂θ k ∂θ k

Ejemplo 13: Encuentra el estimador máximo verosímil de p en base a una m.a de tamaño n de una
población Bernoulli.

Solución
f X ( x; p ) = p x (1 − p)1− x si x = 0, 1
i) La función de verosimilitud de una m.a de tamaño n
n n
n n ∑ xi n− ∑ xi
L( p ) = ∏ f ( xi , p ) = ∏ p (1 − p )
xi 1− xi
= p i =1 (1 − p ) i =1

i =1 i =1

ii) Sacar el logaritmo natural de la función de verosimilitud.


ln L ( p ) =  ∑ xi  ln( p) +  n − ∑ xi  ln(1 − p)
n n

 i =1   i =1 
iii) Sacar la derivada parcial respecto a p .
n n
∑ xi n − ∑ xi

ln L( p ) = i =1 − i =1

∂p p 1− p

iv) Igualar a cero y resolver la ecuación ln L( p) = 0 . En el momento en que se iguala a cero se le
∂p
pone un “gorrito” al parámetro para indicar que se trata de su estimador máximo verosímil.

n n
∑ xi n − ∑ xi
i =1
− i =1
=0
pˆ 1 − pˆ
n n
∑ xi n − ∑ xi
i =1
= i =1

pˆ 1 − pˆ
n
n − ∑ xi
1 − pˆ
= n
i =1

pˆ ∑ xi
i =1
1 n
−1 = n −1
pˆ ∑ xi
i =1
1 n
= n ∴ pˆ = x
pˆ ∑ x
i
i =1

10
Ejemplo 14: Sea X 1 , X 2 ,K, X n una m.a de una densidad Normal con media µ y varianza σ 2
encuentra el estimador máximo verosímil de θ = µ , σ 2 . ( )
Solución
1  x−µ 
2

( ) 1 −  
f X x; µ , σ 2
= e 2 σ 
si x > 0
σ 2π

i) La función de verosimilitud de una m.a de tamaño n


1  xi − µ 
2

( ) = ∏ f (x , µ , σ )
n n
1 −  
L µ,σ 2 2
=∏ e 2 σ 

i =1 σ 2π
i
i =1

n
1
∑ ( xi − µ )2
( )

−n 2σ 2
= σ 2π e i =1

ii) Sacar el logaritmo natural de la función de verosimilitud.


( )
ln L µ , σ 2 = −n ln σ − n ln 2π −
1 n
2 ∑
2σ i =1
( x i − µ )2
iii) Sacar las derivadas parciales respecto a µ y respecto a σ 2 .

ln L (µ , σ 2 ) =
2 n 1 n
∑ i 2 ( x − µ ) = ∑ ( xi − µ )
∂µ 2σ 2 i =1 σ 2 i =1

∂σ 2
ln L (µ , σ 2
= − )n
+
1 n
2σ 2 2σ 4 i =1
∑ ( x i − µ )2
iv) Igualar a cero y resolver el sistema para encontrar los estimadores máximo verosímiles de los
parámetros de interés.

n
1 n 
0=
1
2 ∑
( xi − µ ) = 2 ∑ i
x − nµˆ  ∴ µ̂ = x
σ i =1 σ  i =1 

∑ (x − µ)
n 1
0=− +
2

2σ 2σ
2 4 i
i =1
n
1 n
∑ ( x i − µ )2 ( x i − µ )2
1
n= 2
σˆ i =1
∴ σˆ 2 = ∑
n i =1

Observa que el estimador máximo verosímil para la media poblacional de la distribución Normal es la
media muestral que además es un estimador insesgado, óptimo y consistente. Y que el estimador
máximo verosímil para la varianza poblacional de una distribución Normal es un estimador sesgado
pero consistente.

11
Definición 7: Supón que X 1 , X 2 ,K, X n es una muestra aleatoria de tamaño n en orden de aparición, si
ordenamos esta muestra de menor a mayor tenemos lo que se conoce como estadísticas de orden y se
denota X (1) , X ( 2 ) ,K , X ( n ) tales que X (1) ≤ X ( 2) ≤ K ≤ X ( n ) .

Ejemplo 15: Se toma una muestra aleatoria de 5 estudiantes y se registra su calificación en el segundo
parcial de probabilidad y estadística, siendo las calificaciones en orden de aparición x1 = 10 , x 2 = 5.3 ,
x3 = 8 , x 4 = 6.7 , x5 = 1 , las estadísticas de orden correspondientes son x (1) = 1 , x ( 2) = 5.3 , x ( 3) = 6.7 ,
x( 4) = 8 , x( 5) = 10 .

Ejemplo 16: Se toma una muestra aleatoria de tamaño n de una población distribuida uniformemente
en el intervalo (0, a ) ¿Cuál es el estimador máximo verosímil para a ?

Solución

i) La función de verosimilitud está dada por


n n
L(a ) = ∏ f ( xi , a ) = ∏
1 1
= n
i =1 i =1 a a

ii) Encontrar el valor de a que maximiza la función de verosimilitud.

Observa que esta función es máxima cuando a toma el valor más pequeño permisible que es
precisamente la última estadística de orden, es decir aˆ = X ( n )

0 x (1) x (n) a

Ejemplo 17: Se toma una muestra aleatoria de tamaño n de una población con f.d.p de Poisson con
media λ .
a) Encuentra el estimador máximo verosímil para λ .
b) Encuentra el valor esperado y la varianza del estimador.
c) ¿Es un estimador consistente?

Solución

i) La función de verosimilitud está dada por


n

∑ xi
n
λ e −λ
xi
λ i =1

L(λ ) = ∏ = e − λn n
xi !
i =1
∏x !
i =1
i

n n
ln L(λ ) = −λn + ∑ xi ln(λ ) − ln ∏ xi !
i =1 i =1

12
∂ n
x
ln L (λ ) = −n + ∑ i
∂λ i =1 λ

ii) Igualando a cero y resolviendo se encuentra el estimador máximo verosímil.

n
xi 1 n
n=∑ ∴ λ̂ = ∑ xi = x
i =1 λ n i =1

b) Valor esperado y varianza del estimador.


( )
E X =λ y V X = ( ) λ
n

n→∞
( )
c) lim V X = lim
n →∞
λ
n
= 0 entonces sí es consistente.

Ejemplo 18: Si X 1 , X 2 ,K, X n es una muestra aleatoria de una población con f.d.p
r
f X ( x;θ ) = x r −1e − x / θ con θ > 0 y x > 0 con r constante y positiva. Encuentra el estimador máximo
r

θ
verosímil para θ .

Solución

i) La función de verosimilitud está dada por


n
1
n
r rn − ∑ xir n
L(θ ) = ∏ ∏x
r −1 − xir / θ θ r −1
xi e = e i =1

θ θ n i
i =1 i =1

ii) Sacar el logaritmo natural de la función de verosimilitud.

 rn  1 n r
( )
n
ln L(θ ) = ln n  − ∑ xi + ∑ ln xi r −1
θ  θ i =1 i =1
n n
= n ln(r ) − n ln (θ ) − ∑ xir + (r − 1)∑ ln( xi )
1
θ i =1 i =1

∂ n 1 n

∂θ
ln L(θ ) = − + 2
θ θ
∑x
i =1
r
i

iii) Igualando a cero y resolviendo se tiene que

n n
n 1 ˆ = 1 xr
= 2
θˆ θˆ

i =1
x i
r
despejando al estimador del parámetro se tiene que θ ∑ i
n i =1

13
Ejemplo 19: Supón que X 1 , X 2 , K, X m es una m.a de la producción por acre de la variedad A de
trigo, la cual tiene una distribución Normal con media µ1 y varianza σ 2 y que Y1 , Y2 , K, Yn es una m.a
de la producción por acre de la variedad B de trigo, la cual se distribuye como una Normal con media
µ 2 y varianza σ 2 . Si X ⊥ Y encuentra el estimador máximo verosímil para la varianza común σ 2 si
se desconocen las medias poblacionales.

Solución

(
X ~ N x; µ1 , σ 2 ) (
y Y ~ N y; µ 2 , σ 2 )
Sabemos que el estimador máximo verosímil para la media poblacional está dado por la media muestral
es decir µ̂1 = X y µ̂ 2 = Y

La función de verosimilitud para la muestra conjunta está dada por

( )
L µ1 , µ 2 , σ 2 = f ( X 1 , X 2 ,K, X m , Y1 , Y2 , K, Yn )

( )∏ f (y ; µ )
m n
= ∏ f x i ; µ1 , σ 2 i 2 ,σ 2
i =1 i =1
1 1
m
1 − 2 ( xi − µ1 )2 n 1 − 2 ( yi − µ 2 )2
=∏ e 2σ ∏ e 2σ

i =1 σ 2π i =1 σ 2π
1 1
m
1 − 2 ( xi − µ1 ) 2 n
1 − 2 ( yi − µ 2 ) 2

=∏ e 2σ ∏ e 2σ
i =1 σ 2π i =1 σ 2π
m+ n
 
(σ )
m+ n
1 m
(Yi − µ 2 )2  
− n
= (2π ) 2 2 − 2
exp − 2  ∑ ( X − µ ) 2
+ ∑
 2σ  i =1
i 1
i =1 

Sacar el logaritmo natural a la función de máximo verosímilitud

m+ n
m+n
( ) 1 m
(Yi − µ 2 )2 
− n
ln L µ1 , µ 2 , σ 2 = ln(2π ) 2
− ln(σ 2 ) − 2 ∑
( X − µ ) 2
+ ∑
2σ  i =1
i 1
2 i =1 

Derivando parcialmente respecto a la varianza


∂ m+n
( ) 1 m
(Yi − µ 2 )2 
n
ln L µ , µ , σ 2
= − + −  ∑ ( X − µ ) 2
+ ∑
∂σ 2σ 2σ  i =1
2 1 2 2 4 i 1
i =1 

Igualando a cero y despejando se tiene que el estimador máximo verosímil para la varianza común es:
1 m
( ) (Yi − Y )2 
n
σˆ 2 = ∑ − + ∑
2
 X X
m + n  i =1
i
i =1 

14