Sei sulla pagina 1di 16

Estad´ıstica 68

Tema 7: Estimación puntual.


7.1 Introducción a la Inferencia Estadı́stica.
En los temas anteriores se ha hecho énfasis en la teorı́a de la probabilidad y en determinados modelos
probabil´ısticos. En este tema y los siguientes nos centraremos en el estudio de procedimientos que nos
permitan tomar decisiones referidas a determinados problemas que presentan incertidumbre. Estos
procedimientos se engloban en lo que denominamos Inferencia Estad´ıstica.
El objetivo de la Inferencia Estadı́stica es obtener información sobre la ley de probabilidades (o modelo
probabilı́stico) de un fenómeno, a partir de algunos datos experimentales.
Existen distintos tipos de procedimientos de Inferencia. Nosotros nos vamos a centrar en los llamados
procedimientos clásicos, en los que se supone que la única información disponible sobre el modelo
son los datos correspondientes a una muestra representativa de la población objeto de estudio, y los
problemas concretos que vamos a abordar se resumen en los siguientes:

(a) Problemas en los que la distribución de la variable se conoce, pero los parámetros (todos o
parte) que la caracterizan son desconocidos. El problema es, en este caso, cómo obtener un
valor o valores numéricos, a partir de los datos, que sea un pronóstico o estimación razonable
de ese parámetro. Cuando la solución proporcionada es un sólo valor numérico, hablaremos
de procedimientos de estimación puntual. Cuando la solución proporcionada es un intervalo
de valores en el que “probablemente” estará el parámetro, hablaremos de procedimientos de
estimación por intervalos.
(b) Problemas en los que se trata de constatar que una afirmación acerca de la distribución de
probabilidades del fenómeno estudiado es o no cierta. En este caso, hablaremos de procedimientos
de contraste de hipótesis.

Ejemplo 1: Supongamos que estamos estudiando el tiempo hasta el fallo de un determinado componente
electrónico. Se ha seleccionado una muestra representativa de este tipo de componente y se han
mantenido en funcionamiento hasta fallar, anotándose la duración de cada uno. Nos podemos plantear
los siguientes interrogantes:

(a) Si sabemos ya que el tiempo hasta el fallo sigue una distribución exponencial, ¿cuál es el tiempo
medio hasta el fallo para este tipo de componentes? (Corresponde a un problema de estimación
puntual).
(b) En las mismas condiciones que antes (sabiendo que la distribución es exponencial), ¿qué rango de
valores para la duración media parece razonable?. (Corresponderı́a a un problema de estimación
por intervalos).
(c) Los componentes provienen de dos procesos de fabricación distintos y se quiere determinar si
existen diferencias en cuanto al tiempo medio hasta el fallo. (Problema de contraste).
Estad´ıstica 69

7.2 Muestreo; tipos de muestreo.


En una gran parte de los estudios experimentales es imposible disponer de los datos correspondientes a
todos los elementos de la población objeto de estudio (por razones económicas, de tiempo, o porque el
estudio suponga la destrucción del elemento estudiado o porque los elementos estudiados no existan en
la realidad). En esos casos es necesario trabajar a partir de los datos de sólo una parte de la población
y para que el estudio tenga validez interesa que esa parte sea representativa de toda la población.
Ya habı́amos definido anteriormente muestra como una parte representativa de la población; un proce-
dimiento de muestreo es un procedimiento para seleccionar muestras representativas. Existen diversos
tipos de muestreo. Vamos a introducir algunos:

(a) Muestreo aleatorio simple: En este caso, cada elemento de la población tiene idéntica probabilidad
de ser elegido en cada una de las extracciones. Este tipo de muestreo se aplica cuando en la
población existe homogeneidad respecto de la caracterı́stica a estudiar.
En los casos en los que la muestra se extrae de una población finita, corresponde a extracciones con
reemplazamiento.
Este tipo de muestreo es uno de los más importantes, pues en él se basan los demás tipos que
vamos a introducir y una gran parte de los métodos estadı́sticos que vamos a desarrollar son
válidos sólo si la muestra se ha seleccionado por este procedimiento.

Deftnición 1 Sea X una v.a.; llamaremos muestra aleatoria simple (m.a.s.) de tamaño n de
X a un conjunto de variables aleatorias (X1 , . . . , Xn ) independientes y con idéntica distribución
que la variable X. Por tanto, una m.a.s. es un vector aleatorio, cada uno de cuyos elementos
representa los posibles valores de la componente i-ésima de una muestra aleatoria de tamaño n
de la población.

Ejemplo 2: Consideremos una población formada por 10 matrimonios, sobre la que se observa la
caracterı́stica ”número de hijos”.

Matrimonio ”número de hijos”


1 Alonso Pérez 1
2 Bueno Pongo 2
3 Delgado Delgado 2
4 Delgado Grueso 1
5 Luis Calle 3
6 Mart´ınez Juez 3
7 Pérez Pérez 3
8 Ramos Ramos 2
9 Rodrı́guez Ruiz 3
10 Ruiz Maya 1
Sea X la variable aleatoria que asigna a cada matrimonio el ”número de hijos” del matrimonio.
Estad´ıstica 70

El soporte de esta variable es SX = {1, 2, 3} y la ley de probabilidades viene dada por :


p(X = 1) = 0.3 p(X = 2) = 0.3 p(X = 3) = 0.4
Vamos a considerar ahora todas las posibles muestras de tamanõ 3 de X y la probabilidad de
extraer cada una de esas muestras:

Muestra Probabilidad Muestr Probabilidad Muestra Probabilidad


(1,1,1) (0.3)3 = 0.027 (3,1,1) 2
(0.3) (0.4) = 0.036 (3,2,3) (0.3)(0.4)2 = 0.048
(1,1,2) (0.3)3 = 0, 027 (1,3,3) (0.3)(0.4)2 = 0.048 (3,3,2) (0.3)(0.4)2 = 0.048
(1,2,1) (0.3)3 = 0.027 (3,1,3) (0.3)(0.4)2 = 0.048 (3,3,3) (0.4)3 = 0.064
(2,1,1) (0.3)3 = 0.027 (3,3,1) (0.3)(0.4)2 = 0.048 (1,2,3) (0.3)2(0.4) = 0.036
(1,2,2) (0.3)3 = 0.027 (2,2,3) (0.3)2(0.4) = 0.036 (1,3,2) (0.3)2(0.4) = 0.036
(2,1,2) (0.3)3 = 0.027 (2,3,2) (0.3)2(0.4) = 0.036 (2,3,1) (0.3)2(0.4) = 0.036
(2,2,1) (0.3)3 = 0.027 (3,2,2) (0.3)2(0.4) = 0.036 (2,1,3) (0.3)2(0.4) = 0.036
(1,1,3) (0.3)2(0.4) = 0.036 (2,2,2) (0.3)3 = 0.027 (3,1,2) (0.3)2(0.4) = 0.036
(1,3,1) (0.3)2(0.4) = 0.036 (2,3,3) (0.3)(0.4)2 = 0.048 (3,2,1) (0.3)2(0.4) = 0.036

Lo que acabamos de dar es la ley de probabilidades del vector aleatorio (X1, X2, X3), donde cada
Xi representa el valor de X en el elemento i-ésimo de la muestra y podemos ver que cada Xi es
también una variable aleatoria con la misma distribución que X.
En general: puesto que una m.a.s. es un vector aleatorio, quedará definido si conozco su so-
porte y su ley de probabilidades. Teniendo en cuenta que las componentes del vector son v.a.
independientes y con la misma distribución que X,
• si X es discreta, p(x1 , x2 , . . . , xn ) = p(x1 )p(x2 ) . . . p(xn ), donde p es la función de probabilidad
de X.
• si X es continua, f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ), donde f es la función de densidad
de X.
(b) Muestreo estratificado:
Se utiliza cuando la población no es homogénea. Se trata de respetar la heterogeneidad de la
población en la muestra: proporción de hombres/mujeres, de edad/profesión, ...
La población se subdivide en clases o estratos homogéneos. La muestra se toma asignando
un número de elementos a cada estrato y escogiendo los elementos dentro de cada estrato por
muestreo aleatorio simple.
(c) Muestreo por conglomerados.
Se utiliza cuando la población es homogénea respecto de la caracterı́stica a estudiar, pero se
encuentra dividida de manera natural en grupos (por ejemplo, provincias, colegios, ...). Se selec-
cionan algunos de los subgrupos de la población y en cada subgrupo se estudia toda la población
o una parte elegida por muestreo aleatorio simple.
(d) Muestreo sistemático.
Este tipo se utiliza para elementos ordenados de alguna manera (por ejemplo en listas, o en orden
cronológico de fabricación, etc).
Estad´ıstica 71

Se selecciona un primer elemento de la población de manera aleatoria y a partir de él se seleccionan


los demás elementos a intervalos fijos.
Por la forma de selección, en principio, no se puede suponer independencia entre las observaciones.
Si el orden de los elementos en la lista es al azar, entonces el muestreo sistemático es equivalente
al muestreo aleatorio simple. Si los individuos próximos tienden a ser más semejantes que los
alejados, este muestreo tiende a ser más preciso que el muestreo aleatorio simple al cubrir más
homogéneamente toda la población.

7.3 Estadı́sticos y Estimadores.


En cualquiera de los procedimientos de Inferencia descritos anteriormente, un concepto que juega un
papel importante es el de estad´ıstico:

Deftnición 2 Dada una v.a. X, y un tamaño muestral n, llamaremos estadı́stico T a una aplicación
del conjunto de muestras aleatorias simples de la población en IRk ,

Un estadı́stico es, por tanto, un vector aleatorio, cuya distribución depende de la del vector aleatorio
(X1, . . . , Xn), y por tanto de la de la v.a. X.
Ejemplo 3: Con los mismos datos que en el ejemplo 2, podemos considerar los siguientes estad´ıstico,
definidos sobre el conjunto de muestras de tamanõ 3 de la variable X:

• T1 (X1 , X2 , X3 ) = máx{X1 , X2 , X3 }
Este estad´ıstico es una variable aleatoria cuyo soporte es ST1 = {1, 2, 3} y su ley de probabilidades
viene dada por:
p(T1 = 1) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 1) = p((1, 1, 1)) = 0.027

p(T1 = 2) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 2) =


S S S S S S
= p((2, 1, 1) (1, 2, 1) (1, 1, 2) (2, 2, 1) (2, 1, 2) (1, 2, 2) (2, 2, 2)) == 7(0.027) = 0.189

p(T1 = 3) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 3) =


= 12(0.036) + 6(0.048) + 0.064 = 0.784

• T2(X1, X2, X3) = M ed{X1, X2, X3}


Este estad´ıstico es una variable aleatoria cuyo soporte es ST2 = {1, 2, 3} y su ley de probabilidades
viene dada por:
p(T2 = 1) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 1) =
S S S S S S
= p((1, 1, 1) (1, 1, 2) (2, 1, 1) (1, 2, 1) (1, 1, 3) (1, 3, 1) (3, 1, 1)) =
= 4(0.027) + 3(0.036) = 0.216

p(T2 = 2) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 2) =


Estad´ıstica 72

= 4(0.027) + 9(0.036) = 0.432

p(T2 = 3) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 3) =


= 6(0.048) + 0.064 = 0.352

• T3(X1, X2, X3) = X1+X23+X3


Este estad´ıstico es una variable aleatoria cuyo soporte es ST = {1, 4 , 5 , 2, 7 , 8 , 3} y su ley de
1 3 3 3 3
probabilidades viene dada por:
p(T3 = 1) = p((1, 1, 1)) = 0.027
p(T3 = 43 ) = 3(0.027) = 0.081
p(T3 = 53) = 3(0.027) + 3(0.036) = 0.189
p(T3 = 2) = 0.027 + 6(0.036) = 0.243
p(T3 = 73) = 3(0.036) + 3(0.048) = 0.252
p(T3 = 83 ) = 3(0.048) = 0.144
p(T3 = 3) = 0.064

Deftnición 3 (a) Cuando el objetivo es estimar un parámetro θ, llamaremos espacio paramétrico al


conjunto de todos los posibles valores de θ y lo denotaremos por Θ.
Se llama estimador a un estadı́stico θ̂ que se utiliza para estimar el valor de un parámetro θ y
cuyo conjunto de llegada coincide con el espacio paramétrico;
(b) Se llama estimación al valor del estimador para una muestra concreta.

Ejemplo 4:

• El espacio paramétrico del parámetro p de una variable aleatoria B(p) es el intervalo [0,1].
• El espacio paramétrico del parámetro pλ de una variable aleatoria P(λ) es (0, ∞).
• El espacio paramétrico del parámetro µ de una variable aleatoria N (µ, σ) es IR.

Ejemplo 5:

• La aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn ) le asigna el


Σ
n
Xi
valor X̄ = n es un estadı́stico; si este estadı́stico se utiliza para estimar la media poblacional,
i=1
diremos
n que es un estimador. Si (x1, . . . , xn) es una muestra concreta de la variable, el valor
Σ xi
x̄ = será una estimación de la media poblacional.
n
i=1
• Igualmente, la aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn )
le asigna el valor M ed(X) = mediana{(X1, . . . , Xn)} es un estad´ıstico; si este estad´ıstico se utiliza
para estimar la media poblacional, diremos que es un estimador. Si (x1, . . . , xn) es una muestra
concreta de la variable, el valor M ed{x1 , . . . , xn } será una estimación de la media poblacional.
Estad´ıstica 73

7.4 Propiedades deseables en un buen estimador.


Para un mismo parámetro se pueden elegir varios estimadores (por ejemplo, para estimar la media de la
población puede considerarse la media muestral, la mediana muestral, la moda, etc). Se plantea el
problema de elegir el estimador más adecuado entre varios posibles. Vamos a explicar algunas de las
propiedades que ser´ıa deseable que un estimador tuviese.

(a) Centrado o insesgado:


Si θ̂ es un estimador del parámetro θ, se dice que es centrado si E(θ̂) = θ. En otro caso se dice que
es sesgado y se define el sesgo de θˆcomo:

sesgo(θ̂) = E(θ̂) − θ.

Ejemplo 6:
• La media muestral es un estimador insesgado de la media de la población, µ.
Sea X la variable aleatoria correspondiente a la caracterı́stica de la población y (X1 , X2 , . . . , Xn )
Σ
n
Xi
una m.a.s. de X; sea X̄ = n . Entonces:
i=1
. n Σ . Σ
Σ Xi Σ
n
Xi Σ
n
E(Xi)
¯ =E
E(X) = =
n n n
E i=1
i=1
n i=1
n i=1
n

(aqu´ı se aplica que la media de una suma de v.a. es la suma de sus medias y que la media
de una constante por una v.a. es la constante por la media de la variable).
Como las variables Xi son igualmente distribuidas que la variable X, tendrán también su
misma media, µ; por tanto,
n n
Σ E(Xi ) Σµ
E(X̄ ) = = = µ.
n i=1
n
i=1

• La varianza muestral es un estimador sesgado de la varianza de la población, σ 2 .


Sea X la variable aleatoria correspondiente
n 2
a la caracterı́stica de la población y (X1 , X2 , . . . , Xn )
Σ (Xi −X̄ )
una m.a.s. de X; sea s2 = n
. Entonces:
i=1
. n Σ . n Σ
Σ (Xi − X̄ )2 Σ (Xi − µ + µ − X̄ )2
2
E(s ) = E =E =
i=1
n i=1
n
. n Σ
Σ (Xi − µ)2 + (µ − X̄ )2 + 2(Xi − µ)(µ − X̄ )
=E =
i=1
n
. n Σ
Σ (Xi − µ)2 Σ
n
(µ − X̄ )2 Σn
(Xi − µ)
=E ¯ =
+ i=1 + 2(µ − X) i=1
i=1 n i=1
n i=1 n
. n Σ . n Σ
Σ (Xi − µ)2 Σ (µ − X̄ )2
=E +E ¯ ¯− µ)) =
+ 2E((µ − X)(X
n n
i=1 i=1
Estad´ıstica 74
Σ E(Xi − µ) 2
n
Σ E(µ − X)¯ 2
n
= + − 2E((X̄ − µ)2 ) = 1
i=1
n i=1
n
n
Σ σ
2 n
Σ ¯2
E(µ − X)
= + − 2E((X̄ − µ)2 ) = 2
i=1
n i=1
n
n 2 2
Σ σ σ n−1
= − = σ2 .
i=1
n n n
Hemos obtenido que E(s2 ) = σ 2 n−n1 . Se deduce fácilmente que E(ŝ2 ) = σ 2 , donde ŝ2 =
Σ
n (X −X̄ )2
i
n−1 , y por tanto, este s´ıes un estimador centrado de σ2.
i=1
i=1
(b) Varianza m´ınima:
Se define estimador insesgado de mı́nima varianza como aquel estimador del parámetro que entre
todos los insesgados, es el de menor varianza. (Dicho estimador no existe siempre).

Observación 1 La importancia de esta propiedad se comprende a partir del teorema de Cheby-


chev, que afirmaba que para una variable aleatoriaθ,ˆ en el intervalo E (θˆ)± kσ θ (ˆ) se concentra
. Σ . Σ
al menos el 1 − 1 k2 100% de la probabilidad, es decir, que el 1 − 1 k2 100% de las veces que
obtenga de forma aleatoria un valor de la variable, ese valor estará en dicho intervalo.
. Σ
Por tanto, si θ̂ es un estimador del parámetro θ, “al menos para el 1 − k21 100% de las mues-
tras”, el estimador θ̂ tomará un valor en E(θ̂) ± kσ(θ̂). Si el estimador es centrado, eso significa
. Σ
1
que para “al menos el 1 − 100%
k2 de las muestras” el error cometido al estimar θ por medio de θ̂
será menor que kσ(θ̂) y se deduce que este error es menor cuanto menor sea σ 2 (θ̂).

En ocasiones, los estimadores que se utilizan no son centrados. En ese caso, la propiedad equiva-
lente a ser de varianza mı́nima es tener error cuadrático medio mı́nimo:

Deftnición 4 Se define el error cuadrático medio (ECM) de un estimador θ̂ como: ECM (θ̂) =
E(θ̂ − θ)2 .

Proposición 1 Se verifica que: ECM (θ̂) = (sesgo(θ̂))2 + V ar(θ̂).

Demostración

ECM (θ̂) = E(θ̂ − θ)2 = E(θ̂ − E(θ̂) + E(θ̂) − θ)2 =

= E((θ̂ − E(θ̂))2 + (E(θ̂) − θ)2 + 2(θ̂ − E(θ̂))(E(θ̂) − θ)) =

= E(θ̂ − E(θ̂))2 + E(E(θ̂) − θ)2 + E(2(θ̂ − E(θ̂))(E(θ̂) − θ)) =

= V ar(θ̂) + (E(θ̂) − θ)2 + 2(E(θ̂) − θ)E(θ̂ − E(θ̂)) = 3 = V ar(θ̂) + (sesgo(θ̂))2 .


1
E(Xi − µ)2 = V ar(Xi ) = σ 2 , por tener las variablesΣXi la misma distribución que X.
.
2 Σ
n Σ
n
1
Σ
n
nσ2 σ2
E(µ − X̄ )2 = E(X̄ − µ)2 = V ar(X̄ ) = V ar Xi
n = 1n2V ar( Xi ) = n2 V ar(Xi) = n2 = n
, ya que las variables
i=1 i=1 i=1
X1, . . . , Xn son independientes, por ser una m.a.s..
3
Obsérvese que E(θ̂ − E(θ̂)) = 0.
Estad´ıstica 75

En el resultado anterior, puede verse que si el estimador es centrado, el ECM coincide con la
varianza del estimador.
(c) Consistencia:
Los estimadores, en general dependen del tamaño n de la muestra (por ejemplo, X̄ en realidad
deberı́a escribirse como X̄n ). Por tanto, en general, para cada n vamos a tener un estimador
θ̂n ; se dice entonces que {θ̂n }∞
n=1 es una sucesión de estimadores consistentes si cumple las dos
condiciones siguientes:
i. lim E(θ̂n ) = θ.
n›→∞
ii. lim V ar(θ̂n ) = 0.
n›→∞
Esta propiedad nos asegura que aunque un estimador no sea insesgado y con varianza pequeña,
basta aumentar el tamaño de la muestra para poder disminuir el ECM, y en este sentido, los
estimadores con esta propiedad pueden ser estimadores razonables del parámetro.
Ejemplo 7:
i. La media muestral es un estimador consistente de la media poblacional.
En efecto, anteriormente hemos probado que para cualquier tamaño muestral n, la media
2
muestral es centrada y que V ar(X̄n ) = σ n. Por tanto, se cumplen las dos propiedades de la
definición de consistencia.
n
ii. El estimador θΣ ˆ = Xi
es un estimador consistente de la media poblacional.
n n−1
ni=1
En efecto, θ̂n = X̄ . Por tanto:
(n−1)
n n
• E(θ̂n ) = E(X̄ ) = µ −→ µ si n ›→ ∞ .
(n−1) 2 (n−1)
n2 σ2
• V ar(θ̂ ) = n
V ar(X̄ ) = = n
σ2 −→ 0 si n ›→ ∞ .
n (n−1)2 (n−1)2 n (n−1)2

7.5 Métodos para la obtención de estimadores.

(a) Método de los momentos:


Este método consiste en igualar los momentos muestrales respecto del origen, ak , a los correspon-
dientes momentos poblacionales αk ( que están relacionados con los parámetros de la distribución).
Recordemos que si X es una v.a., el momento de orden k (k ≥ 1) respecto del origen, αk, se define
como:

Σ
• αk = xki p(xi ), si X es discreta, con SX = {x1 , . . . , xn , . . .}.
i=1
∫ ∞
• αk = −∞ x
k
f (x) dx, si X es continua, con función de densidad f (x).
Método:
Si el número de parámetros que hay que estimar es k, dada una m.a.s. de tamaño n, (X1 , . . . , Xn ),
se plantea el siguiente sistema de ecuaciones (que en general no es lineal):
Estad´ıstica 76

Σ
n
Xi
α1 = n
i=1
Σ
n
(Xi )2
α2 = n
i=1

. .
Σ
n
(Xi)k
αk = n
i=1

. .
hasta obtener k ecuaciones que involucren a los parámetros.
De este sistema se despejan los parámetros y las expresiones obtenidas para éstos, en función de
los valores de la muestra, serán los estimadores por el método de los momentos.

Observación 2 Generalmente, los parámetros de los que depende la distribución de una v.a.
suelen ser la media poblacional, o la varianza o algún valor relacionado con estos; puede verse
fácilmente que estas medidas están relacionadas con los momentos respecto del origen. Por
ejemplo, α1 = µ α2 = σ2 + µ2.

Observación 3 Los estadı́sticos ası́ obtenidos pueden no ser estimadores, es decir, podemos
obtener soluciones que queden fuera del espacio paramétrico.

Ejemplo 8:
• Estimador por el método de los momentos de la media poblacional.
Puesto que hay que estimar un único parámetro, plantearemos una única ecuación:
n
α1 = Σ X i
i=1
n

Como α1 = µ, sustituyendo en la ecuación se obtiene:


Σ
n
Xi
µ=
i=1
n

Σ
n
Xi
y por tanto el estimador será: µ̂ = n
.
i=1
• Estimador por el método de los momentos de la media y la varianza poblacionales.
En este caso hay que estimar dos parámetros, luego habrá que plantear dos ecuaciones:
Σ
n
Xi
α1 = n
i=1
n 2

Σ (Xi)
α2 = n
i=1

Teniendo en cuenta la relación indicada en la observación 2 anterior, este sistema es equiva-


lente a:
Σ
n
Xi
n
µ= i=1
n
Σ (Xi)2
σ 2 + µ2 = n
i=1
Estad´ıstica 77

Despejando µ y σ2 se obtiene las siguientes expresiones:


. Σn
µ= Xi
i=1 n
Σn (Xi −X̄ )2
σ2 = i=1 n

Por tanto los correspondientes estimadores por el método de los momentos son:
.
µ̂ = X̄
σˆ2 = s2 .

(b) Método de máxima verosimilitud:


El método de máxima verosimilitud se basa en la búsqueda de aquel valor del parámetro que hace
más probable obtener la muestra que precisamente se ha obtenido. Vamos a desarrollar esta idea
con un ejemplo y después expondremos de forma teórica el método.
Ejemplo 9: Supongamos que X es una v.a. con distribución de Bernouilli de parámetro p y que
(x1 , . . . , xn ) son los valores (concretos) de una muestra aleatoria de tamaño n, (X1 , . . . , Xn ).
Si p c 1, parece lógico pensar que en esta muestra casi todos los valores xi sean 1, mientras
que si p c 0, será más probable que los elementos sean casi todos nulos. Si p c 1/2, entonces
esperarı́amos que aproximadamente hubiese igual número de 0 que de 1.
Sin embargo, no conocemos p pero si los valores que hemos obtenido en la muestra, x1, . . . , xn.
Ya hemos visto que la proporción de 0 y 1 en la muestra es más probable con unos valores de p
que con otros y la pregunta que nos vamos a formular es ¿cuál es el valor de p ∈ [0, 1] que hace
que la probabilidad de obtener precisamente esta muestra sea máxima?.
La probabilidad de obtener esta muestra es:

p(x1, x2, . . . , xn) = p(x1) . . . p(xn) = pk(1 − p)n−k,


Σ
n
donde k es el número de 1 en la muestra, es decir, k = xi .
i=1
El problema de encontrar el valor de p ∈ [0, 1] que hace máxima esta probabilidad es un problema
de extremos absolutos en [0, 1].
Si llamamos l(p) = pk(1 − p)n−k ( k ≥ 0), derivando en (0, 1) e igualando a 0:

lj(p) = kpk−1(1 − p)n−k − pk(n − k)(1 − p)n−k−1 =

= pk−1(1 − p)n−k−1[k(1 − p) − (n − k)p] = pk−1(1 − p)n−k−1[k − np]


Σ
n
xi
k
El punto cr´ıtico que se obtiene es: p = = i=1
.
n n
Calculando ljj (p) y substituyendo, se obtiene que éste es un punto de máximo relativo. Como
l(0) = l(1) = 0, se concluye que también es un máximo absoluto, pues la función es continua y
no tiene más extremos relativos en (0, 1).
Σ
n
xi
De esta forma hemos obtenido un estimador de p, p̂ = i=1n . A este estimador se le denomina
estimador máximo verosı́mil (EMV) de p (se observa que coincide con la media muestral X̄ ).
Estad´ıstica 78

Vamos a describir ahora teóricamente el método:


Método: Sea X una v.a. cuya distribución depende de un conjunto de parámetros θ1 , θ2 , . . . , θk ,
desconocidos y cuyo valor queremos estimar. Sea (X1, . . . , Xn) una m.a.s. de X. Denotaremos
por θ̇ = (θ1 , θ2 , . . . , θk ).

Deftnición 5 Se denomina función de verosimilitud para la muestra (x1 , . . . , xn ) a la función,


definida sobre el conjunto de posibles valores del parámetro θ̇, dada por:
.
pθ̇ (x1 , x2 , . . . , xn ) = pθ̇ (x1 ) . . . pθ̇ (xn ) si X es discreta
l(θ̇) =
fθ̇ (x1 , x2 , . . . , xn ) = fθ̇ (x1 ) . . . fθ̇ (xn ) si X es continua

Deftnición 6 El estimador máximo verosı́mil de θ̇ para la muestra (x1 , . . . , xn ) es el valor del


vector θ̇ para el cuál la función de verosimilitud alcanza el máximo absoluto.

Método:
- Formar la función de verosimilitud para una muestra arbitraria de tamaño n.
- Resolver el correspondiente problema de máximos absolutos en el dominio de los parámetros.
- Definir como EMV las expresiones obtenidas al determinar el máximo absoluto.

Observación 4 El método de máxima verosimilitud plantea varias dificultades en la práctica:


- No siempre existe el máximo absoluto para la función de verosimilitud.
- Aún cuando éste exista, para determinarlo es necesario resolver un problema de extremos abso-
lutos restringidos a un dominio de IRn , problema que no siempre es fácil de resolver.

En muchas ocasiones, en lugar de maximizar la función de verosimilitud es más fácil maximizar


la función L(θ) = ln (l (θ)), llamada función soporte. Si la función l(θ) es estrictamente positiva
en el dominio de θ, entonces los máximos de una y otra función se corresponden y por tanto
maximizar una es equivalente a obtener los máximos de la otra. (Un ejemplo es la determinación
del EMV de µ y σ para una v.a. con distribución normal).

Proposición 2 (Teorema de invarianza) Si θ̂ es el E.M.V. de θ y g es una función de θ,


. Σ
entonces g θ̂ es el E.M.V. de g (θ) .
Estad´ıstica 79

ESTADÍSTICA 06-07. Hoja 7

1. Obtener un estimador insesgado para p en una m.a.s. de tamaño n de una distribución binomial
B(m,p) con m conocido y calcular su error cuadrático medio. ¿Es consistente?.

2. Para estimar la media de una población se considera el estimador aX̄ . Encontrar el valor de a que
minimice el error cuadrático medio.

3. Los defectos en una placa fotográfica siguen una distribución de Poisson.

(a) Encontrar un estimador centrado para λ, indicando la varianza del estimador.


(b) Se estudian 7 placas, encontrando: 3, 5, 2, 1, 2, 3, 4 defectos. Dar la estimación máximo verosı́mil
de λ y de la longitud media entre defectos.

4. Calcular el valor de k para el cuál θ̂ = kX̄ es un estimador insesgado del parámetro θ de la v.a. X que
sigue una distribución uniforme en el intervalo (0, θ).

5. Calcular por el método de los momentos un estimador de θ en el supuesto de que X sea una variable
aleatoria con función de densidad:

0 x≤θ
( )=
f x 3θ3
x>θ
x4
6. Calcular por el método de los momentos estimadores de a y de b en una distribución uniforme en el
intervalo [a,b].

7. El coseno X del ángulo con el que se emiten los electrones en un proceso radiactivo es una variable
aleatoria con función de densidad:
1 + θx
f (x) = −1 ≤ x ≤ 1
2 ( 1 1)
θ −≤θ≤
0 en otro caso

Consideremos una muestra aleatoria simple (X1, X2, ..., Xn) de esta variable.

(a) Obtener el estimador de θ por el método de los momentos.


(b) Calcular la varianza de este estimador y demostrar que es consistente.
Estad´ıstica 80

8. En una gran piscifactorı́a hay una proporción desconocida de peces de una especie A. Para obtener
informacion sobre esa proporción vamos a ir sacando peces al azar.

(a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer pez de


la especie A sea el décimo que extraemos?.
(b) Tres personas realizan, independientemente unas de otras, el proceso de sacar peces al azar hasta
encontrarse con el primero de tipo A:
La 1a persona obtiene el primer pez de tipo A en la décima extracción.
La 2a persona obtiene el primer pez de tipo A en la décimoquinta extracción.
La 3a persona obtiene el primer pez de tipo A en la décimoctava extracción.

Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p.

9. Hallar el E.M.V. para una m.a.s. de tamaño n en una v.a. de Bernouilli de parámetro p.

10. Hallar el E.M.V. de (µ, σ) para una m.a.s. de tamaño n en una v.a. N (µ, σ).

11. Sea X una v.a. con distribución uniforme en el intervalo [θ − 1, θ + 1]. Se ha observado la siguiente
muestra: 2.522 , 2.614 , 1.160 , 1.627 , 1.410 , 2.612 , 1.636 , 2.945 , 2.952 , 1.502. Hallar la estimación
máximo verosı́mil de θ.

12. Sea X un v.a. U (0, θ) . Sea X1, X2, . . . , Xn una m.a.s. de X.

(a) Demostrar que X(n) = máx (X1 , X2 , . . . , Xn ) es el E.M.V. de θ. ¿Es insesgado?. Calcular su
E.C.M. ¿Es consistente?.
(b) Dar un estimador T1 insesgado de θ. ¿Es consistente?.
(c) Sea T2 = (n + 2)X(n)/(n + 1). ¿Es insesgado?. ¿Es consistente?.
(d) ¿Qué estimador es preferible entre T1 y T2 ?.
(e) Se ha observado la siguiente muestra: 3.872 , 2.758 , 2.096 , 2.494 , 0.917 , 0.801 , 1.192 Hallar la
estimación de θ.

13. La función de densidad de una v.a. X es f (x, θ) = (θ + 1) xθ si 0 < x < 1.

(a) Hallar un estimador de θ mediante el método de los momentos.


(b) Hallar el E.M.V. de θ.

14. Calcular por el método de los momentos un estimador de θ en el supuesto de que X sea una variable
aleatoria U (−θ, θ) .

15. Sea X una v.a. con distribución geométrica de parámetro p. Obtener un estimador de p por el método
de los momentos y el E.M.V..

16. Sea (X1 , X2 , . . . , Xn ) una m.a.s. de una v.a. con función de densidad fθ (x) = θ(1 − x)θ−1 ; 0
≤ x ≤ 1, θ > 0.
Encontrar el estimador máximo verosı́mil para el paramétro θ.
Estad´ıstica 81

17. Dada una muestra aleatoria simple (X1 , X2 , . . . , Xn ) procedente de una población X con función de
densidad
x x2

e 2θ si x ≥ 0
f (x) = θ
0 si x < 0.
Calcular por el método de máxima verosimilitud un estimador para θ.

18. Sea X un variable aleatoria con media µ y varianza σ2. Dadas dos muestras aleatorias independientes
de tamaño n1 y n2 , con medias muestrales X̄1 y X̄2 , demuestre que

X̄ = aX̄1 + (1 − a)X̄2 , 0<a<1

es un estimador insesgado para µ.


Si X̄1 y X̄2 , son independientes, encuentre el valor de a que minimiza la desviación estándar de X̄ .
¿Es consistente el estimador, para dicho valor de a?.

19. Supón que T1 , T2 y T3 son estimadores de θ. Se sabe que Eθ (T1) = Eθ (T2 ) = θ, Eθ (T3) = θ + 2, V
arθ(T1) = 12, V arθ(T2) = 10 y V arθ((T3 − θ)2) = 13. Compara estos tres estimadores desde el punto
de vista del sesgo y la varianza. ¿Cuál prefieres? ¿Por qué?

20. Sea X1 , X2 , . . . , X7 una m.a.s. de una población que tiene media µ y varianza σ 2 .
Se consideran dos estimadores de µ:
X1 + X2 + · · · + X7 2X1 − X6 + X4
θ̂1 = θ̂2 =
7 2
(a) ¿Estos estimadores son insesgados?
(b) Calcular la varianza de cada uno.
(c) ¿Cuál consideras mejor estimador de µ? ¿Por qué?
Estad´ıstica 82

21. Ciertas piezas tienen una duración mı́nima θ > 0 y una duración extra aleatoria que sigue una distri-
bución exponencial de parámetro 1 de manera que el tiempo de vida de la población de piezas es una
variable aleatoria X con densidad:
.
eθ−x si x > θ
f (x, θ) =
0 si x ≤ θ

Se extrae una muestra aleatoria simple de tamaño n de X.

(a) Obtén el estimador máximo verosı́mil T1 de θ.


(b) Calcula el estimador T2 de θ por el método de los momentos.
Nota: Puede ser útil el hecho de que X = θ + Y con Y ∼ E(1).
(c) ¿Es T2 un estimador insesgado de θ? ¿Y consistente para θ?
1 1
(d) Sabiendo que E(T1 ) = θ + n
y V ar(T1 ) = n2 ¿Qué estimador es preferible para θ? ¿Por qué?
(e) Un ingeniero proporciona una estimación de θ a partir de T1 y de una muestra de tamaño 30. ¿Qué
tamaño muestral serı́a necesario para conseguir con T2 una estimación preferible a la obtenida
por el ingeniero?

22. Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n.

(a) Demuestre que X¯2 es un estimador sesgado de µ2 .


Nota: Recordar que V ar(X) = E(X2) − (E(X))2
(b) Determine la magnitud del sesgo en este estimador.
(c) ¿Qué sucede con el sesgo a medida que aumenta el tamaño n de la muestra?

23. En un experimento de Bernouilli se observan los valores x1, x2, . . . , xn en n ensayos independientes.
Se proponen los siguientes estadı̀sticos como estimadores del parámetro p:
n
. n Σ
Σ 1 Σ
T1 = 1 x1 T2 = 1+ x1
n i=1 n +2 i=1

(a) ¿Son estimadores insesgados de p?


(b) ¿Son estimadores consistentes?

24. Sea T una v.a. con distribución exponencial de parámetro λ, que representa el tiempo de vida de una
componente.

(a) Demostrar que la probabilidad de dejar de funcionar antes del tiempo medio de vida no depende
del parámetro λ.
(b) Hallar el E.M.V. de la media de la población a partir de una m.a.s. de tamaño n.
Estad´ıstica 83
2
25. El porcentaje X de una componente en un producto tiene una función de densidad f (x) = θ2(θ − x)
si 0 < x < θ, y cero en otro caso.

(a) Dada una muestra aleatoria simple de tamaño n calcular el estimador de θ por el método de los
momentos y analizar su consistencia.
(b) Suponiendo que el tamaño muestral es uno, calcular el estimador máximo verosı́mil de θ.
(c) Particulariza el estimador obtenido en el apartado (a) al caso n = 1 y compáralo con el obtenido
en el apartado (b).

26. La variable X representa los precios de alquiler de los apartamentos de una zona turı́stica. La función
de densidad de X es:
.
f x, θ 1θe−x/θ x >0
( )= 0 x≤0
Se elige una muesta aleatoria simple X1, X2, . . . , Xn (n ≥ 2) de precios y se consideran los estimadores
de θ:
θ̂1 = X1 + X2 + · · · + Xn−1 θ̂2 = X1 + X2 + · · · + Xn
n−1 n+1
(a) Estudia la consistencia de θ̂1 y θ̂2 .
(b) ¿Cuál de los dos estimadores es preferible?

Potrebbero piacerti anche