10 Tema-07

Estad´ıstica 68
Tema 7: Estimación puntual.

7.1 Introducción a la Inferencia Estadı́stica.
En los temas anteriores se ha hecho énfasis en la teorı́a de la probabilidad y en determinados modelos
probabil´ısticos. En este tema y los siguientes nos centraremos en el estudio de procedimientos que nos
permitan tomar decisiones referidas a determinados problemas que presentan incertidumbre. Estos
procedimientos se engloban en lo que denominamos Inferencia Estad´ıstica.
El objetivo de la Inferencia Estadı́stica es obtener información sobre la ley de probabilidades (o modelo
probabilı́stico) de un fenómeno, a partir de algunos datos experimentales.
Existen distintos tipos de procedimientos de Inferencia. Nosotros nos vamos a centrar en los llamados
procedimientos clásicos, en los que se supone que la única información disponible sobre el modelo
son los datos correspondientes a una muestra representativa de la población objeto de estudio, y los
problemas concretos que vamos a abordar se resumen en los siguientes:
(a) Problemas en los que la distribución de la variable se conoce, pero los parámetros (todos o
parte) que la caracterizan son desconocidos. El problema es, en este caso, cómo obtener un
valor o valores numéricos, a partir de los datos, que sea un pronóstico o estimación razonable
de ese parámetro. Cuando la solución proporcionada es un sólo valor numérico, hablaremos
de procedimientos de estimación puntual. Cuando la solución proporcionada es un intervalo
de valores en el que “probablemente” estará el parámetro, hablaremos de procedimientos de
estimación por intervalos.
(b) Problemas en los que se trata de constatar que una afirmación acerca de la distribución de
probabilidades del fenómeno estudiado es o no cierta. En este caso, hablaremos de procedimientos
de contraste de hipótesis.
Ejemplo 1: Supongamos que estamos estudiando el tiempo hasta el fallo de un determinado componente
electrónico. Se ha seleccionado una muestra representativa de este tipo de componente y se han
mantenido en funcionamiento hasta fallar, anotándose la duración de cada uno. Nos podemos plantear
los siguientes interrogantes:
(a) Si sabemos ya que el tiempo hasta el fallo sigue una distribución exponencial, ¿cuál es el tiempo
medio hasta el fallo para este tipo de componentes? (Corresponde a un problema de estimación
puntual).
(b) En las mismas condiciones que antes (sabiendo que la distribución es exponencial), ¿qué rango de
valores para la duración media parece razonable?. (Corresponderı́a a un problema de estimación
por intervalos).
(c) Los componentes provienen de dos procesos de fabricación distintos y se quiere determinar si
existen diferencias en cuanto al tiempo medio hasta el fallo. (Problema de contraste).
Estad´ıstica 69
7.2 Muestreo; tipos de muestreo.

En una gran parte de los estudios experimentales es imposible disponer de los datos correspondientes a
todos los elementos de la población objeto de estudio (por razones económicas, de tiempo, o porque el
estudio suponga la destrucción del elemento estudiado o porque los elementos estudiados no existan en
la realidad). En esos casos es necesario trabajar a partir de los datos de sólo una parte de la población
y para que el estudio tenga validez interesa que esa parte sea representativa de toda la población.
Ya habı́amos definido anteriormente muestra como una parte representativa de la población; un proce-
dimiento de muestreo es un procedimiento para seleccionar muestras representativas. Existen diversos
tipos de muestreo. Vamos a introducir algunos:
(a) Muestreo aleatorio simple: En este caso, cada elemento de la población tiene idéntica probabilidad
de ser elegido en cada una de las extracciones. Este tipo de muestreo se aplica cuando en la
población existe homogeneidad respecto de la caracterı́stica a estudiar.
En los casos en los que la muestra se extrae de una población finita, corresponde a extracciones con
reemplazamiento.
Este tipo de muestreo es uno de los más importantes, pues en él se basan los demás tipos que
vamos a introducir y una gran parte de los métodos estadı́sticos que vamos a desarrollar son
válidos sólo si la muestra se ha seleccionado por este procedimiento.
Deftnición 1 Sea X una v.a.; llamaremos muestra aleatoria simple (m.a.s.) de tamaño n de
X a un conjunto de variables aleatorias (X1 , . . . , Xn ) independientes y con idéntica distribución
que la variable X. Por tanto, una m.a.s. es un vector aleatorio, cada uno de cuyos elementos
representa los posibles valores de la componente i-ésima de una muestra aleatoria de tamaño n
de la población.
Ejemplo 2: Consideremos una población formada por 10 matrimonios, sobre la que se observa la
caracterı́stica ”número de hijos”.
Matrimonio ”número de hijos”

1 Alonso Pérez 1
2 Bueno Pongo 2
3 Delgado Delgado 2
4 Delgado Grueso 1
5 Luis Calle 3
6 Mart´ınez Juez 3
7 Pérez Pérez 3
8 Ramos Ramos 2
9 Rodrı́guez Ruiz 3
10 Ruiz Maya 1
Sea X la variable aleatoria que asigna a cada matrimonio el ”número de hijos” del matrimonio.
Estad´ıstica 70
El soporte de esta variable es SX = {1, 2, 3} y la ley de probabilidades viene dada por :

p(X = 1) = 0.3 p(X = 2) = 0.3 p(X = 3) = 0.4
Vamos a considerar ahora todas las posibles muestras de tamanõ 3 de X y la probabilidad de
extraer cada una de esas muestras:
Muestra Probabilidad Muestr Probabilidad Muestra Probabilidad

(1,1,1) (0.3)3 = 0.027 (3,1,1) 2
(0.3) (0.4) = 0.036 (3,2,3) (0.3)(0.4)2 = 0.048
(1,1,2) (0.3)3 = 0, 027 (1,3,3) (0.3)(0.4)2 = 0.048 (3,3,2) (0.3)(0.4)2 = 0.048
(1,2,1) (0.3)3 = 0.027 (3,1,3) (0.3)(0.4)2 = 0.048 (3,3,3) (0.4)3 = 0.064
(2,1,1) (0.3)3 = 0.027 (3,3,1) (0.3)(0.4)2 = 0.048 (1,2,3) (0.3)2(0.4) = 0.036
(1,2,2) (0.3)3 = 0.027 (2,2,3) (0.3)2(0.4) = 0.036 (1,3,2) (0.3)2(0.4) = 0.036
(2,1,2) (0.3)3 = 0.027 (2,3,2) (0.3)2(0.4) = 0.036 (2,3,1) (0.3)2(0.4) = 0.036
(2,2,1) (0.3)3 = 0.027 (3,2,2) (0.3)2(0.4) = 0.036 (2,1,3) (0.3)2(0.4) = 0.036
(1,1,3) (0.3)2(0.4) = 0.036 (2,2,2) (0.3)3 = 0.027 (3,1,2) (0.3)2(0.4) = 0.036
(1,3,1) (0.3)2(0.4) = 0.036 (2,3,3) (0.3)(0.4)2 = 0.048 (3,2,1) (0.3)2(0.4) = 0.036
Lo que acabamos de dar es la ley de probabilidades del vector aleatorio (X1, X2, X3), donde cada
Xi representa el valor de X en el elemento i-ésimo de la muestra y podemos ver que cada Xi es
también una variable aleatoria con la misma distribución que X.
En general: puesto que una m.a.s. es un vector aleatorio, quedará definido si conozco su so-
porte y su ley de probabilidades. Teniendo en cuenta que las componentes del vector son v.a.
independientes y con la misma distribución que X,
• si X es discreta, p(x1 , x2 , . . . , xn ) = p(x1 )p(x2 ) . . . p(xn ), donde p es la función de probabilidad
de X.
• si X es continua, f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ), donde f es la función de densidad
de X.
(b) Muestreo estratificado:
Se utiliza cuando la población no es homogénea. Se trata de respetar la heterogeneidad de la
población en la muestra: proporción de hombres/mujeres, de edad/profesión, ...
La población se subdivide en clases o estratos homogéneos. La muestra se toma asignando
un número de elementos a cada estrato y escogiendo los elementos dentro de cada estrato por
muestreo aleatorio simple.
(c) Muestreo por conglomerados.
Se utiliza cuando la población es homogénea respecto de la caracterı́stica a estudiar, pero se
encuentra dividida de manera natural en grupos (por ejemplo, provincias, colegios, ...). Se selec-
cionan algunos de los subgrupos de la población y en cada subgrupo se estudia toda la población
o una parte elegida por muestreo aleatorio simple.
(d) Muestreo sistemático.
Este tipo se utiliza para elementos ordenados de alguna manera (por ejemplo en listas, o en orden
cronológico de fabricación, etc).
Estad´ıstica 71
Se selecciona un primer elemento de la población de manera aleatoria y a partir de él se seleccionan

los demás elementos a intervalos fijos.
Por la forma de selección, en principio, no se puede suponer independencia entre las observaciones.
Si el orden de los elementos en la lista es al azar, entonces el muestreo sistemático es equivalente
al muestreo aleatorio simple. Si los individuos próximos tienden a ser más semejantes que los
alejados, este muestreo tiende a ser más preciso que el muestreo aleatorio simple al cubrir más
homogéneamente toda la población.
7.3 Estadı́sticos y Estimadores.

En cualquiera de los procedimientos de Inferencia descritos anteriormente, un concepto que juega un
papel importante es el de estad´ıstico:
Deftnición 2 Dada una v.a. X, y un tamaño muestral n, llamaremos estadı́stico T a una aplicación
del conjunto de muestras aleatorias simples de la población en IRk ,
Un estadı́stico es, por tanto, un vector aleatorio, cuya distribución depende de la del vector aleatorio
(X1, . . . , Xn), y por tanto de la de la v.a. X.
Ejemplo 3: Con los mismos datos que en el ejemplo 2, podemos considerar los siguientes estad´ıstico,
definidos sobre el conjunto de muestras de tamanõ 3 de la variable X:
• T1 (X1 , X2 , X3 ) = máx{X1 , X2 , X3 }
Este estad´ıstico es una variable aleatoria cuyo soporte es ST1 = {1, 2, 3} y su ley de probabilidades
viene dada por:
p(T1 = 1) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 1) = p((1, 1, 1)) = 0.027
p(T1 = 2) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 2) =

S S S S S S
= p((2, 1, 1) (1, 2, 1) (1, 1, 2) (2, 2, 1) (2, 1, 2) (1, 2, 2) (2, 2, 2)) == 7(0.027) = 0.189
p(T1 = 3) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 3) =

= 12(0.036) + 6(0.048) + 0.064 = 0.784
• T2(X1, X2, X3) = M ed{X1, X2, X3}

Este estad´ıstico es una variable aleatoria cuyo soporte es ST2 = {1, 2, 3} y su ley de probabilidades
viene dada por:
p(T2 = 1) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 1) =
S S S S S S
= p((1, 1, 1) (1, 1, 2) (2, 1, 1) (1, 2, 1) (1, 1, 3) (1, 3, 1) (3, 1, 1)) =
= 4(0.027) + 3(0.036) = 0.216

Estad´ıstica 72
= 4(0.027) + 9(0.036) = 0.432

= 6(0.048) + 0.064 = 0.352
• T3(X1, X2, X3) = X1+X23+X3

Este estad´ıstico es una variable aleatoria cuyo soporte es ST = {1, 4 , 5 , 2, 7 , 8 , 3} y su ley de
1 3 3 3 3
probabilidades viene dada por:
p(T3 = 1) = p((1, 1, 1)) = 0.027
p(T3 = 43 ) = 3(0.027) = 0.081
p(T3 = 53) = 3(0.027) + 3(0.036) = 0.189
p(T3 = 2) = 0.027 + 6(0.036) = 0.243
p(T3 = 73) = 3(0.036) + 3(0.048) = 0.252
p(T3 = 83 ) = 3(0.048) = 0.144
p(T3 = 3) = 0.064
Deftnición 3 (a) Cuando el objetivo es estimar un parámetro θ, llamaremos espacio paramétrico al

conjunto de todos los posibles valores de θ y lo denotaremos por Θ.
Se llama estimador a un estadı́stico θ̂ que se utiliza para estimar el valor de un parámetro θ y
cuyo conjunto de llegada coincide con el espacio paramétrico;
(b) Se llama estimación al valor del estimador para una muestra concreta.
Ejemplo 4:
• El espacio paramétrico del parámetro p de una variable aleatoria B(p) es el intervalo [0,1].
• El espacio paramétrico del parámetro pλ de una variable aleatoria P(λ) es (0, ∞).
• El espacio paramétrico del parámetro µ de una variable aleatoria N (µ, σ) es IR.
Ejemplo 5:
• La aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn ) le asigna el

Σ
n
Xi
valor X̄ = n es un estadı́stico; si este estadı́stico se utiliza para estimar la media poblacional,
i=1
diremos
n que es un estimador. Si (x1, . . . , xn) es una muestra concreta de la variable, el valor
Σ xi
x̄ = será una estimación de la media poblacional.
n
i=1
• Igualmente, la aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn )
le asigna el valor M ed(X) = mediana{(X1, . . . , Xn)} es un estad´ıstico; si este estad´ıstico se utiliza
para estimar la media poblacional, diremos que es un estimador. Si (x1, . . . , xn) es una muestra
concreta de la variable, el valor M ed{x1 , . . . , xn } será una estimación de la media poblacional.
Estad´ıstica 73
7.4 Propiedades deseables en un buen estimador.

Para un mismo parámetro se pueden elegir varios estimadores (por ejemplo, para estimar la media de la
población puede considerarse la media muestral, la mediana muestral, la moda, etc). Se plantea el
problema de elegir el estimador más adecuado entre varios posibles. Vamos a explicar algunas de las
propiedades que ser´ıa deseable que un estimador tuviese.
(a) Centrado o insesgado:

Si θ̂ es un estimador del parámetro θ, se dice que es centrado si E(θ̂) = θ. En otro caso se dice que
es sesgado y se define el sesgo de θˆcomo:
sesgo(θ̂) = E(θ̂) − θ.
Ejemplo 6:
• La media muestral es un estimador insesgado de la media de la población, µ.
Sea X la variable aleatoria correspondiente a la caracterı́stica de la población y (X1 , X2 , . . . , Xn )
Σ
n
Xi
una m.a.s. de X; sea X̄ = n . Entonces:
i=1
. n Σ . Σ
Σ Xi Σ
n
Xi Σ
n
E(Xi)
¯ =E
E(X) = =
n n n
E i=1
i=1
n i=1
n i=1
n
(aqu´ı se aplica que la media de una suma de v.a. es la suma de sus medias y que la media
de una constante por una v.a. es la constante por la media de la variable).
Como las variables Xi son igualmente distribuidas que la variable X, tendrán también su
misma media, µ; por tanto,
n n
Σ E(Xi ) Σµ
E(X̄ ) = = = µ.
n i=1
n
i=1
• La varianza muestral es un estimador sesgado de la varianza de la población, σ 2 .

Sea X la variable aleatoria correspondiente
n 2
a la caracterı́stica de la población y (X1 , X2 , . . . , Xn )
Σ (Xi −X̄ )
una m.a.s. de X; sea s2 = n
. Entonces:
i=1
. n Σ . n Σ
Σ (Xi − X̄ )2 Σ (Xi − µ + µ − X̄ )2
2
E(s ) = E =E =
i=1
n i=1
n
. n Σ
Σ (Xi − µ)2 + (µ − X̄ )2 + 2(Xi − µ)(µ − X̄ )
=E =
i=1
n
. n Σ
Σ (Xi − µ)2 Σ
n
(µ − X̄ )2 Σn
(Xi − µ)
=E ¯ =
+ i=1 + 2(µ − X) i=1
i=1 n i=1
n i=1 n
. n Σ . n Σ
Σ (Xi − µ)2 Σ (µ − X̄ )2
=E +E ¯ ¯− µ)) =
+ 2E((µ − X)(X
n n
i=1 i=1
Estad´ıstica 74
Σ E(Xi − µ) 2
n
Σ E(µ − X)¯ 2
n
= + − 2E((X̄ − µ)2 ) = 1
i=1
n i=1
n
n
Σ σ
2 n
Σ ¯2
E(µ − X)
= + − 2E((X̄ − µ)2 ) = 2
i=1
n i=1
n
n 2 2
Σ σ σ n−1
= − = σ2 .
i=1
n n n
Hemos obtenido que E(s2 ) = σ 2 n−n1 . Se deduce fácilmente que E(ŝ2 ) = σ 2 , donde ŝ2 =
Σ
n (X −X̄ )2
i
n−1 , y por tanto, este s´ıes un estimador centrado de σ2.
i=1
i=1
(b) Varianza m´ınima:
Se define estimador insesgado de mı́nima varianza como aquel estimador del parámetro que entre
todos los insesgados, es el de menor varianza. (Dicho estimador no existe siempre).
Observación 1 La importancia de esta propiedad se comprende a partir del teorema de Cheby-

chev, que afirmaba que para una variable aleatoriaθ,ˆ en el intervalo E (θˆ)± kσ θ (ˆ) se concentra
. Σ . Σ
al menos el 1 − 1 k2 100% de la probabilidad, es decir, que el 1 − 1 k2 100% de las veces que
obtenga de forma aleatoria un valor de la variable, ese valor estará en dicho intervalo.
. Σ
Por tanto, si θ̂ es un estimador del parámetro θ, “al menos para el 1 − k21 100% de las mues-
tras”, el estimador θ̂ tomará un valor en E(θ̂) ± kσ(θ̂). Si el estimador es centrado, eso significa
. Σ
1
que para “al menos el 1 − 100%
k2 de las muestras” el error cometido al estimar θ por medio de θ̂
será menor que kσ(θ̂) y se deduce que este error es menor cuanto menor sea σ 2 (θ̂).
En ocasiones, los estimadores que se utilizan no son centrados. En ese caso, la propiedad equiva-
lente a ser de varianza mı́nima es tener error cuadrático medio mı́nimo:
Deftnición 4 Se define el error cuadrático medio (ECM) de un estimador θ̂ como: ECM (θ̂) =
E(θ̂ − θ)2 .
Proposición 1 Se verifica que: ECM (θ̂) = (sesgo(θ̂))2 + V ar(θ̂).
Demostración
ECM (θ̂) = E(θ̂ − θ)2 = E(θ̂ − E(θ̂) + E(θ̂) − θ)2 =
= E((θ̂ − E(θ̂))2 + (E(θ̂) − θ)2 + 2(θ̂ − E(θ̂))(E(θ̂) − θ)) =
= E(θ̂ − E(θ̂))2 + E(E(θ̂) − θ)2 + E(2(θ̂ − E(θ̂))(E(θ̂) − θ)) =
= V ar(θ̂) + (E(θ̂) − θ)2 + 2(E(θ̂) − θ)E(θ̂ − E(θ̂)) = 3 = V ar(θ̂) + (sesgo(θ̂))2 .

1
E(Xi − µ)2 = V ar(Xi ) = σ 2 , por tener las variablesΣXi la misma distribución que X.
.
2 Σ
n Σ
n
1
Σ
n
nσ2 σ2
E(µ − X̄ )2 = E(X̄ − µ)2 = V ar(X̄ ) = V ar Xi
n = 1n2V ar( Xi ) = n2 V ar(Xi) = n2 = n
, ya que las variables
i=1 i=1 i=1
X1, . . . , Xn son independientes, por ser una m.a.s..
3
Obsérvese que E(θ̂ − E(θ̂)) = 0.
Estad´ıstica 75
En el resultado anterior, puede verse que si el estimador es centrado, el ECM coincide con la
varianza del estimador.
(c) Consistencia:
Los estimadores, en general dependen del tamaño n de la muestra (por ejemplo, X̄ en realidad
deberı́a escribirse como X̄n ). Por tanto, en general, para cada n vamos a tener un estimador
θ̂n ; se dice entonces que {θ̂n }∞
n=1 es una sucesión de estimadores consistentes si cumple las dos
condiciones siguientes:
i. lim E(θ̂n ) = θ.
n›→∞
ii. lim V ar(θ̂n ) = 0.
n›→∞
Esta propiedad nos asegura que aunque un estimador no sea insesgado y con varianza pequeña,
basta aumentar el tamaño de la muestra para poder disminuir el ECM, y en este sentido, los
estimadores con esta propiedad pueden ser estimadores razonables del parámetro.
Ejemplo 7:
i. La media muestral es un estimador consistente de la media poblacional.
En efecto, anteriormente hemos probado que para cualquier tamaño muestral n, la media
2
muestral es centrada y que V ar(X̄n ) = σ n. Por tanto, se cumplen las dos propiedades de la
definición de consistencia.
n
ii. El estimador θΣ ˆ = Xi
es un estimador consistente de la media poblacional.
n n−1
ni=1
En efecto, θ̂n = X̄ . Por tanto:
(n−1)
n n
• E(θ̂n ) = E(X̄ ) = µ −→ µ si n ›→ ∞ .
(n−1) 2 (n−1)
n2 σ2
• V ar(θ̂ ) = n
V ar(X̄ ) = = n
σ2 −→ 0 si n ›→ ∞ .
n (n−1)2 (n−1)2 n (n−1)2
7.5 Métodos para la obtención de estimadores.
(a) Método de los momentos:

Este método consiste en igualar los momentos muestrales respecto del origen, ak , a los correspon-
dientes momentos poblacionales αk ( que están relacionados con los parámetros de la distribución).
Recordemos que si X es una v.a., el momento de orden k (k ≥ 1) respecto del origen, αk, se define
como:
∞
Σ
• αk = xki p(xi ), si X es discreta, con SX = {x1 , . . . , xn , . . .}.
i=1
∫ ∞
• αk = −∞ x
k
f (x) dx, si X es continua, con función de densidad f (x).
Método:
Si el número de parámetros que hay que estimar es k, dada una m.a.s. de tamaño n, (X1 , . . . , Xn ),
se plantea el siguiente sistema de ecuaciones (que en general no es lineal):
Estad´ıstica 76
Σ
n
Xi
α1 = n
i=1
Σ
n
(Xi )2
α2 = n
i=1
. .
Σ
n
(Xi)k
αk = n
i=1
. .
hasta obtener k ecuaciones que involucren a los parámetros.
De este sistema se despejan los parámetros y las expresiones obtenidas para éstos, en función de
los valores de la muestra, serán los estimadores por el método de los momentos.
Observación 2 Generalmente, los parámetros de los que depende la distribución de una v.a.
suelen ser la media poblacional, o la varianza o algún valor relacionado con estos; puede verse
fácilmente que estas medidas están relacionadas con los momentos respecto del origen. Por
ejemplo, α1 = µ α2 = σ2 + µ2.
Observación 3 Los estadı́sticos ası́ obtenidos pueden no ser estimadores, es decir, podemos
obtener soluciones que queden fuera del espacio paramétrico.
Ejemplo 8:
• Estimador por el método de los momentos de la media poblacional.
Puesto que hay que estimar un único parámetro, plantearemos una única ecuación:
n
α1 = Σ X i
i=1
n
Como α1 = µ, sustituyendo en la ecuación se obtiene:

Σ
n
Xi
µ=
i=1
n
Σ
n
Xi
y por tanto el estimador será: µ̂ = n
.
i=1
• Estimador por el método de los momentos de la media y la varianza poblacionales.
En este caso hay que estimar dos parámetros, luego habrá que plantear dos ecuaciones:
Σ
n
Xi
α1 = n
i=1
n 2
Σ (Xi)
α2 = n
i=1
Teniendo en cuenta la relación indicada en la observación 2 anterior, este sistema es equiva-

lente a:
Σ
n
Xi
n
µ= i=1
n
Σ (Xi)2
σ 2 + µ2 = n
i=1
Estad´ıstica 77
Despejando µ y σ2 se obtiene las siguientes expresiones:

. Σn
µ= Xi
i=1 n
Σn (Xi −X̄ )2
σ2 = i=1 n
Por tanto los correspondientes estimadores por el método de los momentos son:
.
µ̂ = X̄
σˆ2 = s2 .
(b) Método de máxima verosimilitud:

El método de máxima verosimilitud se basa en la búsqueda de aquel valor del parámetro que hace
más probable obtener la muestra que precisamente se ha obtenido. Vamos a desarrollar esta idea
con un ejemplo y después expondremos de forma teórica el método.
Ejemplo 9: Supongamos que X es una v.a. con distribución de Bernouilli de parámetro p y que
(x1 , . . . , xn ) son los valores (concretos) de una muestra aleatoria de tamaño n, (X1 , . . . , Xn ).
Si p c 1, parece lógico pensar que en esta muestra casi todos los valores xi sean 1, mientras
que si p c 0, será más probable que los elementos sean casi todos nulos. Si p c 1/2, entonces
esperarı́amos que aproximadamente hubiese igual número de 0 que de 1.
Sin embargo, no conocemos p pero si los valores que hemos obtenido en la muestra, x1, . . . , xn.
Ya hemos visto que la proporción de 0 y 1 en la muestra es más probable con unos valores de p
que con otros y la pregunta que nos vamos a formular es ¿cuál es el valor de p ∈ [0, 1] que hace
que la probabilidad de obtener precisamente esta muestra sea máxima?.
La probabilidad de obtener esta muestra es:
p(x1, x2, . . . , xn) = p(x1) . . . p(xn) = pk(1 − p)n−k,

Σ
n
donde k es el número de 1 en la muestra, es decir, k = xi .
i=1
El problema de encontrar el valor de p ∈ [0, 1] que hace máxima esta probabilidad es un problema
de extremos absolutos en [0, 1].
Si llamamos l(p) = pk(1 − p)n−k ( k ≥ 0), derivando en (0, 1) e igualando a 0:
lj(p) = kpk−1(1 − p)n−k − pk(n − k)(1 − p)n−k−1 =
= pk−1(1 − p)n−k−1[k(1 − p) − (n − k)p] = pk−1(1 − p)n−k−1[k − np]

Σ
n
xi
k
El punto cr´ıtico que se obtiene es: p = = i=1
.
n n
Calculando ljj (p) y substituyendo, se obtiene que éste es un punto de máximo relativo. Como
l(0) = l(1) = 0, se concluye que también es un máximo absoluto, pues la función es continua y
no tiene más extremos relativos en (0, 1).
Σ
n
xi
De esta forma hemos obtenido un estimador de p, p̂ = i=1n . A este estimador se le denomina
estimador máximo verosı́mil (EMV) de p (se observa que coincide con la media muestral X̄ ).
Estad´ıstica 78
Vamos a describir ahora teóricamente el método:

Método: Sea X una v.a. cuya distribución depende de un conjunto de parámetros θ1 , θ2 , . . . , θk ,
desconocidos y cuyo valor queremos estimar. Sea (X1, . . . , Xn) una m.a.s. de X. Denotaremos
por θ̇ = (θ1 , θ2 , . . . , θk ).
Deftnición 5 Se denomina función de verosimilitud para la muestra (x1 , . . . , xn ) a la función,

definida sobre el conjunto de posibles valores del parámetro θ̇, dada por:
.
pθ̇ (x1 , x2 , . . . , xn ) = pθ̇ (x1 ) . . . pθ̇ (xn ) si X es discreta
l(θ̇) =
fθ̇ (x1 , x2 , . . . , xn ) = fθ̇ (x1 ) . . . fθ̇ (xn ) si X es continua
Deftnición 6 El estimador máximo verosı́mil de θ̇ para la muestra (x1 , . . . , xn ) es el valor del

vector θ̇ para el cuál la función de verosimilitud alcanza el máximo absoluto.
Método:
- Formar la función de verosimilitud para una muestra arbitraria de tamaño n.
- Resolver el correspondiente problema de máximos absolutos en el dominio de los parámetros.
- Definir como EMV las expresiones obtenidas al determinar el máximo absoluto.
Observación 4 El método de máxima verosimilitud plantea varias dificultades en la práctica:

- No siempre existe el máximo absoluto para la función de verosimilitud.
- Aún cuando éste exista, para determinarlo es necesario resolver un problema de extremos abso-
lutos restringidos a un dominio de IRn , problema que no siempre es fácil de resolver.
En muchas ocasiones, en lugar de maximizar la función de verosimilitud es más fácil maximizar

la función L(θ) = ln (l (θ)), llamada función soporte. Si la función l(θ) es estrictamente positiva
en el dominio de θ, entonces los máximos de una y otra función se corresponden y por tanto
maximizar una es equivalente a obtener los máximos de la otra. (Un ejemplo es la determinación
del EMV de µ y σ para una v.a. con distribución normal).
Proposición 2 (Teorema de invarianza) Si θ̂ es el E.M.V. de θ y g es una función de θ,

. Σ
entonces g θ̂ es el E.M.V. de g (θ) .
Estad´ıstica 79
ESTADÍSTICA 06-07. Hoja 7
1. Obtener un estimador insesgado para p en una m.a.s. de tamaño n de una distribución binomial
B(m,p) con m conocido y calcular su error cuadrático medio. ¿Es consistente?.
2. Para estimar la media de una población se considera el estimador aX̄ . Encontrar el valor de a que
minimice el error cuadrático medio.
3. Los defectos en una placa fotográfica siguen una distribución de Poisson.
(a) Encontrar un estimador centrado para λ, indicando la varianza del estimador.

(b) Se estudian 7 placas, encontrando: 3, 5, 2, 1, 2, 3, 4 defectos. Dar la estimación máximo verosı́mil
de λ y de la longitud media entre defectos.
4. Calcular el valor de k para el cuál θ̂ = kX̄ es un estimador insesgado del parámetro θ de la v.a. X que
sigue una distribución uniforme en el intervalo (0, θ).
5. Calcular por el método de los momentos un estimador de θ en el supuesto de que X sea una variable
aleatoria con función de densidad:
0 x≤θ
( )=
f x 3θ3
x>θ
x4
6. Calcular por el método de los momentos estimadores de a y de b en una distribución uniforme en el
intervalo [a,b].
7. El coseno X del ángulo con el que se emiten los electrones en un proceso radiactivo es una variable
aleatoria con función de densidad:
1 + θx
f (x) = −1 ≤ x ≤ 1
2 ( 1 1)
θ −≤θ≤
0 en otro caso
Consideremos una muestra aleatoria simple (X1, X2, ..., Xn) de esta variable.
(a) Obtener el estimador de θ por el método de los momentos.

(b) Calcular la varianza de este estimador y demostrar que es consistente.
Estad´ıstica 80
8. En una gran piscifactorı́a hay una proporción desconocida de peces de una especie A. Para obtener
informacion sobre esa proporción vamos a ir sacando peces al azar.
(a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer pez de

la especie A sea el décimo que extraemos?.
(b) Tres personas realizan, independientemente unas de otras, el proceso de sacar peces al azar hasta
encontrarse con el primero de tipo A:
La 1a persona obtiene el primer pez de tipo A en la décima extracción.
La 2a persona obtiene el primer pez de tipo A en la décimoquinta extracción.
La 3a persona obtiene el primer pez de tipo A en la décimoctava extracción.
Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p.
9. Hallar el E.M.V. para una m.a.s. de tamaño n en una v.a. de Bernouilli de parámetro p.
10. Hallar el E.M.V. de (µ, σ) para una m.a.s. de tamaño n en una v.a. N (µ, σ).
11. Sea X una v.a. con distribución uniforme en el intervalo [θ − 1, θ + 1]. Se ha observado la siguiente
muestra: 2.522 , 2.614 , 1.160 , 1.627 , 1.410 , 2.612 , 1.636 , 2.945 , 2.952 , 1.502. Hallar la estimación
máximo verosı́mil de θ.
12. Sea X un v.a. U (0, θ) . Sea X1, X2, . . . , Xn una m.a.s. de X.
(a) Demostrar que X(n) = máx (X1 , X2 , . . . , Xn ) es el E.M.V. de θ. ¿Es insesgado?. Calcular su
E.C.M. ¿Es consistente?.
(b) Dar un estimador T1 insesgado de θ. ¿Es consistente?.
(c) Sea T2 = (n + 2)X(n)/(n + 1). ¿Es insesgado?. ¿Es consistente?.
(d) ¿Qué estimador es preferible entre T1 y T2 ?.
(e) Se ha observado la siguiente muestra: 3.872 , 2.758 , 2.096 , 2.494 , 0.917 , 0.801 , 1.192 Hallar la
estimación de θ.
13. La función de densidad de una v.a. X es f (x, θ) = (θ + 1) xθ si 0 < x < 1.
(a) Hallar un estimador de θ mediante el método de los momentos.

(b) Hallar el E.M.V. de θ.
14. Calcular por el método de los momentos un estimador de θ en el supuesto de que X sea una variable
aleatoria U (−θ, θ) .
15. Sea X una v.a. con distribución geométrica de parámetro p. Obtener un estimador de p por el método
de los momentos y el E.M.V..
16. Sea (X1 , X2 , . . . , Xn ) una m.a.s. de una v.a. con función de densidad fθ (x) = θ(1 − x)θ−1 ; 0
≤ x ≤ 1, θ > 0.
Encontrar el estimador máximo verosı́mil para el paramétro θ.
Estad´ıstica 81
17. Dada una muestra aleatoria simple (X1 , X2 , . . . , Xn ) procedente de una población X con función de
densidad
x x2
e 2θ si x ≥ 0
f (x) = θ
0 si x < 0.
Calcular por el método de máxima verosimilitud un estimador para θ.
18. Sea X un variable aleatoria con media µ y varianza σ2. Dadas dos muestras aleatorias independientes
de tamaño n1 y n2 , con medias muestrales X̄1 y X̄2 , demuestre que
X̄ = aX̄1 + (1 − a)X̄2 , 0<a<1
es un estimador insesgado para µ.

Si X̄1 y X̄2 , son independientes, encuentre el valor de a que minimiza la desviación estándar de X̄ .
¿Es consistente el estimador, para dicho valor de a?.
19. Supón que T1 , T2 y T3 son estimadores de θ. Se sabe que Eθ (T1) = Eθ (T2 ) = θ, Eθ (T3) = θ + 2, V
arθ(T1) = 12, V arθ(T2) = 10 y V arθ((T3 − θ)2) = 13. Compara estos tres estimadores desde el punto
de vista del sesgo y la varianza. ¿Cuál prefieres? ¿Por qué?
20. Sea X1 , X2 , . . . , X7 una m.a.s. de una población que tiene media µ y varianza σ 2 .
Se consideran dos estimadores de µ:
X1 + X2 + · · · + X7 2X1 − X6 + X4
θ̂1 = θ̂2 =
7 2
(a) ¿Estos estimadores son insesgados?
(b) Calcular la varianza de cada uno.
(c) ¿Cuál consideras mejor estimador de µ? ¿Por qué?
Estad´ıstica 82
21. Ciertas piezas tienen una duración mı́nima θ > 0 y una duración extra aleatoria que sigue una distri-
bución exponencial de parámetro 1 de manera que el tiempo de vida de la población de piezas es una
variable aleatoria X con densidad:
.
eθ−x si x > θ
f (x, θ) =
0 si x ≤ θ
Se extrae una muestra aleatoria simple de tamaño n de X.
(a) Obtén el estimador máximo verosı́mil T1 de θ.

(b) Calcula el estimador T2 de θ por el método de los momentos.
Nota: Puede ser útil el hecho de que X = θ + Y con Y ∼ E(1).
(c) ¿Es T2 un estimador insesgado de θ? ¿Y consistente para θ?
1 1
(d) Sabiendo que E(T1 ) = θ + n
y V ar(T1 ) = n2 ¿Qué estimador es preferible para θ? ¿Por qué?
(e) Un ingeniero proporciona una estimación de θ a partir de T1 y de una muestra de tamaño 30. ¿Qué
tamaño muestral serı́a necesario para conseguir con T2 una estimación preferible a la obtenida
por el ingeniero?
22. Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n.
(a) Demuestre que X¯2 es un estimador sesgado de µ2 .

Nota: Recordar que V ar(X) = E(X2) − (E(X))2
(b) Determine la magnitud del sesgo en este estimador.
(c) ¿Qué sucede con el sesgo a medida que aumenta el tamaño n de la muestra?
23. En un experimento de Bernouilli se observan los valores x1, x2, . . . , xn en n ensayos independientes.
Se proponen los siguientes estadı̀sticos como estimadores del parámetro p:
n
. n Σ
Σ 1 Σ
T1 = 1 x1 T2 = 1+ x1
n i=1 n +2 i=1
(a) ¿Son estimadores insesgados de p?

(b) ¿Son estimadores consistentes?
24. Sea T una v.a. con distribución exponencial de parámetro λ, que representa el tiempo de vida de una
componente.
(a) Demostrar que la probabilidad de dejar de funcionar antes del tiempo medio de vida no depende
del parámetro λ.
(b) Hallar el E.M.V. de la media de la población a partir de una m.a.s. de tamaño n.
Estad´ıstica 83
2
25. El porcentaje X de una componente en un producto tiene una función de densidad f (x) = θ2(θ − x)
si 0 < x < θ, y cero en otro caso.
(a) Dada una muestra aleatoria simple de tamaño n calcular el estimador de θ por el método de los
momentos y analizar su consistencia.
(b) Suponiendo que el tamaño muestral es uno, calcular el estimador máximo verosı́mil de θ.
(c) Particulariza el estimador obtenido en el apartado (a) al caso n = 1 y compáralo con el obtenido
en el apartado (b).
26. La variable X representa los precios de alquiler de los apartamentos de una zona turı́stica. La función
de densidad de X es:
.
f x, θ 1θe−x/θ x >0
( )= 0 x≤0
Se elige una muesta aleatoria simple X1, X2, . . . , Xn (n ≥ 2) de precios y se consideran los estimadores
de θ:
θ̂1 = X1 + X2 + · · · + Xn−1 θ̂2 = X1 + X2 + · · · + Xn
n−1 n+1
(a) Estudia la consistencia de θ̂1 y θ̂2 .
(b) ¿Cuál de los dos estimadores es preferible?

10 Tema-07

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

10 Tema-07

Caricato da

Copyright:

Formati disponibili

Estad´ıstica 68

Tema 7: Estimación puntual.

7.2 Muestreo; tipos de muestreo.

Matrimonio ”número de hijos”

El soporte de esta variable es SX = {1, 2, 3} y la ley de probabilidades viene dada por :

Muestra Probabilidad Muestr Probabilidad Muestra Probabilidad

Se selecciona un primer elemento de la población de manera aleatoria y a partir de él se seleccionan

7.3 Estadı́sticos y Estimadores.

p(T1 = 2) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 2) =

p(T1 = 3) = p(muestras de tamanõ 3 para las que máx{X1 , X2 , X3 } = 3) =

• T2(X1, X2, X3) = M ed{X1, X2, X3}

p(T2 = 2) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 2) =

= 4(0.027) + 9(0.036) = 0.432

p(T2 = 3) = p(muestras de tamanõ 3 para las que M ed{X1 , X2 , X3 } = 3) =

• T3(X1, X2, X3) = X1+X23+X3

Deftnición 3 (a) Cuando el objetivo es estimar un parámetro θ, llamaremos espacio paramétrico al

• La aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn ) le asigna el

7.4 Propiedades deseables en un buen estimador.

(a) Centrado o insesgado:

• La varianza muestral es un estimador sesgado de la varianza de la población, σ 2 .

Observación 1 La importancia de esta propiedad se comprende a partir del teorema de Cheby-

Proposición 1 Se verifica que: ECM (θ̂) = (sesgo(θ̂))2 + V ar(θ̂).

ECM (θ̂) = E(θ̂ − θ)2 = E(θ̂ − E(θ̂) + E(θ̂) − θ)2 =

= E((θ̂ − E(θ̂))2 + (E(θ̂) − θ)2 + 2(θ̂ − E(θ̂))(E(θ̂) − θ)) =

= E(θ̂ − E(θ̂))2 + E(E(θ̂) − θ)2 + E(2(θ̂ − E(θ̂))(E(θ̂) − θ)) =

= V ar(θ̂) + (E(θ̂) − θ)2 + 2(E(θ̂) − θ)E(θ̂ − E(θ̂)) = 3 = V ar(θ̂) + (sesgo(θ̂))2 .

7.5 Métodos para la obtención de estimadores.

(a) Método de los momentos:

Como α1 = µ, sustituyendo en la ecuación se obtiene:

Teniendo en cuenta la relación indicada en la observación 2 anterior, este sistema es equiva-

Despejando µ y σ2 se obtiene las siguientes expresiones:

(b) Método de máxima verosimilitud:

p(x1, x2, . . . , xn) = p(x1) . . . p(xn) = pk(1 − p)n−k,

lj(p) = kpk−1(1 − p)n−k − pk(n − k)(1 − p)n−k−1 =

= pk−1(1 − p)n−k−1[k(1 − p) − (n − k)p] = pk−1(1 − p)n−k−1[k − np]

Vamos a describir ahora teóricamente el método:

Deftnición 5 Se denomina función de verosimilitud para la muestra (x1 , . . . , xn ) a la función,

Deftnición 6 El estimador máximo verosı́mil de θ̇ para la muestra (x1 , . . . , xn ) es el valor del

Observación 4 El método de máxima verosimilitud plantea varias dificultades en la práctica:

En muchas ocasiones, en lugar de maximizar la función de verosimilitud es más fácil maximizar

Proposición 2 (Teorema de invarianza) Si θ̂ es el E.M.V. de θ y g es una función de θ,

ESTADÍSTICA 06-07. Hoja 7

3. Los defectos en una placa fotográfica siguen una distribución de Poisson.

(a) Encontrar un estimador centrado para λ, indicando la varianza del estimador.

(a) Obtener el estimador de θ por el método de los momentos.

(a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer pez de

Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p.

12. Sea X un v.a. U (0, θ) . Sea X1, X2, . . . , Xn una m.a.s. de X.

13. La función de densidad de una v.a. X es f (x, θ) = (θ + 1) xθ si 0 < x < 1.

(a) Hallar un estimador de θ mediante el método de los momentos.

X̄ = aX̄1 + (1 − a)X̄2 , 0<a<1

es un estimador insesgado para µ.

Se extrae una muestra aleatoria simple de tamaño n de X.

(a) Obtén el estimador máximo verosı́mil T1 de θ.

22. Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n.

(a) Demuestre que X¯2 es un estimador sesgado de µ2 .

(a) ¿Son estimadores insesgados de p?

Potrebbero piacerti anche