Sei sulla pagina 1di 7

Estadı́stica III TAREAS 2019-2

Unidad 1: INFERENCIA NO PARAMÉTRICA PARA FUNCIONES DE DISTRIBUCIÓN

1.11) Sea X1 , . . . , Xn una muestra aleatoria con función de distribución desconocida FX , y sean x1 < x2 .
Demuestre que Fbn (x2 ) − Fbn (x1 ) es un estimador insesgado y consistente de P(x1 < X ≤ x2 ).
1.12) Sea X1 , . . . , Xn una muestra aleatoria con función de distribución desconocida FX , y sea B un
conjunto boreliano de B(R). Demuestre que
n
1X
Tn (B) := 1{Xi ∈ B}
n i=i

es un estimador insesgado y consistente para P(X ∈ B).


1.15) Programar en R la función de distribución empı́rica, esto es, algo de la forma:

Fn <- function(x, muestra) ...

de modo que x es un vector de valores en donde se desea evaluar la función de distribución empı́rica
y muestra es un vector con los valores de la muestra aleatoria observada. Después, simular una
muestra tamaño n = 50 a partir de una distribución de probabilidad Normal estándar, graficar la
función de distribución empı́rica que resulta de dicha muestra, y encimarle la gráfica de la función
de distribución teórica en color distinto, algo como esto debe quedar:

Función de distribución empírica


1.0




●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●
●●


●●


●●


●●


●●







●●

●●
●●




●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●





●●




●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●




●●


●●
●●

●●


●●


●●


●●


0.8

●●






●●


●●

●●


●●


●●






●●
●●


●●

●●




●●


●●

0.6

●●





●●


●●
F(x)







●●


●●


●●


●●


●●


0.4

●●









●●


●●



●●

●●


●●


●●


●●


●●


●●


●●


●●


●●


●●





0.2


●●


●●






●●


●●


●●



●●


●●


●●


●●


●●



●●


●●



●●


●●


●●


●●


●●


●●


●●




●●


●●


●●


●●


●●


●●



●●


●●


●●


●●


●●


●●


●●




●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


0.0




●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●

−4 −2 0 2

x
1.22) Simular en R una muestra aleatoria X1 , . . . , X50 con distribución de probabilidad Normal(0,1) y con
los valores observados graficar, todo junto y diferenciando con colores:

• Fn (x) para x(1) − s ≤ x ≤ x(n) + s donde s es la desviación estándar muestral observada.


• Bandas (intervalos para cada x) de confianza ≥ 95 % mediante la desigualdad DKW.
• Bandas de confianza (aprox.) 95 % con enfoque frecuentista vı́a Teorema Central del Lı́mite.
• Bandas de probabilidad 95 % y estimación puntual de FX (x) para cada x bajo el enfoque
bayesiano.

La gráfica debe quedar algo como lo siguiente, puede variar un poco dependiendo de la muestra:

Función de distribución empírica


1.0


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●




●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●

DKW ●









●●


●●

Frecuentista ●







●●




●●


●●
Bayesiano ●




●●


●●


●●


●●


●●

●●


●●


●●


●●


0.8




●●


●●


●●


●●




●●


●●


●●


●●



●●


●●



●●



●●


●●


●●


●●


●●




●●



0.6




●●


●●


F(x)




●●



●●


●●


●●


●●


●●


●●


●●


●●


●●
0.4





●●


●●


●●


●●




●●


●●

●●



●●





●●


●●






●●


●●



0.2


●●


●●


●●


●●




●●



●●


●●


●●


●●


●●


●●


●●


●●






●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●
●●


●●


●●


●●


●●

●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●





●●


●●


●●


●●


●●


●●


●●


●●


●●


●●



0.0




●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●

−4 −2 0 2

1.23) A partir de simular muestras aleatorias del tamaño n que se indica y de las distribuciones de probabi-
lidad que se indican, de forma análoga a la Tarea 1.12 pero agregando ahora enfoque bayesiano para
la estimación puntual y por intervalo de probabilidad 95 % de P(X ∈ B), desarrolle el código en R
necesario para calcular lo que falta en la siguiente tabla, donde θ∗ es la estimación puntual bayesiana
a posteriori para P(X ∈ B) utilizando una distribución continua uniforme (0, 1) como distribución a
priori y la mediana:
n Distribución B P(X ∈ B) teórica semilla aleat. Tn (B) θ∗ Intervalo 95 %
50 Normal(0,1) [0, ∞[ 0.5 set.seed(1)
10000 Normal(0,1) [0, ∞[ 0.5 set.seed(1)
50 Normal(0,1) [1, 2] set.seed(2)
10000 Normal(0,1) [1, 2] set.seed(2)
50 Binomial(7,0.3) {2} set.seed(3)
10000 Binomial(7,0.3) {2} set.seed(3)
50 Binomial(7,0.3) {6, 7} set.seed(4)
10000 Binomial(7,0.3) {6, 7} set.seed(4)

1.27) Simular muestras aleatorias X1 , . . . , Xn a partir de una distribución de probabilidad Normal(0, 1)


para n ∈ {50, 10000} y estimar los cuantiles ξ0.25 y ξ0.5 (mediana) puntualmente y por intervalo de
confianza de nivel 95 %. Utilice como semilla aleatoria: set.seed(5)

n ξ0.25 (teórico) ξb0.25 intervalo mediana (teórica) ξb0.5 intervalo


50 0
10000 0

Adicionalmente compare los resultados para n = 50 versus lo que se obtiene mediante la función
quantile de R bajo los distintos valores admisibles para el parámetro type ¿cuál coincide con lo
que calculaste en la tabla anterior?

1.31) Simular 10 mil muestras de tamaño n = 50 a partir de una distribución de probabilidad t-Student
para cada uno de los siguientes valores de su parámetro ν ∈ {1, . . . , 30}. Para cada muestra calcular
el p-value de la prueba Kolmogorov–Smirnov para H0 : FX = Normal(0, 1) y llenar la siguiente
tabla con la función summary de R:

p-value
ν mı́nimo 1er cuartil mediana promedio 3er cuartil máximo
1
2
.. .. .. .. .. .. ..
. . . . . . .
30

y graficar los pares de valores ( ν , p-value promedio ). Repetir lo anterior pero con muestras de
tamaño n = 1000 y graficar los pares de valores ( ν , p-value promedio ) sobre la gráfica anterior
pero con color distinto. La fórmula del estadı́stico que debes utilizar es la siguiente:
√ nj j−1 o
dn = n máx − F0 (x(j) ) , F0 (x(j) ) − : j ∈ {1, . . . , n}
n n

1.33) Lo análogo a la Tarea 1.31 pero con la prueba Cramér–von Mises, y comparando resultados y gráficas
con la tarea anterior. La fórmula del estadı́stico que debes utilizar es la siguiente:
n
1 1 X
cn = + [ 2nF0 (x(j) ) − 2j + 1 ]2
12n 4n2 j = 1
1.35) Lo análogo a las Tareas 1.31 y 1.33 pero con la prueba Anderson–Darling, y además comparando
resultados y gráficas con ellas. La fórmula del estadı́stico que debes utilizar es la siguiente:
n
1X 
an = −n − (2j − 1)[ log F0 (x(j) ) + log 1 − F0 (x(n − j + 1) ) ]
n j =1

y las gráficas comparativas deben quedar como las siguientes:

Rechazar Ho: Normal(0,1) con prueba Kolmogorov−Smirnov Rechazar Ho: Normal(0,1) con prueba Cramér−von Mises Rechazar Ho: Normal(0,1) con prueba Anderson−Darling
0.5

0.5

0.5
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ●

● ●

● ●
● ● ●
0.4

0.4

0.4
● ●

● ● ● ●
● ●


● ● ●
● ●

● ●
● ●




● ●
● ●
p−valor (promedio)

p−valor (promedio)

p−valor (promedio)
0.3

0.3

0.3
● ●
● ●

● ●

● ●

● ●

0.2

0.2

0.2

● ●

● ●

● ●

0.1

0.1

0.1

● n = 50 ●
n = 50 ●
n = 50
n = 1000 n = 1000 ●
n = 1000
● ●
● ●


0.0

0.0

0.0
● ● ●
● ● ● ● ● ● ● ● ●

0 5 10 15 20 25 30 0 5 10 15 20 25 30 0 5 10 15 20 25 30
parámetro v de t−Student parámetro v de t−Student parámetro v de t−Student

Rechazar Ho: Normal(0,1) con KS, CM y AD, n=50 Rechazar Ho: Normal(0,1) con KS, CM y AD, n=1000
0.5

0.5


● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●

● ●
● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ●
● ● ●
● ●
0.4

0.4


● ● ● ● ●
● ● ●
● ● ●
● ●

● ●
● ● ●
● ●
● ●

p−valor (promedio)

p−valor (promedio)

● ●
0.3

0.3

● ● ● ●

● ●

● ●

● ●

0.2

0.2

● ●
● ●

● ●
● ●

0.1

0.1




KS ●
● KS
CM ● CM

AD ● ● AD

0.0

0.0

● ● ● ●
● ● ● ●

0 5 10 15 20 25 30 0 5 10 15 20 25 30

parámetro v de t−Student parámetro v de t−Student

1.36) Considere el conjunto de modelos de probabilidad M = {M1 , M2 } donde M1 corresponde a una


distribución continua Exponencial con esperanza igual a 3 y M2 corresponde a una distribución
continua uniforme sobre el intervalo [0, 6]. Considere una distribución a priori uniforme sobre M.

a) Simule una muestra x1 , . . . , x50 a partir de M1 y para cada submuestra xn = (x1 , . . . , xn ) con
n ∈ {1, 2, . . . , 50} calcule la probabilidad a posteriori de que cada submuestra provenga de M1 .
Grafique los resultados {(n, p(M1 | xn )) : n = 1, 2, . . . , 50}.
b) Simule una muestra x1 , . . . , x50 a partir de M2 y para cada submuestra xn = (x1 , . . . , xn ) con
n ∈ {1, 2, . . . , 50} calcule la probabilidad a posteriori de que cada submuestra provenga de M1 .
Grafique los resultados {(n, p(M1 | xn )) : n = 1, 2, . . . , 50}.
Las gráficas quedan algo parecido a las siguientes, aunque puede variar dependiendo de las muestras
que se generen:

Muestra 1 ~ Exponencial Muestra 2 ~ Uniforme


1.0

0.5
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●
●●●●

● ●

0.4
0.8



Prob ( Exponencial )

Prob ( Exponencial )

0.3
0.6


0.2
0.4




● ●

0.1

0.2



● ●
●●●● ●●

0.0
● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

0 10 20 30 40 50 0 10 20 30 40 50

n = tamaño de muestra n = tamaño de muestra

1.40) Instalar en R el paquete subcopem2D, analizar y ejecutar los ejemplos de las funciones subcopem,
subcopemc y dependence.

Unidad 2: INFERENCIA NO PARAMÉTRICA MEDIANTE REMUESTREO

2.1) Analizar y ejecutar el código en R correspondiente al algoritmo de remuestreo con reemplazo (boots-
trap).

2.2) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.2 visto en clase.

2.3) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.3 visto en clase.

2.4) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.4 visto en clase.

2.5) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.5 visto en clase.

Unidad 3: SUAVIZAMIENTO Y REGRESIÓN NO PARAMÉTRICA

3.1) Demuestre que la inversa de la función de distribución poligonal F n está dada por:
n
−1 X
x0k − (x0k − x0k−1 )(k − nu) 1{ k−1 < u ≤ k } ,
 
F n (u) = 0<u<1
n n
k=1
3.2) Si Bf,n es el polinomio de Bernstein de orden n para una función f : [0, 1] → R demuestre que la
transformación T : f → Bf,n es lineal, esto es que para números reales cualesquiera α y β y funciones
f, g : [0, 1] → R se cumple que
Bαf + βg , n = αBf,n + βBg,n
0
3.3) Obtenga explı́citamente la función derivada Bf,n (t) para 0 < t < 1 y las derivadas unilaterales
0 0
Bf,n (1−) y Bf,n (0+).
0
3.4) Programe en R de la forma más eficiente posible Bf,n y Bf,n (t), aprovechando la función dbinom en
R.

3.5) Programe en R la aproximación poligonal de una función de distribución continua, ası́ como su
inversa y:

a) Simule una muestra tamaño n = 100 a partir de una distribución Gamma(2, 3) y con ella
estime la aproximación polinomial de la función de distribución. En una misma ventana de
gráficos en R, grafique la función de distribución teórica, la empı́rica y la aproximación poligonal,
diferenciándolas con colores.

b) Simule una muestra tamaño n = 1000 a partir de una distribución Gamma(2, 3), estime la
aproximación polinomial de la inversa de la función de distribución, y con ella simule una nueva
muestra del mismo tamaño. En una misma ventana de gráficos en R, grafique uno junto al otro
los histogramas de la muestra original y la simulada, y encı́meles la función de densidad teórica
correspondiente. Mediante la función summary en R compare primer y tercer cuartil, mediana
y media de la muestra original versus la simulada.
3.6) Análogamente al ejercicio anterior, programe en R la aproximación por polinomios de Bernstein de
la inversa de una función de distribución continua, ası́ como su inversa y:

a) Simule una muestra tamaño n = 1000 a partir de una distribución Gamma(2, 3), estime la
aproximación por polinomios de Bernstein de la inversa de la función de distribución, y con ella
simule una nueva muestra del mismo tamaño. En una misma ventana de gráficos en R, grafique
uno junto al otro los histogramas de la muestra original y la simulada, y encı́meles la función de
densidad teórica correspondiente. Mediante la función summary en R compare primer y tercer
cuartil, mediana y media de la muestra original versus la simulada.
b) Simule una muestra tamaño n = 100 a partir de una distribución Gamma(2, 3) y con ella
estime la aproximación por polinomios de Bernstein de la función de distribución. En una
misma ventana de gráficos en R, grafique la función de distribución teórica, la empı́rica y la
aproximación Bernstein, diferenciándolas con colores.

3.7) Analice el código en R que se proporciona en la página de la materia en Google Sites para estimar
funciones de densidad por medio de histograma, estimador naive y estimador por kernel.

Potrebbero piacerti anche