Inferencia No Parametrica para Funciones de Distribucion

Estadı́stica III TAREAS 2019-2
Unidad 1: INFERENCIA NO PARAMÉTRICA PARA FUNCIONES DE DISTRIBUCIÓN
1.11) Sea X1 , . . . , Xn una muestra aleatoria con función de distribución desconocida FX , y sean x1 < x2 .
Demuestre que Fbn (x2 ) − Fbn (x1 ) es un estimador insesgado y consistente de P(x1 < X ≤ x2 ).
1.12) Sea X1 , . . . , Xn una muestra aleatoria con función de distribución desconocida FX , y sea B un
conjunto boreliano de B(R). Demuestre que
n
1X
Tn (B) := 1{Xi ∈ B}
n i=i
es un estimador insesgado y consistente para P(X ∈ B).

1.15) Programar en R la función de distribución empı́rica, esto es, algo de la forma:
Fn <- function(x, muestra) ...
de modo que x es un vector de valores en donde se desea evaluar la función de distribución empı́rica
y muestra es un vector con los valores de la muestra aleatoria observada. Después, simular una
muestra tamaño n = 50 a partir de una distribución de probabilidad Normal estándar, graficar la
función de distribución empı́rica que resulta de dicha muestra, y encimarle la gráfica de la función
de distribución teórica en color distinto, algo como esto debe quedar:
Función de distribución empírica

1.0
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
0.8
●●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●●
●
0.6
●●
●
●
●
●
●
●●
●
●
●
●●
F(x)
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
0.4
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
0.2
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
0.0
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
−4 −2 0 2
x
1.22) Simular en R una muestra aleatoria X1 , . . . , X50 con distribución de probabilidad Normal(0,1) y con
los valores observados graficar, todo junto y diferenciando con colores:
• Fn (x) para x(1) − s ≤ x ≤ x(n) + s donde s es la desviación estándar muestral observada.

• Bandas (intervalos para cada x) de confianza ≥ 95 % mediante la desigualdad DKW.
• Bandas de confianza (aprox.) 95 % con enfoque frecuentista vı́a Teorema Central del Lı́mite.
• Bandas de probabilidad 95 % y estimación puntual de FX (x) para cada x bajo el enfoque
bayesiano.
La gráfica debe quedar algo como lo siguiente, puede variar un poco dependiendo de la muestra:
Función de distribución empírica

1.0
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
DKW ●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
Frecuentista ●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
Bayesiano ●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
0.8
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
0.6
●
●
●
●●
●
●
●●
●
●
F(x)
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
0.4
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
0.2
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
0.0
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
−4 −2 0 2
1.23) A partir de simular muestras aleatorias del tamaño n que se indica y de las distribuciones de probabi-
lidad que se indican, de forma análoga a la Tarea 1.12 pero agregando ahora enfoque bayesiano para
la estimación puntual y por intervalo de probabilidad 95 % de P(X ∈ B), desarrolle el código en R
necesario para calcular lo que falta en la siguiente tabla, donde θ∗ es la estimación puntual bayesiana
a posteriori para P(X ∈ B) utilizando una distribución continua uniforme (0, 1) como distribución a
priori y la mediana:
n Distribución B P(X ∈ B) teórica semilla aleat. Tn (B) θ∗ Intervalo 95 %
50 Normal(0,1) [0, ∞[ 0.5 set.seed(1)
10000 Normal(0,1) [0, ∞[ 0.5 set.seed(1)
50 Normal(0,1) [1, 2] set.seed(2)
10000 Normal(0,1) [1, 2] set.seed(2)
50 Binomial(7,0.3) {2} set.seed(3)
10000 Binomial(7,0.3) {2} set.seed(3)
50 Binomial(7,0.3) {6, 7} set.seed(4)
10000 Binomial(7,0.3) {6, 7} set.seed(4)
1.27) Simular muestras aleatorias X1 , . . . , Xn a partir de una distribución de probabilidad Normal(0, 1)

para n ∈ {50, 10000} y estimar los cuantiles ξ0.25 y ξ0.5 (mediana) puntualmente y por intervalo de
confianza de nivel 95 %. Utilice como semilla aleatoria: set.seed(5)
n ξ0.25 (teórico) ξb0.25 intervalo mediana (teórica) ξb0.5 intervalo

50 0
10000 0
Adicionalmente compare los resultados para n = 50 versus lo que se obtiene mediante la función
quantile de R bajo los distintos valores admisibles para el parámetro type ¿cuál coincide con lo
que calculaste en la tabla anterior?
1.31) Simular 10 mil muestras de tamaño n = 50 a partir de una distribución de probabilidad t-Student
para cada uno de los siguientes valores de su parámetro ν ∈ {1, . . . , 30}. Para cada muestra calcular
el p-value de la prueba Kolmogorov–Smirnov para H0 : FX = Normal(0, 1) y llenar la siguiente
tabla con la función summary de R:
p-value
ν mı́nimo 1er cuartil mediana promedio 3er cuartil máximo
1
2
.. .. .. .. .. .. ..
. . . . . . .
30
y graficar los pares de valores ( ν , p-value promedio ). Repetir lo anterior pero con muestras de
tamaño n = 1000 y graficar los pares de valores ( ν , p-value promedio ) sobre la gráfica anterior
pero con color distinto. La fórmula del estadı́stico que debes utilizar es la siguiente:
√ nj j−1 o
dn = n máx − F0 (x(j) ) , F0 (x(j) ) − : j ∈ {1, . . . , n}
n n
1.33) Lo análogo a la Tarea 1.31 pero con la prueba Cramér–von Mises, y comparando resultados y gráficas
con la tarea anterior. La fórmula del estadı́stico que debes utilizar es la siguiente:
n
1 1 X
cn = + [ 2nF0 (x(j) ) − 2j + 1 ]2
12n 4n2 j = 1
1.35) Lo análogo a las Tareas 1.31 y 1.33 pero con la prueba Anderson–Darling, y además comparando
resultados y gráficas con ellas. La fórmula del estadı́stico que debes utilizar es la siguiente:
n
1X
an = −n − (2j − 1)[ log F0 (x(j) ) + log 1 − F0 (x(n − j + 1) ) ]
n j =1
y las gráficas comparativas deben quedar como las siguientes:
Rechazar Ho: Normal(0,1) con prueba Kolmogorov−Smirnov Rechazar Ho: Normal(0,1) con prueba Cramér−von Mises Rechazar Ho: Normal(0,1) con prueba Anderson−Darling
0.5
0.5
0.5
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ●
●
● ●
●
● ●
● ● ●
0.4
0.4
0.4
● ●
● ● ● ●
● ●
●
●
● ● ●
● ●
●
● ●
● ●
●
●
●
●
● ●
● ●
p−valor (promedio)
0.3
0.3
0.3
● ●
● ●
●
● ●
●
● ●
●
● ●
●
0.2
0.2
0.2
●
●
● ●
● ●
● ●
●
0.1
0.1
0.1
●
●
● n = 50 ●
n = 50 ●
n = 50
n = 1000 n = 1000 ●
n = 1000
● ●
● ●
●
0.0
0.0
0.0
● ● ●
● ● ● ● ● ● ● ● ●
0 5 10 15 20 25 30 0 5 10 15 20 25 30 0 5 10 15 20 25 30
parámetro v de t−Student parámetro v de t−Student parámetro v de t−Student
Rechazar Ho: Normal(0,1) con KS, CM y AD, n=50 Rechazar Ho: Normal(0,1) con KS, CM y AD, n=1000
0.5
0.5
●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
●
● ●
● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ●
● ● ●
● ●
0.4
0.4
●
● ● ● ● ●
● ● ●
● ● ●
● ●
●
● ●
● ● ●
● ●
● ●
●
● ●
0.3
0.3
● ● ● ●
●
● ●
●
● ●
●
● ●
●
0.2
0.2
● ●
● ●
● ●
● ●
●
0.1
0.1
●
●
●
KS ●
● KS
CM ● CM
●
AD ● ● AD
●
0.0
0.0
● ● ● ●
● ● ● ●
0 5 10 15 20 25 30 0 5 10 15 20 25 30
parámetro v de t−Student parámetro v de t−Student
1.36) Considere el conjunto de modelos de probabilidad M = {M1 , M2 } donde M1 corresponde a una

distribución continua Exponencial con esperanza igual a 3 y M2 corresponde a una distribución
continua uniforme sobre el intervalo [0, 6]. Considere una distribución a priori uniforme sobre M.
a) Simule una muestra x1 , . . . , x50 a partir de M1 y para cada submuestra xn = (x1 , . . . , xn ) con
n ∈ {1, 2, . . . , 50} calcule la probabilidad a posteriori de que cada submuestra provenga de M1 .
Grafique los resultados {(n, p(M1 | xn )) : n = 1, 2, . . . , 50}.
b) Simule una muestra x1 , . . . , x50 a partir de M2 y para cada submuestra xn = (x1 , . . . , xn ) con
n ∈ {1, 2, . . . , 50} calcule la probabilidad a posteriori de que cada submuestra provenga de M1 .
Grafique los resultados {(n, p(M1 | xn )) : n = 1, 2, . . . , 50}.
Las gráficas quedan algo parecido a las siguientes, aunque puede variar dependiendo de las muestras
que se generen:
Muestra 1 ~ Exponencial Muestra 2 ~ Uniforme

1.0
0.5
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●
●●●●
● ●
●
●
0.4
0.8
●
●
Prob ( Exponencial )
Prob ( Exponencial )
0.3
0.6
●
●
0.2
0.4
●
●
●
● ●
0.1
●
0.2
●
●
● ●
●●●● ●●
0.0
● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0 10 20 30 40 50 0 10 20 30 40 50
n = tamaño de muestra n = tamaño de muestra
1.40) Instalar en R el paquete subcopem2D, analizar y ejecutar los ejemplos de las funciones subcopem,
subcopemc y dependence.
Unidad 2: INFERENCIA NO PARAMÉTRICA MEDIANTE REMUESTREO
2.1) Analizar y ejecutar el código en R correspondiente al algoritmo de remuestreo con reemplazo (boots-
trap).
2.2) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.2 visto en clase.
Unidad 3: SUAVIZAMIENTO Y REGRESIÓN NO PARAMÉTRICA
3.1) Demuestre que la inversa de la función de distribución poligonal F n está dada por:
n
−1 X
x0k − (x0k − x0k−1 )(k − nu) 1{ k−1 < u ≤ k } ,

F n (u) = 0<u<1
n n
k=1
3.2) Si Bf,n es el polinomio de Bernstein de orden n para una función f : [0, 1] → R demuestre que la
transformación T : f → Bf,n es lineal, esto es que para números reales cualesquiera α y β y funciones
f, g : [0, 1] → R se cumple que
Bαf + βg , n = αBf,n + βBg,n
0
3.3) Obtenga explı́citamente la función derivada Bf,n (t) para 0 < t < 1 y las derivadas unilaterales
0 0
Bf,n (1−) y Bf,n (0+).
0
3.4) Programe en R de la forma más eficiente posible Bf,n y Bf,n (t), aprovechando la función dbinom en
R.
3.5) Programe en R la aproximación poligonal de una función de distribución continua, ası́ como su
inversa y:
a) Simule una muestra tamaño n = 100 a partir de una distribución Gamma(2, 3) y con ella
estime la aproximación polinomial de la función de distribución. En una misma ventana de
gráficos en R, grafique la función de distribución teórica, la empı́rica y la aproximación poligonal,
diferenciándolas con colores.
b) Simule una muestra tamaño n = 1000 a partir de una distribución Gamma(2, 3), estime la
aproximación polinomial de la inversa de la función de distribución, y con ella simule una nueva
muestra del mismo tamaño. En una misma ventana de gráficos en R, grafique uno junto al otro
los histogramas de la muestra original y la simulada, y encı́meles la función de densidad teórica
correspondiente. Mediante la función summary en R compare primer y tercer cuartil, mediana
y media de la muestra original versus la simulada.
3.6) Análogamente al ejercicio anterior, programe en R la aproximación por polinomios de Bernstein de
la inversa de una función de distribución continua, ası́ como su inversa y:
a) Simule una muestra tamaño n = 1000 a partir de una distribución Gamma(2, 3), estime la
aproximación por polinomios de Bernstein de la inversa de la función de distribución, y con ella
simule una nueva muestra del mismo tamaño. En una misma ventana de gráficos en R, grafique
uno junto al otro los histogramas de la muestra original y la simulada, y encı́meles la función de
densidad teórica correspondiente. Mediante la función summary en R compare primer y tercer
cuartil, mediana y media de la muestra original versus la simulada.
b) Simule una muestra tamaño n = 100 a partir de una distribución Gamma(2, 3) y con ella
estime la aproximación por polinomios de Bernstein de la función de distribución. En una
misma ventana de gráficos en R, grafique la función de distribución teórica, la empı́rica y la
aproximación Bernstein, diferenciándolas con colores.
3.7) Analice el código en R que se proporciona en la página de la materia en Google Sites para estimar
funciones de densidad por medio de histograma, estimador naive y estimador por kernel.

Inferencia No Parametrica para Funciones de Distribucion

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Inferencia No Parametrica para Funciones de Distribucion

Caricato da

Copyright:

Formati disponibili

Estadı́stica III TAREAS 2019-2

Unidad 1: INFERENCIA NO PARAMÉTRICA PARA FUNCIONES DE DISTRIBUCIÓN

es un estimador insesgado y consistente para P(X ∈ B).

Fn <- function(x, muestra) ...

Función de distribución empírica

• Fn (x) para x(1) − s ≤ x ≤ x(n) + s donde s es la desviación estándar muestral observada.

Función de distribución empírica

1.27) Simular muestras aleatorias X1 , . . . , Xn a partir de una distribución de probabilidad Normal(0, 1)

n ξ0.25 (teórico) ξb0.25 intervalo mediana (teórica) ξb0.5 intervalo

y las gráficas comparativas deben quedar como las siguientes:

parámetro v de t−Student parámetro v de t−Student

1.36) Considere el conjunto de modelos de probabilidad M = {M1 , M2 } donde M1 corresponde a una

Muestra 1 ~ Exponencial Muestra 2 ~ Uniforme

n = tamaño de muestra n = tamaño de muestra

Unidad 2: INFERENCIA NO PARAMÉTRICA MEDIANTE REMUESTREO

2.2) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.2 visto en clase.

2.3) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.3 visto en clase.

2.4) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.4 visto en clase.

2.5) Analizar y ejecutar el código en R correspondiente al Ejemplo 2.5 visto en clase.

Unidad 3: SUAVIZAMIENTO Y REGRESIÓN NO PARAMÉTRICA

Potrebbero piacerti anche