Tema 2 - Teoría Asintótica

Tema 2 – Teoría asintótica
• Propiedades asintóticas
• El método de Bootstrap
Parte 1 – Propiedades asintóticas
Identificación (CT 2.5)
• Intuición: ¿Existe suficiente información para
poder determinar un parámetro?
– En este curso, nos concentraremos en identificación
puntual (point ident.)
• Alternativa: identificar zonas o cotas a un parámetro
• Def: Equivalencia observacional
– 2 estructuras de 1 modelo, definidas como funciones
de distribución conjuntas 𝑃𝑟 𝑋|𝜃1 y 𝑃𝑟 𝑋|𝜃2 son
observacionalmente equivalentes (OE) si
𝑃𝑟 𝑋|𝜃1 = 𝑃𝑟 𝑋|𝜃1 ∀𝑥
– 2 modelos estructurales son OE si dan lugar a una
misma función de distribución conjunta
Identificación
• La estructura 𝜃0 está identificada si no existe otra
estructura que sea OE a 𝜃0
• Ejemplo:
– Parámetros de 1 MRLM no están identificados en
presencia de multicolinealidad perfecta (columnas de X
son l.d. <=> X’X no invertible)
– Ej: 𝑌𝑖 = 𝛼0 + 𝛼1 𝑋𝑖 + 𝜀𝑖 con 𝑋𝑖 = 𝑋0 (𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒)
Condiciones de Primer Orden (CPO):
𝑋′𝑋 𝛽 = 𝑋′𝑌
→Existen infinitas combinaciones de 𝛼0 y 𝛼1 que cumplen las
CPO
• X de rango completo garantiza que
𝑋𝛽1 = 𝑋𝛽2 → 𝛽1 = 𝛽2
Conceptos de teoría asintótica
(Apuntes Cap.1, CT Apéndice A)
• Supongamos que tenemos una secuencia de
variables aleatorias 𝑏𝑁 𝑁↑∞
– En nuestro contexto, N es el tamaño muestral y 𝑏𝑁 es
un estimador (por ejemplo 𝛽) o una expresión
1 ′
algebraica ( 𝑋 𝑋) basado en 1 muestra de tamaño N
𝑁
• Veremos 3 conceptos de teoría asintótica
– Convergencia en probabilidad y en distribución
– Ley de Grandes Números (LGN) y Teorema Central del
Límite (TCL)
Convergencia en probabilidad
• 𝑏𝑁 converge en probabilidad a 𝑏 si
∀𝜀 > 0, 𝛿 > 0, ∃𝑁 ∗ = 𝑁 ∗ 𝜀, 𝛿 𝑡𝑎𝑙 𝑞𝑢𝑒 ∀𝑁 > 𝑁 ∗
𝑃𝑟 𝑏𝑁 − 𝑏 < 𝜀 > 1 − 𝛿
• Notación:
𝑝
𝑏𝑁 → 𝑏 𝑜 𝑝𝑙𝑖𝑚 𝑏𝑁 = 𝑏
• Consistencia: Un estimador 𝜃 es consistente para 𝜃0 si
𝑝𝑙𝑖𝑚 𝜃 = 𝜃0
• Nota:
– 𝜃 insesgado no implica 𝜃 consistente
– 𝜃 consistente no implica 𝜃 insesgado
1 2 1 2
– Ej: 𝑉𝑎𝑟 𝑋 = 𝑋𝑖 − 𝑋 y 𝑉𝑎𝑟 𝑋 = 𝑋𝑖 − 𝑋
𝑁 𝑁−1
Propiedades
• Suponga que 𝑝𝑙𝑖𝑚 𝑎𝑁 = 𝑎 y 𝑝𝑙𝑖𝑚 𝑏𝑁 = 𝑏
y𝑔 es función real continua en b
• Entonces:
 𝑝𝑙𝑖𝑚 𝑎𝑁 + 𝑏𝑁 = 𝑎 + 𝑏
 𝑝𝑙𝑖𝑚 𝑎𝑁 ∙ 𝑏𝑁 = 𝑎 ∙ 𝑏
𝑎𝑁 𝑎
 𝑝𝑙𝑖𝑚 𝑏𝑁 = 𝑏
 𝑝𝑙𝑖𝑚 𝑔 𝑏𝑁 =𝑔 𝑏 (Slutzky)
• Nota: Operador de esperanza (E[]) sólo
cumple con primera propiedad
Otros criterios de convergencia
• Convergencia cuadrática media:
𝑚
2
𝑏𝑁 → 𝑏 si lim 𝐸 𝑏𝑁 − 𝑏 =0
𝑁↑∞
• Convergencia casi segura:
𝑎.𝑠.
𝑏𝑁 𝑏 si Pr lim 𝑏𝑁 = 𝑏 = 1
𝑁↑∞
• Relación entre criterios:
Conv. cuadrática media  Converg. En Prob.
Conv. casi segura Converg. En Prob.
Leyes de Grandes Números (LGN)
• Teoremas de converg. en prob. aplicadas a promedios de variables
aleatorias
• LGN de Kolmogorov:
𝑥𝑖 𝑖𝑖𝑑
𝑎.𝑠.
𝐸 𝑥𝑖 = 𝜇 𝑒𝑥𝑖𝑠𝑡𝑒 → 𝑋𝑁 − 𝐸 𝑋𝑁 0
𝐸 𝑥𝑖 < ∞
• LGN de Markov:
𝑥𝑖 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
𝐸 𝑥𝑖 = 𝜇𝑖 𝑉𝑎𝑟 𝑥𝑖 = 𝜎𝑖 2 𝑎.𝑠.
∞ → 𝑋𝑁 − 𝐸 𝑋𝑁 0
𝐸 𝑥𝑖 − 𝜇𝑖 1+𝛿
1+𝛿
< ∞ 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔𝑢𝑛 𝛿
𝑖
𝑖=1
Convergencia en distribución
• 𝑏𝑁 converge en distribución a la variable
aleatoria 𝑏 si
lim 𝐹𝑏𝑁 = 𝐹𝑏
𝑁↑∞
• Notación:
𝑑
𝑏𝑁 → 𝑏
𝐹𝑏 es la distribución límite de 𝑏𝑁
Propiedades
• Conv. en prob.  Conv. en distribución (a una
distribución degenerada en 1 punto)
𝑑 𝑃
• Suponga que 𝑎𝑁 → 𝑎 y 𝑏𝑁 → 𝑏 y 𝑔 es
función real continua
• Entonces:
𝑑
 𝑎𝑁 + 𝑏𝑁 → 𝑎 + 𝑏
𝑑
 𝑎𝑁 ∙ 𝑏𝑁 → 𝑎 ∙ 𝑏
𝑎𝑁 𝑑
 → 𝑎 si 𝑃𝑟 𝑏𝑁 = 0 = 0
𝑏𝑁 𝑏
 𝑝𝑙𝑖𝑚 𝑔 𝑏𝑁 = 𝑔 𝑏 (Mapeo Continuo)
Teorema del Límite Central (TLC)
• Se aplican a las distribuciones asintóticas de variables
normalizadas
• TCL de Lindeberg-Levy:
𝑥𝑖 𝑖𝑖𝑑
𝑑
𝐸 𝑥𝑖 = 𝜇 → 𝑍𝑁 → 𝑁𝑜𝑟𝑚𝑎𝑙 0,1
𝑉𝑎𝑟 𝑥𝑖 = 𝜎 2
donde
𝑋𝑁 − 𝐸 𝑋𝑁 𝑋𝑁 − 𝜇 𝑋𝑁 − 𝜇
𝑍𝑁 ≡ = = 𝑁
𝑉𝑎𝑟 𝑋𝑁 𝜎2 𝑁 𝜎
• Nota: Existen versiones más generales del TCL, así
como una versión aplicable a vectores aleatorios
Propiedades de MCO
• Ahora veremos qué tipo de supuestos (generales) son necesarios para
mostrar las propiedades de consistencia y normalidad asintótica de
MCO
• Idea básica de consistencia: 𝛽 puede expresarse en función de
promedios:
−1
−1 𝑁 𝑁
1 ′ 1 ′ 1 1
𝛽−𝛽 = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝜀 = 𝑋𝑋 𝑋𝜀= 𝑥𝑖 𝑥𝑖 ′ 𝑥𝑖 𝜀𝑖
𝑁 𝑁 𝑁 𝑁
𝑖=1 𝑖=1
Bajo ciertos supuestos tendremos que
−1
𝑁 𝑁
1 1
𝑝𝑙𝑖𝑚 𝛽 − 𝛽 = 𝑝𝑙𝑖𝑚 𝑥𝑖 𝑥𝑖 ′ ∙ 𝑝𝑙𝑖𝑚 𝑥𝑖 𝜀𝑖
𝑁 𝑁
𝑖=1 𝑖=1
−1
= 𝐸 𝑥𝑖 𝑥𝑖 ′ ∙ 𝐸 𝑥𝑖 𝜀𝑖 = 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 ∙ 0 = 0
Propiedades de MCO
• En forma similar, se obtiene el resultado de
normalidad asintótica (normalizada) de 𝛽
𝑑
𝑁 𝛽 − 𝛽 → 𝑁𝑜𝑟𝑚𝑎𝑙 0, 𝑉
donde la forma de la matriz 𝑉 dependerá de los
supuestos acerca de la matriz de Var-Covar de
los errores
Supuestos generales (CT p76)
(A1) 𝑌𝑖 , 𝑋𝑖 independientes (no necesariamente id)
(A2) 𝑌𝑖 = 𝑋𝑖′ 𝛽 + 𝜀𝑖
(A3) 𝑋𝑖 puede ser estocástico, pero cumpliendo
- Segundo momento finito
1+𝛿
- 𝐸 𝑥𝑖𝑗 𝑥𝑖𝑘 < ∞ para algún 𝛿 > 0
1 ′
-𝑀𝑥𝑥 = 𝑝𝑙𝑖𝑚
𝑁
𝑋𝑋 existe y es pos.def.,rango K
- X tiene rango K en la muestra
(A4) 𝐸 𝜀𝑖 |𝑋𝑖 = 0
Supuestos generales (CT p76)
(A5) 𝑉𝑎𝑟 𝜀𝑖 |𝑋𝑖 = 𝐸 𝜀𝑖 2 |𝑋𝑖 = 𝜎𝑖 2 (ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑á𝑠𝑡𝑖𝑐𝑜)
 Ω = 𝐸 𝜀𝜀 ′ |𝑋 = 𝐷𝑖𝑎𝑔 𝜎𝑖 2
Además 𝐸 𝜀𝑖 2 1+𝛿 < ∞ para algún 𝛿 > 0
1 𝑁 2
(A6) La matriz 𝑀𝑋Ω𝑋 = 𝑝𝑙𝑖𝑚 𝑁 𝑖=1 𝜀𝑖 𝑥𝑖 𝑥𝑖 ′ existe y es pos.def. de
rango K
2 1+𝛿
Además 𝐸 𝜀𝑖 𝑥𝑖𝑗 𝑥𝑖𝑘 < ∞ para algún 𝛿
Notas:
• (A3) permite que 𝑋𝑖 sea estocástico, lo más común en datos
observacionales provenientes de una muestra
– Si𝑋𝑖 son iid 𝑀𝑥𝑥 = 𝐸 𝑥𝑖 𝑥𝑖 ′ Y (A3) puede simplificarse a
𝐸 𝑥𝑖 𝑥𝑖 ′ < ∞
• Bajo homocedasticidad, (A6) implica: 𝑀𝑋Ω𝑋 = 𝜎 2 𝑀𝑥𝑥
Resultados
• (A1)-(A4) 
– 𝛽 identificado , 𝛽 insesgado
– 𝑉𝑎𝑟 𝛽 = 𝐸 𝑋 ′ 𝑋 −1 𝑋 ′ 𝜀𝜀𝑋 ′ 𝑋 ′ 𝑋 −1 =
𝐸𝑋 𝑋 ′ 𝑋 −1 𝑋 ′ Ω𝑋 ′ 𝑋 ′ 𝑋 −1
𝑀𝑎𝑟𝑘𝑜𝑣 1 𝑁
(A1)−(A4) 𝑝𝑙𝑖𝑚 𝑖=1 𝑥𝑖 𝜀𝑖 =0
𝑁
• 1
→
𝑁
(A3) → 𝑝𝑙𝑖𝑚 𝑖=1 𝑥𝑖 𝑥𝑖 ′ = 𝑀𝑥𝑥
𝑁
𝑝𝑙𝑖𝑚 𝛽 = 𝛽 es decir 𝛽 consistente para 𝛽
Resultados
𝐿𝑖𝑎𝑝𝑢𝑛𝑜𝑣
(A1)−(A4)
𝑁
1 ′ 1 𝑑
𝑁 𝑋𝜀 = 𝑥𝑖 𝜀𝑖 → 𝑁 0, 𝑀𝑋Ω𝑋
𝑁 𝑁 𝑖=1
𝑑
𝑁 𝛽 − 𝛽 → 𝑁 0, 𝑀𝑥𝑥 −1 𝑀𝑋Ω𝑋 𝑀𝑥𝑥 −1
Homoc: 𝑀𝑥𝑥 −1 𝑀𝑋Ω𝑋 𝑀𝑥𝑥 −1 = 𝜎 2 𝑀𝑥𝑥 −1
1 𝑁 2
𝑀𝑋Ω𝑋 puede estimarse como 𝑖=1 𝑖 𝑥𝑖 𝑥𝑖 ′
𝜀
𝑁
2
A𝑉𝑎𝑟 𝛽 = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑁 ′
𝑖=1 𝑖 𝑥𝑖 𝑥𝑖 ′ 𝑋 𝑋 𝑋
𝜀 ′ −1
Homoc: A𝑉𝑎𝑟 𝛽 = 𝜎 2 𝑋 ′ 𝑋 −1
Mínimos Cuadrados Generalizados
(MCG)
• Si Ω = 𝐸 𝜀𝜀 ′ |𝑋 no es igual a 𝜎 2 𝐼 𝛽𝑀𝐶𝑂 no es
eficiente
• MCG: Tranformar modelo original (multiplicando
por H = Ω−1/2 , tal que H’H=Ω−1 ) recuperar
homocedasticidad y por lo tanto eficiencia:
𝐻𝑌 = 𝐻𝑋𝛽 + 𝐻𝜀 → 𝛽𝑀𝐶𝐺 = 𝑋 ′ 𝐻′ 𝐻𝑋 −1 𝑋 ′ 𝐻′ 𝐻𝑌
𝛽𝑀𝐶𝐺 = 𝑋 ′ Ω−1 𝑋 −1 𝑋 ′ Ω−1 𝑌
• Ω desconocido  Ω = Ω 𝛾  Estimar 𝛾Ω
′ −1 −1
𝛽𝑀𝐶𝐺𝐹 = 𝑋 Ω 𝑋 𝑋 ′ Ω−1 𝑌
Mínimos Cuadrado Ponderados (MCP)
• (A1)-(A4)+ Ω 𝛾 correcto 
−1
𝑑 1
𝑁 𝛽𝑀𝐶𝐺𝐹 − 𝛽 → 𝑁 0, 𝑝𝑙𝑖𝑚 𝑋′Ω𝑋
𝑁
• Ω 𝛾 mal especificado 𝛽𝑀𝐶𝐺𝐹 consistente pero varianza
mal calculada Se puede obtener varianza robusta
mediante Mínimos Cuadrados Ponderados (MCP)
– Estimar 𝛽𝑀𝐶𝐺𝐹 a partir de supuesto sobre heterocedasticidad
(con modelo transformado)
– Calcular varianza usando errores robustos a heterocedasticidad.
• Ejemplo:
𝑌𝑖 = 𝛼0 + 𝛼1 𝑋1𝑖 + 𝛼2 𝑋2𝑖 + 𝜀𝑖 con 𝜎𝑖2 = 𝜎 2 ∙ 𝐸𝑆𝐶𝑖
• Tarea: Reproducir tabla 4.3 de CT
Parte 2 – Bootstrap
(CT 11)
Bootstrap (CT 11)
• En general, no existen resultados
distribucionales para muestras pequeñas (a
menos que se asuma errores normales)
– Inferencia habitual descansa en estadísticos que
convergen a una normal, T o 𝜓 2 .
• Alternativa: usar método de bootstrap
– Aproxima distribución de 1 estadístico a partir de
un tipo de simulación de Montecarlo, en que el
muestreo proviene de la distribución empírica de
datos observados
Bootstrap (BS) - ventajas
• Realizar inferencia estadística cuando los
métodos convencionales (calcular errores
estándar) son difíciles de calcular / implementar
• En algunos casos bootstrap provee refinamiento
asintótico, con mejores propiedades en muestras
pequeñas (converge más rápido)
• BS es consistente y fácil de implementar con
estimadores suaves, 𝑁-consistentes, basados en
muestras iid  Cuidado con aplicación a
– Estimadores no suaves (mediana, no paramétricos)
– Datos no iid (por ejemplo, agrupados)
Resumen
• Contamos con 1 muestra 𝑌𝑖 , 𝑋𝑖 𝑁
𝑖=1 = 𝑊 𝑁
𝑖 𝑖=1
• Contamos con 1 estimador 𝜃 (suave, 𝑁-consistente)
• Procedimiento:
1) Obtenemos 1 muestra de la base original, extrayendo N
observaciones, CON reemplazo.
2) Obtenemos una realización del estimador, 𝜃 1
3) Repetimos el proceso B veces (B=100 mil) y guardamos el
𝐵
resultado del estimador 𝜃 𝑏 𝑏=1
• Luego, hay varias alternativas:
– Calculamos el error estándar del estimador y realizamos el test de
hipótesis de la manera habitual (estadístico T)
– Construimos la distribución empírica y extraemos el intervalo de
confianza (IC)
– Con estadísticos pivotales, se puede obtener refinamiento
asintótico al utilizar la distribución empírica del estadístico
asociado al test (est. T)
Ejemplo
• Testear H0:𝛼2 =2 en un MRLM (contra H1:𝛼2 ≠ 2)
• Métodos 1: Obtener B realizaciones distintas del estimador
𝛼2 y luego
1 2
𝐵
a) Calcular s. e. 𝛼2 = 𝑏=1 𝛼2 𝑏 − 𝛼2 , calcular 𝑇 =
𝐵−1
𝛼2 −2
s.e. 𝛼2 y chequear si 𝑇 > 𝑉𝐶95%
b) Construir IC para 𝛼2 a partir de distribución de 𝛼2 𝑏 ; ordenar
de menor a mayor e identificar valores en percentiles 2.5% y
97.5%.
• Método 2 (con refinam. Asintótico): Obtener B
realizaciones distintas del estadístico 𝑇 𝑏 =
𝛼2 𝑏 −𝛼2
s.e. 𝛼2 𝑏 y obtener VC a partir de la
distribución de 𝑇 𝑏 (ordenar 𝑇 𝑏 de menor a mayor y el
VC es el percentil 1-α). Comparar estadístico original con
VC obtenido de esta manera.
Métodos de muestreo para BS
• BS no paramétrico o de función de distribución empírica o
BS pareado:
– B muestras distintas de las distribución empírica de 𝑌𝑖 , 𝑋𝑖
• BS paramétrico: Sup. Que conocemos 𝑌|𝑋 ~𝐹 𝑋, 𝜃0 y
tenemos un estimador consistente 𝜃 de 𝜃0 .
– Alt 1: Mantenemos los X fijos y muestreamos de 𝐹 𝑋, 𝜃
– Alt 2: Muestreamos (con reemplazo) de distribución empírica de
𝑋𝑖 y y muestreamos de 𝐹 𝑋 𝑏 , 𝜃
• BS residual: Muestrear de distribución empírica de
residuos, generar los Y, obtener estimadores y repetir.
• ¿Cuál usar?
– BS no paramétrico es más simple y aplicable a mayor número de
situaciones, aunque otros proveen mejor aproximación (si
supuestos adicionales son válidos)
• ¿Número de simulaciones de BS? Ver CT 11.2.4
Implementación
• Opción 1 (más común):
– usar opción “vce(boostrap, …)” al utilizar un
comando como regress, ivregress, etc.
– Ej:
regress y x, vce(bootstrap , reps(1000) nodots seed(10101))
• Opción 2: usando comando “bootstrap”
bootstrap , reps(1000) nodots seed(10101): regress y x
• Opción 3: usando simulate + bsample
– Ver ejemplo en webcursos
. ** bootstrap directo:
. reg price mpg rep78, vce(bootstrap , reps(1000) nodots seed(10101))
Linear regression Number of obs = 69

Replications = 1000
Wald chi2(2) = 22.44
Prob > chi2 = 0.0000
R-squared = 0.2510
Adj R-squared = 0.2283
Root MSE = 2558.5356
Observed Bootstrap Normal-based

price Coef. Std. Err. z P>|z| [95% Conf. Interval]
mpg -271.6425 58.70464 -4.63 0.000 -386.7015 -156.5836

rep78 666.9568 285.2664 2.34 0.019 107.8448 1226.069
_cons 9657.754 1483.872 6.51 0.000 6749.418 12566.09
. ** BS mediante comando bootstrap:

. bootstrap , reps(1000) nodots seed(10101): reg price mpg rep78
Linear regression Number of obs = 69

Replications = 1000
Wald chi2(2) = 22.44
Prob > chi2 = 0.0000
R-squared = 0.2510
Adj R-squared = 0.2283
Root MSE = 2558.5356
Observed Bootstrap Normal-based

price Coef. Std. Err. z P>|z| [95% Conf. Interval]
mpg -271.6425 58.70464 -4.63 0.000 -386.7015 -156.5836

rep78 666.9568 285.2664 2.34 0.019 107.8448 1226.069
_cons 9657.754 1483.872 6.51 0.000 6749.418 12566.09

Tema 2 - Teoría Asintótica

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Tema 2 - Teoría Asintótica

Caricato da

Copyright:

Formati disponibili

Tema 2 – Teoría asintótica

Linear regression Number of obs = 69

Observed Bootstrap Normal-based

mpg -271.6425 58.70464 -4.63 0.000 -386.7015 -156.5836

. ** BS mediante comando bootstrap:

Linear regression Number of obs = 69

Observed Bootstrap Normal-based

mpg -271.6425 58.70464 -4.63 0.000 -386.7015 -156.5836

Potrebbero piacerti anche