Ch2and3 - Fede

Econometría I (10143)
Otoño 2008
Instructor: Federico Todeschini
Email: todeschini.federico@upf.edu
Oficina: Jaume I, 158
2&3-1
La Econometría es el análisis estadístico de los datos
económicos (y relacionados)
En Econometría I (10143) el estudiante aprenderá a realizar

inferencias cuantitativas sobre efectos causales usando datos
experimentales y observacionales de corte transversal. La
mayor parte del curso se centra en el análisis de regresión
múltiple como forma de mitigar efectos confundidores en
estudios observacionales.
El objetivo del curso es que el estudiante aprenda a llevar a
cabo– y a criticar – estudios empíricos en economía y
campos relacionados.
2&3-
Nivel de matemáticas necesario: Algebra y nociones de
cálculo para las demostraciones hechas en clase pero no para
las prácticas o los exámenes.
Libro recomendado:
Introduction to Econometrics 2nd edition, by J.H. Stock and
M.W. Watson, Addison-Wesley, 2007. Sirven la edición
americana y la internacional ya que es la 1ª ed. (algunas
copias en la librería).
De todas maneras se colgarán las lecturas en pdf en la web

del curso el viernes anterior.
2&3-3
Prácticas:
Habrá prácticas semanales con 4-5 ejercicios de los cuales al
menos uno será empírico. El software estadístico del curso
es el STATA, que está en los PC de la UPF. La primera clase
de prácticas será una introducción al STATA. Los datos para
las prácticas estarán disponibles en www.aw-bc.com/
stock_watson. La página también tiene tutoriales de STATA
para empezar los ejercicios prácticos.
Las prácticas se entregarán en el aula de clases de práctica

antes de empezar. Las que no lo hayan hecho en tiempo y
forma no se tendrán en cuenta. NO colgaremos soluciones
2&3-
Las prácticas se tienen que hacer en grupos. Pueden ser de
dos o de tres. Se entregará una sóla práctica por grupo y
la nota será la misma para todos sus miembros. Por favor,
poned los nombres de todos los miembros del grupo. Añadid
a la práctica también vuestros archivos “log” del STATA.
Puede que no todos los ejercicios se corrijan cada semana,

pero no se conocerá con antelación los que sí se corrijan. Los
ejercicios corregidos se mirarán con detalle, lo que significa
que podéis recibir algo de puntuación si algún ejercicio sólo
tiene algunos errores menores.
2&3-5
Evaluación del curso:
Ejercicios: 20%; Examen Parcial: 30%; Examen Final:50%.
Resumen del curso

La economía sugiere relaciones interesantes, a menudo con
implicaciones sobre políticas económicas, pero prácticamente
nunca sugiere magnitudes cuantitativas sobre efectos causales.
•
¿Qué efecto tiene reducir el tamaño de las clases en los
rendimientos escolares?
•
¿Cómo aumenta los ingresos un año más de educación?
•
¿Cuál es el efecto sobre el crimen de contratar más policías?
•
¿Cuál es el efecto de la democracia directa sobre la eficiencia
en el reparto de los gastos del gobierno?
2&3-
Este curso se centra en el uso de modelos estadísticos y
econométricos para cuantificar efectos causales.
Lo ideal sería poder hacer un experimento:

Tamaño de la clase; educación; policías; democracia directa.
En el pasado casi nunca se llevaron a cabo experimentos sociales,
así que los investigadores usaban datos observacionales (no
experimentales). Éstos presentan dos grandes retos: considera la
estimación de los retornos a la educación o el de policías y
crímenes
•
Efectos confundidos (por ejemplo debido a factores omitidos)
•
“Correlación no implica causalidad”
2&3-7
En este curso:
•
Aprenderás métodos para estimar efectos causales usando
datos experimentales y observacionales (los métodos son los
mismos);
•
Aprenderás algunas herramientas que te serán útiles para otros
propósitos, como hacer predicciones usando series temporales;
•
Te centrarás en las aplicaciones – la teoría se usará sólo
cuando haga falta entender el “por qué” de los métodos;
•
Aprenderás cómo producir (haciendo tu el análisis) y consumir
(evaluando el trabajo de otros) aplicaciones econométricas; y
•
Practicarás “produciendo” en tus prácticas
2&3-
Repaso de Probabilidad y Estadística
(SW Capítulos 2, 3)
Problema empírico: Tamaño de la clase y resultados académicos
•
Pregunta política: ¿Qué efecto tiene reducir el tamaño de las
clases en un alumno por clase? ¿y en 8 alumnos/clase?
•
¿Cómo medimos el output de la educación (“variable
dependiente”)?
 Satisfacción de los padres
 Desarrollo personal del estudiante
 Futuro bienestar adulto y/o ingreos
 Resultados de tests estandarizados
2&3-9
¿Qué nos dicen los datos sobre la relación tamaño de la clase/
resultados del test?
Los Datos del Test de California

Todas los K-6 y K-8 distritos escolares de California (n =
420)
Variables:
 Resultados del test de 5o grado (Stanford-9 test de
desempeño, mates y lectura), media distrito

 Ratio alumnos/profesores (STR) = No. estudiantes en
el distrito dividido por No. profes equivalentes a

tiempo completo
2&3-
Primera ojeada a los datos:
2&3-11
¿Tienen los distritos con clases menores mejores resultados?
2&3-
¿ Cómo podemos obtener alguna evidencia numérica sobre si los
distritos con STR bajo obtienen mejores notas en los tests?
1. Comparando notas medias en los distritos con un STRs bajo

con los de alto STRs (“estimación”)
2. Contrastar la hipótesis que las media son iguales en los dos
tipos de distrito contra la alternativa de que son diferentes
(“test de hipótesis”)
3. Estimar un intervalo para las diferencias de las puntuaciones
medias, distritos con STR alto v. bajo (“intervalo de
confianza”)
2&3-13
Análisis inicial de los datos: Comparar distritos con tamaños de
clase “bajo” (STR<20) con “alto” (STR≥20)
Tamaño Nota media Desviación n

clase ( ) estándar (sY)
bajo 657.4 19.4 238
alto 650.0 17.9 182
1. Estimación de Δ = diferencia entre medias de los grupos

2. Contrastar la hipótesis que Δ = 0
3. Construir un intervalo de confianza para Δ
2&3-
1. Estimación
= 657,4 – 650,0 = 7,4
Donde y
¿Es esta diferencia grande a efectos prácticos?

•
Desv. estándar entre distritos = 19,1
•
La diferencia entre percentil 60th y 75th de la distribución
de las notas del test es 667,6 – 659,4 = 8,2
•
Esta es una diferencia suficientemente grande como para
discutir una reforma escolar, para los padres o para el
comité de la escuela.
2&3-15
2. Contraste de hipótesis
Test de diferencia de medias: calcular el t-estadístico,
(te acuerdas?)
Donde SE( – ) es el “error estándar” de – ; los

subíndices s y l se refieren a “small” y “large” en referencia a los
distritos con un STR alto y bajo; y (etc.)
2&3-
Calcular el t-estadístico para la diferencia de las medias:
Tamaño sY n
bajo 657.4 19.4 238
alto 650.0 17.9 182
|t| > 1,96, rechazamos (con un nivel de confianza del 5%) la

hipótesis nula que las dos media son iguales. 2&3-17
3. Intervalo de confianza
Un intervalo de confianza del 95% para la diferencia entre las
medias es,
Dos afirmaciones equivalentes:

1. El intervalo de confianza al 95% de confianza no incluye 0;
2. Rechazamos la hipótesis que Δ = 0 al nivel 5%.
2&3-
Todo esto debería ser familiar. Pero:
1. ¿Qué marco teórico justifica todo esto?

2. Estimación: ¿Por qué estimar Δ con – ?
3. Contrastar: ¿Qué es el error estándar de – ,
realmente? ¿Por qué rechazar Δ = 0 si |t| > 1.96?
4. Intervalos de confianza (estimación de intervalos): ¿Qué
es un intervalo de confianza realmente?
2&3-19
1. Teoría de la probabilidad para la inferencia estadística
2. Estimación
3. Contrastes de hipótesis
4. Intervalos de confianza
Población
•
El grupo o colección de entidades de interés
•
Aquí, “todos los posibles” distritos escolares
•
“Todos los posibles” significa todas los posibles
circunstancias que llevan a valores específicos de STR, notas
del test
•
Pensamos en las poblaciones como infinitas; nuestra tarea es
haces inferencia usando una muestra de una gran población
2&3-
Variable aleatoria Y
•
Resumen numérico de un resultado aleatorio
•
Aquí, el valor numérico de las notas medias de los
distritos (o STR del distrito), una vez hemos escogido un
año/distrito del que extraer una muestra.
Distribución poblacional de Y
•
Las probabilidades de diferentes valores de Y que ocurren
en la población, por ej. Pr[Y = 650] cuando Y discreta)
•
o: Las probabilidades de conjuntos de esos valores, por ej.
Pr[Y 650] (cuando Y continua).
2&3-21
“Momentos” de la distribución poblacional
media = valor esperado
= E(Y)
= µY
= valor esperado de Y a largo plazo cuando se
obtienen realizaciones repetidas de Y
varianza = E(Y – µY)2

=
= medida del cuadrado de la dispersión de la
distribución
Desviación estándar = = σY
2&3-
Probabilidad condicional
•
Sean A y B dos eventos tales que P(B)>0, entonces la
probabilidad condicional de A dado que B ha ocurrido
(notación ) es igual a:
Teorema de Bayes
•
Si A y B son dos eventos tales que P(A)>0 y P(B)>0,
entonces:
2&3-23
Este es posiblemente uno de los teoremas más importantes
para el análisis de datos (de todas maneras, en este curso lo
utilizaremos poco, no obstante, es bueno que siempre lo
recuerden).
Ejemplo: Una persona con cáncer de pulmón se hace una

radiografía. La probabilidad que se lo detecten es 0,99 y si la
persona no tuviera cáncer y se hace una radiografía, la
probabilidad que se le diagnostiquen incorrectamente cáncer
es 0,001. Sabemos que el 1% de las personas tienen cáncer.
¿Si eligiéramos una persona al azar y le diagnosticáramos
cáncer, cuál es la probabilidad que realmente tenga cáncer?
2&3-
Respuesta:
2&3-25
Distribuciones condicionales
•
La distribución de Y, dados el/los valor/es de otra variable
aleatoria, X
•
Ej: la distribución de las notas del test, dado que STR <
20
Momentos de la distribución condicional

•
Media condicional = media de la distribución condicional
= E(Y|X = x) (notación importante)
•
Varianza condicional = varianza de la distribución
condicional
•
Ejemplo: E(nota test|STR < 20), la nota media de los test para
distritos con clases pequeñas 2&3-
La diferencia entre medias es la diferencia entre las medias de
dos distribuciones condicionales:
Δ = E(Notas test|STR < 20) – E(Notas test|STR ≥ 20)
Otros ejemplos de medias condicionales:

• Salario de todas las trabajadoras (Y = salario, X = sexo)
• La mortalidad en un año de pacientes que han recibido un
tratamiento esperimental (Y = vive/muere; X = tratado/no tratado)
La media condicional es un término nuevo para la idea ya

familiar de la media grupal
2&3-27
Inferencia sobre medias, medias condicionales y
diferencia entre medias condicionales
Nos gustaría saber Δ (dif. Entre nota test; dif. Entre salaries
por género; efecto tratamiento exp.), pero no lo sabemos.
Así que tenemos que recopilar datos que nos permitan hacer
inferencias estadísticas sobre Δ.
•
Datos experimentales
•
Datos observacionales
2&3-
Muestreo aleatorio simple
•
Escoge un individuo (distrito, entidad) de la población al
azar
Aleatoriedad y datos
•
Antes de seleccionar la muestra, el valor de Y es aleatorio
porque el individuo se selecciona al azar
•
Una vez se selecciona al individuo y se observa el valor
de Y, momento en que Y deja de ser un número aleatorio
•
El conjunto de datos es (Y1, Y2,…, Yn), donde Yi = valor de
Y para el individuo i (distrito, entidad) seleccionado
2&3-29
Implicaciones del muestreo aleatorio simple
Dado que los individuos #1 y #2 ha sido seleccionados al azar, el
valor de Y1 no contiene información sobre Y2. Entonces:
•
Y1, Y2 se distribuyen independientemente
•
Y1 y Y2 provienen de la misma distribución, esto es, Y1, Y2
están distribuidos idénticamente.
•
Esto es, una consecuencia del muestreo aleatorio es que Y1 y
Y2 son independientes e idénticamente distribuidos (i.i.d.).
•
En general, bajo muestreo aleatorio simple, {Yi}, i = 1,…, n,
son i.i.d
2&3-
2. Estimación
3. Contrastes
es el estimador natural para la media. Pero:

•
¿Qué propiedades tiene este estimador?
•
¿Por qué usar y no otro estimador?
 Y (la primera observación)
1
 Tal vez pesos distintos – no la media aritmética
 mediana(Y ,…, Y )
1 n
2&3-31
Para contestar estas preguntas necesitamos caracterizar la
distribución muestral de
•
Los individuos de la muestra se seleccionan al azar.
•
Entonces, los valores de (Y1,…, Yn) son aleatorios
•
Entonces, funciones de (Y1,…, Yn), como , son aleatorias: si
extrajéramos otra muestra tendrían distinto valor
•
La distribución de sobre distintas muestras de tamaño n se
llama la distribución muestral de .
•
La media y la varianza de son la media y varianza de su
distribución muestral, E( ) y var( ).
•
Para calcular var( ), necesitamos conocer la función la
covarianza
2&3-
La covarianza entre las v.a. X y Z es,
cov(X,Z) = E[(X – µX)(Z – µZ)] = σXZ
•
La covarianza mide el grado de asociación lineal entre X y
Z ; sus unidades son las unidades X ! unidades de Z
•
cov(X,Z) > (<) 0: X y Z relación entre X y Z positiva
(negativa)
•
Si X y Z están distribuidas independientemente, entonces
cov(X,Z) = 0 (pero lo opuesto no es necesariamente
cierto!!)
•
La covarianza de una v.a. con ella misma es su varianza:
cov(X,X) = E[(X – µX)(X – µX)] = E[(X – µX)2] =
2&3-33
La covarianza entre Nota Test y STR es negativa:
2&3-
El coeficiente de correlación se define en términos de la
covarianza
corr(X,Z) = = rXZ
•
•
corr(X,Z) = 1 significa asociación lineal positiva perfecta
•
corr(X,Z) = -1 significa asociación lineal negativa perfecta
•
corr(X,Z) = 0 significa no hay asociación lineal.
•
If E(X|Z) = const, entonces corr(X,Z) = 0 (pero lo opuesto
no es necesariamente cierto)
2&3-35
Los coef. de correlación miden asociación linear
2&3-
Los coef. de correlación miden asociación linear
2&3-37
La media y varianza de la
distribución muestral de
media: E( ) = E( )= = = µY
varianza: var( ) = E[ – E( )]2

= E[ – µY]2
=E
=E
2&3-
entonces var( ) =
= =
Resumen: E( ) = µY y var( ) =
2&3-39
Implicaciones:
• es un estimador no sesgado de µY (esto es, E( ) = µY)
•
var( ) es inversamente proporcional a n
•
la dispersión de la distribución muestral es proporcional a
1/
•
en este sentido, la incertidumbre muestral que surge de usar
para hacer inferencia sobre µY es proporcional a 1/
2&3-
¿Qué hay del total de la distribución de , no sólo la media y
la varianza?
En general, la distribución muestral exacta de es muy
complicada y depende de la distribución poblacional de Y.
Ejemplo: Supón que Y es igual a 0 o 1 (una variable

aleatoria Bernoulli) con la distribución de probabilidad,
Pr[Y = 0] = 0,22, Pr(Y =1) = 0,78
Entonces E(Y) = 0,78 y = 0,78*(1–0,78) = 0,1716
2&3-41
2&3-
Para tamaños de muestra pequeños, la distribución de es
complicada.
PERO: cuando n es grande, no lo es!
(1) A medida que n crece, la distribución de se vuelve más

centrada alrededor de µY: la incertidumbre muestral decrece
cuando n crece (recuerda que var( ) = /n)
Un estimador es consistente si la probabilidad de que caiga en un

intervalo del valor de la población verdadera tiende a uno a
medida que el tamaño de la muestra crece
2&3-43
La Ley de los grandes números:
Si (Y1,…,Yn) son i.i.d. y < , entonces es un estimador

consistente de µY, esto es,
Pr[| – µY|≤ε] 1 cuando n
Que lo podemos escribir, µY (“ converge en
probabilidad a µY”)
(Prueba: cuando n , var( ) = 0, lo que implica que

Pr[| – µY| < ε] 1.)
2&3-
(2) Teorema del límite central (TLC): si (Y1,…,Yn) son i.i.d.
y0< < , entonces cuando n es grande, la distribución de
se aproxima a una distribución normal:
• se distribuye aproximadamente como N(µY, )

(“distribución normal con media µY y varianza /n”)
• ( – µY)/σY se distribuye aproximadamente como N
(0,1) (normal estándar)
•
Esto es, “estandarizada” = = se
distribuye aproximadamente como N(0,1)
•
La aproximación mejora a medida que n crece 2&3-45
Ejemplo: Y tiene distribución Bernoulli, p = 0.78:
2&3-
Mismo ejemplo: distribución de :
2&3-47
2&3-
Resumen: para (Y1,…,Yn) i.i.d. con 0 < < infinito,
•
La distribución muestral exacta (muestra finita) de tiene
media µY (“ es un estimador no sesgado de µY”) y
varianza /n
•
A parte de su media y varianza, la distribución exacta de
es complicada y depende de la distribución de Y
• µY (Ley de los grandes números)
•
se distribuye aproximadamente N(0,1) (T.L.C.)
2&3-49
2&3-
2&3-51
Entonces, ¿por qué usar para estimar µY?
• Falta de sesgo: E( ) = µY
• consistencia: µY
• es el estimador de “mínimos cuadrados” de µY; resuelve,
(Cálculo; o mira App. 3.2)

•
tiene menor varianza que cualquier otro estimador linear no
sesgado: considera el estimador, , donde {ai} es

tal que es no sesgado; entonces var( ) var( ).
2&3-
2. Estimación
La función de los contrastes de hipotesis (para la media):

tomar una decisión provisional, basada en la evidencia
disponible, sobre si la hipótesis nula es cierta o, por el
contrario, otra hipótesis alternativa es cierta. Esto es, test
H0: E(Y) = µY,0 vs. H1: E(Y) > µY,0 (1-lado, >)
H0: E(Y) = µY,0 vs. H1: E(Y) < µY,0 (1-lado, <)
H0: E(Y) = µY,0 vs. H1: E(Y) µY,0 (2-lados)
2&3-53
p-valor = probabilidad de obtener un estadístico (e.g. ) al
menos tan adverso para la nula como el valor que hemos
obtenido con nuestros datos, asumiendo que la hipótesis nula
es cierta.
En otras palabras: la probabilidad de rechazar una hipótesis
que es verdadera. Mientras más bajo sea este valor, más
tranquilos podemos estar si rechazamos Ho.
El nivel de significancia de un contraste es la probabilidad a

priori de rechazar incorrectamente la nula, cuando la
hipótesis nula es cierta.
2&3-
Cálculo del p-valor basado en :
p-valor = ,
donde es el valor de observado (no aleatorio)
2&3-55
p-valor = ,
para calcular el p-valor, necesitas la distribución de . Si n

es grande, podemos usar la aproximación normal :
p-valor = ,
=
probabilidad bajo las colas izquierda +
derecha de N(0,1)
2&3-
Denotemos la desv. std. de la distribución de como :
2&3-57
En la práctica, σY es desconocido y tenemos que estimarlo
Estimador de la varianza de Y:
=
Hechos:
Si (Y1,…,Yn) son i.i.d. y E(Y4) < , entonces
 ¿Por qué usamos la Ley de los Grandes Números? Porque
es una media muestral; mirar Apéndice 3.3
 Nota técnica: asumimos E(Y4) < porque aquí la media no
es de Yi, sino de su cuadrado; mirar Ap. 3.3
2&3-
 Calcular el p-valor con estimado:
p-valor = ,
( gran n)
=
probabilidad bajo las colas de la normal, donde
t= (el t-estadístico típico) 2&3-59

El p-valor y el nivel de significancia
Con un nivel de significancia especificado previamente (e.g.

5%):
•
Rechazamos si |t| 1.96
•
De forma equivalente: rechazamos si p 0.05.
•
El p-valor se llama a veces nivel de significancia
marginal.
2&3-
La distribución t de Student
Si Y se distribuye N(µY, ), entonces el estadístico t tiene una
distribución t de Student (tabulada en los apéndices de todos
los libros de estadística)
Algunos comentarios:
• Para n > 30, la distribución t y N(0,1) son muy similares
• La suposición que Y se distribuye N(µY, ) es raramente plausible
en la práctica (ingreso? Número de hijos?)
• La distribución t es un vestigio de los tiempos en los que las
muestras eran muy pequeña
• En esta clase no usaremos la distribución t – confiaremos sólo en la
aproximación para grandes muestras proporcionada por el TLC
2&3-61
1. Teoría para la inferencia estadística
2. Estimación
Un intervalo de confianza del 95% para µY es un intervalo

que contiene el verdadero valor de µY en el 95% de muestras
repetidas
(¿Qué es aleatorio aquí? El intervalo de confianza – será

distinto de una muestra a otra; el parámetro poblacional, µY,
no es aleatorio, simplemente no lo sabemos.)
2&3-
Siempre podemos construir un intervalo de confianza del
95% como el conjunto de valores de µY no rechazados con
un nivel de significancia del 5%.
{µY: 1,96} = {µY: –1,96 1,96}
= {µY: –1,96 – µY 1,96 }
= {µY ( – 1,96 , + 1,96 )}
2&3-63
Este intervalo de confianza se basa en el resultado para
grandes n que tiene una distribución aproximadamente
normal y .
2&3-
2&3-65
Bien, hemos visto como contrastar hipótesis y construir
intervalos de confianza para la media poblacional, µY. ¿Pero
cómo contrastamos hipótesis sobre dos medias
poblacionales?
H0: µs - µl = d0 vs. H1: µs - µl d0 (2-sided)
En el ejemplo de número de alumnos por clase, una hipótesis

razonable que contrastar es que la notas del test no son
significativamente distintas entre distritos con muchos o
pocos alumnos por clase (clases pequeñas o grandes),
i.e. d0 = 0.
2&3-
Un estimador para µs - µl es que calculamos como
= 657.4 – 650.0 = 7.4
donde y
Para contrastar hipótesis y construir intervalos de confianza

necesitamos conocer la distribución muestral de – .
Gracias al TCL sabemos que se distribuye
aproximadamente N(µY, ).
2&3-67
Dado que las dos medias son independientes, – se
distribuye N[(µs - µl,),(σs2/ns+σl2/nl)].
Las varianzas poblacionales, σs2 y σl2 pueden ser estimadas
por sus homólogas muestrales ss2 y sl2,

(etc.).
Así, el estadístico t para H0: d0 = 0 es
2&3-
Esto se calcula fácilmente con STATA:
generate d = (str>=20)
ttest testscr,by(d) unequal
Two-sample t test with unequal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 238 657.3513 1.254794 19.35801 654.8793 659.8232
1 | 182 649.9788 1.323379 17.85336 647.3676 652.5901
---------+--------------------------------------------------------------------
combined | 420 654.1565 .9297082 19.05335 652.3291 655.984
---------+--------------------------------------------------------------------
diff | 7.37241 1.823689 3.787296 10.95752
------------------------------------------------------------------------------
diff = mean(0) - mean(1) t = 4.0426
Ho: diff = 0 Satterthwaite's degrees of freedom = 403.607
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000
Otro ejemplo de test para la diferencia de medias
2&3-69
2&3-
Solución:
a) Dado que es un evento del tipo Bernoulli (eliminando la
gente que vota en blanco), sea p la probabilidad de votar a
Bush en Septiembre y (1-p) la de votar a Kerry. Entonces
p=405/755=0,536 y (1-p)=0,464. La varianza es var(p)=p*
(1-p)/n=0,2487/755=0.000329 y el error estándar por lo
tanto es 0,01813836. Por lo tanto, el intervalo de confianza
al 95% será:
b) Para octubre, tenemos que p=0,5 y SE(p)=0,1818. Por lo

tanto
2&3-71
c) Ahora debemos plantearnos un test de medias, para ver si las
preferencias de los votantes han cambiado o no. Para ello
construimos planteamos el test de hipótesis de que las
preferencias de los votantes por Bush no cambiaron entre
septiembre y octubre
Entonces, el estadístico t será:
Y por lo tanto no rechazamos la hipótesis nula 2&3-

Resumen:
Para los supuestos de:
(1) Muestreo aleatorio simple de una población, esto es,
{Yi, i =1,…,n} son i.i.d.

(2) 0 < E(Y ) <
4
Hemos desarrollado, para grandes muestras (gran n):

•
Teoría de la estimación (distribución muestral de )
•
Teoría de contrastes de hipótesis (distribución del estadístico t
para grandes n y cálculo del p-valor)
•
Teoría de los intervalos de confianza (construidos invirtiendo
el estadístico t)
Son los supuestos (1) y (2) realistas en la práctica? Si
2&3-73
Pregunta política original:
Cuál es el efecto de reducir STR en un estudiante/clase sobre
las notas de los test?
Hemos contestado la pregunta?
• Hemos examinado Δ = la diferencia entre las medias, pocos
v. muchos alumnos por clase

• Pero Δ no contesta del todo nuestra pregunta.
•
Más bien, el interés político radica en
•
Pero esto es la pendiente de una recta que relaciona la nota
del test con STR
•
Así que debemos estimar esta pendiente de algún modo…
2&3-

Ch2and3 - Fede

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Ch2and3 - Fede

Caricato da

Copyright:

Formati disponibili

Econometría I (10143)

En Econometría I (10143) el estudiante aprenderá a realizar

De todas maneras se colgarán las lecturas en pdf en la web

Las prácticas se entregarán en el aula de clases de práctica

Puede que no todos los ejercicios se corrijan cada semana,

Resumen del curso

Lo ideal sería poder hacer un experimento:

Los Datos del Test de California

desempeño, mates y lectura), media distrito

el distrito dividido por No. profes equivalentes a

1. Comparando notas medias en los distritos con un STRs bajo

Tamaño Nota media Desviación n

1. Estimación de Δ = diferencia entre medias de los grupos

¿Es esta diferencia grande a efectos prácticos?

Donde SE( – ) es el “error estándar” de – ; los

distritos con un STR alto y bajo; y (etc.)

|t| > 1,96, rechazamos (con un nivel de confianza del 5%) la

Dos afirmaciones equivalentes:

1. ¿Qué marco teórico justifica todo esto?

varianza = E(Y – µY)2

Ejemplo: Una persona con cáncer de pulmón se hace una

Momentos de la distribución condicional

Otros ejemplos de medias condicionales:

• La mortalidad en un año de pacientes que han recibido un

tratamiento esperimental (Y = vive/muere; X = tratado/no tratado)

La media condicional es un término nuevo para la idea ya

es el estimador natural para la media. Pero:

varianza: var( ) = E[ – E( )]2

Ejemplo: Supón que Y es igual a 0 o 1 (una variable

Pr[Y = 0] = 0,22, Pr(Y =1) = 0,78

Entonces E(Y) = 0,78 y = 0,78*(1–0,78) = 0,1716

PERO: cuando n es grande, no lo es!

(1) A medida que n crece, la distribución de se vuelve más

cuando n crece (recuerda que var( ) = /n)

Un estimador es consistente si la probabilidad de que caiga en un

Si (Y1,…,Yn) son i.i.d. y < , entonces es un estimador

(Prueba: cuando n , var( ) = 0, lo que implica que

• se distribuye aproximadamente como N(µY, )

(Cálculo; o mira App. 3.2)

sesgado: considera el estimador, , donde {ai} es

La función de los contrastes de hipotesis (para la media):

El nivel de significancia de un contraste es la probabilidad a

para calcular el p-valor, necesitas la distribución de . Si n

t= (el t-estadístico típico) 2&3-59

Con un nivel de significancia especificado previamente (e.g.

Un intervalo de confianza del 95% para µY es un intervalo

(¿Qué es aleatorio aquí? El intervalo de confianza – será

{µY: 1,96} = {µY: –1,96 1,96}

= {µY: –1,96 – µY 1,96 }

= {µY ( – 1,96 , + 1,96 )}

H0: µs - µl = d0 vs. H1: µs - µl d0 (2-sided)

En el ejemplo de número de alumnos por clase, una hipótesis

Para contrastar hipótesis y construir intervalos de confianza

Las varianzas poblacionales, σs2 y σl2 pueden ser estimadas

por sus homólogas muestrales ss2 y sl2,

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Otro ejemplo de test para la diferencia de medias

b) Para octubre, tenemos que p=0,5 y SE(p)=0,1818. Por lo

Entonces, el estadístico t será:

Y por lo tanto no rechazamos la hipótesis nula 2&3-

{Yi, i =1,…,n} son i.i.d.

Hemos desarrollado, para grandes muestras (gran n):

v. muchos alumnos por clase