Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1 Introduccin
Con frecuencia, nos encontramos en economa con modelos en los que el
comportamiento de una variable, Y, se puede explicar a travs de una variable X; lo
que representamos mediante
Yf(X)
(1)
Si consideramos que la relacin f, que liga Y con X, es lineal, entonces (1)
se puede escribir as:
Yt 1 2 X t
(2)
Como quiera que las relaciones del tipo anterior raramente son exactas,
sino que ms bien son aproximaciones en las que se han omitido muchas variables
de importancia secundaria, debemos incluir un trmino de perturbacin aleatoria,
ut , que refleja todos los factores distintos de X -que influyen sobre la variable
endgena, pero que ninguno de ellos es relevante individualmente. Con ello, la
relacin quedara de la siguiente forma:
Yt 1 2 Xt ut (3)
La expresin anterior refleja una relacin lineal, y en ella slo figura una
nica variable explicativa, recibiendo el nombre de relacin lineal simple. El
calificativo de simple se debe a que solamente hay una variable explicativa.
Supongamos ahora que disponemos de T observaciones de la variable Y
( Y1 Y2 ,,YT ) y de las correspondientes observaciones de X ( X1, X 2 ,, XT ). Si
,
hacemos extensiva (3) a la relacin entre observaciones, tendremos el siguiente
conjunto de T ecuaciones:
Y1 1 2 X1 u1
Y2 1 2 X 2 u2
(4)
YT 1 2 XT uT
El sistema de ecuaciones (4) se puede escribir abreviadamente de la forma
siguiente:
Yt 1 2 X t u t t 1, 2,,T (5)
I-1
El objetivo principal de la regresin es la determinacin o estimacin de
1 y 2 a partir de la informacin contenida en las observaciones de que
disponemos. Esta estimacin se puede llevar a cabo mediante diversos
procedimientos. A continuacin se analizan en detalle algunos de los mtodos
posibles.
Interesa, en primer lugar, realizar una aproximacin intuitiva a diferentes
criterios de ajuste. Para ello se utiliza la representacin grfica de las
observaciones ( X t , Yt ), con t = 1, 2,..., T. Si la relacin lineal de dependencia
entre Y y X fuera exacta, las observaciones se situaran a lo largo de una recta
(vase la figura 1). En ese caso, las estimaciones ms adecuadas de 1 y 2 de
hecho, los verdaderos valores seran, respectivamente, la ordenada en el origen
y la pendiente de dicha recta.
Figura 1
Figura 2
u
t 1
t (8)
Y2 Y1
Y3 Y1
X 2 X1 .
X 3 X1
Si se ajusta una recta que pase por los tres puntos, cada uno de los residuos
tomar el valor cero, de forma que
T
u 0
t 1
t
u
t 1
t (9)
Figura 3
S 2
t (10)
t 1
S T (Y X )2 (11)
t 1 2 t
t 1
S T
(Y X )X
2
1
1 2
t
t
(12)
t t 1
2 (Y 1 2 X t ) 0
t 1
t
T
X )X 0 (13)
2 (Y 1 2 t t
t t 1
2 t
(14)
t 1 t 1 t 1
Las ecuaciones (14) se denominan ecuaciones normales de la recta de
regresin. Resolviendo este sistema, segn puede verse en el recuadro adjunto, a
partir de (21) se obtiene de forma inmediata el estimador de 2 :
(Y Y )( X X )
t t
(15)
2 t 1
T
( X
2
t
X)
t 1
Resolucin del sistema de ecuaciones (14)
Y 12 (16)
dond X
e T T
Yt Xt
Y t 1 X t 1
T T
De acuerdo con la anterior expresin se obtiene
1 Y 2 (17)
X
Sustituyendo 1 en la segunda ecuacin normal (14) se
tienen que T T T
YtX t (Y 2 X )
t
X t2X 2t
t t
1 1 1 (18)
Y X Y X
T T T T
X
tt t2
X
tX t
2
t t t t 1
1 1 1
Por otra
parte, T T
(Y Y )( X X ) (Y X XY YX
t
t t
t
t t t t
1 T 1T
YX ) T
Yt X t X Y TYX
t
t
Y X
t
(19)
t 1 t 1
1 TYX
T tT
Yt X t
1
X t
T
Y
Y Xt
t 1 1
T T
( X t X ) 2 (X 2
2 XX tX ) 2
t 1 Yt X t t
t 1
X t
TTT Y T T
Xt 12t 2 XX
T t 1
TXt X 2 2
T
t
XX t2 XX
t
t
t t
t
(20)
1 1 1 1
T T
X
t 1
2
t
XX t
t 1
Y X (22)
1 2
(Y Y )( X X )
t 1
t t
(23)
cov( X ,Y )
T
2 T
var( X )
(X X)
t 1
t
2
T
2
se obtiene dividiendo la
De acuerdo con (23), la estimacin de
u t (24)
0
t 1
Demostracin.
Por definicin de residuo
t 1, 2,
ut Yt Yt Yt ,T (25)
1 2 Xt
u Y Y Y T
T
t
T
T t
T T
t 2
(26)
Xt
t 1 t 1
t 1 t 1 t 1
t 1
t 1Yt T 1 2 (27)
X t t 1
Al comparar (26) y (27), se concluye que necesariamente debe cumplirse
(24). Obsrvese que, al cumplirse (24), se cumplir tambin que
T T
Y t 1
t
t (28)
1
y, al dividir por T, tenemos
(29)
Y
Y
Demostracin.
En efecto, dividiendo por T la ecuacin (27) se obtiene:
Y (30)
X
1 2
u X t t (31)
0
t 1
Demostracin.
En efecto,
T T
u X (Y X )X 0
t 1 t 1
1 2 t t
t t t
Para llegar a (31) se ha tenido en cuenta la segunda ecuacin normal de
(13).
4. La suma de los productos cruzados entre los valores ajustados y los residuos es
igual a 0, es decir,
T
u Y
t 1
t t (32)
0
Demostracin.
En efecto, si se tiene en cuenta (17) resulta que
T T T T
u Y u (
tt
t
1
2 X t ) ut 2 ut X t 0
1 t 1
t 1 t 1 t 1
Yt Y u
t (33)
Restando a ambos miembros Y , se tiene que
Yt Y Yt Y u
(34)
Si elevamos al cuadrado ambos miembros se obtiene que
(Y Y )2 (Y Y ) u 2
(35)
t t t
es decir,
(36)
(Y (
Y )2 Y Y 2 u 2 2u Y Y
t t
) t t
( )
t
Sumando ambos miembros de la expresin anterior de 1 a T, se tiene
(Y Y ) (Y Y )2 u
T
t
2
t t
2
T
(
ut Y Y
)
t
T 2
(37)
t 1 t 1 t 1 t 1
Ahora bien, puede verse que el tercer trmino del segundo miembro de
(37) es
T
2 ut Yt Y
T
( ) ut Yt 2Y u 0
(38)
2 T
t
t 1 t 1
t 1
(Y Y ) (Y Y )2
T
t
2
t u
(39)
t 2
T
t 1 t 1 t 1
(Y Y )
T
(Y Y u
T 2
t 2t
t
2 )
T
t 1
t 1
t 1
(40)
T T T
Por lo tanto, la varianza total de la variable endgena se descompone en
dos partes: varianza explicada por la regresin o varianza de los valores
ajustados1 y varianza residual. Es decir,
T
t 2
(Y Y ) (41)
R2 t 1
T
(Y Y )t
2
t 1
t
(42)
R2 1 T t 1
(Y ut Y )2
t 1
I-11
E(u2 ) s 2 t 1, 2,,T
t (45)
I-12
Esta hiptesis indica que todas las perturbaciones aleatorias tienen la
misma varianza. Es decir, la varianza de las perturbaciones aleatorias del modelo
es constante y, por tanto, independiente del tiempo o de los valores de las
variables predeterminadas. Dicha hiptesis es contrastable empricamente
mediante diversos contrastes estadsticos basados en los residuos mnimo-
cuadrticos. Asimismo, hay que sealar que, en determinadas situaciones, esta
hiptesis resulta poco plausible, sobre todo cuando se trabaja con datos de corte
transversal, es decir, con observaciones sobre diferentes unidades muestrales
referidas a un mismo momento del tiempo. Si no se cumple esta hiptesis, se dice
que las perturbaciones son heteroscedsticas.
c) Las perturbaciones aleatorias con distintos subndices son independientes
entre s.
E(utus ) 0 t (46)
s
Es decir, las perturbaciones correspondientes a distintos momentos del
tiempo o a distintas unidades muestrales no estn correlacionadas entre si. Este
supuesto, al igual que el anterior, es contrastable a posteriori. La transgresin del
mismo se produce con bastante frecuencia en los modelos en los que se utilizan
datos de series temporales, es decir, observaciones realizadas a intervalos
regulares de tiempo.
d) La perturbacin aleatoria tiene una distribucin normal multivariante
Dado que la perturbacin aleatoria recoge un conjunto amplio de
variables, omitidas del modelo de regresin, que son independientes entre si y
tambin del conjunto de regresores, por el teorema central del limite se puede
suponer que el vector de perturbaciones aleatorias tiene una distribucin normal
multivariante.
Las cuatro hiptesis formuladas sobre las perturbaciones aleatorias se
pueden expresar de forma conjunta como
u ~ NID(0,s 2 )
t (47)
donde NID indica que son normales e independientes.
I-12
obtienen utilizando este supuesto se mantendran prcticamente idnticos si
supusiramos que los regresores son estocsticos, siempre que introdujramos el
supuesto adicional de independencia entre los regresores y la perturbacin
aleatoria. Este supuesto alternativo se puede formular as:
a*) La variable X se distribuye independientemente de la perturbacin aleatoria
En desarrollos posteriores se adoptar el supuesto de que se cumple la
hiptesis a).
b) El regresor X no contiene errores de observacin o de medida
sta es una hiptesis que raramente se cumple en la prctica, ya que los
instrumentos de medicin en economa son escasamente fiables (pinsese en la
multitud de errores que es posible cometer en una recogida de informacin,
mediante encuesta, sobre los presupuestos familiares). Aunque es difcil encontrar
instrumentos para contrastar esta hiptesis, la naturaleza del problema y, sobre
todo, la procedencia de los datos utilizados pueden ofrecer evidencia favorable o
desfavorable a la hiptesis enunciada.
I-13
s 2 , tambin
generados por una distribucin normal con media 0 y varianza
desconocida.
Los estimadores
1 y 2son tambin variables aleatorias puesto que son
funcin de las variables aleatorias Yt . En efecto,
T T T
( X X )(Y Y ) ( X X )Y ( X X )Y
t t t t t
2 = t =1
T = t =1 t =1
( X t X) ( X
t=1
t X )2
2
t=1
( X
t 1
t X )Yt (48)
T
( X X )
2
t t 1
I-14
2
En Econometra Aplicada (pginas 60 a 66) puede verse como se generan nmeros aleatorios
uniformes y normales mediante rutinas informticas. Por otra parte, en las pginas 149 a 153
(caso 3.11) se realiza un experimento de Montecarlo con una hipottica funcin de consumo.
I-15
T
T T
( X X )Y
t = Y ( X t X ) = Y X t TX = Y [ TX TX ] = 0
t=1
t=1
t=1
Denominando
( X t X )
T ct
( X
2
X)
t t 1
se puede expresar de la siguiente forma:
entonces el estimador
2
2 (49)
c t Yt t 1
X t es no
Si se adopta el supuesto III a), que implica que la variable
aleatoria, entonces de la expresin anterior se deduce que
es una combinacin
lineal de la variable Yt . 2
Los coeficientes ct
tienen las siguientes propiedades:
c 0
t 1
t (50)
c X t t (51)
1
t 1
En efecto,
T
X TX
T
t
TX TX
T ( X X t
)
I-15
ct T
t 1
t 1
T 0
t 1
( X X ) ( X
t 1
X ) ( X X )
t
2 T 2
t 1
t
t
2
t 1
T T T
T
( X t
X ) Xt ( X X )( X X ) ( X X )
t t
2
ct X t
t
t 1
T t 1
T t 1
1
t 1
( ( (
T
t X) tX) X)
2
2 t 2
X X X
t 1 t 1 t 1
en funcin de las
Vamos a expresar a ahora el estimador
2
2 ct ( 1 2 X t ut )
t 1
I-16
T T T
1 ct 2 ct X t ct ut 2 ct ut
T
(52)
t 1 t 1 t 1 t 1
1 1 T
(53)
Tu ctu
T X t
t 1
t t 1
CONSt 1 2 RENDISt ut
(55)
I-16
CUADRO 1 Resultados Exp. 1
Desviacin tpica de las perturbaciones: Constante ( = 1)
Desviacin tpica de la muestra de RENDIS: Constante ( SRENDIS = 2.905)
N Desviaciones Desviaciones
m. tpicas tpicas
muest tericas s estimadas R2
ra s s s s
1 1 2 1 2
2
1 2.993 0.803 2.3509 0.1019 0.6285 1.4774 0.0684 0.945
2 -0.408 0.977 2.3509 0.1019 0.7238 1.7014 0.0788 0.951
3 0.759 0.941 2.3509 0.1019 1.1150 2.6210 0.1214 0.883
4 4.077 0.766 2.3509 0.1019 1.0440 2.4541 0.1136 0.853
5 1.062 0.887 2.3509 0.1019 0.6496 1.5271 0.0707 0.951
6 2.197 0.832 2.3509 0.1019 1.3934 3.2755 0.1517 0.790
7 -1.359 0.973 2.3509 0.1019 1.1117 2.6134 0.1210 0.890
8 1.594 0.853 2.3509 0.1019 1.1466 2.6954 0.1248 0.854
9 2.917 0.807 2.3509 0.1019 0.9516 2.2369 0.1036 0.884
1 4.194 0.741 2.3509 0.1019 0.9270 2.1790 0.1009 0.871
0
Media 1.803 0.858
26
24
22
20
CONS1
18
16
14 16 18 20 22 24 26
RENDIS
Figura 4. Recta de regresin terica (trazo continuo) y estimada en la muestra 1 del Exp. 1
(trazo discontinuo)
I-17
Una propiedad deseable en un estimador es que sea insesgado, es decir, que
su media terica coincida con el parmetro que trata de estimar. Veamos
I-18
concretamente, y de forma analtica, si se verifica esta propiedad en los
estimadores y . Tomando esperanza matemtica en (52) y (53), y teniendo
1 2
en cuenta la hiptesis 2a), se obtiene que
T
T
E( 2 ) E 2 ct ut E( 2 ) ct E(ut ) 2 (56)
t 1 t 1
1 T T 1 T T
E(
1 ) E 1
T
ut X ctut E( 1) T E(ut ) X ct E(ut ) 1 (57)
t t 1 t 1 t 1
1
Por lo tanto,
y son estimadores insesgados de los parmetros
1 2
1 y 2 respectivamente.
Cuando se est trabajando con series reales no se conocen los valores de
los parmetros; por ello, no se puede calcular la diferencia entre estimacin y
parmetro correspondiente a una muestra en concreto. Sin embargo, si el
estimador es insesgado sabemos que si estimramos el modelo con un gran nmero
de muestras, entonces la media de las estimaciones obtenidas estara muy prxima
a los parmetros que se trata de estimar.
Si un estimador no cumple esta propiedad, se dice que es un estimador
sesgado. La diferencia entre el valor esperado del estimador y el estimador se
denomina sesgo.
Sesgo ordenada: 1
1 2, 000 2, 993 0, 993
Sesgo pendiente: 2 2 0,850 0,803 0, 047
Los resultados anteriores estn determinados en parte por el azar, es decir, por la
extraccin concreta de las perturbaciones aleatorias. Ahora bien, si hacemos varias
extracciones y obtenemos la media de todas las estimaciones obtenidas, entonces los
sesgos sern en general menores que en una muestra en concreto. As, la media de las 10
estimaciones realizadas, segn puede verse en el cuadro 1 son las siguientes:
10
1j
1 j 1
10
I-18
10
2j
2
j 1
0,858
10
Los sesgos que se obtienen para estos valores medios son los siguientes:
2 (58)
E( 2 2 2) 2
T
s
s
2 ( X t X )
2
t 1
( X
T
t X )2
S 2 t 1 (59)
x
T
la varianza de 2 se puede expresar del siguiente modo
2 2 s2
E( (60)
2 2 ) s
TS 2 2
x
I-19
Demostracin de (58)
2 2
ctut
Elevando al cuadrado ambos miembros
t 1 de la expresin anterior, y aplicando el
operador esperanza se obtiene
2
T
E(22 ) E ctut
2
t 1
T 22 T 2
Ec
u t t c
t t t tc utuc E(u ) 2
t c c E(u u )
t tt t
t t t t
1 t 1 t
T ( X X ) t
2
s2
sc22
st 2 t 1
2T
( X X )
T
( X X )
t 2 2
1 t t
t1 t 1
estimador :
De forma anloga se obtiene la varianza del 1
1 X2
2 2 2 s 2 X 2
E(1 1) s 1 2
(61)
s T T T S
2 x
1
( Xt X )
t 1
Por otra parte, puede demostrarse que los estimadores mnimo cuadrticos,
son estimadores ptimos, es decir, son los que tiene menor varianza dentro de la
clase de estimadores lineales e insesgados. Por ello, suele decirse de los
estimadores mnimo-cuadrticos que son ELIO (Estimadores Lineales Insesgados
y ptimos).
De acuerdo con (60) y (61) las desviaciones tpicas de los estimadores
vendrn dadas por
s 2 (62)
s
TS
I-20
s s (63)
1 X 22
1
T 1
x S
T
2
t
(64)
s 2 Tt 1 2
u
(65)
s2 s
2
2
TS
2 x
2 s 2
X 2
s 1 2 (66)
T S
1 x
Anlogamente, las desviaciones tpicas estimadas de los estimadores
vendrn dadas por
s 2
s
T Sx
I-21
(
6
7
)
1 X 2
s 1 2 (68)
T x S
s
1
I-22
EJEMPLO (continuacin) Estimacin de la funcin de consumo con series simuladas
En el cuadro 1 se recogen tambin los resultados obtenidos en las 10 muestras
del Exp. 1 para s , s y s .
1 2
Con objeto de ver la influencia que tienen s y SRENDIS en las desviaciones de los
estimadores, hemos realizado los experimentos 2 y 3.
I-22
34
31
28
25
CONS5
22
19
16
13
10
7
16 18 20 22 24 26
RENDIS
I-23
CUADRO 4 Resultados Exp. 3
Desviacin tpica de las perturbaciones: Constante ( = 1)
Desviacin tpica de la muestra de RENDIS: Variable
Desviaciones Desviaciones
tpicas tpicas
Nm tericas tericas
SREND
muestr
R
a IS
s s s s 2
1 1 2 s 1 2
2
1 2.213 0.867 2.905 2.3509 0.1019 0.8966 2.1077 0.0996 0.9080
34
31
28
25
22
19
CONS5
16
13
10
7
16 18 20 22 24 26
RENDIS5
I-24
7 Principios generales del Contraste de hiptesis
El contraste de hiptesis permite realizar inferencias acerca de parmetros
poblacionales utilizando datos provenientes de una muestra. Para realizar
contrastes de hiptesis en estadstica, en general, hay que realizar los siguientes
pasos:
1) Establecer una hiptesis nula y una hiptesis alternativa relativas a los
parmetros de la poblacin.
2) Construir un estadstico para contrastar las hiptesis formuladas.
3) Definir una regla de decisin para determinar si la hiptesis nula debe
ser, o no, rechazada en funcin del valor que tome el estadstico construido.
H 0 : i (69)
i*
*
donde es un valor prefijado por el investigador.
i
Para formular la hiptesis alternativa se utilizan, segn los casos, los
operadores "desigualdad", "mayor que" o "menor que". Por tanto, las tres
alternativas de hiptesis alternativas que consideraremos son las siguientes:
a) H 0 : i i* H0 H0 i
: i i*
b) c)
: i* (70)
de
El caso a) dar lugar a un contraste que
2 colas, mientras en los casos
b) y c) el contraste correspondiente ser de una sola cola.
I-26
1
X 2
1 N 1 , s 1 (72)
T S2
x
o alternativamente, si tipificamos, tendremos que
2 2
N (0,1) (73)
s
T Sx
1 1
N (0,1) (74)
1 X 2
s 1 2
T x S
Si es cierta la
H0 , se verificar que
*
2 2
N (0,1) (75)
s
T Sx
El problema que se nos plantea es que no se puede calcular el estadstico
anterior porque s no se conoce cuando trabajamos con datos reales. Cuando se
sustituye s por su estimador s , entonces el estadstico anterior se distribuye
como una t con T-k grados de libertad, es decir,
*
2 s 2 tT k (76)
T Sx
La dispersin de una t de Student es mayor que en una N(0,1), aunque la
dispersin va disminuyendo a medida que aumentan los grados de libertad,
verificndose que:
tn n N (0,1)
(77)
As pues, cuando el nmero de grados de libertad de una t de Student
tiende hacia infinito converge hacia una distribucin N(0,1). En el contexto del
contraste de hiptesis, si crece el tamao de la muestra, tambin lo harn los
I-26
grados de libertad. Esto implica que para tamaos grandes (por ejemplo, para
muestras con un tamao superior a 60) se puede utilizar, de forma prcticamente
I-27
equivalente, la distribucin normal para contrastar hiptesis, an cuando no se
conozca la varianza poblacional.
Conviene recordar que una t con n grados de libertad tiene la siguiente
relacin con una F de 1 grado de libertad en el numerador y n grados de libertad
en el denominador:
F1,n
tn (78)
I-27
Una variable F toma siempre valores positivos, mientras que una variable
t, que tiene una funcin de densidad simtrica, puede tomar valores positivos y
negativos. Obsrvese que a cada valor de una F le corresponden dos valores (uno
positivo y otro negativo) en una t. La distribucin del estadstico utilizado en el
contraste incorpora la H0, es decir, se construye bajo el cumplimiento de la
hiptesis nula.
3
Vase pgina 157 y siguientes de Econometra Aplicada