Curso Series Temporales

Curso de Series Temporales
INE, septiembre de 2019.

1
Félix Aparicio Pérez.
(Versión 5.2, 12 de septiembre de 2019)
Resumen En este trabajo se presenta una introducción simplificada al análisis de series tempo-
rales mediante modelos ARIMA estacionales. La exposición está orientada a facilitar el seguimiento
de otro curso sobre ajuste estacional basado en modelos.
1. Introducción
Una serie temporal es un conjunto de datos correspondientes a observaciones en distintos
instantes del tiempo de unas mismas variables. Se supone que los datos están sujetos a
fuentes de variabilidad aleatorias.
La definición que acabamos de dar es tan amplia que no permite trabajar con ella. Res-
tringiremos las series temporales a ser observaciones de una única variable de tipo continuo
recogidas en instantes de tiempo igualmente espaciados. También restringiremos la natura-
leza aleatoria de las series a la de los procesos de la familia ARIMA estacional o SARIMA.
Este documento es una introducción que solo expone un breve resumen de los resultados
más fundamentales, con el objetivo de luego poder comprender el ajuste estacional basado
en modelos SARIMA, el cual no es objeto de estudio aquı́.
Algunas referencias a los procesos SARIMA son Wei (1990), Brockwell and Davis (1991),
Box et al. (1994) o Peña (2005).
2. Autocovarianza y autocorrelación
Una serie temporal es un proceso estocástico (familia de variables aleatorias) y(ω, t),
donde ω es un elemento de un espacio de probabilidad y t representa al tiempo. Se supone
en series temporales que el tiempo es discreto y se suele indexar mediante los números
enteros, es decir, t ∈ Z = {· · · , −2, −1, 0, 1, 2, · · · }. Como es habitual, eliminaremos ω de la
notación y pondremos el tiempo como subı́ndice, de tal forma que escribiremos yt en lugar
de y(ω, t).
Se dice que yt es un proceso estacionario en sentido estricto si, para cada entero positivo
r y para cada j, t1 , · · · , tr ∈ Z, las funciones de distribución conjuntas de (yt1 , · · · , ytr ) y de
(yt1 +j , · · · , ytr +j ) son idénticas.
Se dice que yt es un proceso estacionario en sentido amplio si la definición anterior se cum-
ple para r ≤ 2 y el proceso tiene media y varianza, es decir, si E(|yt |) < ∞, V ar(yt ) < ∞ y
1
Unidad de Metodologı́a, e-mail: felix.aparicio.perez@ine.es
1
la distribución de (yt1 , yt2 ) coincide con la de (yt1 +j , yt2 +j ) (esto implica que las distribuciones
de yt1 y de yt1 +j coinciden).
La definición de proceso estacionario en sentido amplio implica que la media, varianza y
(auto)covarianza del proceso no dependan de j, es decir,
µ = µt = E(yt ) = µt+j = E(yt+j ), (1a)
σ 2 = σt2 = V ar(yt ) = σt+j

2
= V ar(yt+j ), (1b)
γk = γt,t+k = Cov(yt , yt+k ) = γt+j,t+j+k = Cov(yt+j , yt+j+k ). (1c)
para cada t, k, j ∈ Z.
Definimos también la autocorrelación con retardo k como ρk = γγk0 .
Es sencillo ver que ρ0 = 1, γk = γ−k , ρk = ρ−k , |γk | ≤ γ0 y |ρk | ≤ 1.
Estamos suponiendo que la serie yt está indexada en todo Z, es decir, es doblemente
infinita (hacia el pasado y hacia el futuro). Sin embargo, en la práctica, nosotros tendremos
tan solo un trozo de longitud finita de la serie, que indexaremos con el tiempo entre t = 0 y
t = T , para algún T ∈ Z positivo.
En primer lugar, tendremos que asegurarnos de que podemos, a partir de esta informa-
ción, estimar en forma consistente la media, varianza y autocovarianzas del proceso.
Para
P que podamos estimar en forma consistente la media del proceso µ es suficiente con
que ∞ k=0 |γk | < ∞.
También se pueden dar condiciones suficientes para poder estimar consistentemente la
varianza y autocovarianzas del proceso. Sin embargo, como, además, es conveniente que los
modelos que estimemos a partir de nuestra serie finita converjan a los del modelo teórico
(cuando tal modelo exista), diremos tan solo que una condición suficiente para poder hacer
todas estas estimaciones en forma consistente es que el proceso yt sea gausiano. En lo sucesivo,
supondremos que se cumple esta condición.
Dada nuestra serie finita observada y1 , · · · , yT , definimos los siguientes estadı́sticos:
y1 +···+yT
media: ȳ = T
, (2a)
PT 2
i=1 (yi −ȳ)
varianza: γ̂0 = σ̂y2 = T
, (2b)
1/2
desviación tı́pica: γ̂0 = σ̂y , (2c)
PT −k
(yt+k −ȳ)(yt −ȳ)
autocovarianza con retardo k: γ̂k = t=1
T
, (2d)
γ̂k
autocorrelación con retardo k: ρ̂k = γ̂0
, (2e)
donde k > 0 es suficientemente pequeño. Si k < 0 definimos ρ̂k = ρ̂−k .
Notamos que estos estadı́sticos promedian en el tiempo, mientras que la media, varianza
y autocovarianzas se definen en cada instante de tiempo. No obstante, con la hipótesis
de que el proceso sea gausiano, los estadı́sticos que promedian en el tiempo convergen en
probabilidad a sus valores poblacionales (fijos e iguales en cada instante del tiempo), es decir,
hay ergodicidad.
Hay varios motivos para usar T en el denominador de γ̂k y no T − k. El primero es que,
de esta forma, los dos denominadores que intervienen en la definición de ρ̂k coinciden. Otro
2
motivo es que, aunque ambos estimadores son sesgados, para ciertos tipos de procesos, el
error cuadrático medio del estimador que usa T es menor que el del estimador que usa T − k.
Finalmente, con denominador T , el estimador γ̂k es semidefinido positivo (como también lo
es γk ), pero no lo es con denominador T − k.
Suponiendo normalidad en el proceso y suponiendo también que ρk = 0, para todo k > r,
tenemos la aproximación de Bartlett, que es V ar(ρ̂k )) ' T1 (1 + 2ρ21 + 2ρ22 + · · · + 2ρ2r ). Como
no sabemos a priori si un ρj es significativo, puede ser razonable calcular secuencialmente
las varianzas de los ρ̂k en la forma
V âr(ρ̂1 ) = 1
T
(si ρ1 = ρ2 = · · · = 0),
V âr(ρ̂2 ) = T1 (1 + 2ρ̂21 ) (si ρ2 = ρ3 = · · · = 0),

V âr(ρ̂3 ) = T1 (1 + 2ρ̂21 + 2ρ̂22 ) (si ρ3 = ρ4 = · · · = 0),
··· ,
La mayorı́a de programas de ordenador dan V âr(ρ̂j ) = T1 , para todo j, es decir, estiman
estas varianzas bajo la hipótesis no secuencial ρ1 = ρ2 = · · · = 0.
El análisis de series temporales mediante los modelos ARIMA que utilizaremos en este
curso se basa en que las series sean estacionarias. Muchas de las series que se emplean en
la práctica no son estacionarias, pero se transforman en otras estacionarias tras aplicarles
ciertos operadores.
Por ejemplo, a veces, al calcular zt = ∆yt = (1 − B)yt = yt − yt−1 la serie resultante
zt resulta ser estacionaria. El operador ∆ se llama diferencia (regular) y se dice que he-
mos diferenciado la serie yt . El operador B tal que Byt = yt−1 se llama operador retardo.
Es B 2 yt = yt−2 y, en general, B r yt = yt−r . Vemos que la composición del operador retar-
do se traduce en multiplicación del monomio B. Más en general, la composición de otros
operadores, se traduce en la multiplicación de polinomios en B.
Es claro de las definiciones que ρ̂0 = 1 y que ρ̂k = ρ̂−k . También se demuestra que
|ρ̂k | ≤ 1.
La sucesión · · · , γ−2 , γ−1 , γ0 , γ1 , γ2 , · · · se llama sucesión de autocovarianzas o función de
autocovarianza de yt .
La sucesión ρ0 , ρ1 , ρ2 , · · · se llama sucesión de autocorrelaciones o función de autocorre-
lación (ACF) de yt .
Otro estadı́stico de interés es πk , la autocorrelación parcial con retardo k, que se define
como la autocorrelación de orden k entre la serie yt y la serie retardada k unidades de tiempo
yt−k , pero eliminando el efecto de las observaciones intermedias entre ambas. A la sucesión
de estas autocorrelaciones parciales πk la denominaremos función de autocorrelación parcial
(PACF).
3
3. Procesos ARMA
3.1. Procesos AR
Un proceso autorregresivo de orden p, AR(p), se escribe en la forma
p
X
yt + φj yt−j = εt , (4)
j=1
donde εt es ruido blanco con varianza σε2 . Esto quiere decir que E(εt ) = 0, V ar(εt ) = σε2 y
Cov(εt , εt+k ) = 0, para todo t y para todo k 6= 0. También llamaremos a los εt innovaciones
del proceso, pues representan la información nueva que llega en cada instante de tiempo.
El caso más sencillo es el AR(1), es decir, yt + φ1 yt−1 = εt . Para que sea estacionario, ha
de ser |φ1 | < 1 y, en este caso, se cumple que ρ̂k = φk1 , lo que supone que la autocorrelación
decrece geométricamente. P
Llamando φ(B) = 1 + pj=1 φj B j , el proceso es φ(B)yt = εt , y la condición necesaria y
suficiente para que sea estacionario es que todas las raı́ces (reales o complejas) de φ(B) (las
soluciones de φ(B) = 0), tengan módulo estrictamente mayor que 1.
En general, para un proceso AR(p) se cumple que πk = 0, si k > p, en palabras, la
autocorrelación parcial se anula para retardos mayores que el orden p del proceso. Esto
puede ayudar a identificar un proceso AR(p).
3.2. Procesos MA
Un proceso de medias móviles de orden q, M A(q), se escribe en la forma
q
X
y t = εt + θj εt−j , (5)
j=1
donde de nuevo εt es ruido blanco con varianza σε2 .

θ1
El caso más sencillo es el M A(1), yt = εt + θ1 εt−1 . Para este proceso es ρ1 = 1+θ 2 y
1
ρk = 0, si k > 1.
Definiendo θ(B) = 1 + qj=1 θj B j , podemos escribir el modelo del proceso en la forma
P
yt = θ(B)εt .
Se dice que el proceso es invertible si se pueden escribir las innovaciones εt en función de
los datos yt . Una condición necesaria y suficiente para que el proceso sea invertible es que
todas las raı́ces del polinomio θ(B) tengan módulo estrictamente mayor que 1.
En general, para un proceso MA(q), las autocorrelaciones de órdenes mayores que q son
todas nulas.
3.3. Procesos mixtos. Identificación

Un proceso mixto, autorregresivo de orden p y de medias móviles de orden q, ARM A(p, q),
es p q
X X
yt + φt yt−j = εt + θj εt−j , (6)
j=1 j=1
4
con εt ruido blanco de varianza σε2 . Utilizando la notación de los epı́grafes anteriores, podemos
escribir el modelo del proceso en la forma φ(B)yt = θ(B)εt .
La justificación para que trabajemos con procesos ARMA(p,q), con p, q números enteros,
se basa en dos hechos. El primero es que, dado un proceso estacionario cualquiera dentro de
una clase bastante amplia, se puede encontrar un proceso ARMA(p,q), para ciertos enteros p y
q que lo aproxime tanto como queramos en un cierto sentido (ver Hannan and Deistler (1988)
sección 7.2). El segundo motivo es que el número de parámetros que tenemos que estimar
en un proceso ARMA(p,q) es pequeño, y esto resulta imprescindible cuando trabajamos con
series temporales observadas de longitud finita.
El caso más sencillo es el ARM A(1, 1), que se escribe yt + φ1 yt−1 = εt + θ1 εt−1 . Para este
−φ1 )(1−φ1 θ1 )
proceso se cumple que ρk = φ1 ρk−1 si k > 1 y ρ1 = (θ11+θ 2 .
1 −2φ1 θ1
Los resultados sobre estacionariedad e invertibilidad de procesos AR y MA se extienden al
caso ARMA, es decir, en un proceso ARMA(p,q), la condición necesaria y suficiente para que
el proceso sea estacionario es que las raı́ces del polinomio φ(B) tengan todas módulo mayor
que 1 (dicho de otra forma, que estén todas fuera del cı́rculo unidad complejo). De la misma
forma, la condición necesaria y suficiente para que el proceso sea invertible es que las raı́ces
del polinomio θ(B) estén fuera del cı́rculo unidad.
Si tenemos una serie temporal y pensamos que un modelo ARMA puede ser adecuado para
representarla, el primer problema que encontramos es el de la identificación, es decir, la
estimación de los números enteros p y q en (6).
Habitualmente son de ayuda las funciones ACF y PACF, pues si la ACF deja de ser signi-
ficativa tras q retardos, el proceso probablemente pueda aproximarse por un M A(q) y si la
PACF deja de ser significativa tras p retardos, el proceso probablemente pueda aproximarse
por un AR(p).
En otro caso, un método sencillo consiste en empezar ajustando un ARM A(1, 1) e ir
incrementando p y q hasta encontrar un modelo con un ajuste aceptable.
Otros métodos más analı́ticos son:
1. Utilizar la denominada función de autocovarianza extendida, ver Tsay and Tiao (1984).
2. Aplicar un análisis de correlaciones canónicas, ver Tsay and Tiao (1985)
3. Usar un método de penalización, como el AIC o el BIC, que maximice la verosimilitud
del modelo ajustado, pero penalizando los modelos con más parámetros. En concreto,
se definen, para una serie temporal de longitud T , a la que se ajusta un modelo M
estacionario con r parámetros por máxima versimilitud:
−2 ln(V ) + 2r r
AIC(M ) = = ln(σ̂ 2 ) + 2 , (7a)
T T
ln(T )
BIC(M ) = ln(σ̂ 2 ) + r , (7b)
T
donde V es la versomilitud en el máximo y σ̂ 2 es la estimación de la varianza del residuo
del modelo estimado. Vemos que, en los dos casos, la penalización es función lineal del
número de parámetros r. Se busca el modelo que haga mı́nimo (por el cambio de signo
de ln(V )) uno de estos criterios.
5
3.4. Estimación y diagnóstico
3.4.1. Estimación
Los dos métodos de estimación más empleados son máxima verosimilitud exacta y mini-
mos cuadrados condicionales.
Dado el modelo estacionario M para la serie x1 , · · · , xT , la función de verosimilitud es
la función de densidad de la serie considerada como función de los parámetros del modelo,
V = f ({x1 , · · · , xT }; φ, θ, σ 2 ) = V (φ, θ, σ 2 ; {x1 , · · · , xT }), donde φ y θ representan todos los
parámetros autorregresivos y de medias móviles del modelo y σ 2 la varianza del término de
error.
El criterio de máxima verosimilitud exacta consiste en elegir los valores de φ, θ, σ 2 que
maximicen V . El cálculo de la verosimilitud exacta del modelo se realiza habitualmente en
forma recursiva utilizando el filtro de Kalman. También es posible calcularlo en forma no
recursiva, por ejemplo, como se explica en las páginas 49-50 (junto con las 135-6) de Reinsel
(1993). A veces, por simplicidad o bien para ahorrar tiempo, se utiliza una aproximación a
la verosimiltud utilizando un método llamado mı́nimos cuadrados condicionales.
El problema de optimización que hay que resolver para maximizar la verosimilitud es
un problema de mı́nimos cuadrados no lineales. Hay algoritmos robustos que convergen al
óptimo, pero, para acelerar la convergencia, es conveniente dar una estimación inicial de los
parámetros que no sea mala. Por ejemplo, el programa TRAMO utiliza el método de Hannan-
Rissannen para dar esa estimación inicial.
3.4.2. Diagnóstico
Una vez estimado un modelo, se trata de estudiar si ese modelo es adecuado para los
datos y si los parámetros son estadı́sticamente significativos. Como el modelo se basa en
unas hipótesis, una forma de hacerlo es ver si el modelo las cumple.
Para estudiar la significatividad de los parámetros se pueden usar sus desviaciones tı́picas
estimadas y, con ellas, hacer un contraste para ver si es razonable rechazar la hipótesis de
que cada parámetro es nulo.
Una comprobación importante consiste en ver si el modelo estimado es estacionario e
invertible, es decir, si las todas las raı́ces de los polinomios AR y MA tienen módulos mayores
que 1, respectivamente. Si no lo son, se debe intentar reestimar el modelo, o bien cambiarlo
por otro con p o q distintos. Los modelos estimados no estacionarios o no invertibles resultan
poco útiles. De todas formas, los programas de ordenador actuales que estiman modelos
ARMA suelen tener chequeos internos que detectan cuándo una solución no es esatcionaria o
invertible y corrigen el problema.
De todas las hipótesis, el hecho de que los residuos sean ruido blanco gausiano constituye
un hecho fundamental. De él, se deducen dos contrastes obvios, uno es la normalidad de los
residuos y otro es el que no estén autocorrelados.
La normalidad de los residuos se puede contrastar con varios estadı́sticos, por ejemplo,
P T 3
2 j=1 (ε̂j −ε̄)
el χ2 o el de Jarque-Bera. Este último consiste en calcular J = T6 (A2 + K4 ) (A = T σ̂ 3 ,
PT 4
j=1 (ε̂j −ε̄)
K = T σ̂
− 3 son, respectivamente, las estimaciones de los coeficientes de asimetrı́a
4
y de exceso de curtosis de los residuos y ε̄ = T1 Tj=1 ε̂j es la media de los residuos). Si los
P
6
residuos son normales J sigue una distribución χ22 .
Si los residuos son normales, sabemos que el que estén incorrelados implicará que sean in-
dependientes. Si son marcadamente no normales, puede que mejoren si conseguimos detectar
y tratar algún outlier en la serie o quizás necesitemos un modelo no lineal.
Llamando rj a las autocorrelaciones de los residuos, la falta de autocorrelación en estos
residuos se suele contrastar con el estadı́stico Q de Ljung-Box, también llamado contraste
√
Portmanteau. Tomando un entero k (en teorı́a dependiente de T , por ejemplo k = T ), es
k
X r̂j2
Q = T (T + 2) , (8)
j=1
T −j
el cual, bajo la hipótesis nula r1 = · · · = rk = 0, sigue una distribución χ2k−r , donde r es el

número de parámetros del modelo sin contar la varianza de las innovaciones.
El estadı́stico Q nos da información global tan solo. Para tener información de la autoco-
rrelación de los residuos para cada retardo, se utiliza la función de autocorrelación muestral
(ACF) de los residuos. Esta nos indica cuántos y cuáles de ellos pueden ser no nulos. Si sólo
hay una o dos autocorrelaciones significativas, puede bastar con aumentar q en el modelo
estimado. Si las autocorrelaciones de los residuos todavı́a muestran un patrón de decreci-
miento gradual en el tiempo, puede ser necesario aumentar el p del modelo. Otras veces,
el mejor camino para eliminar las autocorrelaciones significativas es el incluir en el modelo
otras series explicativas (modelos de series temporales con otras series como regresores) o
incluir efectos deterministas de calendario o de otros tipos.
Un contraste de no linealidad viene dado por el estadı́stico de McLeod-Li, aplicado al
cuadrado de los residuos estimados ε̂2t
k
X r̃j2
Q = T (T + 2) , (9)
j=1
T −j
donde r̃j son las autocorrelaciones muestrales de los cuadrados de los residuos. Este estadı́sti-
co seguirá, si un modelo lineal es adecuado, una distribución χ2k .
Otra herramienta útil de diagnóstico es un gráfico de los residuos del modelo en función
del tiempo. Este gráfico nos puede ayudar a detectar outliers (si hay residuos anormalemnte
grandes) o heterocedasticidad (por ejemplo, si la varianza de los residuos parece aumentar
con el tiempo, puede ser necesario transformar la serie tomando sus logaritmos).
3.5. Predicción
El problema de predicción o forecasting de una serie temporal consiste en obtener unos
valores estimados para los instantes futuros de la serie. El criterio de optimalidad que se
suele seguir es el de minimizar el error cuadrático medio. Con este criterio, se demuestra
que la predicción óptima en el instante T + k, basándonos en la información que hay (la
serie observada) hasta el instante T es ŷT (k) = ET (yT +k ) = E(yT +k /y1 , · · · , yT ), es decir,
la esperanza condicionada del proceso yT +k donde lo que condiciona es la información que
tenemos en el instante T , y ésta es la que proporciona la serie observada y1 , · · · , yT .
7
La predicción optima del proceso se suele calcular en forma recursiva usando el filtro de
Kalman, pero también es posible calcularla en forma no recursiva mediante la técnica que
se explica en las páginas 135-6 de Reinsel (1993).
Veremos ahora como obtener una aproximación recursiva a la predicción óptima. La
predicción óptima para el proceso invertible, pero no necesariamente estacionario, dado por
el modelo p q
X X
yt = φj yt−j + εt + θj εt−j (10)
j=1 j=1
se puede calcular, tomando esperanzas condiciondas para t = T + k, en la forma

p q
X X
ET (yT +k ) = φj ET (yT +k−j ) + ET (εT +k ) + θj ET (εT +k−j ).
j=1 j=1
o bien,
p q
X X
ŷT (k) = φj ŷT (k − j) + ET (εT +k ) + θj ET (εT +k−j ). (11)
j=1 j=1
Se cumple, lógicamente, que ŷT (k) = yT +k si k ∈ {1 − T, · · · , −1, 0} (es decir, la predicción

de las observaciones son ellas mismas). También se cumple que ET (εj ) = 0 si j > T (las
perturbaciones esperadas en el futuro son nulas) y que ET (εj ) = εj si j ≤ T (las predicciones
de las perturbaciones ya ocurridas son ellas mismas).
Particularizando (10) para t = T + l y (11) para T = T + l − 1 y para k = 1, queda
p q
X X
yT +l = φj yT +l−j + εT +l + θj εT +l−j ,
j=1 j=1
p q
X X
ŷT +l−1 (1) = φj ŷT +l−1 (1 − j) + ET +l−1 (εT +l ) + θj ET +l−1 (εT +l−j ) =
j=1 j=1
p q
X X
φj yT +l−j + 0 + θj εT +l−j .
j=1 j=1
Restando estas dos ecuaciones vemos que el error de la predicción un instante hacia el futuro
es, simplemente, la perturbación de ese instante futuro,
yT +l − ŷT +l−1 (1) = εT +l .
Por tanto, para calcular las predicciones, hacemos, empezando en T + l = p + 1 e incremen-
tando secuencialmente T ,
p q
X X
εp+1 = yp+1 − ŷp (1) = yp+1 − φj yp+1−j − θj εp+1−j ,
j=1 j=1
p q
X X
εp+2 = yp+2 − ŷp+1 (1) = yp+2 − φj yp+2−j − θj εp+2−j ,
j=1 j=1
···
8
y sustituyendo los εp+1−j que desconozcamos en las primeras iteraciones por su esperanza,
que es 0 (por esta sustitución es que el método es solo aproximado). Por ejemplo, si el proceso
es un ARMA(2,2), será p = q = 2 y tenemos
ε3 = y3 − ŷ2 (1) = y3 − φ1 y2 − φ2 y1 − θ1 ε2 − θ2 ε1 .
Sustituimos ε2 = ε1 = 0 y obtenemos una estimación de ε3 , que llamaremos ε†3 , ahora
ε4 = y4 − ŷ3 (1) = y4 − φ1 y3 − φ2 y2 − θ1 ε†3 − θ2 ε2 .
De nuevo hacemos ε2 = 0 y obtenemos un ε†4 . Ahora
ε†5 = y5 − ŷ4 (1) = y5 − φ1 y4 − φ2 y3 − θ1 ε†4 − θ2 ε†3 ,
etc.
Ahora que tenemos los ε†j , podemos usar (11) con los ε†T +k−j en lugar de los εT +k−j . En
el ejemplo ARMA(2,2) será, recursivamente,
ŷT +1 = φ1 yT + φ2 yT −1 + θ1 ε†T + θ2 ε†T −1
ŷT +2 = φ1 ŷT +1 + φ2 yT + θ2 ε†T
ŷT +3 = φ1 ŷT +2 + φ2 ŷT +1 ,
ŷT +k = φ1 ŷT +k−1 + φ2 ŷT +k−2 , si k > 2.
En general, para un ARMA(p,q), si k > máx{p, q} es
ŷT +k = φ1 ŷT +k−1 + φ2 ŷT +k−2 + · · · + φp ŷT +k−p ,
es decir, la predicción, pasados los máx{p, q} instantes iniciales, obedece a una recursión más
simple, llamada función de predicción final (eventual forecasting function).
Otro problema importante es el de predicción hacia el pasado de la serie (backcasting).
Podemos reducir el problema de backcasting al de forecasting, considerando la serie invertida
en el tiempo, es decir, la serie yT , yT −1 , · · · , y2 , y1 . De esta forma, el hacer backcasting de
la serie original, es equivalente a hacer forecasting de la serie invertida en el tiempo. Como
sabemos que γk = γ−k , resulta que el modelo para la serie invertida en el tiempo es el mismo
que el de la serie original.
En resumen, para hacer backcasting (aproximado) de la serie original, hacemos forecasting
(aproximado) de la serie invertida en el tiempo, usando el mismo modelo que hayamos
obtenido para la serie original.
Otro concepto relacionado con éste es el de backcasting exacto de la serie temporal, que
se explica en las páginas 135-6 de Reinsel (1993) y que es el que permite hacer forecasting
exacto sin recurrir al filtro de Kalman. No es recursivo.
En cuanto a los errores cuadráticos medios de las predicciones, para obtenerlos es mejor
utilizar otra expresión para las predicciones, que es (demostrarla como ejercicio)
∞
X
ŷT (k) = ψk+j εT −j = ψk εt + ψk+1 εT −1 + ψk+2 εT −2 + · · · , (12)
j=0
donde el significado de los ψj se explica en la sección siguiente.
9
Solución
∞
X ∞
X −1
X ∞
X
yT +k = ψi εT +k−i = (j = i − k) = ψk+j εT −j = ψk+j εT −j + ψk+j εT −j
i=0 j=−k j=−k j=0
Por tanto, tomando la esperanza condicionada,

∞
X
ŷT (k) , E[yT +k /y1 , · · · , yT ] = 0 + ψk+j εT −j
j=0
Esta expresión es válida también para el caso de que la serie siga un modelo no estaciona-
rio, si se utiliza una condición inicial adecuada y se trunca la serie de (12). Lo más relevante
es que, como
∞
X k−1
X ∞
X
yT +k = ψi εT +k−i = ψi εT +k−i + ψi εT +k−i = (j = i − k) =
i=0 i=0 i=k
k−1
X ∞
X k−1
X
ψi εT +k−i + ψj+k εT −j = (12) = ψi εT +k−i + ŷT (k),
i=0 i=k i=0
vemos que el error de predicción es

k−1
X
eT (k) , yT +k − ŷT (k) = ψj εT +k−j . (13)
j=0
Por tanto, como la esperanza de los εj es cero, las predicciones son insesgadas y su varianza
coincide con su error cuadrátrico medio. De (13), es
k−1
X
V ar(eT (k)) = σε2 ψj2 , (14)
j=0
expresión válida tanto si yt es estacionaria como si no lo es, pero en este último caso, vemos
que la varianza crece sin lı́mite conforme el horizonte de la predicción k aumenta, mientras
que, si la serie es estacionaria, al Pcrecer k, la varianza de la predicción se estabiliza (tiende
a un valor lı́mite finito, que es σε ∞
2 2
j=0 ψj ).
Incluso en el caso de un proceso VARMA vectorial Φ(B)yt = Θ(B)εt , Cov(εt ) = Σ, la
fórmula (14) se generaliza a
k−1
X
Cov(eT (k)) = Ψj ΣΨ0j , (15)
j=0
10
3.6. Representaciones AR y MA de un proceso
Todo proceso estacionario yt que sea puramente no determinista (que no contenga com-
ponentes que puedan ser predichas con exactitud) se puede expresar en la forma
∞
X
yt = µ + ψj εt−j = µ + ψ(B)εt = µ + εt + ψ1 εt−1 + ψ2 εt−2 + · · · , (16)
j=0
donde εt es ruido blanco, ψo = 1, ∞ 2 2

P
j=0 ψj < ∞ y ψ(B) = 1 + ψ1 B + ψ2 B + · · · . Este
resultado se llama representación de Wold de un proceso estacionario y a un proceso que
puede expresarse en esta forma también se le denomina proceso lineal.
En particular, si el proceso ARMA de modelo φ(B)yt = θ(B)εt es estacionario, entonces su
polinomio φ(B) será estable (todas sus raı́ces tendrán módulo mayor que uno) y podremos
θ(B)
desarrollar φ(B) en una serie de potencias en B, con lo cual, tendremos
∞
θ(B) X
yt = εt = ψ(B)εt = ψj εt−j . (17)
φ(B) j=0
Es decir, el proceso yt es lineal. Un ejemplo sencillo es (1 − 0,5B)yt = εt , en este caso, es

1
yt = 1−0,5B εt = (1 + 0,5B + 0,52 B 2 + 0,53 B 3 + · · · )εt = εt + 0,5εt−1 + 0,25εt−2 + 0,125εt−3 + · · ·
De la misma forma, si el polinomio θ(B) es estable, podemos obtener las innovaciones
del proceso en función del propio proceso, es decir,
∞
φ(B) X
εt = yt = π(B)yt = πj yt−j = yt + π1 yt−1 + π2 yt−2 + · · · , (18)
θ(B) j=0
con πo = 1, ∞ 2
P
j=0 |πj | < ∞ y π(B) = 1 + π1 B + π2 B + · · · . En este caso, se dice que el
proceso yt es invertible. Notamos que φ(B) y es un ruido blanco.
θ(B) t
Para obtener los coeficientes de ψ(B) o de π(B) en las representaciones anteriores se
suele utilizar la denominada división larga, que consiste en igualar los coeficientes de las
potencias de B de igual orden en las expresiones θ(B) = φ(B)ψ(B) o φ(B) = θ(B)π(B)
para potencias crecientes e ir resolviendo recursivamente las ecuaciones. Por ejemplo, para
hallar la representación de Wold del proceso ARMA(1,1) dado por (1−0,5B)yt = (1+0,2B)εt ,
será (1 + 0,2B) = (1 − 0,5B)(1 + ψ1 B + ψ2 B 2 + ψ3 B 3 + · · · ), de aquı́, para las potencias
primeras en B es 0,2 = −0,5 + ψ1 , es decir, ψ1 = 0,7, para las potencias segundas tenemos
0 = −0,5ψ1 + ψ2 , de donde ψ2 = 0,35, para las potencias terceras, 0 = −0,5ψ2 + ψ3 , o bien
ψ3 = 0,175, en general ψj = 0,5ψj−1 = 0,7 · 0,5j−1 si j ≥ 2.
4. Procesos ARIMA
Hasta ahora nos hemos ocupado de procesos estacionarios. Un proceso será no estaciona-
rio cuando su media o su varianza y autocovarianzas cambien con el tiempo. Intentaremos
tratar la no estacionariedad de forma sencilla, aplicando una transformación al proceso, de
tal forma que el proceso transformado sea estacionario.
11
4.1. Procesos no estacionarios en varianza
Si, dado un proceso yt , su media no cambia con el tiempo, pero su varianza si lo hace, bajo
hipótesis sencillas, podemos encontrar transformaciones adecuadas hacia la estacionariedad.
Por ejemplo, si V ar(yt ) = C(E[yt ])2 , dode C es una constante, la transformación lo-
garı́tmica zt = log(yt ) hace que zt tenga varianza (aproximadamente) constante. Esta si-
tuación se da en un número grande de series económicas, siendo por ello la transformación
logarı́tmica muy utilizada en el análisis de series temporales económicas.
√
Veamos otros dos ejemplos, si V ar(yt ) = CE[yt ], con C constante, entonces zt = yt
tiene varianza (aproximadamente) constante y si V ar(yt ) = C(E[yt ])4 , entoncs zt = y1t tendrá
varianza aproximadamente constante.
Una transformación más general que intenta estabilizar la varianza es la de Box-Cox, dada
y λ −1
por zt = t λ , con λ parámetro real. Las transformaciones anteriores son casos particulares
de la de Box-Cox para valores de λ iguales a 0, 1/2 y −1, respectivamente.
4.2. Procesos no estacionarios en media

Si la media de un proceso varı́a con el tiempo, hay varias posibilidades. La primera es
que la media sea una función fija (determinista) del tiempo (por ejemplo, una recta, un
polinomio o una función suinusoide). En este caso, se pueden utilizar técnicas de regresión
para estimar los parámetros de estas funciones y restar la media ası́ estimada del proceso.
Otro caso de más interés con series económicas es aquel en que la media es una función
aleatoria y tal que, al diferenciar la serie una o más veces, obtenemos un proceso estacionario
(que podemos aproximar mediante un proceso ARMA).
Es decir, aunque yt sea no estacionario, el proceso diferenciado d veces zt = (1 − B)d yt =
d
∆ yt es ARMA(p,q) estacionario. Se dice entonces que el proceso yt es ARIMA(p,d,q). Escri-
bimos
φ(B)∆d yt = θ(B)εt , (19)
donde todas las raices del polinomio φ(B) están fuera del cı́rculo unidad.
Muchas series económicas se pueden aproximar por procesos ARIMA. El problema principal
cuando estamos ante una serie concreta es saber si debemos diferenciarla y, en ese caso,
cuántas veces hacerlo. El objetivo es conseguir que la serie transformada sea estacionaria.
Existen distintos tests que sirven para contrastar la existencia de raı́ces 1 en la parte
autorregresiva de una serie (o sea, la necesidad de diferenciarla), pero estos contrastes no
tienen mucha potencia, sobre todo, en presencia de estacionalidad, que es el problema de
interés para el que están escritos estos apuntes.
Tenemos dos ayudas principales para determinar que hay que diferenciar una serie. La
primera es que la ACF presente unas autocorrelaciones altas, que, además, decrezcan lenta-
mente. La segunda consiste en que, al ajustar un modelo ARMA(1,1) a la serie, la estimación
de φ̂1 sea próxima a 1. Esto suele suceder si hay una raı́z unitaria en la serie, debido a
la propiedad de superconvergencia de los parámetros asociados a raı́ces de módulo 1. Esta
propiedad dice que los estimadores de estos parámetros convergen a ellos más rápidamente
que las de los estimadores de parámetros no asociados a raı́ces unitarias.
Si subestimamos d y, por tanto, subdiferenciamos la serie yt , entonces zt no será estacio-
naria y los análisis que apliquemos no serán correctos. Por el contrario, si sobreestimamos d
12
estaremos sobrediferenciando la serie yt .
Cuando el objetivo de un análisis de series temporales no es la predicción de los va-
lores futuros, la sobrediferenciación es un problema menos importante que la subdiferen-
ciación, pues proporciona procesos zt que siguen siendo estacionarios, aunque más comple-
jos que
Pp los originales. En
Pefecto, si yt es un proceso ARMA(p,q) estacionario, con modelo
q
yt − j=1 φj yt−j = at + j=1 θj at−j , al diferenciar, obtenemos
p p q q
X X X X
zt , yt − yt−1 = φj yt−j − φj yt−1−j + at + θj at−j − at−1 − θj at−1−j =
j=1 j=1 j=1 j=1
p q
X X
φj zt−j + at + (θ1 − 1)at−1 + (θj − θj−1 )at−j − θq at−1−q ,
j=1 j=2
es decir, zt es un proceso ARMA(p,q+1) con la misma parte autorregresiva (y, por tanto,
estacionario). Por este motivo, si partimos de un modelo ARMA(p,q) ajustado a una serie
(diferenciada o no) y decidimos diferenciarla una vez mas, es una buena medida de precaución
el aumentar q a q + 1, es decir, ajustar a la nueva serie un modelo ARMA(p,q+1). Si hemos
sobrediferenciado, es muy probable que el nuevo polinomio de medias móviles obtenido tenga
una raı́z cercana a 1 que, aproximadamente, cancele al operador diferencia 1 − B que hemos
aplicado a la parte autorregresiva. Es decir, si nuestro proceso era ARMA(p,q) estacionario e
invertible de la forma φ(B)yt = θ(B)εt y lo diferenciamos, queda, teniendo en cuenta que la
multiplicación de polinomios es conmutativa,
(1 − B)φ(B)yt = φ(B)(1 − B)yt = φ(B)zt = (1 − B)θ(B)εt . (20)
Por tanto, el proceso diferenciado zt es ARMA(p,q+1) con el mismo polinomio autorrregresivo
φ(B) y con un polinomio de medias móviles de grado q + 1, dado por (1 − B)θ(B), que tiene
la raı́z B = 1. Incluso si, al estimar un modelo ARMA para nuestra serie diferenciada no
aumentamos q, es muy probable que nos aparezca la raı́z B = 1 en el polinomio estimado
para la parte de medias móviles, debido a que, como ya hemos dicho, al estimar modelos
ARIMA, la convergencia de parámetros asociados a raı́ces unitarias es mas rápida que la de
parámetros asociados a raı́ces estables (superconvergencia).
Otro criterio que se suele utilizar en la práctica para detectar la sobrediferenciación, es
sospechar que la pueda haber si la varianza de la serie aumenta al diferenciarla. Esto se basa
en que (ejercicio) si nuestra serie sigue el modelo yt = (1+θB)εt , la serie diferenciada zt es un
proceso MA(2) con varianza mayor que la de yt . Sin embargo, para otros procesos yt que no
sean MA(1) no tiene por qué cumplirse esta regla, con lo cual el criterio no siempre funciona
y debe emplearse con prudencia. Como ejercicio, comprobar que si la serie yt es un proceso
MA(2) dado por yt = (1 + θ1 B + θ2 B 2 )εt , entonces el proceso diferenciado zt = (1 − B)yt
tiene varianza mayor que la de yt si y solo si 1 − 2θ1 + (θ1 − θ2 )2 > 0. De esto se deduce
que si θ1 = θ2 = 0,6 el proceso yt es invertible (tiene raı́ces aproximadas −0,5 ± 1,19i, con
módulo mayor que 1) y, en cambio, V ar(zt ) < V ar(yt ).
Solución
Diferenciando, es zt = (1 − B)yt = (1 − B)(1 + θB)εt = (1 + (θ − 1)B − θB 2 )εt .

Por tanto, V ar(yt ) = (1 + θ2 )σε2 , mientras que V ar(zt ) = (1 + (θ − 1)2 + θ2 )σε2 . Será
13
V ar(zt ) > V ar(yt ) si y solo si 2(1 − θ + θ2 ) > 1 + θ2 , o sea, si y solo si (θ − 1)2 > 0, lo
cual es cierto (salvo si θ = 1, que es un caso que no consideramos, pues el proceso no
serı́a invertible).
De yt = (1+θ1 B+θ2 B 2 )εt , diferenciando, es zt = (1−B)yt = (1−B)(1+θ1 B+θ2 B 2 )εt =

(1+(θ1 −1)B +(θ2 −θ1 )B 2 −θ2 B 3 )εt . Por tanto V ar(yt ) = (1+θ12 +θ22 )σε2 , mientras que
V ar(zt ) = (1+θ12 +1−2θ1 +θ22 +θ12 −2θ1 θ2 +θ22 )σε2 , de donde se deduce inmediatamente
el resultado.
El proceso ARIMA(0,1,1), tambien denominado IMA(1,1), sigue el modelo
(1 − B)yt = (1 − θB)εt . (21)
Es sencillo demostrar que la predicción optima de este proceso tiene la forma

∞
X
ŷt = (1 − θ) θj−1 yt−j = (1 − θ)yt−1 + θŷt−1 , (22)
j=1
es decir, es una suma ponderada, con pesos decrecientes geométricamente, de las observacio-
nes pasadas. Se suele llamar a esta predicción una media móvil ponderada exponencialmente
(EWMA).
Las medias móviles ponderadas exponencialmente se aplican con frecuencia en la práctica.
Acabamos de ver que una justificación de su uso consiste en suponer que el proceso al que
se aplican es IMA(1,1). Su uso tan extendido se debe a que un proceso IMA(1,1) se ajusta,
en forma aproximada, a muchas series económicas con tendencia lineal.
La predicción de un proceso ARIMA se hace igual que la de un proceso ARMA, usando
φ(B)∆d en lugar de φ(B), pues en la predicción de un proceso ARMA tan solo hicimos la
hipótesis de que el proceso fuera invertible, pero no necesariamente estacionario. Sin embar-
go, debe notarse que, como se deduce de (14), en el caso no estacionario los errores de las
predicciones crecen sin cota con el horizonte de la predicción, mientras que en el caso esta-
cionario, se estabilizan. Esto hace que, cuando el objetivo de un análisis de series temporales
es predecir los valores futuros de la serie, la sobrediferenciación sea un problema importante.
Volviendo a la distinción entre tendencias deterministas y aleatorias, podemos, para el
caso de tendencias lineales, dar los modelos respectivos:
θ(B)
yt = α + βt + εt , (23a)
φ(B)
θ(B)
(1 − B)yt = β + εt , (23b)
φ(B)
donde los polinomios φ(B) y θ(B) son estables (todas sus raı́ces tienen módulos mayores que
θ(B)
1) y, por tanto, φ(B) εt es un proceso estacionario e invertible.
Es decir, en (23a), la serie corregida por la media (variable en el tiempo) yt − α − βt es
estacionaria e invertible, mientras que, en (23b), la serie diferenciada corregida por la media
(constante) (1 − B)yt − β es estacionaria e invertible.
14
El distinguir una tendencia aleatoria de una determinista es un problema de saber si la
serie tiene una raiz B = 1 en el modelo de su parte autorregresiva.
Si partimos de que nuestra serie siga el modelo
yt = α + βt + ut , (24)
donde a(B)ut = b(B)εt , tenemos dos casos. En el primer caso, a(B) es un polinomio estable,
entonces (24) coincide con (23a). En el segundo caso, a(B) = (1 − B)a∗ (B), donde a∗ (B) es
estable. Entonces, de (24), diferenciando, tenemos
b(B) b(B)
(1 − B)yt = 0 + (1 − B)βt + ∗
εt = β + ∗ εt , (25)
a (B) a (B)
que es de la forma (23b).

En series macroeconómicas, el caso mas frecuente es, con mucho, (23b). Veamo ahora lo
que ocurre si confundimos una tendencia determinista con una aleatoria.
En primer lugar, si nuestra serie sigue (23a), pero nosotros, en lugar de ajustarle una
tendencia lineal, la diferenciamos, tendremos
(1 − B)θ(B)
(1 − B)yt = β + εt , (26)
φ(B)
es decir, hemos conseguido quitarle la tendencia al proceso, pero el resultado es un proceso

no invertible, el cual no nos servirá para predicción.
Si, por el contrario, la serie que analizamos sigue el modelo (23b), será
1 θ(B) θ(B)
yt = β+ εt = α + βt + εt , (27)
1−B (1 − B)φ(B) (1 − B)φ(B)
con lo cual, si le restamos la tendencia lineal, es decir, si trabajamos con yt − α − βt, nos
θ(B)
queda un proceso (1−B)φ(B) εt en el que la varianza crece en el tiempo (por el término 1−B en
el denominador). En otras palabras, estabilizamos la media del proceso, pero no su varianza.
1
En el desarrollo anterior hemos usado el hecho de que 1−B β = (1 + B + B 2 + B 3 + · · · )β es
una tendencia lineal (serı́a suma infinita de términos idénticos a β, pero nuestra serie no es
infinita, asi pues, una vez impuesta una condición inicial, queda α + βt).
Otra forma de expresar lo anterior es decir que si nuestro proceso tiene una tendencia
lineal determinista y lo diferenciamos, quitamos esa tendencia y metemos una raı́z unidad
en la parte de medias móviles del proceso estimado, mientras que, si nuestro proceso tiene
una tendencia aleatoria y, por tanto, deberı́amos diferenciarlo, y no lo hacemos, sino que
estimamos una tendencia determinista lineal, entonces quitamos la tendencia, pero metemos
una raı́z unidad en la parte autorregresiva del proceso. El meter la raı́z unidad en la parte de
medias móviles es menos problemático en la prctica que hacerlo en la parte autorregresiva
(por ejemplo, podemos cambiar la raı́z B = 1 por B = 0,99 en la parte de medias móviles)
para tener un proceso estimado invertible).
En (23) hemos supuesto que era razonable utilizar tendencias lineales, deterministas o
aleatorias. Sin embargo, en economia, muchas series están caracterizadas por una tendencia
exponencial, de la forma yt = eβt . El motivo es que, si derivamos en la expresión anterior,
15
tenemos que dy dt
t
= βeβt = βyt , es decir, el crecimiento de yt es proporcional a su nivel y esto
es una hipótesis razonable en muchas series económicas. Ahora, tomando logaritmos en la
expresión de yt obtenemos una tendencia lineal, pues log(yt ) = βt. Esto, a su vez, es otra
justificación, distinta de la que dimos antes, de la necesidad de tomar logaritmos en muchas
series económicas, puesto que los logaritmos linealizan la tendencia de muchas series.
Se puede hacer un razonamiento análogo para tendencias aleatorias. En efecto, si aplica-
mos a log(yt ) el operador de diferencia regular tenemos
yt yt − yt−1 yt − yt−1
(1 − B)log(yt ) = log = log(1 + )' , (28)
yt−1 yt−1 yt−1
debido al desarrollo de Taylor
x2 x3 x4
log(1 + x) = x − + − + · · · , si x ∈ (−1, 1],
2 3 4
que es parecido a x si x es pequeño. Es decir, tomando x = yty−y t−1
t−1
, la aproximación (28) es
yt −yt−1
buena si la tasa de variación de la serie yt , que es yt−1 es pequeña, como suele serlo en la
práctica. En resumen, de (28) y de (23b) vemos que la hipótesis aproximada que hacemos
para ajustar un modelo ARMA estacionario a las diferencias de los logaritmos de una serie es
que las tasas de variación de la serie sean un proceso estacionario.
5. Procesos ARIMA estacionales

Algunas series temporales tienen un comportamiento que se repite en el tiempo con
una frecuencia concreta. Por ejemplo, muchas series económicas observadas mensualmente,
tienden a alcanzar mı́nimos en los meses de verano.
Las series que poseen este comportamiento se dice que tienen estacionalidad o que son
estacionales.
En algunas aplicaciones la estacionalidad se presenta siempre en la misma medida. Se
dice entonces que la estacionalidad es determinista. En series económicas es más habitual
que la estacionalidad sea aleatoria, es decir, que presente algunas diferencias de una a otra
vez.
Los modelos ARIMA estacionales o SARIMA permiten incorporar a los modelos ARIMA la
información estacional añadiendo pocos parámetros nuevos. Son modelos multiplicativos que
equivalen a modelos ARIMA ordinarios con restricciones.
Un proceso SARIM A(p, d, q) × (P, D, Q)s sigue el modelo
φ(B)Φ(B s )∆d ∆D s
s yt = θ(B)Θ(B )εt , (29)
donde
s es el número de instantes de tiempo en que se completa un ciclo de estacionalidad

(para series económicas, s suele tomar los valores 4 para series trimestrales o 12 para
series mensuales.
16
∆s = 1 − B s es el operador de diferencia estacional, por ejemplo, si s = 12, ∆12 yt =
yt − yt−12 resta de cada valor de la serie el valor del mismo mes del año anterior. ∆D
s yt
diferencia estacionalmente D veces la serie yt .
Φ(B s ) y Θ(B s ) son los polinomios autorregresivos y de medias móviles estacionales

(actúan solo sobre retardos de s instantes de tiempo).
El ejemplo más clásico de modelo SARIMA es el ARIM A(0, 1, 1) × (0, 1, 1)s , llamado modelo
de lineas aéreas, es decir,
∆∆s yt = (1 + θB)(1 + ΘB s )εt , (30)
que aproxima razonablemente bien a un número importante de series temporales económicas
estacionales.
Un proceso ARIMA estacional no es estacionario, pues su esperanza varı́a con el tiempo.
Si tenemos una serie temporal y queremos ajustarle un modelo ARIMA estacional, el
primer paso es determinar los órdenes de diferenciación regular d y estacional D, para tener
un proceso diferenciado estacionario.
La identificación de un proceso ARIMA estacional estacionario es más complicada que la
de un proceso no estacional. Un primer método será el de fuerza bruta, que consiste en, para
todas las posibles combinaciones de ordenes bajos p, P , q y Q, calcular un criterio como el
AIC o el BIC y escoger el modelo que optimice el criterio.
Este método es costoso computacionalmente y, aunque, dada la gran velocidad de los
ordenadores actuales, podrı́a utilizarse, se suele simplificar el proceso en alguna forma. Por
ejemplo, el programa TRAMO fija primero un AR(3) para la parte regular y busca unos P y Q
de la parte estacional óptimos entre los de órdenes bajos. En una segunda etapa, con esos P
y Q óptimos fijos, busca unos p y q de órdenes bajos óptimos para la parte regular. En una
tercera y última etapa, con los p y q óptimos fijos busca otros P y Q óptimos entre los de
órdenes bajos y el modelo obtenido es elegido.
Para detectar estacionalidad en los residuos se puede emplear el test de Pierce, de tipo
Portmanteau, dado por
3 2
X r̂sj
Qs = T (T + 2) , (31)
j=1
T − sj
que utiliza las tres primeras autocorrelaciones estacionales y que sigue, si no hay estaciona-
lidad en los residuos, una distribución χ22 .
6. Análisis espectral de series temporales

Esta sección es esencial para comprender el ajuste estacional.
6.1. Espacios de Hilbert

Un espacio con producto escalar es un espacio vectorial en el que está definido un producto
escalar, es decir, en el que está definida una aplicación <, >: H × H → C, tal que
< x, x >≥ 0, ∀x ∈ H y < x, x >= 0 si y solo si x = 0
17
< x, y >= < y, x >, ∀x, y ∈ H
< λx + µy, z >= λ < x, z > +µ < y, z >, ∀x, y, z ∈ H, ∀λ, µ ∈ C
Todo producto escalar define una norma mediante kxk = (< x, x >)1/2 , por analogı́a con el
caso de espacios euclı́deos de dimensión finita, la norma de un vector se interpreta como su
longitud.
En todo espacio donde haya definido un producto escalar se cumplen la desigualdad de
Cauchy-Schwartz,
|< x, y >| ≤ kxkkyk, ∀x, y ∈ H (33)
y la desigualdad triangular,
kx + yk ≤ kxk + kyk, ∀x, y ∈ H. (34)
Además, si el espacio con producto escalar es completo (en él, toda sucesión de Cauchy
converge a un elemento del espacio), se dice que el espacio es de Hilbert.
Se dice que dos vectores x, y ∈ H son ortogonales, y se denota x⊥y, si < x, y >= 0.
Un conjunto de elementos {hi }i∈I de H es una base ortogonal de H si hi ⊥hj , ∀i, j ∈ I
(es decir, son ortogonales dos a dos) y, además, cualquier vector de H se puede escribir
como combinación lineal de los {hi }i∈I . La base es ortonormal si, además de ser ortogonal,
khi k = 1, ∀i ∈ I (sus vectores tienen norma 1).
Todo espacio de Hilbert admite una base. Sin embargo, solo nos interesarán los espacios
de Hilbert con bases ortogonales finitas o numerables. Se puede demostrar que todo espacio
de Hilbert separable admite una base ortogonal numerable. Los espacios de Hilbert con los
que trabajaremos tienen bases finitas o numerables. Dada una base ortogonal, es elemental
convertirla en una base ortonormal, sin mas que dividir cada vector de la base por su norma.
En un espacio de Hilbert con una base finita o numerable hi , i ∈ Z se cumple que
∞
X
x= αj hj , ∀x ∈ H, (35)
j=−∞
es decir, dada la base, podemos representar cada elemento x de H mediante una sucesión
de escalares {αj }j∈Z . Además, los escalares αj son únicos y se obtienen mediante la sencilla
fórmula
< x, hj >
αj = , ∀j ∈ Z. (36)
< hj , hj >
Los αj se llaman coeficientes de Fourier de x respecto de la base {hj }j∈Z
También se cumple la relación de Parseval, que dice que
∞
X
2
kxk = |αj |2 , ∀x ∈ H (37)
j=−∞
6.2. Transformada discreta de Fourier para sucesiones periódicas

Una sucesión {xt }t∈Z = {· · · , x−2 , x−1 , x0 , x1 , x2 , · · · } de números reales o complejos se
dice que es periódica, con perı́odo T si existe T , que es un entero positivo (mı́nimo si hay
mas de uno) tal que xt+T = xt , para todo t ∈ Z.
18
Si {xt }t∈Z es periódica con perı́odo T , {xt } queda totalmente determinada por cualquier
trozo suyo de longitud T . Por tanto, la identificaremos con x , x1:T , (x1 , · · · , xT ).
Las sucesiones periódicas con perı́odo T constituyen un espacio de Hilbert complejo de
dimensión T con la suma, la multiplicación por escalares complejos y el producto escalar
definidos, respectivamente, por
x + y , (x1 + y1 , · · · , xT + yT ), (38a)
λx , (λx1 , · · · , λxT ), para todo λ ∈ C (38b)

T
1X
< x, y >, xj ȳj . (38c)
T j=1
Definimos c , T −1
T
2
y d , 2
, donde [x] denota la parte entera del número real x. No es
difı́cil demostrar que una base ortonormal de este espacio de Hilbert está dada por los vectores
2jtπ 2jπ 2jπ 2jπ
h−c , · · · , hd , donde h0j = (h1,j , · · · , hT,j )0 = ({ei T }T )0
t=1 = (ei 2i
T ,e T ,··· , eT i T )0 , es
decir,
−2cπ 
 −2(c−1)π   i −2π 
ei T ei T

e T
−2(c−1)π 
 e2i −2cπ
T  
e 2i T  −2π
e2i T 
h−c = , h−c+1 =   , · · · , h−1 =  ,
   
···   ···  ··· 
−2cπ −2(c−1)π −2π
eT i T eT i T eT i T
 i 2π   2(d−1)π   2dπ 
i
ei T
 
1 e T e T
2(d−1)π
1  2i 2π   2i  2i 2dπ 
 , h1 =  e T  , · · · , hd−1 =  e T 

h0 =  e T 
, h =
· · ·   ···  d
 ···   ··· 
   
2π 2(d−1)π 2dπ
1 eT i T eT i T eT i T ,
Vemos que, tanto si T es par como si es impar, c + d + 1 = T , es decir, hay T vectores en

la base en todos los casos. En efecto, si T es par d = T /2 y c = d − 1, luego c + d + 1 =
T /2 − 1 + T /2 + 1 = T ; si T es impar c=(T − 1)/2, d = c y c + d + 1 = 2 T −1
2
+ 1 = T.
2πj 2πj 2πj
En resumen {hj }dj=−c , donde hj = (eiωj , e2iωj , · · · , eT iωj )0 = (ei 2i
T ,e T ,··· , eT i T )0 , es
una base ortonormal de este espacio de Hilbert, donde los valores
2jπ
ωj , T
, con j ∈ {−c, · · · , d} (39)
se llaman frecuencias de Fourier y se interpretan como las frecuencias de que se compone la

serie periódica. Ası́, el vector de la base hj está asociado a la frecuencia ωj . Por tanto, una
serie periódica está asociada a una cantidad finita e igual a su perı́odo T de frecuencias.
Para comprobar que estos vectores son una base solo hay que ver que < hj , hk >= δj,k .
19
En efecto, usando la fórmula para sumar una progresión geométrica, es
2πj 2πj 2πj 2πk 2πk 2πk
< hj , hk >=< (ei T , e2i T , · · · , eT i T ), (ei T , e2i T , · · · , eT i T ) >=
1 i 2π(j−k) 2π(j−k) 2π(j−k)
(e T + e2i T + · · · + eT i T ) = (1 si j = k, seguimos con el caso j 6= k) =
T
2π(j−k) 2π(j−k) 2π(j−k) 2π(j−k) 2π(j−k)
1 eT i T ei T − ei T 1 ei T (eT i T − 1)
2π(j−k)
= 2π(j−k)
=0
T T
ei T −1 ei T −1
(pues ei2π(j−k) = 1)
2π 2π
Las funciones complejas ei T y e−i T son periódicas y ambas completan un ciclo en T
instantes de tiempo (tienen perı́odo fundamental igual a T ), por eso, las frecuencias ω1 y
ω−1 se consideran una sola, llamada primera frecuencia fundamental. Análogamnete para
las demas frecuencias, es decir, para cada j ∈ {2, · · · , mı́n{c, d}}, las funciones complejas
2jπ 2jπ
ei T y e−i T son periódicas y ámbas completan j ciclos en T unidades de tiempo (tienen
perı́odo fundamental igual a T /j), las frecuencias ωj y ω−j se consideran una sola, llamada
componete armónica j−ésima.
Si T es impar, c = d = T −1 2
y (ω0 , {ω−1 , ω1 }, · · · , {ω−d , ωd }) = (ω0 , ω1 , · · · , ωd ) son las
frecuencias fundamentales. Todas ellas, excepto ω0 , son la agrupación de dos frecuencias.
Si T es par, d = T2 , c = d − 1 y (ω0 , {ω−1 , ω1 }, · · · , {ω−c , ωc }, ωd ) = (ω0 , ω1 , · · · , ωc , ωd )
son las frecuencias fundamentales. Todas ellas, excepto ω0 y ωd , son la agrupación de dos
frecuencias.
Vemos también que todas las frecuencias son múltiplos de la primera y, por tanto, están
relacionadas armónicamente entre sı́.
Por (35), cualquier vector de este espacio de Hilbert, es decir, cualquier sucesión periódica
x, se podrá representar en la forma
d
X
x= λj hj , (40)
j=−c
o bien, para cada t ∈ {1, · · · , T },

d d
X X 2jπ
xt = λj ht,j = λj eit T , (41)
j=−c j=−c
2jπ
donde ht,j , eit T es el elemento t del vector hj . Además, como la sucesión es periódica, la
relación anterior es válida para todo t sin mas que hacer corresponder a cada t otro t∗ entre
1 y T , es decir,
d d
∗ 2jπ
X X
xt = λj ht∗ ,j = λj eit T , (42)
j=−c j=−c
si t = t∗ + kT para algún entero k y t∗ ∈ {1, · · · , T }.
20
Usando (36), es
T
< x, hj > 1 X −it 2jπ
λj = = xt e T , j ∈ {−c, · · · , d} (43)
< hj , hj > T t=1
y es inmediato que λ−j = λ̄j .

Le expresión (43) nos da {λj }dj=−c , que es casi la definición mas habitual de la transfor-
mada discreta de Fourier (DTF) de la serie xt . La DTF de una sucesión finita o periódica xt
se suele definir como {µj }dj=−c , donde
T
X 2jπ
µj = xt e−i(t−1) T , (44)
t=1
por tanto, la relación entre ambas viene dada por
µj = T ei2πj/T λj , j ∈ {−c, · · · , d} (45)
En realidad, tanto (43) como (44) se pueden definir para todo j ∈ Z y resultan ser sucesiones
periódicas con perı́odo T , por lo cual, si, por ejemplo, un programa de ordenador nos calcula
T −1
{µj }j=0 , podemos obtener inmediatamente los {λj }dj=−c , teniendo en cuenta que la sucesión
es periódica.
Dada una sucesión periódica x, podemos definir su energı́a como su norma al cuadrado,
T
21X 2
kxk = x. (46)
T t=1 t
Si la media de la sucesión es cero, entonces la energı́a que hemos definido es obviamente

proporcional a la varianza muestral de un trozo cualquiera de longitud T de la sucesión. La
relación de Parseval (37) se escribe, en este caso, en la forma
T d
2 1X 2 X
kxk =< x, x >= xt = |λj |2 , (47)
T t=1 j=−c
es decir, la relación de Parseval nos dice cómo se distribuye la energı́a de la sucesión periódica
x a lo largo de las distintas frecuencias ω−c , · · · , ωd . En realidad, como las frecuencias son
iguales por pares, consideramos solo ω1 , · · · , ωd y duplicamos la energia asociada a cada
frecuencia (excepto que, como dijimos P antes, en el caso de T par, no duplicamos la de ωd ).
Además, como, de (43), es λ0 = T1 Tt=1 xt (la media de la serie), no se suele considerar
la frecuencia ω0 = 0 ni su energı́a λ20 , o bien, equivalentemente, se resta a la serie su media
para que sea λ0 = 0
Como eix = cos(x) + i sen(x), no es difı́cil ver que podemos transformar la base anterior
en otra formada por las funciones seno y coseno con los argumentos no negativos de las
funciones exponenciales de la base, en concreto, por ser cos(0) = 1 y sen(0) = 0, para el caso
21
de que T sea par, las columnas de la matriz de T × T
T T
2πjt 2πjt −1
2
[1, f1 , g1 · · · , f T , gT , fT ] , 1, {cos( T ), sen( T )}t=1 , cos(πj) ,
−1 −1
2 2 2 j=1
1 cos( 2π ) sen( 2π cos( 4π
 
T T
) T
) ··· −1
4π 4π 8π
 1 cos( ) sen( )
 T T
cos( T ) · · · 1   (48)
· · · ··· ··· ··· ··· ··· 
T T T +1
1 cos( 2T π ) sen( 2T π ) cos( 2 T π ) · · · (−1)T
son también una base ortogonal del espacio de Hilbert, mientras que en el caso de T impar,
una base ortogonal está formada por las columnas de la matriz de T × T
T −1 T
2πjt 2πjt 2
[1, f1 , g1 · · · , f T −1 , g T −1 ] , 1, {cos( T ), sen( T )}t=1 ,
2 2 j=1
 
1 cos( 2π
T
) sen( 2π
T
) cos( 4π
T
) ··· sen( π(TT−1) )
 1 4π 4π
cos( T ) sen( T ) 8π
cos( T ) ··· sen( 2π(TT −1) ) 
 
 (49)
· · · ··· ··· ··· ··· ···


2T π 2T π T +1 2T −1 π(T −1)
1 cos( T ) sen( T ) cos( 2 T π ) · · · sen( T
)
Más en concreto, se puede comprobar que


1 si k = j ∈ {0, T /2}

2πjt 2πkt
< cos( T ), cos( T ) >= 12 si j = k ∈ {1, · · · , c} (50a)

0 si j 6= k,


1 si k = j = 0

2πjt 2πkt
< sen( T ), sen( T ) >= 12 si j = k ∈ {1, · · · , c} (50b)

0 si j 6= k,

< sen( 2πjt

T
), cos( 2πkt
T
) >= 0, para todo j y k. (50c)
T −1 T
Por tanto, si, como antes, c , 2 y d , 2 , podemos escribir, tanto para T par como
impar,
X d c
X
x = a0 + aj fj + bj g j (51)
j=1 j=1
o bien, particularizando para cada t ∈ {1, · · · , T }

d c d c
X X X 2πjt X 2πjt
xt = a0 + aj ft,j + bj gt,j = a0 + aj cos( )+ bj sen( ), (52)
j=1 j=1 j=1
T j=1
T
donde ( P
T
1
xt cos( 2πjt ), j ∈ {0, T /2},
aj = T2 Pt=1
T
T
2πjt (53a)
T t=1 xt cos( T ), j ∈ {1, · · · , c},
22
T
X
bj = 2
T
xt sen( 2πjt
T
), j ∈ {1, · · · , c}. (53b)
t=1
No es difı́cil comprobar que
a0 = λ0 , aT /2 = λT /2 (54a)
aj = λj + λ−j = λj + λ̄j , j ∈ {1, · · · , c} (54b)
bj = i(λj − λ−j ) = i(λj − λ̄j ), j ∈ {1, · · · , c} (54c)
Por tanto, también es
aj − ibj
λj = , j ∈ {1, · · · , c} (55)
2
Los valores aj y bj son, por definición, números reales. Esta es la ventaja de utilizar la
base de senos y cosenos, siempre se trabaja con números reales. Sin embargo, para hacer
desarrollos teóricos es mas cómodo trabajar con la exponencial compleja, pues con ella las
fórmulas tienen una expresión más compacta.
Como ejercicio, dada la sucesión periódica {xt }t∈Z , definida como x1 = 4, x2 = 1, x3 = 3
y xt+3j = xt , para todo j ∈ Z, vamos a calcular su transformada de Fourier usando tanto
(41) como (52). Hacer el mismo ejercicio para la sucesión periódica de longitud par dada por
y1 = 2, y2 = 1, y3 = 4, y4 = 3 y yt+3j = yt , para todo j ∈ Z.
Solución
Para {xt } es c = d = 1. Por (41), tenemos que
λ0 = 13 (4 + 1 + 3) ≈ 2,6666667,
λ1 = 31 (4e−i2π/3 + 1e−i4π/3 + 3e−i6π/3 ) ≈ 0,1666667 − 0,8660254i

λ̄1 = λ−1 = 31 (4ei2π/3 + 1ei4π/3 + 3ei6π/3 ) ≈ 0,1666667 + 0,8660254i
y es cierto que λ1 = λ̄−1 .
Ahora, por (52),
a0 = 13 (4 + 1 + 3) ≈ 2,6666667,
a1 = 32 (4 cos(2π/3) + 1 cos(4π/3) + 3 cos(6π/3)) ≈ 0,3333333,
b1 = 32 (4 sen(2π/3) + 1 sen(4π/3) + 3 sen(6π/3)) ≈ 1,732051,
y se cumplen λ0 = a0 y λ1 = a1 −ib
2
1
.
En cuanto a {yt }, es c = 1 y d = 2, por tanto
λ0 = 14 (2 + 1 + 4 + 3) = 2,5,
λ1 = 41 (2e−i2π/4 + 1e−i4π/4 + 4e−i6π/4 + 3e−i8π/4 ) = 0,5 + 0,5i

λ̄1 = λ−1 = 14 (2ei2π/4 + 1ei4π/4 + 4ei6π/4 + 3ei8π/4 ) = 0,5 − 0,5i
λ2 = 14 (2e−i4π/4 + 1e−i8π/4 + 4e−i12π/4 + 3e−i16π/4 ) = 41 (2(−1) + 1(1) + 4(−1) + 3(1)) = −0,5
a0 = 14 (2 + 1 + 4 + 3) = 2,5,
23
a1 = 42 (2 cos(2π/4) + 1 cos(4π/4) + 4 cos(6π/4) + 3 cos(8π/4)) = 1,
b1 = 42 (2 sen(2π/4) + 1 sen(4π/4) + 4 sen(6π/4) + 3 sen(8π/4)) = −1,
a2 = 41 (2 cos(4π/4) + 1 cos(8π/4) + 4 cos(12π/4) + 3 cos(16π/4)) = −0,5,
y se cumplen a0 = λ0 , a2 = λ2 , λ1 = (a1 − ib1 )/2.
6.3. Transformada rápida de Fourier

El cálculo de la transformada de Fourier discreta (DFT) de una sucesión periódica (o finita,
haciéndola periódica) implica el cómputo de (43) o (53), es decir, un número de sumas y
multiplicaciones del orden de T 2 (suponiendo que no tengamos que calcular, además, las
funciones trigonométricas, porque las tengamos almacenadas en tablas). En las aplicaciones,
T puede ser muy grande, por eso, se ha desarrollado un algoritmo que permite hacer los
cálculos con muchas menos operaciones, del orden de T log2 T . Este algoritmo se llama
transformada rápida de Fourier (FFT). Por ejemplo, si T = 1000, como T 2 = 106 , mientras
que T log2 (T ) ≈ 9966, tenemos que los cálculos quedan reducidos a menos de un 1 por ciento.
Si T = 10000, T 2 = 108 y T log2 (T ) ≈ 132877 y los cálculos se reducen a tan solo un 1,3 por
mil.
Las mayores ganancias se obtienen cuando la longitud de la serie es una potencia de dos,
también se gana mucho si en su factorización en factores primos solo hay números primos
pequeños. Sin embargo, si la longitud de la serie es un número primo o si es producto de
números primos grandes, la ganancia es menor. Se pueden añadir ceros al final de la serie
para conseguir que su longitud se factorice en potencias de números primos pequeños. El
inconveneiente es que, al hacerlo, estamos cambiando también las frecuencias de Fourier de
la serie por las de una serie de longitud mayor.
Los programas de ordenador suelen calcular la FFT para la definición de la DFT dada en
(44). Como ejercicio, utilizaremos la función fft del lenguaje R para calcular los coeficientes
de Fourier de las dos series periódicas del ejercicio anterior (usando (45) para convertir la
salida de R en nuestra definición de coeficientes de Fourier).
Solución
T −1
Como R devuelve {λj }j=0 , utilizaremos (45) y lo que se dice en el párrafo que le sigue
d
para recuperar {λj }j=−c .
En primer lugar, para {xt }.
> x<-c(4,1,3)
> L1<-(1/3)*(x[1]*exp(-2*1i*pi/3)+x[2]*exp(-4*1i*pi/3)+x[3]*exp(-6*1i*pi/3))
> Lm1<-(1/3)*(x[1]*exp(2*1i*pi/3)+x[2]*exp(4*1i*pi/3)+x[3]*exp(6*1i*pi/3))
> L0<-(1/3)*(x[1]*exp(0)+x[2]*exp(0)+x[3]*exp(0))
> (lambdax<-c(L0,L1,Lm1)) #Nuestra DFT para x
[1] 2.6666667+0.0000000i 0.1666667-0.8660254i 0.1666667+0.8660254i
> (mux<-fft(x)) #La DFT de R para x
[1] 8+0.000000i 2+1.732051i 2-1.732051i
> (lambdax2<-(mux/3)*exp((-1i*2*pi*c(0,1,-1))/3)) #La conversion
[1] 2.6666667+0.0000000i 0.1666667-0.8660254i 0.1666667+0.8660254i
24
> lambdax-lambdax2 #Despues de la conversion ambas coinciden
[1] 0.000000e+00+0i -5.551115e-17+0i -5.551115e-17+0i
A continuación, para {yt }.
> x<-c(2,1,4,3)
> L1<-(1/4)*(x[1]*exp(-2*1i*pi/4)+x[2]*exp(-4*1i*pi/4)+
+ x[3]*exp(-6*1i*pi/4)+x[4]*exp(-8*1i*pi/4))
> Lm1<-(1/4)*(x[1]*exp(2*1i*pi/4)+x[2]*exp(4*1i*pi/4)+
+ x[3]*exp(6*1i*pi/4)+x[4]*exp(8*1i*pi/4))
> L0<-(1/4)*(x[1]*exp(0)+x[2]*exp(0)+x[3]*exp(0)+x[4]*exp(0))
> L2<-(1/4)*(x[1]*exp(-4*1i*pi/4)+x[2]*exp(-8*1i*pi/4)+
+ x[3]*exp(-12*1i*pi/4)+x[4]*exp(-16*1i*pi/4))
> (lambdax<-c(L0,L1,L2,Lm1)) #Nuestra DFT para x
[1] 2.5+0.0i 0.5+0.5i -0.5+0.0i 0.5-0.5i
> (mux<-fft(x)) #La DFT de R para x
[1] 10+0i -2+2i 2+0i -2-2i
> (lambdax2<-(mux/4)*exp((-1i*2*pi*c(0,1,2,-1))/4)) #La conversion
[1] 2.5+0.0i 0.5+0.5i -0.5-0.0i 0.5-0.5i
> abs(lambdax-lambdax2) #Despues de la conversion ambas coinciden
[1] 0.000000e+00 2.482534e-16 6.123234e-17 2.482534e-16
6.4. Unidades de frecuencia. Frecuencia de Nyquist. Solapamiento

Debemos notar que las frecuencias las estamos midiendo en radianes (rd) por unidad de
tiempo. Debido a que 2π radianes son un ciclo de una función trigonométrica como sen(t),
cos(t) o eit , si dividimos una frecuencia ω por 2π, estaremos midiendo la frecuencia en ciclos
por unidad de tiempo.
Estamos suponiendo también que la unidad de tiempo coincide con el intervalo entre
dos de nuestras observaciones consecutivas, por ejemplo, la unidad de tiempo es el mes para
series observadas mensualmente y es el trimestre para series observadas trimestralmente.
Una función trigonométrica se caracteriza por su frecuencia, amplitud y fase. Por ejemplo,
yt = A cos(ωt + φ) tiene como frecuencia ω radianes por unidad de tiempo (ut). Por tanto,
completa un ciclo en un perı́odo de
P = 2π
ω
ut (60)
(cos(t) completa un ciclo en t ∈ [0, 2π], por tanto, cos(ωt) completa un ciclo en t ∈ [0, 2π/ω]).
Ası́, en el caso más sencillo de ω = 1, lo completa en 2π unidades de tiempo, lo cual
resulta poco intuitivo. Vamos a definir otras unidades de frecuencia más intuitivas, de tal
manera que las frecuencias que más nos interesen sean las de los números naturales 1, 2, · · · ,
pero que, además, esos mismos números naturales nos digan el número de veces al año que se
repiten los ciclos correspondientes a esas frecuencias. Es decir, vamos a medir las frecuencias
en ciclos por año, en lugar de radianes por mes o trimestre.
Para series mensuales haremos el cambio de variable lineal
f = ω π6 = ω 2π
12 ciclos
año
, (61a)
25
de donde, ω = f π6 = f 2π rd
12 mes
. (61b)
De esta forma, como la información útil del espectro está en ω ∈ [0, π], ahora estará en
f ∈ [0, 6]. Ası́, una frecuencia de f = 1 corresponderá, por ser ω = 2π 12
= π6 , con ciclos de
perı́odo P = 2πω
= 12 meses, es decir, que se repiten una vez al año. De la misma forma, una
frecuencia de f = 2 (ω = π3 ) corresponde con ciclos de 6 meses, que se repiten dos veces al
año, f = 3 (ω = π2 ) con ciclos de 4 meses, que se repiten 3 veces al año, f = 4 (ω = 2π 3
)
5π 12
con ciclos de 3 meses, que se repiten 4 veces al año, f = 5 (ω = 6 ) con ciclos de 5 = 2,4
meses, que se repiten 5 veces al año y f = 6 (ω = π) con ciclos de 2 meses, que se repiten
6 veces al año. A estos ciclos que hemos mencionado se les suele llamar, por repetirse una o
mas veces al año (un número entero de veces), ciclos estacionales. El hecho de que se repitan
un número entero de veces es el que hace que todos los años tengan sus crestas y valles en
las mismas épocas del año y que sean, por tanto, lo que nosotros llamamos estacionales.
Las frecuencias f ∈ (0, 1) (ω ∈ (0, π6 )) se asocian con movimientos de la serie a largo
plazo, a los que se suele llamar ciclos económicos (ciclos que duran más de un año), para
diferenciarlos de los ciclos estacionales.
La frecuencia ω = f = 0 se asocia con la tendencia, la cual no es un ciclo (no se repite),
aunque también puede considerarse como un ciclo que se repite en un tiempo infinito.
Ya sabemos que las frecuencias correspondientes a f > 6 (ω > π) no tienen información
útil. Una forma intuitiva de ver que por encima de ω = π esto es ası́ consiste en notar que,
el que observemos la serie mensualmente, implica que el ciclo mas rápido que podemos ver
dura 2 meses. De él, podrı́amos observar que, al principio, estuviera, por ejemplo, arriba, el
mes siguiente abajo y, el segundo mes siguiente, de nuevo arriba. Cualquier ciclo más rápido
que ese no es observable directamente (sı́ lo es indirectamente, como veremos más adelante).
Por ejemplo, un ciclo que se complete en un mes no es observable, lo verı́amos, al principio,
arriba y, al mes siguiente, de nuevo arriba, es decir, nunca lo verı́amos abajo. A la frecuencia
correspondiente al ciclo mas rápido observable se le llama frecuencia de Nyquist y, como
hemos visto, corresponde con w = π ó f = 6.
De forma análoga, con series trimestrales, hacemos el cambio
4 ciclos
f = ω π2 = ω 2π año
, (62a)
de donde, ω = f π2 = f 2π rd
4 trimestre
. (62b)
En este caso, la frecuencia f = 1 (w = π2 ) corresponde con ciclos de perı́odo P = 2π ω
=4
trimestres, es decir, que se repiten una vez al año, mientras que la frecuencia f = 2 (w = π)
corresponde con ciclos de perı́odo P = 2π ω
= 2 trimestres, es decir, que se repiten dos veces al
año. La frecuencia de Nyquist es ahora f = 2 (ω = π), de manera que no podemos observar
las frecuencias superiores a f = 2 con nuestras observaciones trimestrales. Como antes, las
frecuencias f ∈ (0, 1) (ω ∈ (0, π2 )) corresponden a ciclos económicos (largos, no estacionales)
y la frecuencia f = ω = 0 define una tendencia.
Las nuevas unidades de frecuencia f que hemos definido, para series tanto mensuales
como trimestrales, son las que emplea el programa TRAMO-SEATS.
Si en lugar de muestrear la serie cada instante de tiempo, la muestreamos cada ∆t 6= 1
unidades de tiempo, todo es análogo. En efecto, los instantes de observación son ahora
0, ∆t, 2∆t, · · · y, si estamos en el instante 0, entonces la oscilación mas rápida que podemos
observar es (si partimos de estar, por ejemplo, arriba), la que baja en ∆t y sube en 2∆t, es
26
decir la que dura 2∆t instantes de tiempo, por tanto, la frecuencia máxima observable es la
2π π
2∆t
= ∆t , que es la frecuencia de Nyquist en este caso. Sin embargo, es más sencillo hacer
un cambio de variable lineal en el tiempo, de la forma t∗ = ∆t t
. Ası́, en el nuevo tiempo t∗ ,
nuestra serie se muestrea en los instantes 1, 2, 3, · · · . Por eso, antes, tomábamos como unidad
de tiempo el mes en las series mensuales y el trimestre en las trimestrales.
En los libros y en las salidas de los programas de ordenador, a veces se emplean como
unidades de frecuencia nuestras ω y f , pero otras veces se emplean otras unidades. La clave
para saber cuales unidades se están empleando es ver el rango de frecuencias que consideran,
que siempre será de la forma (0, A), donde A corresponde con ω = π. Mirando en los
listados o gráficas de estimaciones de espectros cuál es el A, podemos deducir facilmente a
qué corresponde cada frecuencia medida en esas unidades con nuestras ω y f . Por ejemplo,
algunos programas toman A = 1, que corresponde con ω = π, por lo cual una frecuencia de
1
2
en esas unidades corresponderá con ω = π2 , o bien, f = 3 para series mensuales y f = 1
para series trimestrales.
Cuando la unidad de tiempo coincide con nuestro intervalo entre dos observaciones con-
secutivas, hemos visto que toda la información útil del espectro se encuentra en el intervalo
ω ∈ [0, π]. Sin embargo, el espectro está definido en todo R, lo que sucede es que, en [−π, 0),
el espectro se determina por ser una función par (vale lo mismo en −ω que en ω) y, en el
resto de valores, se determina por ser una función periódica de perı́odo 2π.
Ahora supongamos que nuestra serie temporal es, en realidad, un proceso estacionario en
tiempo continuo, que nosotros muestreamos en los instantes 0, ∆t, 2∆t, · · · . En este caso, el
espectro de este proceso continuo sigue siendo una función simétrica, pero ya no es periódica,
sino que está definida en todo R y tiende a cero cuando ω tiende a infinito.
π
También hemos dicho que una frecuencia ω0 superior a la de Nyquist (ω = ∆t ) no
es observable, pero serı́a mas correcto decir que se observa solapada con otra frecuencia
ω1 ∈ [ −π , π ]. En concreto ω1 es el único valor comprendido en [ −π
∆t ∆t
, π ] tal que
∆t ∆t
2π
ω1 = ω0 − ∆t
m, (63)
para algún m entero. Si lo que estamos observando es un espectro en una dimensión, entonces
la información de fase (el que las frecuencias sean positivas o negativas) se pierde, y la fórmula
(63) se reduce a
2π
ω1 = |ω0 − ∆t m|, (64)
Este fenómeno de solapamiento (aliasing) es bien conocido. Por ejemplo, en las pelı́culas
de cine, las ruedas de los vehı́culos a veces parecen girar más lentamente de lo normal o,
incluso, ir hacia atrás. Veamos la causa de este efecto.
Si m es cualquier número entero no nulo, entonces las funciones f1 (t) , sen(ω1 t) y
2π
f2 (t) , sen((ω1 + ∆t m)t) son obviamente distintas. Sin embargo, si estamos observándolas
sólo en los instantes n∆t, con n que recorre los números enteros, entonces las dos funciones
coinciden. En efecto,
2π
f2 (n∆t) = sen(ω0 n∆t) = sen((ω1 + ∆t m)n∆t) = sen(ω1 n∆t+2πmn) = sen(ω1 n∆t) = f1 (n∆t).
Es claro que lo mismo ocurre con la función coseno y, por tanto, con la exponencial compleja
eiω1 t . Es decir, las frecuencias ω0 y ω1 definidas antes están, efectivamente, solapadas, debido
a que solo las observamos en instantes discretos.
27
Como ejemplo, tomamos ∆t = 1 y ω0 = 11π 6
, que supera la frecuencia de Niquist π.
Usando (63), es ω1 = 6 − 2π · 1 = − 6 . En la Figura 1 representamos f1 (t) = sen(− π6 t) =
11π π
sen(ω1 t) y f2 (t) = sen(ω0 t) = sen( 11π

6
t), vemos que, efectivamente, coinciden en los t enteros,
a pesar de ser muy distintas en otros puntos.
11π
Figura 1: Ejemplo de solapamiento de las frecuencias ω0 = 6
y ω1 = − π6 con ∆t = 1
Esto implica que el observar la serie en instantes discretos de la forma n∆t hace que el
espectro de la serie en tiempo continuo se deforme, de tal manera que la parte del espectro de
las frecuencias superiores en valor absoluto a la de Nyquist se acumula a la de las frecuencias
comprendidas en el intervalo [ −π , π ].
∆t ∆t
En concreto, si el espectro del proceso en tiempo continuo, que en general toma valores
en todas las frecuencias reales, es
g(ω), ω ∈ (−∞, +∞)
y nosotros, en vez de observar el proceso en tiempo continuo, lo observamos en instantes

discretos del tipo k∆t, k ∈ Z, el proceso del proceso discreto que observamos es
∞
X
2π 2π 2π
f (ω) = g(ω + k ∆t ), ω ∈ (− ∆t , ∆t )
k=−∞
Es decir, lo que nosotros observamos es un espectro acumulado y truncado f (ω) que, en

2π 4π 2π
cada punto ω acumula el espectro verdadero en g(ω), g(ω + ∆t ), g(ω + ∆t ), · · · , g(ω − ∆t ),
4π
g(ω − ∆t ), · · · . De esta forma, si ∆t es relativamente grande, truncaremos mucho el espectro
verdadero y acumularemos mucho en cada ω ∈ [−2π/∆t, 2π/∆t], resultando un espectro
f (ω) bastante distinto del original g(ω).
En el ejemplo cinematográfico, suponiendo que la pelı́cula esté filmada a una velocidad de
24 fotogramas por segundo (algo bastante común), es ∆t = 1/24 ≈ 0,0416667 segundos. La
π rd
frecuencia de Nyquist será de ∆t s
= 24π rds = 12 ciclos
s
≈ 75,39822 rds
. Es decir, el movimiento
cı́clico más rápido que podemos observar completa 12 ciclos por segundo, que corresponden
28
2π 1
con un perı́odo P = 24π = 12 s. Por tanto, el giro de las ruedas de un vehı́culo, con ruedas
de radio 40cm, que circule a 120 km h
= 120000
3600 s
m
= 1200 1 ciclos
36 2π0,4 s
≈ 13,26291 ciclos
s
es demasiado
rápido para observarlo tal como es y lo observamos solapado con un giro de frecuencia
(velocidad angular) distinta. En concreto, como la frecuencia de las ruedas del vehı́culo es de
1200 rd
ω0 = 36·0,4 s
≈ 83,33333 rd
s
, será m = 1 en (63), es decir, ω1 = ω0 − 2 · 24π · 1 = −67,46311 rd
s
.
67,46311
En palabras, veremos las ruedas girando hacia atras a unos 2π ≈ 10,73709 ciclos
(vueltas) por segundo. El que las ruedas giren al contrario cuando tenemos una frecuencia
negativa respecto de una positiva se debe a que las ecuaciones paramétricas y = cos(u),
x = sen(u), con u ∈ [−π, π] recorren una circunferencia en sentido contrario a las y =
cos(−u) = cos(u), x = sen(−u) = − sen(u).
Como ejercicio, calcular la velocidad a la que deberá circular el vehı́culo para que nos
parezca que sus ruedas no giran.
Solución
Partimos de que ω1 = 0. Para que la velocidad del vehı́culo sea razonable (parecida a la
del ejemplo), será m = 1, por tanto, de (63), ω0 = (0 + 2 · 24π · 1) rd
s
= 48π rd
s
= 24 ciclos
s
=
m 3600 km km
24 · 2π · 0,4 s = 19,2π 1000 h ≈ 217,1469 h
Otro ejercicio, más cercano a lo que utilizaremos al hacer ajuste estacional, consiste en
calcular con qué frecuencia estará solapada la frecuencia de un ciclo semanal, cuando obser-
vamos mensualmente nuestra serie temporal. Hacer el mismo cálculo para un ciclo semanal
en una serie observada trimestralmente, para un ciclo diario en una serie observada mensual-
mente, para un ciclo diario en una serie observada trimestralmente, para un ciclo bisemanal
(de 14 dı́as, a veces se le llama quincenal) en una serie observada mensualmente y para
un ciclo bisemanal en una serie observada trimestralmente. En todos los casos, utilizar la
duración media de un mes o de un trimestre suponiendo que, de cada cuatro años, uno es
bisiesto, lo cual es cierto entre los años 1900 y 2100. Estamos suponiendo implı́citamente que
las observaciones mensuales o trimestrales de nuestra serie son acumulaciones de observa-
ciones diarias o de frecuencia todavı́a mayor que la diaria, de tal forma que, en ellas, puede
haber ciclos bisemanales, semanales o, incluso, diarios.
Solución
En primer lugar, la duración de un mes medio en dias, si uno de cada cuatro años es
bisiesto, es de 3·365+366
12·4
dias
mes
= 30,4375 dias
mes
. Con la misma hipótesis, la duración de un
3·365+366 dias dias
trimestre medio es de 4·4 trimestre
= 91,3125 trimestre
El perı́odo promedio de un ciclo semanal en observaciones mensuales será de P0 =

7
30,4375
meses ≈ 0,22998meses, por lo que la frecuencia promedio será ω0 = P2π0 mes rd
≈
rd
27,32064 mes . Como estamos tomando el mes como unidad de tiempo y de observación,
rd
es ∆t = 1, la frecuencia de Nyquist es π y, por (63), será ω1 = ω0 − 2π(4) ≈ 2,1879 mes ,
que corresponde con f1 = ω1 π6 ≈ 4,1786 ciclos
año
. Es decir, si en nuestras observaciones
mensuales hay oculto algún ciclo semanal, podemos esperar un pico en la estimación
del espectro cerca de esta frecuencia. Si nuestros datos tienen, además, estacionalidad
observable directamente, tendremos también picos en la estimación del espectro en
algunas de las frecuencias estacionales f ∈ {1, 2, 3, 4, 5, 6}, afortunadamente, f1 ≈
29
4,1786 no está tan pegado a f = 4 como para no poder distinguir si el pico se debe a
un ciclo semanal o a un posible ciclo estacional que se repite 4 veces al año.
7
Análogamente al caso anterior, será P0 = 91,3125 trimestres ≈ 0,07666 trimestres,
2π rd rd rd
ω0 = P0 trimestre ≈ 81,96191 trimestre , ω1 = ω0 − 2π(13) ≈ 0,2805 trimestre , f1 = ω1 π2 ≈
0,1786 ciclos
año
.
1
(Ciclo diario en observaciones mensuales.) P0 = 30,4375 meses ≈ 0,03285 meses, ω0 =
2π rd
P0 mes
≈ 191,2445 mes , ω1 = ω0 − 2π(30) ≈ 2,748894 mes , f1 = ω1 π6 ≈ 5,25 ciclos
rd rd
año
.
1
(Ciclo diario en observaciones trimestrales) P0 = 91,3125
trimestres ≈
2π rd rd
0,01095 trimestres, ω0 = P0 trimestre ≈ 573,7334 trimestre , ω1 = ω0 − 2π(91) ≈
rd
1,9635 trimestre , f1 = ω1 π2 ≈ 1,25 ciclos
año
.
14
(Ciclo bisemanal en observaciones mensuales.) P0 = 30,4375 meses ≈ 0,45996 meses,
2π rd
ω0 = P0 mes ≈ 13,66032 mes , ω1 = ω0 − 2π(2) ≈ 1,09395 mes , f1 = ω1 π6 ≈ 2,0893 ciclos
rd rd
año
.
14
(Ciclo bisemanal en observaciones trimestrales.) P0 = 91,3125 trimestres ≈
2π rd rd
0,15332 trimestres, ω0 = P0 trimestre ≈ 40,98095 trimestre , ω1 = ω0 − 2π(7) ≈
rd
−3,001343 trimestre , f1 = ω1 π2 ≈ −1,910714 ciclos
año
. Como el espectro pierde la información
de fase, por (64), lo veremos como un ciclo de 1,910714 ciclosaño
Para comprobar los cálculos anteriores, como siempre es ∆t = 1, podemos ver si,
efectivamente, en cada caso, se cumple que sen(ω0 n) = sen(ω1 n) y cos(ω0 n) = cos(ω1 n),
para distintos valores de n enteros.
Hay, principalmente, dos factores que influyen en la posibilidad de observar indirecta-

mente en el espectro un ciclo de frecuencia superior a la de Nyquist. El primero es la
cercanı́a de la frecuencia con la que se solapa (frecuencia alias) con la de algún pico es-
pectral causado por la tendencia o por algún ciclo estacional observable directamente.
En este sentido, cuanto mas cerca estemos de las frecuencias f ∈ {0, 1, 2, 3, 4, 5, 6} (en
el caso mensual, en el caso trimestral será cuanto mas cerca estemos de las frecuencias
f ∈ {0, 1, 2}) más difı́cil será que lo observemos. El segundo factor es el valor de m,
pues el espectro de un proceso continuo tiende a cero y, cuanto mayor sea m en valor
absoluto, mas lejos estamos de la frecuencia de Nyquist, más pequeño será el pico es-
pectral del ciclo no observable directamente, y más puede el ciclo quedar enmascarado
por los errores de estimación del espectro.
Por eso, en caso de que existan, los dos ciclos que más posibilidades tenemos de observar
indirectamente son el semanal en observaciones mensuales y, en menor medida, el
bisemanal en observaciones mensuales.
30
6.5. Estimación del espectro
Dada una serie temporal x1 , · · · , xT , en principio, podemos pensar en estimar su espectro,
al menos, de dos formas distintas. La primera consiste en calcular su periodograma. La
segunda consiste en ajustar un modelo ARMA a la serie y calcular el espectro de un proceso
ARMA con los parámetros estimados para la serie.
La segunda opción presenta la dificultad de tener que estimar el modelo y suponer que
la estimación sea razonablemente buena. Por eso, puede parecer una opción poco recomen-
dable. Sin embargo, la primera opción también tiene un problema importante, dado que el
periodograma es un estimador insesgado del espectro, pero no es consistente.
6.5.1. El periodograma
Usando (41) y (52), escribimos las observaciones de nuestra serie en las formas
d d c
X it
2jπ X 2πjt X 2πjt
xt = λj e T = a0 + aj cos( )+ bj sen( ),
j=−c j=1
T j=1
T
donde c , T −1 , d , T2 y, por (39), ωj , 2jπ

2 T
, j ∈ {−c, · · · , d} son las frecuencias de
Fourier.
Se define el periodograma como la sucesión finita de puntos I(ωj ) dada por
I(ωj ) = |λj |2 , j ∈ {−c, · · · , d}. (65)
Como (47) dice que kxk2 =< x, x >= (1/T ) Tt=1 x2t = dj=−c |λj |2 , la interpretación de
P P
(65) es, para una serie de media cero, que I(ωj ) es la contribución de la frecuencia ωj a la
varianza de la serie.
Por ser λ−j = λ̄j , j ∈ {1, · · · , c}, la información del periodograma está contenida en los
I(ωj ), j ∈ {0, 1, · · · , d}. Por este motivo, a veces se trabaja con otra definición de periodo-
grama en la que se agregan las frecuencias λ−j con las λj , j ∈ {1, · · · , c}.
El periodograma se introdujo a finales del siglo diecinueve como una herramienta para
buscar componentes periódicas en una serie.
Se puede realizar inferencia a partir del periodograma. La forma mas habitual es utilizar
el test de Fisher. Llamando M , máx{I ∗ (ωj )} (donde I ∗ denota el periodograma en que se
agega cada frecuencia con su opuesta), bajo la hipótesis de que nuestra serie es ruido blanco,
el estadı́stico
M
W = P[T /2] (66)
∗
j=1 I (ωj )
sigue una distribución que se puede tabular fácilmente. Por tanto, si el valor de W para
nuestra serie supera un valor crı́tico de esa distribución, se rechaza la hipótesis de ruido
blanco y tenemos evidencia de que hay una componente periódica de frecuencia igual a la
frecuencia donde se alcanza el máximo M .
31
6.5.2. El espectro muestral. Suavizado
El espectro de una serie estacionaria con función de autocovarianza absolutamente su-
mable se escribe en la forma
∞ ∞
!
1 X ijω 1 X
f (ω) = γj e = γ0 + 2 γj cos(ωj) , ω ∈ [−π, π]. (67)
2π j=−∞ 2π j=1
Un estimador natural suyo consiste en sustituir las γj por sus estimaciones muestrales (hasta
la γT −1 , pues a partir de ella, las demás no se pueden estimar). Es decir,
T −1 T −1
!
1 X 1 X
fˆ(ω) = γ̂j eijω = γ̂0 + 2 γ̂j cos(ωj) , ω ∈ [−π, π]. (68)
2π j=−T +1 2π j=1
A esto se llama espectro muestral.

En primer lugar veamos que, en las frecuencias de Fourier no nulas, hay una relación
muy importante entre el periodograma y el espectro muestral, en concreto,
2jπ
T I(ωj ) = 2π fˆ(ωj ), donde ωj = y j 6= 0. (69)
T
PT
En efecto, si llamamos m = (1/T ) j=1 xj , es
T T
" T T
#
1 X X X X
T I(ωj ) = T |λj |2 = xt e−itωj x̄s eisωj = e−itωj = eitωj = 0 =
T t=1 s=1 t=1 t=1
T T T T
1X X 1 XX
(xt − m)e−itωj (x̄s − m̄)eisωj = (xt − m)(x̄s − m̄)e−i(t−s)ωj =
T t=1 s=1
T t=1 s=1
T −s T T −s
1 X X −ikωj 1 X
[s = s, k = t − s] = (xs+k − m)(x̄s − m̄)e = γ̂k e−ikωj
T k=1−s s=1 T k=1−s
T −1
X
[s ∈ {1, · · · , T }] = γ̂k e−ikωj = 2π fˆ(ωj ).
k=−T +1
Este estimador es asintóticamente insesgado, es decir, lı́mT →∞ E[fˆ(ω)] = f (ω), lo cual es

una propiedad deseable. Sin embargo, no es consistente, puesto que su varianza es V ar(fˆ(ω)) =
[f (ω)]2 , la cual no tiende a cero cuando T → ∞. Además, si j 6= k, Cov(fˆ(ωj ), fˆ(ωk )) = 0.
Por estos motivos, el espectro muestral no es muy útil como estimador del espectro verdadero.
Para que (68) fuera un estimador consistente no basta con hacer tender T a infinito,
sino que tendrı́amos que conseguir que, además, la separación entre los instantes en que se
muestrea la serie tendiera a cero. Esto es imposible en las series macroeconómicas habituales,
que no se pueden obtener con alta frecuencia, debido a la gran cantidad de información que
es necesario recoger para su elaboración y a lo complejo del proceso.
Pore este motivo, para conseguir un estimador consistente, recurriremos a suavizar el
espectro muestral o el periodograma. El suavizado se puede hacer en el dominio del tiempo
o, equivalentemente, en el dominio de la frecuencia.
32
En el dominio de la frecuencia, lo que se hace es escoger una familia de funciones VT (µ),
llamada ventana espectral o núcleo, que cumpla las condiciones
Z π
VT (λ)dλ = 1, (70a)
−π
VT (−µ) = VT (µ), (70b)

Z π
1
lı́m T VT2 (µ)dµ = 0. (70c)
T →∞ −π
Se utiliza entonces el estimador

Z π
fˆV (ω) = VT (µ)fˆ(ω − µ)dµ. (71)
−π
Se demuestra que, bajo hipótesis razonables de suavidad del espectro verdadero, este esti-
mador es insesgado y consistente.
Una versión discreta de este suavizado, que es la que se suele implementar en los progra-
mas de ordenador, utiliza solo las frecuencias de Fourier y la ventana, discreta en este caso,
cumple
XnT
VT (ωj ) = 1, (72a)
j=−nT
VT (−ωj ) = VT (ωj ), (72b)

nT
X
lı́m VT2 (ωj ) = 0. (72c)
T →∞
j=−nT
En este caso discreto, el estimador suavizado es

nT
X
fˆV (ωk ) = VT (ωj )fˆ(ωk − ωj )dµ, (73)
j=−nT
es decir, restamos frecuencias ωj pequeñas (no mayores que ωnT en valor absoluto) a ωk ,
para ası́ promediar fˆ en frecuencias cercanas a ωk con la ventana.
En la implementación de esta fórmula, se trabaja solo sobre las frecuencias de Fourier en
[0, π], dada la simetrı́a del espectro.
En el dominio del tiempo, también se considera una familia de funciones UT (j), esta vez
definida para los números enteros j, llamada ventana de retardos. En concreto, se estima en
la forma
NT
ˆ 1 X
fU (ω) = UT (j)γ̂j e−iωj , (74)
2π j=−N
T
donde NT es un valor que depende de T y que dice cual es el lı́mite de los retardos que
intervienen en el estimador. Se suele tomar UT (j) = U (j/NT ), donde U (j) es una función
continua que cumple U (x) ≤ 1, U (0) = 1, U (x) = U (−x) y U (x) = 0, si |x| ≥ 1. En palabras,
el estimador pondera mas a las autocovarianzas con retardos pequeños a la hora de suavizar.
33
El hecho de que la función de autocovarianza y el espectro sean un par de transformadas
de Fourier implica que dos ventanas, una de retardos UT y otra espectral VT que produzcan
el mismo efecto sobre un mismo espectro estimado también son un par de transformadas de
Fourier.
Veamos algunas de las ventanas mas utilizadas en la práctica.
1. Ventana rectangular o truncada

La ventana de retardos usa
(
1, |x| ≤ 1
U R (x) = (75)
0, |x| > 1,
y se define, por tanto, en la forma

(
1, |j| ≤ NT
UTR (j) = (76)
0, |j| > NT .
Su ventana espectral correspondiente es el llamado núcleo de Dirichlet,
1 sen(ω(NT + 1/2))
VTR (ω) = . (77)
2π sen(ω/2)
Esta ventana es de importancia práctica limitada, pues puede producir algunas esti-
maciones del espectro negativas.
2. Ventana de Bartlett o triangular

La ventana de retardos se basa en
(
1 − |x|, si |x| ≤ 1
U B (x) = (78)
0, si |x| > 1.
luego es (
B 1 − N|j|T , si |j| ≤ NT
UT (j) = (79)
0, si |j| > NT .
La ventana espectral correpondiente es el llamado núcleo de Fejer,
1 sen2 (NT ω/2)

VTB (ω) = , (80)
2πNT sen2 (ω/2)
el cual, al ser no negativo no puede producir estimaciones negativas del espectro.

Además, la varianza asintótica de las estimaciones del espectro usando esta ventana
son menores que las de la ventana rectangular.
3. Ventana de Daniell
34
Es una ventana rectangular aplicada al espectro, es decir,
(
s
, si |ω| ≤ πs
VsD (ω) = 2π (81)
0, si |ω| > πs ,
Teniendo en cuenta que, para j no negativo, ωj = 2πjT

≤ πs equivale a j ≤ T
2s
, su versión
discreta es (
1
T
D 2n+1
, si |j| ≤ 2s ,
VT (j) = T (82)
0, si |j| > 2s ,
T
donde n , 2s .
La función seno cardinal es la que define la ventana de retardos correspondiente, es
decir, U D (x) = sen(πx)
πx
, por tanto,
4. Ventana de Blackmann-Tukey
La ventana de retardos está basada en la función
(
1 − 2a + 2a cos(πx) si |x| ≤ 1
U T (x) = (83)
0, si |x| > 1,
y se define, por tanto, como

(
T 1 − 2a + 2a cos( NjπT ), si |j| ≤ NT ,
UT (j) = (84)
0, si |j| > NT .
La ventana espectral correspondiente resulta ser una suma ponderada de ventanas

espectrales asociadas a una ventana de retardos rectangular (o sea, de núcleos de
Dirichlet dados en (77)). En concreto,
VTT (ω) = aVTR (ω − π/NT ) + (1 − 2a)VTR (ω) + aVTR (ω + π/NT ). (85)
Por tanto, también puede producir estimaciones negativas del espectro.

Cuando a = 0,23, se llama a la ventana resultante de Hamming o de Tukey-Hamming
y cuando a = 0,25 se llama de Hanning, de Tukey-Hanning o de Tukey.
5. Ventana de Parzen La ventana de retardos se basa en la función

2 3
1 − 6x + 6|x| , si |x| ≤ 1/2,

U P (x) = 2(1 − |x|3 ), si 1/2 < |x| ≤ 1, (86)

0, si |x| > 1,

y se define como
 2 3


 − 6 NT + 6 N|j|T , si |j| ≤
1
j NT
2
,
3
UTP (j) = 2 1 − |j| , si NT < |j| ≤ NT , (87)

 NT 2

0, si |j| > N .
T
35
La ventana espectral correspondiente es
2 sen(ω/2))2
4
P 6 sen (ωNT /4)
VT (ω) = 1 − (88)
3 πNt3 sen4 (ω/2)
Un problema importante es la elección del tamaño de la ventana, es decir, del parámetro del
cual depende la ventana. Si la ventana es demasiado grande, la varianza de la estimación
del espectro es pequeña, pero el sesgo es grande, es decir, se suaviza demasiado el espectro
y no se pueden distinguir picos espectrales que no estén muy separados, mientras que si la
ventana es demasiado pequeña, el sesgo es pequeño, pero la varianza es grande, o sea, la
resolución es mayor, pero la estimación no es muy estable.
Un método sencillo para determinar un NT adecuado es comenzar con NT grande, e ir
reduciéndolo y comparando las estimaciones del espectro resultante, hasta que la estimación
parezca adecuada.
Otro método que se usa a veces consiste en tomar NT tal que las autocovarianzas mues-
trales γ̂j , para j > Nt sean muy pequeñas.
T
Otra regla práctica es tomar NT = 10 .
Este es un tema sobre el que existe abundante literatura.
6.5.3. Estimación basada en modelos ARMA

Supongamos que nuestra serie temporal sigue el modelo ARMA estacionario φ(B)yt =
θ(B)εt . Sabemos que su espectro viene dado por
σε2 θ(eiω )θ(e−iω )

f (ω) = . (89)
2π φ(eiω )φ(e−iω )
Si ajustamos el modelo anterior aproximándolo por el modelo φ̂(B)yt = θ̂(B)εt , podemos

estimar el espectro sustituyendo los parámetros teóricos por sus estimadores, es decir,
σ̂ 2 θ̂(eiω )θ̂(e−iω )
fˆ(ω) = ε . (90)
2π φ̂(eiω )φ̂(e−iω )
La calidad de esta estimación espectral depende de la calidad del modelo ajustado y, en

particular, de la elección de p y q. En la práctica, si la estimación del modelo es buena, esta
estimación espectral suele funcionar bien.
Otra posibilidad mas sencilla de llevar a la práctica es ajustar un modelo AR(p) a la serie
para un valor p alto. La ventaja es que es mucho mas sencillo ajustar un modelo AR que un
modelo ARM A.
De esta manera, debido a la representación AR(∞) de todo proceso invertible, para p
grande tendremos una buena aproximación al espectro verdadero. El inconveniente es que
tenemos que estimar un número elevado de parámetros, lo cual puede ser un problema si
nuestra serie temporal es corta.
36
7. Filtros
7.1. Filtros lineales
Se define un filtro
P∞en tiempo discreto Fα , basado en unaPsucesión de números complejos
∞ ∞
{αj }j=−∞ , tal que j=−∞ |αj | < ∞, en la forma Fα (st ) = j=−∞ αj st−j , cuando esta serie
sea convergente, donde {st }∞ t=−∞ es cualquier sucesión de números reales o complejos.
La definición anterior se puede extender a procesos estacionarios en sentido amplio, en
lugar de sucesiones reales o complejas st , es decir, si xt es un proceso estacionario en sentido
amplio,
X∞ X ∞
Fα (xt ) = αj xt−j = αj B j xt = α(B)xt (91)
j=−∞ j=−∞
y el resultado es otro proceso estacionario en sentido amplio.

Se llama función de transferencia del filtro a una función compleja T (λ), definida para
cada λ ∈ R, tal que
Fα (eiλt ) = T (λ)eiλt . (92)
Podemos calcular la expresión de la función de transferencia, pues, de (91), es
∞
X ∞
X
iλt
Fα (e ) = αj e iλ(t−j)
=e iλt
αj e−iλj , (93)
j=−∞ j=−∞
es decir,
∞
X
T (λ) = αj e−iλj = α(e−iλ ) (94)
j=−∞
Resulta que la función de transferencia T (λ) determina por completo la acción del filtro, en
el sentido de que, dadaPcualquier señal que se pueda escribir en la forma (por ejemplo, una
∞ iλt
señal periódica) xt = λ=−∞ αλ e , es
∞
X
Fα (xt ) = αλ T (λ)eiλt . (95)
λ=−∞
7.2. Ganancia y fase

Utilizando la forma polar de un número complejo, es αλ = |αλ |eiψ(λ) y T (λ) = |T (λ)|eiν(λ) .
Por tanto,
∞
X X∞
iλt
xt = αλ e = |αλ |ei(λt+ψ(λ)) , (96)
λ=−∞ λ=−∞
∞
X
Fλ (xt ) = |αλ ||T (λ)|ei(λt+ψ(λ)+ν(λ)) , (97)
λ=−∞
lo cual nos dice que, dada la serie original xt , cada una de las componentes de frecuencias λ
que la componen ve multiplicada su amplitud por |T (λ)| y ve cambiada su fase de ψ(λ) a
ψ(λ) + ν(λ).
37
En palabras, la función |T (λ)|, llamada función de ganancia del filtro, nos dice por qué
cantidad queda multiplicada la amplitud para cada frecuencia λ y la función ν(λ), llamada
función de cambio de fase del filtro, nos dice qué cantidad queda sumada a la fase para
cada frecuencia λ. Esto último se deduce de observar que la función eiλt queda transformada
en la ei(λt+ν(λ)) , es decir, queda desfasada. El desfase lo estamos midiendo en unidades de
frecuencia λ, si queremos medirlo en unidades de tiempo, entonces utilizaremos la función de
cambio de tiempo ξ(λ) , ν(λ) λ
. Esto se debe a que, para una función periódica como el seno
(es análogo para el coseno o la exponencial compleja), tenemos que si xt = aλ sen(λt + ψ(λ)),
con amplitud aλ , frecuencia λ y fase ψ(λ), el efecto que produce un filtro Fα es, como
hemos visto, cambiar la amplitud a aλ |T (λ)| y la fase a ψ(λ) + ν(λ), de manera que Fα (xt ) =
αλ |T (λ)| sen(λt+ψ(t)+ν(t)) = αλ |T (λ)| sen(λ(t+ ν(λ)λ
)+ψ(t)), de manera que la serie filtrada
la podemos entender como que, para cada frecuencia λ, tiene nueva amplitud αλ |T (λ)|, la
misma fase ψ(λ) y la misma frecuencia λ, pero en un instante de tiempo distinto a t, en
concreto en t + ν(λ) λ
= t + ξ(λ), es decir, adelantada (si ξ(λ) > 0) o retrasada (si ξ(λ) < 0)
ξ(λ) unidades de tiempo. Cuando ξ(λ) no es una constante (es decir, cuando de verdad
depende de λ), se dice que hay distorsión de fase (la señal queda distorsionada, pues, para
cada frecuencia, hay un retraso o adelanto diferente de la señal).
Se puede demostrar que, para series temporales reales xt (solo trabajaremos con series
reales), ha de ser
|T (−λ)| = |T (λ)|, (98a)
ν(−λ) = −ν(λ) (función impar), (98b)
esto último implica que la función de cambio de tiempo ξ(λ) = ν(λ) λ
es par, por ser cociente
de dos funciones impares.
También se puede ver que si una serie temporal xt es estacionaria en sentido amplio y
tiene espectro fx (ω), entonces la serie yt = Fα (xt ) también es estacionaria y su espectro es
fy (ω) = |α(eiω )|2 fx (ω) = |T (λ)|2 fx (ω), (99)
donde
|α(eiω )|2 = α(eiω )α(e−iω ) = |T (λ)|2
se llama a veces función de transferencia de la potencia.
Se puede demostrar que un filtro Fα con coeficientes reales tiene función de cambio de fase
ν(λ) idénticamente nula si y solamente si el filtro es definido no negativo. Se dice que el filtro
Fα es definido no negativo, si para todo entero positivo n y paraPtodo conjunto de números
n Pn
complejos c−n , c−n+1 , · · · , c−1 , c0 , c1 , · · · , cn−1 , cn , se cumple que j=−n k=−n cj c̄k αj−k ≥ 0,
es decir, esta suma es real y no negativa.
Es sencillo ver que todo filtro definido no negativo es simétrico, (α−j = αj , para todo
j ∈ Z), sin embargo, un filtro simétrico puede no ser definido no negativo. También se puede
ver que todo filtro simétrico tiene función de transferencia real, esto implica que solo puede
ser ν(λ) ∈ {0, π, −π} (eν(λ) solo es real para estos valores de ν(λ), en concreto ei·0 = 1 y
e−iπ = eiπ = −1).
38
7.3. Operaciones con filtros
Dados dos filtros F1 y F2 (denotamos Fi , Fαi ) con funciones de transferencia respectivas
T1 y T2 , y dados c1 , c2 ∈ C, se define el filtro F3 , c1 F1 + c2 F2 en la forma
F3 (xt ) , c1 F1 (xt ) + c2 F2 (xt ), (100)
y se demuestra que su función de transferencia es T3 (λ) = c1 T1 (λ) + c2 T2 (λ). No se puede, en

general, dar fórmulas sencillas para determinar las funciones de ganancia y cambio de fase
de F3 en función de las de F1 y F2 .
Esta operación está bien definida sobre una señal xt siempre que lo estén las de los dos
filtros F1 y F2 y, en este caso, además, es c1 F1 + c2 F2 = c2 F2 + c1 F1 . Como caso particular,
si c1 = c2 = 1, tenemos la suma de los dos filtros, también llamada aplicación en paralelo de
los dos filtros.
Se define también el producto (o aplicación en serie, o aplicación en cascada) de dos
filtros, como el filtro F4 , F2 ◦ F1 = F2 (F1 ), que actua en la forma
F4 (xt ) , F2 (F1 (xt )). (101)
Para que esta operación esté bien definida sobre una señal xt , han de estarlo F1 (xt ) y
F2 (F1 (xt )). Si estan definidos F1 (xt ), F2 (xt ), F2 (F1 (xt )) y F1 (F2 (xt )), entonces esta ope-
ración es conmutativa, es decir F2 ◦ F1 = F1 ◦ F2 .
Se cumple T4 (λ) = T1 (λ)T2 (λ), incluso hay expresiones sencillas para las funciones de
ganancia y cambio de fase, que son |T4 (λ)| = |T1 (λ)||T2 (λ)| y ν4 (λ) = ν1 (λ) + ν2 (λ) respec-
tivamente.
7.4. Filtros ideales básicos

Se llama filtro identidad I, también llamado filtro de paso a todo, a cualquier filtro que
cumple que I(xt ) = xt , para toda señal xt . Es claro que la función de transferencia de este
filtro es T (λ) = 1, para todo λ.
Dada una frecuencia λ0 , se llama filtro (ideal) de paso de baja frecuencia para λ0 a
cualquier filtro cuya función de transferencia cumpla
(
1, si |λ| ≤ λ0
T (λ) = (102)
0, en otro caso
y se llama filtro (ideal) de paso de alta frecuencia para λ0 a cualquier filtro cuya función de
transferencia cumpla (
1, si |λ| > λ0
T (λ) = (103)
0, en otro caso
El calificativo ideal se debe a que, para encontrar filtros con estas funciones de transferencia,
necesitarı́amos tomar infinitos αj no nulos, pero, como nuestra serie temporal va a ser de
longitud finita, sólo podemos filtrarla con un filtro que tenga una cantidad finita de αj no
nulos, entonces tendremos que truncar el filtro ideal y, al hacerlo, la función de transferencia
del filtro truncado ya no será la misma que la del filtro ideal.
39
Es claro que, dado un filtro de paso de baja frecuencia Fα para λ0 , el filtro I − Fα es
un filtro de paso de alta frecuencia para λ0 y también que, dado un filtro de paso de alta
frecuencia Fβ para λ0 , el filtro I − Fβ es un filtro de paso de baja frecuencia para λ0 .
Se llama filtro de paso de banda (ideal) para las frecuencias λ1 < λ2 a todo filtro que
cumpla (
1, si λ1 < |λ| ≤ λ2
T (λ) = (104)
0, en otro caso
Claramente, un filtro de paso de banda para las frecuencias λ1 < λ2 se puede crear mediante
la aplicación en serie de dos filtros, uno de paso de baja frecuencia para λ2 y otro de paso
de alta frecuencia para λ1 . El orden en que se apliquen los dos filtros no afecta al resultado.
Un filtro de intervalo (notch filter) (ideal) para las frecuencias λ1 < λ2 es todo filtro que
cumpla (
0, si λ1 ≤ |λ| < λ2
T (λ) = (105)
1, en otro caso
y se puede obtener como I − F , donde F es un filtro de paso de banda para las frecuencias
λ1 < λ2 .
7.5. Algunos ejemplos de filtros

7.5.1. Operador de diferencia regular
El operador de diferencia regular es Fα yt = ∆yt = (1 − B)yt = yt − yt−1 , que se basa en
una sucesión α con todos sus elementos nulos excepto α0 = 1 y α1 = −1.
Si usamos (94) y escribimos el resultado en forma polar (para obtener las funciones de
ganancia y de fase), resulta

2| sen( λ )|ei π−λ
2 si λ ≥ 0,
−iλ 2
T (λ) = 1 − e = (106)
2| sen( λ )|e−i π+λ
2 si λ < 0,
2
λ
( las funciones de ganancia es T (λ) = 2| sen( 2 )| y la función de cambio de fase es
por tanto,
π−λ
2
si λ > 0,
ν(λ) = π+λ
La función de cambio de fase no está definida en λ = 0, pero esto
− 2 si λ < 0.
no es relevante, pues la ganancia es nula para λ = 0.
Como ejercicio, se pide
1. Representar gráficamente las funciones de ganancia, cambio de fase y cambio de tiem-

po tomando una cantidad finita de valores λ ∈ [−π, π], evaluando numéricamente la
función de transferencia para estos valores (usando (94)) y calculando los módulos y
argumentos del resultado.
2. Comparar la función de ganancia con la de un filtro ideal de paso de banda para

frecuencias mayores que λ0 = 1.
3. Comentar la función de cambio de tiempo en relación con el cuadrado de la ganancia.
40
Solución
1. Las sentencias de R
l=seq(0,pi,2*pi/5000)
f=l*6/pi
ll=matrix(0,nrow=1,ncol=length(l))
g1<-1+0i-exp(-(0+1i)*l) # filtro 1-B
par(mfrow=c(3,1))
plot(f,Mod(g1),type=’l’,xlim=c(0,6),ylim=c(0,4))
lines(f,(Mod(g1))^2,type=’l’,col="blue")
plot(f,Arg(g1), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,6))
lines(f,ll,col="red",type="l",lty=3)
plot(f,Arg(g1)/l, type =’p’, pch=".",ylim=c(-5,5),xlim=c(0,6))
lines(f,(Mod(g1))^2,type=’l’,col="blue",lty=4)
generan los gráficos de la Figura 2.
2. La ganancia de un filtro ideal de paso de banda para frecuencias mayores que λ0 = 1 es

un escalón de altura 1 para esas frecuencias y su cuadrado coincide con ella, mientras
que el cuadrado de la del filtro 1 − B llega a valer 4. Vemos pues que el filtro 1 − B
está bastante lejos de ser un filtro ideal de paso de banda.
3. Vemos que el filtro nos adelanta en el tiempo los ciclos asociados a frecuencias bajas,
pero este efecto es muy pequeño, debido a que las frecuencias bajas son las que menos
deja pasar el filtro.
7.5.2. Operador de diferencia estacional para series trimestrales y mensuales

El operador de diferencia estacional para series trimestrales es Fα yt = ∆4 yt = (1−B 4 )yt =
yt − yt−4 = α(B)yt , con α0 = 1, α4 = −1 y αj = 0 en otro caso.
El operador de diferencia estacional para series mensuales es Fα yt = ∆12 yt = (1−B 12 )yt =
yt − yt−12 = α(B)yt , con α0 = 1, α12 = −1 y αj = 0 en otro caso.
Más adelante calcularemos las funciones de ganancia, cambio de fase y cambio de tiempo
de estos operadores, de momento lo haremos numéricamente como ejercicio. En concreto, se
pide representar gráficamente las funciones de ganancia, cambio de fase y cambio de tiempo
de estos dos operadores, tomando una cantidad finita de valores λ ∈ [−π, π], evaluando
numéricamente la función de transferencia para estos valores (usando (94)) y calculando los
módulos y argumentos del resultado.
Solución
1. Para el caso de diferencia estacional trimestral, hacemos
41
4
3
Mod(g1)
2
1
0
0 1 2 3 4 5 6
f
3
2
1
Arg(g1)
0
−3 −2 −1
0 1 2 3 4 5 6
f
4
2
Arg(g1)/l
0
−2
−4
0 1 2 3 4 5 6
f
Figura 2: Funciones de ganancia, su cuadrado (azul), cambio de fase y cambio de tiempo

(junto al cuadrado de la ganancia), para el filtro 1 − B.
l=seq(0,pi,2*pi/5000)
fm=l*2/pi
g4<-1+0i-exp(-(0+1i)*l*4) # filtro 1-B^4
par(mfrow=c(3,1))
plot(fm,Mod(g4),type=’l’,xlim=c(0,2),ylim=c(0,4))
lines(fm,(Mod(g4))^2,type=’l’,col="blue")
plot(fm,Arg(g4), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,2))
42
lines(fm,ll,col="red",type="l",lty=3)
plot(fm,Arg(g4)/l, type =’p’, pch=".",ylim=c(-5,5),xlim=c(0,2))
lines(fm,ll,col="red",type="l",lty=3)
lines(fm,(Mod(g4))^2,type=’l’,col="blue",lty=4)
y obtenemos el resultado de la Figura 3.

El filtro elimina las frecuencias estacionales y la frecuencia nula. Los mayores cam-
bios de tiempo se producen cerca de estas frecuencias, aunque los ciclos del rango de
frecuencias aproximado f ∈ [0,15, 0,35] están bastante adelantados en el tiempo y no
están amortiguados por el filtro.
2. En el caso de diferencia estacional mensual,
l=seq(0,pi,2*pi/5000)
f=l*6/pi
g12<-1+0i-exp(-(0+1i)*l*12) # filtro 1-B^12
par(mfrow=c(3,1))
plot(f,Mod(g12),type=’l’,xlim=c(0,6),ylim=c(0,4))
lines(f,(Mod(g12))^2,type=’l’,col="blue")
plot(f,Arg(g12), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,6))
plot(f,Arg(g12)/l, type =’p’, pch=".", ylim=c(-5,5),xlim=c(0,6))
lines(f,(Mod(g12))^2,type=’l’,col="blue",lty=4)
y se obtiene la Figura 4.
De nuevo, el filtro elimina las frecuencias estacionales y la frecuencia nula y los mayores
cambios de tiempo se producen cerca de estas frecuencias, pero los ciclos con del rango
de frecuencias aproximado f ∈ [0,1, 0,3] están bastante adelantados en el tiempo y no
están amortiguados por el filtro.
7.5.3. Filtros finitos

Un filtro lineal Fα (xt ) = ∞
P
j=−∞ αj xt−j se dice que es causal si αj = 0 para todo j < 0
(en palabras, depende sólo del presente y el pasado de xt ), y que es anticausal si αj = 0 para
todo j > 0 (depende sólo del presente y el futuro de xt ).
Como habı́amos mencionado ya, se dice que un filtro lineal es simétrico si cumple que
αj = α−j , para todo j ∈ Z.
Un filtro finito, también llamado de media móvil (finita) es un filtro lineal con sólo una
cantidad
Pp finita de pesos αj no nulos, es decir, es un filtro lineal de la forma Mα (yt ) =
j=−f j t−j , donde p y f son números enteros no negativos que representan el número de
α y
términos del pasado y el futuro, respectivamente, que intervienen en el filtro. Para abreviar
43
4
3
Mod(g4)
2
1
0
0.0 0.5 1.0 1.5 2.0

fm
3
2
1
Arg(g4)
0
−3 −2 −1
0.0 0.5 1.0 1.5 2.0

fm
4
2
Arg(g4)/l
0
−2
−4
0.0 0.5 1.0 1.5 2.0

fm

(junto al cuadrado de la ganancia), para el filtro 1 − B 4 .
la notación, escribiremos un filtro finito poniendo sus coeficientes no nulos en un vector con
subı́ndices crecientes, en la forma (α−f , · · · , α−1 , α0 , α1 , · · · , αp ).
Se llama orden del filtro a p + f + 1.
Se dice que la media móvil está centrada si f = p.
Se dice que la media móvil es simétrica si es un filtro lineal simétrico, es decir, si está
centrada y se cumple αj = α−j , para todo j.
El concepto de simetrı́a se puede extender, en un sentido ligeramente distinto, a filtros
finitos causales. En concreto, se dice que un filtro finito causal, con p términos del pasado,
44
4
3
Mod(g12)
2
1
0
0 1 2 3 4 5 6
f
3
2
1
Arg(g12)
0
−3 −2 −1
0 1 2 3 4 5 6
f
4
2
Arg(g12)/l
0
−2
−4
0 1 2 3 4 5 6
f

(junto al cuadrado de la ganancia), para el filtro 1 − B 12 .
(α0 , α1 , · · · αp ) es simétrico si se cumple que αj = αp−j , para todo j ∈ Z.

Por ejemplo, la media móvil causal (0,5, 0,5), cumple esta definición, pues α0 = α1−0 =
0,5, α−1 = α1−(−1) = α2 = 0, etc.
Otro ejemplo es la media móvil causal (1/8, 3/8, 3/8, 1/8), que tiene p = 3 y cumple
αj = α3−j , pues α1 = α3−1 = 3/8, α0 = α3−0 = 1/8, etc.
Dado un filtro causal simétrico de orden p + 1, Mα , vamos a calcular sus funciones de
ganancia y cambio de fase. La idea general es aprovechar la simetrı́a del filtro para poner su
función de transferencia como una función real R(ω), que multiplique a una exponencial de
45
la forma eiA(ω) , de esta forma, cuando el signo de R(ω) sea positivo, R(ω) será la ganancia
del filtro y A(ω) el cambio de fase, mientras que, cuando R(ω) sea negativo, bastará con
cambarlo de signo multiplicando por −1 y usar que −1 = eiπ para cambiar la función de
fase, sumándole π.
Aplicando la definición (92), será
p p
!
X X
Mα (eiωt ) = αj eiω(t−j) = αj e−iωj eiωt , (107)
j=0 j=0
por tanto, T (ω) = pj=0 αj e−iωj .

P
Si p es par, p = 2m, con m ∈ N, y la función de transferencia del filtro será
p p m
X X X
−iωj −iωm −iω(j−m) −iωm
T (ω) = αj e =e αj e = [k , j − m] = e αk+m e−iωk =
j=0 j=0 k=−m
m
X
e−iωm (αm + 2 αk cos(ωk)) , eiA1 (ω) R1 (ω) = eiν(ω) |T (ω)| (108)
k=1
p−1
Si p es impar, p = 2m + 1, con m ∈ N, es decir, m = 2
. En este caso, es
p p m
X p X p p X
−iω
T (ω) = −iωj
αj e =e 2 αj e−iω(j− 2 ) =e −iω
2 2αj cos(ω( p2 − j))
j=0 j=0 j=0
, eiA2 (ω) R2 (ω) = eiν(ω) |T (ω)|, (109)
donde la tercera igualdad se debe a que el sumatorio es igual para cada par de términos dado
por j = l y j = p − l, debido a que αj = αp−j (filtro simétrico) y a que l − p/2 = −(p/2 − l),
para cada l ∈ {0, 1, · · · , m} y, por tanto, sus cosenos coinciden.
De las expresiones (108) y (109), vemos que, para frecuencias pequeñas, si αm > 0
(caso habitual para el peso central), los términos R1 (ω) y R2 (ω) serán no negativos, con lo
cual |T (ω)| = Rj (ω), ν(ω) = Aj (ω) y la función de cambio de tiempo de la media móvil es
ξ(ω) = − p2 . Es decir, una media móvil causal simétrica de orden p retrasa un ciclo cualquiera
de frecuencia pequeña contenido en la serie en p/2 unidades de tiempo (por ejemplo, meses
o trimestres).
Para frecuencias que no sean pequeñas, las expresiones R1 (ω) o R2 (ω) pueden ser ne-
gativas, entonces, en la descomposición en módulo y argumento de (108) y (109), tenemos
que cambiar de signo R1 (ω) o R2 (ω) y, por tanto, como eiπ = e−iπ = −1, sumar o res-
tar π a A1 (ω) o A2 (ω) (Rj (ω)(−1)eiπ eiAj (ω) = |T (ω)|eiν(ω ), de donde |T (ω)| = −Rj (ω) y
ν(ω) = π + Aj (ω)), de manera que el filtro puede adelantar los ciclos de esas frecuencias
contenidos en la serie en lugar de atrasarlos. Sin embargo, esto sucede en frecuencias que no
sean pequeñas, las cuales son justamente las que casi no deja pasar el filtro. En resumen,
en la práctica, el filtro apenas si producirá cambios de tiempo en frecuencias que no sean
pequeñas.
Por otra parte, si la media móvil es centrada y simétrica, cálculos totalmente análogos a
los de (108) y (109) muestran que, para frecuencias pequeñas, ξ(ω) = ν(ω) = 0, o sea, no hay
46
retraso (y, para frecuencias que no sean pequeñas apenas si lo habrá, por un razonamiento
semejante al de antes). Naturalmente, para poder aplicar un filtro centrado y simétrico a
una serie en un instante t, tenemos que esperar a tener m observaciones del futuro (hasta
xt+m ). En palabras, el precio a pagar para evitar el retraso temporal es esperar el mismo
tiempo del retraso.
Como ejercicio que aclarará estos últimos puntos, vamos a representar numéricamente
(con el mismo esquema que en ejercicios anteriores) las ganancias, cambios de fase y cambios
de tiempo de:
1. Una media móvil centrada simple (con pesos iguales) de 3 términos.
Solución
Las sentencias de R
l=seq(0,pi,2*pi/5000)
f=l*6/pi
c3<-(1/3)*(1+0i+exp(-(0+1i)*l)+ exp((0+1i)*l)) # media movil
par(mfrow=c(3,1))
plot(f,Mod(c3),type=’l’,xlim=c(0,6))
lines(f,(Mod(c3))^2,type=’l’,col="blue")
plot(f,Arg(c3), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,6))
plot(f,Arg(c3)/l, type =’p’, pch=".",ylim=c(-2,2),xlim=c(0,6))
lines(f,(Mod(c3))^2,type=’l’,col="blue",lty=4)
generan los gráficos de la Figura 5.

En este caso, p = 2, m = 1 y (108) (adaptado al caso de media centrada) queda
(
1
−iω·0 1 2 3
(1 + 2 cos(ω)) si w ≤ 2π3
T (ω) = e ( 3 + 3 cos(ω)) = (110)
− 13 (1 + 2 cos(ω))eiπ si w > 2π
3
Es decir, para frecuencias de hasta ω = 2π

3
(f = 4 para series mensuales) no hay cambio
de tiempo. Para frecuencias superiores a f = 4 hay cambio de tiempo, con ξ(ω) = ωπ
(por ejemplo, en ξ( 2π
3
) = 32 y ξ(π) = 1), pero esas frecuencias quedan muy atenuadas
por el filtro, como habı́amos mencionado.
2. Una media móvil causal simple de 3 términos.
Solución
Las sentencias de R
l=seq(0,pi,2*pi/5000)
47
1.0
0.8
0.6
Mod(c3)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(c3)
0
−3 −2 −1
0 1 2 3 4 5 6
f
2
1
Arg(c3)/l
0
−1
−2
0 1 2 3 4 5 6
f

(junto al cuadrado de la ganancia), para una media móvil simple centrada de 3 términos.
f=l*6/pi
n3<-(1/3)*(1+0i+exp(-(0+1i)*l)+ exp(-(0+1i)*l*2)) # media movil no centrada 3 ter
par(mfrow=c(3,1))
plot(f,Mod(n3),type=’l’,xlim=c(0,6))
lines(f,(Mod(n3))^2,type=’l’,col="blue")
plot(f,Arg(n3), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,6))
48
plot(f,Arg(n3)/l, type =’p’, pch=".",ylim=c(-2,2),xlim=c(0,6))
lines(f,(Mod(n3))^2,type=’l’,col="blue",lty=4)
generan los gráficos de la Figura 6. De nuevo p = 2, m = 1 y (108) es

(
1
(1 + 2 cos(ω))e−iω si w ≤ 2π
T (ω) = e−iω ( 31 + 23 cos(ω)) = 3 1 3
(111)
− 3 (1 + 2 cos(ω))e−i(ω−π) si w > 2π
3
Es decir, para frecuencias de hasta ω = 2π

3
(f = 4 para series mensuales) es ξ(ω) = −1.
Para frecuencias superiores a f = 4, ξ(ω) = ωπ − 1 (p.ej. ξ( 2π
3
) = 12 y ξ(π) = 0), pero
esas frecuencias quedan muy atenuadas.
3. Una media móvil centrada simple de 5 términos.

5. Una media móvil centrada simple de 13 términos.
Solución
Los únicos cambios respecto de los casos anteriores son los lı́mtes de los ejes de los
gráficos y la definición de las medias móviles, éstas son, en R,
c5<-(1/5)*(1+0i+exp(-(0+1i)*l)+ exp((0+1i)*l)+
exp(-(0+1i)*l*2)+ exp((0+1i)*l*2)) # centrada simple de 5 terminos
n5<-(1/5)*(1+0i+exp(-(0+1i)*l)+ exp(-(0+1i)*l*2)+ exp(-(0+1i)*l*3)+
exp(-(0+1i)*l*4)) # causal simple de 5 terminos
c13<-(1/13)*(1+0i+exp(-(0+1i)*l)+ exp((0+1i)*l)+ exp(-(0+1i)*l*2)+
exp((0+1i)*l*2)+ exp(-(0+1i)*l*3)+ exp((0+1i)*l*3)+exp(-(0+1i)*l*4)+
exp((0+1i)*l*4)+exp(-(0+1i)*l*5)+ exp((0+1i)*l*5)+exp(-(0+1i)*l*6)+
exp((0+1i)*l*6) ) # centrada simple de 13 terminos
exp(-(0+1i)*l*4)+ exp(-(0+1i)*l*5)+ exp(-(0+1i)*l*6)+
exp(-(0+1i)*l*7)+ exp(-(0+1i)*l*8)+exp(-(0+1i)*l*9)+
exp(-(0+1i)*l*10)+exp(-(0+1i)*l*11)+
exp(-(0+1i)*l*12) ) # causal simple de 13 terminos
exp(-(0+1i)*l*4)+ exp(-(0+1i)*l*5)+ exp(-(0+1i)*l*6)+exp(-(0+1i)*l*7)
+exp(-(0+1i)*l*8)+exp(-(0+1i)*l*9)+ exp(-(0+1i)*l*10)+
exp(-(0+1i)*l*11)) # causal simnple de 12 terminos
El las Figuras 7 a 11 se pueden ver las gráficas.
49
1.0
0.8
0.6
Mod(n3)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(n3)
0
−3 −2 −1
0 1 2 3 4 5 6
f
2
1
Arg(n3)/l
0
−1
−2
0 1 2 3 4 5 6
f

(junto al cuadrado de la ganancia), para una media móvil simple causal de 3 términos.
Se dice que un filtro causal con p retardos es antisimétrico si αj = −αp−j , para todo
j ∈ Z.
Por ejemplo, los operadores de diferencia regular y estacional son antisimétricos, pues en
ellos es α0 = 1 y α1 = −1 (caso regular) o αs = −1 (caso estacional).
Calcularemos la función de transferencia de un filtro antisimétrico. Ahora la idea general
es usar la antisimetrı́a del filtro para poner su función de transferencia como una función
π
imaginaria pura iR(ω), que multiplique a una exponencial de la forma eiA(ω) . Como i = ei 2 ,
multiplicamos por i a iR(ω) y sumamos π2 a A(ω), de esa forma transformamos la función
50
1.0
0.8
0.6
Mod(c5)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(c5)
0
−3 −2 −1
0 1 2 3 4 5 6
f
3
2
1
Arg(c5)/l
0
−1
−2
−3
0 1 2 3 4 5 6
f

imaginaria pura iR(ω) en una real pura y entonces ya podemos razonar como hemos hecho
en el caso de un filtro simétrico.
Si p es par, p = 2m, con m ∈ N, por la antisimetria, ha de ser αm = 0 y la función de
51
1.0
0.8
0.6
Mod(n5)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(n5)
0
−3 −2 −1
0 1 2 3 4 5 6
f
3
2
1
Arg(n5)/l
0
−1
−2
−3
0 1 2 3 4 5 6
f

transferencia del filtro será

p p m
X X X
−iωj −iωm −iω(j−m) −iωm
T (ω) = αj e =e αj e = [k , j − m] = e αk+m e−iωk =
j=0 j=0 k=−m
m m
X π X
e−iωm (0 + 2i αm sen(ωk)) = ei( 2 −ωm) 2 αm sen(ωk)) , eiA3 (ω) R3 (ω) = eiν(ω) |T (ω)|
k=1 k=1
(112)
52
1.0
0.8
0.6
Mod(c13)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(c13)
0
−3 −2 −1
0 1 2 3 4 5 6
f
6
4
2
Arg(c13)/l
0
−2
−4
−6
0 1 2 3 4 5 6
f

p−1
Si p es impar, p = 2m + 1, con m ∈ N, es decir, m = 2
. En este caso, es
p p m
X p X p p X
−iω
T (ω) = −iωj
αj e =e 2 αj e−iω(j− 2 ) =e −iω
2 2i αj sen(ω( p2 − j)) =
j=0 j=0 j=0
m
π p X
ei( 2 −ω 2 ) 2 αj sen(ω( p2 − j)) , eiA4 (ω) R4 (ω) = eiν(ω) |T (ω)|, (113)
j=0
donde la tercera igualdad se debe a que el sumatorio es igual para cada par de términos dado
53
1.0
0.8
0.6
Mod(n13)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(n13)
0
−3 −2 −1
0 1 2 3 4 5 6
f
6
4
2
Arg(n13)/l
−6 −4 −2 0
0 1 2 3 4 5 6
f
por j = l y j = p−l, (por ser αj = −αp−j y l −p/2 = −(p/2−l), para cada l ∈ {0, 1, · · · , m},
con lo que sus senos son iguales, pero con signos cambiados).
La función de cambio de tiempo es, para ω pequeño, ξ(ω) = 2ωπ
− p2 , pero puede haber
cambios de fase si Rj (ω) cambia de signo, por los mismos motivos que en el caso de filtros
simétricos.
Como caso particular, los operadores de diferencia regular ∆ = 1 − B y estacional ∆s =
1 − B s son antisimétricos.
Como ejercicio, calcularemos analı́ticamente (numéricamente ya lo habı́amos hecho) las
54
0.8
0.6
Mod(n12)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(n12)
0
−3 −2 −1
0 1 2 3 4 5 6
f
6
4
2
Arg(n12)/l
−6 −4 −2 0
0 1 2 3 4 5 6
f
funciones de ganancia, cambio de fase y cambio de tiempo de los operadores de diferencia

regular y diferencia estacional para series trimestrales y mensuales.
Solución
55
7.5.4. Filtros autorregresivos
Un filtro lineal autorregresivo es un filtro cuyos pesos se calculan usando la representación
de Wold de un modelo AR(p) estacionario de la forma
φ(B)yt = (φ0 + φ1 B + · · · + φp B p )yt = εt , (114)
con V ar(εt ) = 1 (es equivalente el restringir esta varianza a 1 a restringir φ0 = 1, es decir,

con una cualquiera de esas dos restricciones se consigue la misma familia de procesos AR(p)
que con la otra restricción).
1
Llamando ψ(B) = φ(B) , el filtro actúa sobre una serie xt en la forma habitual Fψ (xt ) =
P∞
j=−∞ ψj xt−j .
La función de transferencia de un filtro autorregresivo es
1
T (λ) = ψ(e−iλ ) = (115)
φ(e−iλ )
Los filtros autorregresivos son bastante flexibles. Incluso con órdenes tan bajos como p = 2
pueden dar una buena aproximación a un filtro de paso de banda ideal.
Por ejemplo, el filtro (1 − 1,56B + 0,64B 2 )yt = 0,078xt se emplea a veces para suavizar
una tasa interanual, pues es mas adecuado para ello que una media móvil trimestral o que
una media móvil de Henderson de 23 términos como las que utiliza el X11-ARIMA.
Como ejercicio, calcular la función de ganancia, de cambio de fase y de cambio de tiempo
de los tres filtros, el AR(2), la media móvil simple causal de 3 términos y la media móvil
causal de Henderson de 23 términos, que es simétrica (en el sentido en que lo son algunos
filtros causales) y con pesos
α = (−0,04, −0,011, −0,016, −0,015, −0,005, 0,013, 0,039, 0,068, 0,097, 0,122, 0,138, 0,148,
0,138, 0,122, 0,097, 0,068, 0,039, 0,013, −0,005, −0,015, −0,016, −0,011, −0,004)
Solución
Los cálculos para la media móvil simple causal de orden 3 ya los habı́amos hecho y el
resultado está en la Figura 6.
En cuanto a la media de Henderson de 23 términos, los cálculos se pueden hacer con

el código de R siguiente:
l=seq(0,pi,2*pi/5000)
f=l*6/pi
Hen23<-0.148*(1+0i) +
0.138*exp(-(0+1i)*l)+ 0.138*exp(-(0+1i)*l*12)+
0.122*exp(-(0+1i)*l*2)+ 0.122*exp(-(0+1i)*l*13)+
0.097*exp(-(0+1i)*l*3)+ 0.097*exp(-(0+1i)*l*14)+
0.068*exp(-(0+1i)*l*4)+ 0.068*exp(-(0+1i)*l*15)+
0.039*exp(-(0+1i)*l*5)+ 0.039*exp(-(0+1i)*l*16)+
56
0.013*exp(-(0+1i)*l*6)+ 0.013*exp(-(0+1i)*l*17)-
0.005*exp(-(0+1i)*l*7)- 0.005*exp(-(0+1i)*l*18)-
0.015*exp(-(0+1i)*l*8)- 0.015*exp(-(0+1i)*l*19)-
0.016*exp(-(0+1i)*l*9)- 0.016*exp(-(0+1i)*l*20)-
0.011*exp(-(0+1i)*l*10)- 0.011*exp(-(0+1i)*l*21)-
0.004*exp(-(0+1i)*l*11)- 0.004*exp(-(0+1i)*l*22)
par(mfrow=c(3,1))
plot(f,Mod(Hen23),type=’l’,xlim=c(0,6))
lines(f,(Mod(Hen23))^2,type=’l’,col="blue")
plot(f,Arg(Hen23), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,6))
plot(f,Arg(Hen23)/l, type =’p’, pch=".",ylim=c(-7,7),xlim=c(0,6))
lines(f,(Mod(Hen23))^2,type=’l’,col="blue",lty=4)
Los gráficos están en la Figura 12
Para el filtro AR(2) podemos usar las sentencias de R
l=seq(0,pi,2*pi/5000)
f=l*6/pi
AR2<-0.078/(1+0i-1.56*exp(-(0+1i)*l)+0.64*exp(-(0+1i)*l*2))
par(mfrow=c(3,1))
plot(f,Mod(AR2),type=’l’,xlim=c(0,6))
lines(f,(Mod(AR2))^2,type=’l’,col="blue")
plot(f,Arg(AR2), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,6))
plot(f,Arg(AR2)/l, type =’p’, pch=".",ylim=c(-4,4),xlim=c(0,6))
lines(f,(Mod(AR2))^2,type=’l’,col="blue",lty=4)
y vemos el resultado en la Figura 13.

Comparando el filtro AR(2) con la media de Henderson de 23 términos vemos que sus
ganancias son parecidas. También vemos que el filtro AR(2) retrasa los ciclos que duran
más de dos años (los que suelen ser más de interés) entre 3 y 4 meses, mientras que la
media de Henderson lo hace 11 meses. Es decir, el filtro AR(2) nos permite tener que
esperar menos para ver esos ciclos en nuestra serie que la media de Henderson.
57
1.0
0.8
Mod(Hen23)
0.6
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(Hen23)
0
−3 −2 −1
0 1 2 3 4 5 6
f
10
5
Arg(Hen23)/l
0
−5
−10
0 1 2 3 4 5 6
f
Figura 12: Funciones de ganancia, su cuadrado (azul), cambio de fase y cambio de tiem-
po (junto al cuadrado de la ganancia), para una media móvil causal de Henderson de 23
términos.
7.6. Filtros racionales o mixtos

Un filtro lineal racional es un filtro cuyos pesos se calculan usando la representación de
Wold de un modelo ARMA(p,q) estacionario de la forma
φ(B)yt = θ(B)εt , (116)
con V ar(εt ) = 1 (es equivalente el restringir esta varianza a 1 a restringir θ0 = 1).
58
1.0
0.8
0.6
Mod(AR2)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(AR2)
0
−3 −2 −1
0 1 2 3 4 5 6
f
4
2
Arg(AR2)/l
0
−2
−4
0 1 2 3 4 5 6
f
(junto al cuadrado de la ganancia), para el filtro (1 − 1,56B + 0,64B 2 )yt = 0,078xt .
En muchas referencias, los filtros mixtos se llaman de respuesta a impulso infinita (IIR)
porque hay infinitos términos en su ψ(B) asociada, mientras que los filtros de medias móviles
se llaman de respuesta a impulso finita (FIR), porque sólo una cantidad finita de coeficientes
de su ψ(B) asociada son no nulos.
θ(B)
Llamando ψ(B) = φ(B) , el filtro actúa sobre una serie xt en la forma habitual Fψ (xt ) =
P∞
j=−∞ ψj xt−j .
59
La función de transferencia de un filtro mixto es
θ(e−iλ )
T (λ) = ψ(e−iλ ) = . (117)
φ(e−iλ )
Con un filtro racional, se puede conseguir más flexibilidad que con un filtro de medias móviles
o autorregresivo para un mismo número de parámetros.
Es habitual en la teorı́a de filtros el trabajar con la transformada z, de manera que los
filtros se escriben en la variable z. En algunos textos z representa a B y en otros a F . A las
raı́ces de θ(z) se les llama ceros del filtro y a las de φ(B) polos del filtro.
Los desarrollos sobre filtros racionales son muy numerosos. En este texto tan solo men-
cionaremos algún ejemplo como ilustración.
Un filtro racional básico, pero útil, es el que tiene un cero y un polo muy cercanos.
Por ejemplo, si queremos filtrar una tendencia lineal, es habitual usar el filtro ∆ = 1 − B,
que en la notación habitual de filtros, escribirı́amos como 1 − z. Sin embargo, ésta es tan
solo una posibilidad. Por ejemplo, podemos usar también el filtro que define
1−p p(1 − B)
H{0} (B) = H1 (B) = 1 − L1 (B) = 1 − = , (118)
1 − pB 1 − pB
donde p < 1 es un valor real cercano a 1. Empleamos dos notaciones distintas para este
filtro. La primera notación utiliza un subı́ndice 1 porque el filtro tiene un cero en z = 1
(por eso elimina una tendencia lineal) y la segunda notación usa un subı́ndice {0} porque
la raı́z unitaria z = 1 también se puede identificar con la frecuencia cero al ser 1 = ei0 . El
filtro también tiene un polo en z = p−1 > 1 y cercano a uno. Es, por tanto, un filtro estable.
1−p
H1 (B) es diferencia del filtro identidad y el filtro de paso bajo L1 (B) = 1−pB . L1 (B) tiene el
término 1 − p en el numerador para que su ganancia sea 1 en la frecuencia cero (ejercicio).
Solución
El cuadrado de la ganancia de L1 (B) es
1−p 1−p (1 − p)2

L1 (e−iλ) )L1 (eiλ) ) = = , (119)
1 − pe−iλ 1 − peiλ 1 − 2p cos(λ) + p2
que, particularizando para λ = 0, queda 1.
Lo importante es que, cuanto más cercano esté p a 1, más parecido es este filtro a un
filtro ideal que elimina la frecuencia cero y deja pasar las demás.
Como ejercicio, se pide calcular el cuadrado de la función de ganancia del filtro H1 (B) y
comprobar que se anula para la frecuencia cero. Se pide también calcular numéricamente y
dibujar esta función de ganancia, su cuadrado, y sus funciones de cambio de fase y de cambio
de tiempo, todo ello para los polos p−1 −1
1 = 1,01 y p2 = 1,03.
Solución
El cuadrado de la ganancia de H1 (B) es
−iλ) iλ) p(1 − e−iλ ) p(1 − eiλ ) 2p2 (1 − cos(λ))

H1 (e )H1 (e ) = = . (120)
1 − pe−iλ 1 − peiλ 1 − 2p cos(λ) + p2
60
0
En particular, para λ = 0 queda (1−p)2
= 0, pues p 6= 1.
Las sentencias de R
l=seq(0,pi,2*pi/5000)
f=l*6/pi
p=1/1.01
F1<-p*(1+0i-exp(-(0+1i)*l))/(1+0i-p*exp(-(0+1i)*l))#Polo en 1.01
par(mfrow=c(3,1))
plot(f,Mod(F1),type=’l’,xlim=c(0,6))
lines(f,(Mod(F1))^2,type=’l’,col="blue")
plot(f,Arg(F1), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,6))
plot(f,Arg(F1)/l, type =’p’, pch=".",ylim=c(-4,4),xlim=c(0,6))
lines(f,(Mod(F1))^2,type=’l’,col="blue",lty=4)
crean los gráficos de la figura 14 para el caso de p1 . Los del caso de p2 están en la figura y
se hacen análogamente.
Vemos que, como era de esperar, el filtro basado en p1 es más puro en cuanto a filtrar
solo la frecuencia 0 que el basado en p2 por estar p−1 −1
1 más cerca de 1 que p2 .
De la misma manera, si quisiéramos, por poner un ejemplo, eliminar una frecuencia

estacional dada por un par conjugado de valores complejos sobre el cı́rculo unidad e±iω0 (p.
ej. la frecuencia estacional para series mensuales, ω0 = π/6 asociada a los valores complejos
e±iπ/6 ) podrı́amos definir el filtro (usando de nuevo uuna doble notación de raı́z unitaria o
de frecuencia)
H{±ω0 } (B) = H{ω0 } (B)H{−ω0 } (B) = He±iω0 (B) = Heiω0 (B)He−iω0 (B) =
1−p 1−p
(1 − Leiω0 (B))(1 − Le−iω0 (B)) = (1 − )(1 − )=
iω
1 − pe 0 B 1 − pe−iω0 B
p(1 − eiω0 B) p(1 − e−iω0 B) 2 1 − 2 cos(ω0 )B + B
2
= p , (121)
1 − peiω0 B 1 − pe−iω0 B 1 − 2p cos(ω0 )B + p2 B 2
Como ejercicio, calcular analı́ticamente la función de ganancia de este filtro.
Solución
El cuadrado de la ganancia de He±iω0 (B) es
1 − 2 cos(ω0 )e−iλ + e−2iλ 1 − 2 cos(ω0 )eiλ + e2iλ

He±iω0 (e−iλ) )He±iω0 (eiλ) ) = p4
1 − 2p cos(ω0 )e−iλ + p2 e−2iλ 1 − 2p cos(ω0 )eiλ + p2 e2iλ
2(1 + 2 cos(2λ) − 4 cos(ω0 ) cos(λ) + 2 cos2 (ω0 ))
p4
1 + p4 + 2p2 cos(2λ) − 4p cos(ω0 ) cos(λ) − 4p3 cos(ω0 ) cos(λ) + 4p2 cos2 (ω0 )
61
1.0
0.8
0.6
Mod(F1)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(F1)
0
−1
−2
−3
0 1 2 3 4 5 6
f
4
2
Arg(F1)/l
0
−2
−4
0 1 2 3 4 5 6
(junto al cuadrado de la ganancia), para el filtro H1 (B) = p(1−B)
1−pB
, p−1 = 1,01
La frecuencia (estacional para series mensuales y trimestrales) ω0 = π es especial (al

igual que la frecuencia ω0 = 0 asociada a la tendencia), pues no tiene dos valores complejos
conjugados, sino solo uno, que es el −1. Por tanto, el filtro asociado a ella es
p(1 + B)
H{π} (B) = H−1 (B) = , (122)
1 + pB
Naturalmentre, si queremos eliminar varias frecuencias, podemos hacerlo aplicando en
cascada varios filtros, cada uno que elimine una de esas frecuencias. Por ejemplo, para in-
62
1.0
0.8
0.6
Mod(F1b)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(F1b)
0
−1
−2
−3
0 1 2 3 4 5 6
f
4
2
Arg(F1b)/l
0
−2
−4
0 1 2 3 4 5 6
1−pB
, p−1 = 1,05
tentar eliminar la estacionalidad de series temporales trimestrales (asociada a las raı́ces

complejas e±iπ/2 y a la raı́z real e−iπ = −1) y la tendencia (raı́z 1), podemos definir el filtro
)
(1 − B) 1 + B2 1+B
H{0,±π/2,π} (B) = H1 (B)He±iπ/2 (B)H−1 (B) = p0 p21 p2 2 2
1 − p0 B 1 + 2p1 B + p1 B 1 + p2 B
(123)
donde p0 , p1 y p2 son números reales, ligeramente menores que 1, cuyos inversos definen los
63
polos de cada uno de los tres filtros. Estamos suponiendo que necesitamos pasar exactamente
una vez cada uno de los filtros de cada frecuencia para eliminarlas. Este filtro harı́a un efecto
análogo al que harı́a el filtro ∆4 = 1 − B 4 . En efecto, su numerador tiene (1 − B)(1 + B 2 )(1 +
B) = 1 − B 4 , la diferencia es que este filtro, usando unos p0 , p1 y p2 adecuados a cada serie
concreta (que quizás se pudieran deducir de un algoritmo aplicado al pseudo-espectro de la
serie) harı́a más lineal a esa serie.
En algunos casos, tendremos que pasar algunos de los filtros más de una vez y otros
ninguna vez. Por ejemplo, el análogo del filtro ∆∆4 serı́a el H{0,0,±π/2,π} que usa dos veces
H{0} , pues ∆∆4 = (1 − B)(1 − B 4 ) = (1 − B)2 (1 + B + B 2 + B 3 ) tiene el mismo numerador
que H{0,0,±π/2,π} .
Otro ejemplo serı́a que tuviéramos que pasar dos veces el filtro de la tendencia (algo
bastante habitual) y ninguna vez el filtro de la frecuencia π (por no estar esta frecuen-
cia presente en nuestra serie temporal), entonces podrı́amos usar el filtro H{0,0,±π/2} (B) =
H12 (B)He±iπ/2 (B)
Como ejercicio se pide calcular numéricamente la función de ganancia, de cambio de fase
y de cambio de tiempo del filtro H{0,±π/2,π} (B) = H1 (B)He±iπ/2 (B)H−1 (B), con p0 = 1/1,01,
p1 = 1/1,05 y p2 = 1/1,03, lo que quiere decir que la estacionalidad asociada a la frecuencia
π/2 que se quiere eliminar es más aleatoria que la asociada a ±π/2 y ésta es más aleatoria
que la asociada a la tendencia. Además, la tendencia no serı́a muy fuere, pues solo aplicamos
una vez el filtro H1 (B). Estas aleatoriedades y fuerzas de las distintas frecuencias se podrı́an
deducir del pseudo-espectro de la serie temporal que se quiere ajustar de estacionalidad. En
el pseudo-espectro verı́amos un pico más ancho en una frecuencia cuanto más aleatoria sea
la estacionalidad o tendencia asociada a esa frecuencia y un pico más tendente a infinito en
una tendencia o frecuencia más fuertes.
Solución
Las sentencias de R nos calculan y dibujan en la figura 16 las funciones de ganancia, su
cuadrado, de cambio de fase y de cambio de tiempo del filtro H(0,π/2,π) (B).
l=seq(0,pi,2*pi/5000)
f=l*6/pi
g=l*2/pi
D0<-1;
q0<-1/1.01;
Ge0<-q0*(1-exp(-(0+1i)*l))/(1+0i-q0*exp(-(0+1i)*l)) #Polo en 1.01
D1<-cos(pi/2);
q1<-1/1.05;
Ge1<-q1^2*(1-2*D1*exp(-(0+1i)*l)+exp(-(0+1i)*2*l))/(1+0i-2*q1*D1*exp(-(0+1i)*l)+q1^2*e
D2<-cos(pi);
q2<-1/1.03;
Ge2<-q2*(1+exp(-(0+1i)*l))/(1+0i+q2*exp(-(0+1i)*l))
Ge012<-Ge0*Ge1*Ge2
par(mfrow=c(3,1))
plot(g,Mod(Ge012),type=’l’,xlim=c(0,2))
64
lines(g,(Mod(Ge012))^2,type=’l’,col="blue")
plot(g,Arg(Ge012), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,2))
lines(g,ll,col="red",type="l",lty=3)
plot(g,Arg(Ge012)/l, type =’p’, pch=".",ylim=c(-4,4),xlim=c(0,2))
lines(g,ll,col="red",type="l",lty=3)
lines(g,(Mod(Ge012))^2,type=’l’,col="blue",lty=4)
Vemos que las propiedades del filtro son las que esperábamos.
También mencionaremos que, dado cualquier filtro H(B), se puede evitar el desfase tem-
poral a costa de pasar en cascada H(B) y otro filtro igual, pero en F , H(F ). Llamaremos
al filtro resultante H † (B) , H(B)H(F ). Es decir, dada la serie que se quiere filtrar yt , se
aplica primero, por ejemplo, H(B) a ella de pasado a futuro (como siempre). Si llamamos zt
a la serie resultante, después, se aplica H(F ) de futuro a pasado a zt , o, equivalentemente,
se aplica de nuevo H(B) (de pasado a futuro) a la serie zt invertida en el tiempo (puesta de
final a principio).
Como estamos aplicando dos filtros en cascada, la función de transferencia será el pro-
ducto de las de los dos filtros. Por tanto, la ganancia será el cuadrado de la del filtro simple
(ejercicio). Es decir, si queremos utilizar este filtro doble, tenemos que pensar H(B) para
que tenga una ganancia igual a la raı́z cuadrada de la que nos interese.
Como ejercicio, se pide calcular numéricamente y dibujar las funciones de ganancia,
su cuadrado, de cambio de fase y de cambio de tiempo de H1† (B) = H1 (B)H1 (F ) para
p−1 = 1,04.
Solución
Las siguientes sentencias de R calculan y dibujan en la figura 17 las funciones de ganancia,
su cuadrado, de cambio de fase y de cambio de tiempo del filtro H1† (B) = H1 (B)H1 (F ).
l=seq(0,pi,2*pi/5000)
f=l*6/pi
p=1/1.04 #Filtro sin desfase del tipo H(B)H(F)
F3c<-(p^2*(1-exp(-(0+1i)*l))*(1-exp((0+1i)*l)))/((1+0i-p*exp(-(0+1i)*l))*(1+0i-p*exp((
par(mfrow=c(3,1))
plot(f,Mod(F3c),type=’l’,xlim=c(0,6))
lines(f,(Mod(F3c))^2,type=’l’,col="blue")
plot(f,Arg(F3c), type =’p’, pch=".",ylim=c(-pi,pi),xlim=c(0,6))
plot(f,Arg(F3c)/l, type =’p’, pch=".",ylim=c(-4,4),xlim=c(0,6))
lines(f,(Mod(F3c))^2,type=’l’,col="blue",lty=4)
Vemos que, en efecto, no hay desfase ni, por tanto, cambio de tiempo, con este filtro.
En cuanto a la forma de implementar estos filtros, no es inmediata, pues tienen deno-

minador y, al comenzar, no disponemos de un modelo para el proceso filtrado. Por ejemplo,
65
0.8
Mod(Ge012)
0.4
0.0
0.0 0.5 1.0 1.5 2.0

g
3
2
Arg(Ge012)
1
−1
−3
0.0 0.5 1.0 1.5 2.0

g
4
Arg(Ge012)/l
2
0
−2
−4
0.0 0.5 1.0 1.5 2.0

g
1−pB
, p−1 = 1,01
para H1 (B), tendrı́amos que calcular
p(1 − B)
zt = yt , o bien (1 − pB)zt = p(1 − B)yt (124)
1 − pB
sin tener un modelo para zt , aunque esperamos que zt sea estacionario y de media cero y
entonces podrı́amos suponer z1 = 0 para comenzar a iterar. En efecto, comenzarı́amos con
t = 2 perdiendo una observación en la serie diferenciada como es habitual, pues tampoco
66
0.8
0.6
Mod(F3c)
0.4
0.2
0.0
0 1 2 3 4 5 6
f
3
2
1
Arg(F3c)
0
−1
−2
−3
0 1 2 3 4 5 6
f
4
2
Arg(F3c)/l
0
−2
−4
0 1 2 3 4 5 6
(junto al cuadrado de la ganancia), para el filtro H1† (B) = H1 (B)H1 (F ), con p−1 = 1,04
conocemos y0 e yt es no estacionaria. Entonces serı́a
ż2 − 0 = py2 − py1 , ż3 − pż2 = py3 − py3 , · · ·
Al hacer esto estamos cometiendo un error en los żj , que decrece con t por ser zt un proceso
estacionario, pero que no es despreciable, sobre todo al principio de la serie, pues p está
próximo a 1.
Otra posibilidad es diferenciar yt y estimar un modelo ARMA a la serie diferenciada, pero
67
teniendo en cuenta el filtro H1 (B). Es decir, deberı́amos ajustar un modelo del tipo
φ(B)zt = θ(B)εt
pero, ante la dificultad de obtener la zt filtrada, y teniendo en cuenta (124), también

podrı́amos escribir
1 − pB
φ(B)(1 − B)yt = θ(B)εt = (p−1 − B)θ(B)εt . (125)
p
y ajustar un modelo ARMA estacionario a la serie diferenciada (1−B)yt pero con la restricción
de que su parte MA debe tener al menos la raı́z B = p−1 , con p conocido y fijo, pues lo
habrı́amos deducido del pseudo-espectro de yt .
Cabrı́a esperar que este modelo restringido tenga un mejor ajuste que el del modelo
φ(B)(1 − B)yt = θ(B)εt , debido a que la serie zt será más lineal que la (1 − B)yt . Además,
una vez estimado el modelo (125), podemos estimar la serie zt . En efecto, sea el modelo
estimado
φ̂(B)(1 − B)yt = (p−1 − B)θ̂(B)ε̂t . (126)
Entonces, será
θ̂(B)
ẑt = ε̂t
φ̂(B)
En este caso sencillo quizás zt no sea de interés en sı́, pero si yt tuviera estacionalidad,
siguiendo un esquema parecido, solo que tomando también filtros para las raı́ces estacionales,
podrı́amos estimar la serie desestacionalizada fácilmente.
Por ejemplo, si yt es una serie trimestral con estacionalidad en las frecuencias π/2 y
π y con tendencia no muy fuerte, que se transforma en estacionaria diferenciando una vez
estacionalmente, podrı́amos usar el filtro H{0,±π/2,π} e intentarı́amos ajustar un modelo ARIMA
estacional. Por (123) podrı́amos definir
(1 − B) 1 + B2 1+B
zt = yt
p0 − B p1 + 2p1 B + B 2 p−1
−1 −2 −1
2 +B
y, si hubiéramos escogido adecuadamente los pj , serı́a de esperar que zt estuviera libre de

tendencia y de estacionalidad y que siguiera el proceso ARMA no estacional (no hay polinomios
Φ(B) ni Θ(B))
φ(B)zt = θ(B)εt ,
el cual podrı́amos estimar reescribiéndo el último modelo en la forma ARMA restringida
φ(B)(1 − B)(1 + B 2 )(1 + B)yt = (p−1 −2 −1 2 −1

0 − B)(p1 + 2p1 B + B )(p2 + B)θ(B)εt .
Es decir, xt , (1 − B)(1 + B 2 )(1 + B)yt = (1 − B 4 )yt serı́a estacionario y seguirı́a el proceso

ARMA no estacional
φ(B)xt = (p−1 −2 −1 2 −1
0 − B)(p1 + 2p1 B + B )(p2 + B)θ(B)εt .
que, una vez estimado serı́a
φ̂(B)xt = (p−1 −2 −1 2 −1
0 − B)(p1 + 2p1 B + B )(p2 + B)θ̂(B)ε̂t .
68
y que nos permitirı́a a su vez estimar (por ser xt = (p−1 −2 −1 2 −1
0 − B)(p1 + 2p1 B + B )(p2 + B)zt )
θ̂(B)
φ̂(B)ẑt = θ̂(B)ε̂t , es decir ẑt = ε̂t
φ̂(B)
p−1
0 −B
Además, el ciclo tendencia de yt serı́a ct = 1−B
zt y la componente estacional de yt serı́a
p−2 −1
1 +2p1 B+B
2 p−1
st = 1+B 2
2
z.
1+B t
Por tanto, podrı́amos estimarlas como
p−1
0 −B
ĉt = ẑt
1−B
y
p−2 −1
1 + 2p1 B + B
2
p−1
2
ŝt = ẑt
1 + B2 1+B
respectivamente.
Este esquema se puede generalizar sin dificultad a otras tendencias y estacionalidades
más o menos fuertes ası́ como a series mensuales.
8. Procesos ARIMA extendidos mediante regresión

En esta sección consideraremos series temporales zt que no siguen, ellas mismas, modelos
ARIMA, pero tales que, el residuo que queda al restarles el efecto de regresión de otras series
(deterministas) si sigue un modelo ARIMA. Es decir, en
zt = x0t β + yt , (127)
el residuo yt es un proceso ARIMA. En la expresión anterior xt representa un vector con series

temporales deterministas (conocidas de antemano). La elección adecuada de estas series
deterministas nos permitirá resolver distintos problemas. Como ejemplo sencillo, si tomamos
una sola serie xt ≡ 1, entonces β serı́a la media de la serie zt .
Si el modelo ARIMA de yt es φ(B)yt = θ(B)εt , entonces podemos expresar (127) en cual-
quiera de las formas
θ(B)
zt = x0t β + εt ,
φ(B)
φ(B)(zt − x0t β) = θ(B)εt
El contraste de la validez del modelo se puede realizar con un estadı́stico de tipo Port-
manteau,
k
X r̂j2
Q = T (T + 2) , (129)
j=1
T −j
el cual seguirá, bajo la hipótesis de que las autocorrelaciones de los residuos son nulas, una
distribución χ2k−r , donde r es el número de parámetros que se estiman en el modelo de yt
(no en el modelo global, es decir, no se incluyen los parámetros de regresión) sin contar la
varianza de las innovaciones.
69
8.1. Variables de intervención
Las variables de intervención son series deterministas ψt que están diseñadas para tratar
ciertos sucesos, como huelgas, cambios en la polı́tica económica, catástrofes, etc., que afectan
a la serie de interés yt . Normalmente, una variable de intervención está definida mediante
ceros y unos.
Podemos dar un modelo del tipo
b
zt = β ω(B)B
δ(B)
ψt + yt (130)
para una sola variable de intervención ψt . En él, b es el retardo con que actúa ψt , mientras
que ω(B) y δ(B) son, respectivamente, el numerador y denominador de un filtro, que indica
la forma concreta en que afecta la intervención a la serie yt . La ecuación (130) es un caso
b
particular de (127) en el que hay una única variable xt = ω(B)B
δ(B)
ψt . Supondremos que ω(B) =
a c
1 + ω1 B + · · · + ωa B y δ(B) = 1 + δ1 B + · · · + δc B .
En cuanto a ψt , si llamamos T a un instante fijo de tiempo, los casos más habituales son:
(
0 si t 6= T
Impulso: ψt = ItT = (131a)
1 si t = T
n
T
X
Varios impulsos: ψt = It j (131b)
j=1
(
0 si t < T
Escalón: ψt = EtT = (131c)
1 si t ≥ T
(
0 si t < T
Rampa: ψt = RtT = (131d)
t − T + 1 si t ≥ T
De las definiciones, está claro que ∆RtT = EtT y que ∆2 RtT = ∆EtT = ItT . Utilizando
polinomios ω(B) y δ(B) adecuados y sumando varios términos con variables de intervención
se puede conseguir adaptar el análisis de intervención a muchas situaciones prácticas. Un
modelo general serı́a de la forma
m
ωj (B)B bj
X
zt = βj δj (B)
ψj,t + yt , (132)
j=1
con ωj (B) = 1 + ω1,j B + · · · + ωaj ,j B y δj (B) = 1 + δ1,j B + · · · + δcj ,j B cj .

aj
El objetivo principal de un análisis de intervención es estudiar el efecto de las interven-

ciones. En análisis de intevención se suele llamar a la serie de interés yt la serie de ruido y a
su modelo ARIMA modelo del ruido.
Una forma sencilla de estimar el modelo del ruido es utilizar la parte de la serie inicial
en la que todavı́a no hayan hecho efecto las intervenciones, si es que esta parte inicial de la
serie tiene suficientes observaciones.
En el caso particular en que (130) y (132) se simplifican a
70
zt = βψt + yt (133)
y
m
X
zt = βj ψj,t + yt , (134)
j=1
si suponemos el modelo del ruido conocido (o lo hemos estimado y consideramos que

sus parámetros estimados son los verdaderos), entonces es sencillo estimar el efecto de una
intervención en (133) por mı́nimos cuadrados ordinarios. En efecto, sea
φ(B)yt = θ(B)εt (135)
el modelo del ruido, de (133) es

θ(B)
zt = βψt + ε.
φ(B) t
(136)
Definimos dos nuevas series ηt , y ξt , que pueden evaluarse, respectivamente, a partir de zt y
φt , mediante los filtros ηt , φ(B) z y ξt , φ(B)
θ(B) t
ψ.
θ(B) t
De esta forma, (136) se transforma en el modelo de regresión lineal
ηt = βξt + εt , (137)
en el cual εt es ruido blanco. La estimación por mı́nimos cuadrados ordinarios de (137) es

P
η ξ
β̂ = P t2 t , (138)
ξt
Si, además, los εt son gaussianos, la estimación es, también, de máxima verosimilitud. En
este caso, podemos contrastar la significatividad del parámetro estimado β̂ usando el hecho
de que
2
V ar(β̂) = Pσεξ2 (139)
t
Para el caso de (134) se procede análogamente, estimando los βj mediante regresión

múltiple.
En general, el modelo del ruido no suele ser conocido y, aun en los casos en que la parte
inicial de la serie sea bastante larga, la estimación obtenida no es el modelo verdadero del
ruido. Por eso, se suelen emplear técnicas más sofisticadas para estimar un modelo del tipo
(133) o (134).
Supongamos que el modelo (132) es conocido, excepto por sus parámetros reales (es decir,
conocemos los parámetros enteros aj , bj , cj , ası́ como los parámetros enteros del modelo
ARIMA de yt y no conocemos los βj , ωk,j , δk,j ni los parámetros reales del modelo ARIMA de
yt ). Entonces se pueden estimar conjuntamente todos los parámetros reales de (132) por
máxima verosimilitud, por ejemplo, utilizando la forma de espacio de estado y evaluando la
verosimilitud mediante el filtro de Kalman.
Si no conocemos tampoco los parámetros enteros, entonces tenemos dos problemas rela-
cionados entre sı́, el de identificación y el de estimación.
La utilización del filtro de Kalman para estimar por máxima versolimilitud los parámetros
reales de (130) o (132) tiene muchas ventajas en cuanto a la eficiencia y la precisión de las
71
estimaciones, pero la forma de espacio de estado y el filtro de Kalman escapan al nivel de
este texto introductorio.
Por eso, para el caso simplificado de (133), veremos un procedimiento de estimación que
es más sencillo de comprender. El mismo procedimiento se podrı́a emplear para estimar
(134), utilizando regresión múltiple.
Partimos de una estimación inicial de la intervención β̂ψt
1. Se calcula ŷt = zt − β̂ψt
2. Se estima un modelo φ̂(B)ŷt = θ̂(B)ût para ŷt .
3. Análogamente a (137) y (138) se calculan
η̂t = β̂ ξˆt + ût , (140)
y
ˆ P
η̂t ξ̂t
β̂ = P 2 ,
ξ̂t
(141)
4. Se itera en los pasos anteriores, estimando nuevos modelos para yt y nuevas estimacio-
nes de β hasta alcanzar la convergencia.
8.2. Outliers
En muchas series aparecen observaciones anómalas, a las que llamaremos outliers, que
conviene identificar y tratar. Cuando el instante en que aparece el outlier es conocido, se
puede utilizar el análisis de intervención. Cuando ese instante no es conocido, primero hay
que intentar detectar el outlier para luego tratarlo, viendo el tipo de efecto que produce en
la serie.
Suponiendo el instante T en que aparece el outlier conocido, un posible modelo para el
efecto de un outlier es el que resulta de tomar en (130) b = 0 y ψt = ItT , es decir,
zt = yt + α ω(B) IT ,
δ(B) t
(142)
donde yt es la serie libre del efecto del outlier, zt es la serie observada y α representa el efecto
inicial del outlier.
Se suelen considerar cuatro tipos de outliers, que son
(
yt si t 6= T
1. Outlier aditivo (AO): ω(B) = δ(B) = 1, zt = yt + αItT =
yt + α si t = T
ω(B) 1
2. Cambio temporal (TC): δ(B)
= = 1+δB+δ 2 B 2 +δ 3 B 3 +· · · , con δ ∈ (−1, 1), luego
1−δB 
y t
 si t < T,
1 T T T 2 T
zt = yt +α 1−δB It = yt +α(It +δIt−1 +δ It−2 +· · · ) = yt + α si t = T,
 n
yt + αδ si t = T + n, n ≥ 1.

Como δ ∈ (−1, 1), conforme t > T crece, zt converge a yt , es decir, el efecto del outlier
decrece (geométricamente).
72
ω(B) 1
3. Cambio de nivel (LC): δ(B)
= = 1 + B + B 2 + B 3 + · · · . En este caso tenemos
1−B (
1 yt si t < T,
zt = yt + α 1−B ItT = yt + α(ItT + It−1
T T
+ It−2 + ···) =
yt + α si t ≥ T.
4. Outlier en la innovación (IO): Si el modelo ARIMA para yt es φ(B)yt = θ(B)εt , el

outlier se produce en la innovación en forma aditiva, es decir, en la serie observada zt ,
la innovación para t = T , εt , se cambia por εt + αItT , y queda φ(B)zt = θ(B)(εt + αItT ).
Por tanto,
θ(B) T
zt − yt = α φ(B) It , (143a)
o bien, en (142), ω(B) = θ(B) y δ(B) = φ(B). (143b)
Vemos en (143) que un outlier en la innovación puede producir efectos muy distintos en
la serie, dependiendo del modelo para yt . Además, este efecto en la serie diferenciada
se puede confundir con otros efectos, como cambios de nivel o de tendencia (rampa) en
la serie original, como veremos en uno de los ejercicios que siguen. Por otro lado, si el
θ(B)
modelo es no estacionario (como ocurre con frecuencia en la práctica), el término φ(B)
de (143) define una expansión en potencias de B no convergente, es decir, para una
serie no estacionaria, el efecto de un IO crece con el tiempo. Por todos estos motivos,
en la práctica, es frecuente el evitar trabajar con outliers en las innovaciones.
Como primer ejercicio, comprobar que un cambio de nivel que afecta a una serie temporal
yt , es equivalente a un outlier aditivo que afecta a la serie diferenciada ∆yt y que una rampa
que afecta a una serie temporal yt , es equivalente a un cambio de nivel que afecta a la serie
diferenciada ∆yt y a un outlier aditivo que afecta a la serie diferenciada dos veces ∆2 yt .
Solución
1
El modelo para el cambio de nivel es zt = yt + α 1−B ItT , por tanto, diferenciando
miembro a miembro, ∆zt = ∆yt + αItT , que es el modelo para un outlier aditivo en la
serie diferenciada. Volviendo atrás en este razonamiento, tenemos la equivalencia.
1
El modelo para la rampa es zt = yt + α 1−B EtT , por tanto, diferenciando miembro a
miembro, ∆zt = ∆yt + αEtT , que es el modelo para un cambio de nivel en la serie
diferenciada. Aplicando ahora el caso anterior tenemos el resultado.
Como segundo ejercicio, ver que:
1. Un cambio de nivel en una serie yt que siga un modelo de paseo aleatorio es equivalente
a un outlier aditivo en la innovación de la serie diferenciada ∆yt .
2. Una rampa en una serie yt que siga el modelo ∆2 yt = εt es equivalente a un outlier

aditivo en la innovación de la serie ∆2 yt .
73
Solución
El modelo de paseo aleatorio es ∆yt = εt , o bien yt = ∆−1 εt , añadieno el cambio de

nivel, tenemos zt = αEtT + ∆−1 εt . Diferenciando, ∆zt = αItT + εt , que es un outlier
aditivo en la innovación de la serie diferenciada. La equivalencia resulta de retroceder
en este razonamiento.
Es yt = ∆−2 εt , por tanto, zt = αRtT +∆−2 εt . Diferenciando dos veces es ∆2 zt = αItt +εt .
De nuevo, se puede retroceder en el razonamiento para demostrar la equivalencia.
En un tercer ejercicio, se pide:

1. Estudiar, mediante cálculos teóricos, el efecto de un outlier en la innovación, cuando
el modelo de la serie es ∆∆12 yt = εt , con V ar(εt ) = 1.
2. Comprobar mediante cálculos numéricos (por ejemplo, usando R), el resultado del apar-
tado anterior y extenderlo, también mediante cálculos numéricos, al caso en que el
modelo de la serie es ∆∆12 yt = (1 − 0,2B)(1 − 0,8B 12 )εt , con V ar(εt ) = 1.
Solución
Si el outlier se produce en el instante t0 , de (143), es zt = yt + α

I t0 .
(1−B)(1−B 12 ) t
Como
1
12
= (1 + B + B 2 + · · · )(1 + B 12 + B 24 + · · · ) =
(1 − B)(1 − B )
(1+B+B 2 +· · ·+B 11 +2B 12 +2B 13 +· · ·+2B 23 +3B 24 +3B 25 +· · ·+3B 35 +4B 36 +· · · ,
Esta expansión infinita actúa sobre un impulso Itt0 , como B j Itt0 = It−j
t0
vale uno sólo
en t = t0 + j, vemos que el efecto es producir una escalera a partir del punto t0 con
escalones de altura α que duran, cada uno, 12 meses. Es decir, estamos ante un efecto
que crece (o decrece si α < 0) sin cota en el tiempo. Por eso, salvo a corto plazo, es
difı́cil que podamos adaptar este efecto a una situación práctica.
Usamos el programa de R siguiente:
> I<-matrix(0,nrow=200,ncol=1) #Creamos, en una serie de 200 ceros,

> I[100,1]=1 # un impulso en la observacion 100
# convolve sirve para multiplicar polinomios, poniendo el primero
# en potencias decrecientes y el segundo en potencias crecientes
> (f<-convolve(c(-1,1),c(1,0,0,0,0,0,0,0,0,0,0,0,-1),type=’open’))
[1] 1.000000e+00 -1.000000e+00 6.784008e-17 4.175727e-17
[5] -5.667280e-17 -5.498454e-19 1.134540e-16 -1.866919e-16
[9] 8.690655e-17 -4.224516e-17 7.154185e-17 -2.138202e-17
[13] -1.000000e+00 1.000000e+00
> f2<--rev(f)
# para poder usar filter(), cambiamos el signo del resultado y lo
74
# ponemos en potencias crecientes , tambien quitamos
# el 1 inicial, pues filter() lo da por supuesto
> (f3<-f2[2:length(f2)])
[1] 1.000000e+00 2.138202e-17 -7.154185e-17 4.224516e-17
[5] -8.690655e-17 1.866919e-16 -1.134540e-16 5.498454e-19
[9] 5.667280e-17 -4.175727e-17 -6.784008e-17 1.000000e+00
[13] -1.000000e+00
# usaremos f3 como filtro autorregresivo
> y2<-filter(I,f3,method="recursive")
> plot(y2,type=’l’)
# calcularemos el filtro de medias moviles del numerador
> (m<-convolve(c(-0.2,1),c(1,0,0,0,0,0,0,0,0,0,0,0,-0.8),type =’open’))
[1] 1.600000e-01 -8.000000e-01 -5.068645e-17 -3.361027e-17
[5] -1.597262e-18 -2.838286e-17 5.288971e-17 -1.345650e-16
[9] -5.459732e-19 4.967195e-17 2.905855e-17 -6.448680e-17
[13] -2.000000e-01 1.000000e+00
> m2<--rev(m)
> (m3<-m2[2:length(m2)])
[1] 2.000000e-01 6.448680e-17 -2.905855e-17 -4.967195e-17
[5] 5.459732e-19 1.345650e-16 -5.288971e-17 2.838286e-17
[9] 1.597262e-18 3.361027e-17 5.068645e-17 8.000000e-01
[13] -1.600000e-01
# aplicaremos el filtro de medias moviles m3 al resultado de aplicar
# el filtro autorregresivo, es decir, ejecutaremos los dos filtros en
# cascada (en serie). El sides=1 hace que la media movil no sea
# centrada, sino unilateral, que es lo que necesitamos.
> y3<-filter(y2,m3,method="convolution",sides=1)
# en el grafico anterior, incluiremos el resultado actual
> lines(y3,type=’l’,col=’blue’,lty=2)
En la Figura 18 vemos, en trazo contiuo, el efecto del filtro del apartado primero y, en
trazo discontinuo, el del apartado segundo. Podemos apreciar que la parte de medias
móviles no cambia el hecho de que el filtro tenga un efecto que crece sin cota.
En la salida, notamos que las multiplicaciones de polinomios tienen algunos coeficientes
muy pequeños que deberı́an ser cero. Esto se debe a que la función convolve emplea
la transformada rápida de Fourier y carece de importancia práctica, pues el efecto de
estos números tan pequeños es despreciable.
Si los instantes de tiempo en que aparecen los outliers y el tipo de cada outlier son
conocidos, entonces el modelo se estima como un modelo de análisis de intervención.
La determinación de los instantes en que aparece un outlier se realiza en varios pasos,
con un esquema que puede ser parecido al siguiente:
75
8
6
y2
4
2
0
0 50 100 150 200

Time
Figura 18: Efecto de un outlier en la innovación con α = 1 en los modelos ∆∆12 yt = εt (negro
continuo) y ∆∆12 yt = (1 − 0,2B)(1 − 0,8B 12 )εt (azul discontinuo). Siempre es V ar(εt ) = 1.
1. Se estima un modelo para la serie observada zt , sea este modelo
φ̂(B)zt = θ̂(B)ε̂t . (144)
2. A partir de este modelo, se calculan los residuos ε̂t = φ̂(B) z y se marca como sospechoso
θ̂(B) t
de contener un cambio de nivel a cada instante de tiempo en el cual ε̂t sea mayor que
un valor prefijado, dependiente de una estimación robusta σ̂ε de la desviación tı́pica
de los residuos (ε̂t > k1 σ̂ε para una constante k1 adecuada, que suele oscilar entre 2,5
y 3,5). La estimación robusta, a su vez, suele ser de la forma σ̂ε = k2 M , donde M es la
mediana de los |ε̂t | y k2 otra constante.
3. Para cada instante sospechoso de contener un cambio de nivel, se estima y contrasta

el efecto de ese cambio de nivel (se hace de forma acumulativa, partiendo de un solo
cambio de nivel en el primer punto sospechoso, dos cambios en el segundo punto si se
aceptó el cambio de nivel del primer punto, tres cambios cuando ya se han incluido
dos, etc.). Sea
φ̂∗ (B)ht = θ̂∗ (B)ût (145)
Pk
el modelo ajustado a la serie ht = zt − i=1 α̂i 1−B1
Itti resultante de descontar todos los
cambios de nivel encontrados por este procedimiento en la serie original zt .
4. Se contrasta la posible presencia en ht de cada uno de los otros efectos (outlier aditivo,
cambio transitorio y outlier aditivo en la innovación) en cada uno de los instantes
de tiempo. Se incluye el efecto que resulte estadı́sticamente más significativo de entre
todos ellos. Se descuenta ese efecto de la serie ht , obteniéndose una nueva serie. A esta
serie se le aplica de nuevo lo mismo que hemos aplicado a la ht , iterando este proceso
hasta que no se encuentre ya ningún efecto significativo.
76
5. Todos los efectos que hayan resultado significativos en los pasos 3 y 4 se incluyen
conjuntamente en la serie zt observada y se estima el modelo resultante. Finalmente,
se eliminan (uno a uno) aquellos que no sean significativos, reestimando el modelo cada
vez que uno es eliminado.
Programas como TRAMO-SEATS, TSW o X13-ARIMA están diseñados de tal forma que pueden
automatizar este proceso.
8.3. Efectos de calendario

Cuando trabajamos con series trimestrales o mensuales, distintos efectos del calendario
pueden dificultar el análisis de los datos. Estos efectos de calendario son de interés espe-
cial cuando se realiza ajuste estacional de series temporales. Todos ellos se pueden tratar
utilizando análisis de intervención.
Supongamos que trabajamos con una serie temporal mensual yt . Para estudiar efectos de
calendario, utilizaremos algunas series temporales auxiliares. La notación xamd u (o cualquier
otra letra en lugar de x) denotará una serie temporal auxiliar diaria, donde u es el número
de observación de la serie temporal diaria y amd son tres ı́ndices que representan, respectiva-
mente, el año, el mes del año (de 1 a 12, donde 1 es enero, 2 es febrero, etc.) y el dı́a del mes
(de 1 a 31) correspondientes a la observación t. Los superı́ndices junto con los subı́ndices dan
información redundante, el motivo de incluir ambos es que entenderemos mejor los procesos
que se van a realizar con las series auxiliares. Por ser redundantes, a veces omitiremos los
superı́ndices, poniendo solo xu y otras veces omitiremos el subı́ndice, poniendo sólo xamd .
De la misma forma, si la serie temporal auxiliar es mensual escribiremos xam t y si es anual
a
escribiremos xv .
En el caso de trabajar con una serie trimestral yt todo es análogo, pero en xamd u , m pasa
a denotar el trimestre (entre 1 y 4).
En resumen, u es un ı́ndice temporal que recorre dias y t recorre meses o trimestres.
La descripción de los apartados siguientes se hace para el caso de que yt sea una serie
mensual. Los cambios para el caso de que sea trimestral son triviales.
8.3.1. Dı́a bisiesto

El efecto mas sencillo de entender es el que produce el hecho de que los meses de febrero
de los años bisiestos tienen un dı́a mas que los demás meses de febrero. Esto se traduce en
un efecto sobre las series mensuales y trimestrales, el cual se puede estudiar por separado o
también conjuntamente con el efecto de dı́a laborable que veremos más adelante.
Para estudiarlo por separado, consideramos que, entre los años 1901 y 2099, un año de
cada cuatro es bisiesto y el promedio de dı́as de los meses de febrero es 28+28+28+29
4
= 28,25,
Por tanto, un modelo posible para el efecto de año bisiesto para los meses de febrero de años
no bisiestos es suponer que este efecto es proporcional a 28 − 28,25 = −0,25 y, para los meses
de febrero de los años bisiestos, suponer que es proporcional a 29 − 28,25 = 0,75. El efecto es
cero para los meses que no sean febrero. Estamos suponiendo que el efecto es proporcional
a la diferencia entre longitud media de los meses de febrero y longitud de cada mes de
febrero concreto a fin de que, en promedio, el efecto sea nulo. De no hacerlo ası́, estarı́amos
cambiando la media de la serie en los meses de febrero y esto no parece razonable.
77
En resumen, el regresor de año bisiesto será una serie temporal determinista bam
t , de la
misma longitud que la serie que estamos analizando yt , que toma valores

0 si m 6= 2,

am
bt = −0,25 si m = 2 y a no es año bisiesto,

0,75 si m = 2 y a es año bisiesto.

Si llamamos β al coeficiente que, multiplicado por bt , define el efecto del año bisiesto, para
eliminar el efecto de año bisiesto podemos utilizar el modelo RegARIMA (modelo de regresión
con errores ARIMA) dado por
θ(B)
yt − βbt = εt
φ(B)
Si llamamos β̂ al parámetro β estimado, la serie corregida de efecto de año bisiesto será
ytb = yt − β̂bt , ó
ytb = yt e−β̂bt
según que trabajemos con la serie yt sin tomar o tomando logaritmos respectivamente.
8.3.2. Semana Santa

El segundo efecto mas sencillo de comprender es el de Semana Santa. La Semana Santa
no ocurre todos los años en el mismo mes ni en el mismo trimestre, esto produce un efecto
en las series mensuales y trimestrales.
En primer lugar, definamos este efecto con palabras. Por un lado, durante la Semana
Santa hay dos dı́as festivos adicionales, que son, en algunas regiones, el Jueves Santo y el
Viernes Santo y, en otras, el Viernes Santo y el Lunes de Pascua. Sin embargo, si este fuera
todo el efecto de la Semana Santa, no se estudiarı́a por separado, sino que serı́a parte del
efecto de dı́as laborables que veremos mas adelante. Sucede que estos dias festivos no son
iguales, en cuanto a su efecto en las series temporales de interés, que otros dias festivos.
Además, los dı́as laborables anteriores a estos dias festivos de Semana Santa tampoco son
iguales a otros dias laborables del año. Por estos motivos, se estudia el efecto de Semana
Santa por separado.
El modelo del que partiremos es el de Bell y Hillmer (1983). Supongamos que el efecto
de Semana Santa sobre el mes m del año a, que denotaremos por dam t , se extiende a k dı́as
en total, los dı́as u1 , · · · , uk y que, para cada uno de esos dı́as uj , este efecto es distinto e
igual a ᾱj . Entonces, podemos escribir, para cada año a y mes m fijos
k
(
X 1 si el dı́a uj es del mes m y año a,
dam
t = ᾱj Euam j
, donde Euam
j
=
j=1
0 en otro caso.
El problema de este modelo es que tiene k parámetros y es difı́cil de estimar a partir de los
datos mensuales. Por eso, se pueden agrupar los k dias en un número menor g de grupos
G1 , · · · , Gg , resultando
g
X X
dam
t = αi eam am
i , donde ei = Euam
j
(147)
i=1 uj ∈Gi
78
es la suma de los Euamj
extendida a todos los dı́as uj que pertenecen al grupo i-ésimo Gi
(en palabras, es el número de dı́as del grupo i que caen en el mes m del año a) y αi es
un parámetro desconocido que representa el efecto de cada dı́a de ese grupo. De esta forma
reducimos el número de parámetros a estimar de k a g.
En realidad, en lugar de (147), se suele emplear
g Bi
X 1 X
dam
t = αi (eam
i − ēm m
i ), donde ēi = eam (148)
i=1
Bi − Ai a=A i
i
es la media de los eam

i para el grupo i y el mes m, tomada a lo largo de los Bi − Ai años en
que la serie temporal de interés se observa en el mes m.
El motivo de usar (148) es que la serie eam i puede tener estacionalidad y, de usar (147)
(tal cual, no se usarı́a (147), sino que se restarı́a a los eam
i su media ēi a lo largo de años y
meses) estarı́amos corrigiendo la posible estacionalidad de los eam i junto al propio efecto y
esto se suele considerar poco apropiado. Se considera mas adecuado dejar la serie corregida
solo de efectos de calendario, pero no de la estacionalidad asociada a estos efectos, para
después, si se desea, corregir toda la estacionalidad conjuntamente. Dicho de otra forma, se
trata de corregir de estacionalidad el regresor, restándole las medias mensuales.
amd
Una forma de implementar (148) es definir g series auxiliares diarias, Iui , en la forma
(
amd 1 si el dı́a u pertenece al grupo i,
Iui = (149)
0 en otro caso.
De esta forma eam

P amd
i = u Iui .
En particular, en el INE, se utilizan dos grupos, el primero con los dı́as inmediatamente
anteriores a los dı́as festivos de Semana Santa, y el segundo con los dı́as festivos de Semana
Santa. En concreto, en las regiones donde el Jueves Santo es festivo, los dı́as del primer
grupo son el lunes, martes y miércoles de Semana Santa y el Lunes de Pascua, los del
segundo grupo son el Jueves Santo y el Viernes Santo, mientras que, en las regiones donde el
Lunes de Pascua es festivo, los dı́as del primer grupo son el lunes, martes, miércoles y jueves
de Semana Santa y los del segundo grupo son el Viernes Santo y el Lunes de Pascua. Incluso
hay dos comunidades autónomas donde tanto el Jueves Santo como el Lunes de Pascua son
festivos.
Por tanto, en este caso de dos grupos, si estimamos el modelo RegARIMA
θ(B)
yt − α1 (eam m am m
1 − ē1 ) − α2 (e2 − ē2 ) = εt , (150)
φ(B)
la serie ajustada de efectos de Semana Santa se define como
yte = yt − α̂1 (eam m am m

1 − ē1 ) − α̂2 (e2 − ē2 ), ó
am −ēm )−α̂ (eam −ēm )
yte = yt e−α̂1 (e1 1 2 2 2
cuando no tomamos o tomamos logaritmos en la serie yt , respectivamente. La generalización

al caso de g grupos es trivial.
79
8.3.3. Dı́a laborable (Trading day)
Muchas series temporales de interés recogen, con una frecuencia mensual o trimestral,
información relacionada con actividades económicas. Para estas series, la distribución irre-
gular en cada mes o en cada trimestre, a lo largo de los años, de los distintos dias de la
semana, produce un efecto no deseable.
Como ya se ha dicho, entre los años 1901 y 2099 un año de cada 4 es bisiesto (empezando
en 1904). Por otra parte, hay siete dı́as en una semana, 365 dı́as en un año no bisiesto y el
resto de dividir 365 entre 7 es 1, es decir, si no hubiera años bisiestos, cada siete años se
repetı́rı́a la misma sucesión de fechas y dı́as de la semana. Uniendo ambos hechos y teniendo
en cuenta que 4 y 7 son números primos entre si, tenemos que, entre 1901 y 2099, cada
4 × 7 = 28 años se repite la misma secuencia de fechas y dı́as de la semana.
A continuación explicaremos el modelo que se emplea en el INE para estimar el efecto de
dı́a laborable. Este método es adecuado para variables de flujo, como lo son casi todas las
que se estudian en las encuestas del INE.
El tratamiento es parecido al de los efectos de Semana Santa. Agrupamos los dı́as de
cada mes en g clases. Entre otras muchas posibilidades, podemos, por ejemplo, tomar g = 7
y que las clases sean los dias de la semana (lunes, martes, ..., domingos) de cada mes o tomar
g = 2 y que las ( clases sean los dias laborables y no laborables de cada mes.
amd 1 si el dı́a u pertenece a la clase i,
Sea Iui =
0 en otro caso.
Sea αi un valor promedio (desconocido) del efecto de la clase i, con i ∈ {1, · · · , g}, el
número de dı́as de la clase i que tiene el mes m del año a será
X
Niam = amd
Iui . (152)
u
Por tanto, N am = i Niam es el número total de dı́as que tiene el mes m de año a. Entonces,
P
el efecto de dı́a laborable del mes m del año a se puede expresar en la forma
g
X
zt = ztam = Niam αi . (153)
i=1
Sea ahora ξi = αi − ᾱ, con i ∈ {1, · · · , g} la desviación media del efecto de dı́a laborable en
un dı́a de clase i respecto del efecto promedio a largo plazo ᾱ.
Este efecto promedio a largo plazo Pse puede calcular, P
para un número suficientemente
grande de meses, en las formas (N = a,m i Niam , Ni = a,m Nia,m )
P
Pg am Pg Pg
αi a.m Nia,m
P
i=1 Ni αi
P
a,m i=1 αi Ni
ᾱ = P am
= = i=1 , (154a)
a,m N N N
g
X
1
ᾱ = g
αi , (154b)
i=1
donde la última forma simplificada solo se aplica en el caso particular de que, a largo plazo,
las g clases tengan el mismo número de dı́as, es decir, Ni /N = 1/g para todo grupo i (este
80
es el caso si, por ejemplo, los g = 7 grupos representan los dias de la semana de lunes a
domingo). En el caso (154a), es
g g
XX XX
Niam ξi = Niam (αi − ᾱ) = N ᾱ − N ᾱ = 0, (155)
a,m i=1 a,m i=1
donde en la penúltima igualdad hemos usado (154a). Análogamente, en el caso (154b) es

g g
X X
ξi = (αi − ᾱ) = g ᾱ − g ᾱ = 0 (156)
i=1 i=1
Siguiendo con (153), podemos escribir

g g
X X
zt = ztam = Niam (αi − ᾱ + ᾱ) = Niam ξi + N am ᾱ, (157)
i=1 i=1
donde Ntam = Nt = N am = gi=1 Niam es la longitud del mes m del año a.

P
En lo que sigue, supondremos, como se hace en el INE, que g = 2, siendo la primera clase
(i = 1) la de los dias laborables y la segunda (i = 2) la de los dias no laborables. De (155),
es
XX 2 X X
Niam ξi = ξ1 N1am + ξ2 N2am = 0, (158)
a,m i=1 a,m a,m
donde N1am y N2amson, respectivamente,

P el número de dı́as laborables y no laborables del
1 am
mes m del año a. Llamando N̄j = M a,m Nj , para j ∈ {1, 2} a sus promedios a largo
plazo (para un número M grande de meses), de (158), es
N̄1
ξ2 = − ξ1 (159)
N̄2
Ahora (157) queda
N̄1 am
zt = ztam = ξ1 N1am + ξ2 N2am + ᾱN am = ξ1 [N1am − N2 ] + ᾱN am (160)
N̄2
Es decir, hemos descompuesto el efecto de los dı́as laborables zt en dos componentes,
la primera solo depende de la composición de cada mes en dı́as laborables y no laborables
y la segunda es la longitud de cada mes. Los parámetros a estimar asociados a estas dos
componentes son ξ1 y ᾱ respectivamente.
En lugar de (160) se suele trabajar con
N̄1 am
zt = ztam = ξ1 [(N1am − N̄1m ) − (N − N̄2m )] + ᾱ(N am − N̄ m ), (161)
N̄2 2
1
PBm 1
PBm 1
PBm
donde N̄1m = Bm −A m a=A m
N1
am
, N̄2
m
= Bm −A m a=A m
N2
am
y N̄ m
= B m −A m a=Am N
am
son, respectivamente, las medias de los N1am , N2am y N am para cada mes m, tomada a lo
largo de los Bi − Ai años en los que hay información de ese mes.
81
El motivo de utilizar (161) es, como en el caso de los efectos de la Semana Santa, que
los valores de las series N1am , N2am y N am pueden tener estacionalidad (variar con el mes del
año) y, de usar (160), estarı́amos corrigiendo esta estacionalidad.
Notamos que el regresor bt = N am − N̄ m coincide con el de dı́a bisiesto que ya habı́amos
visto. Por eso decı́amos que el efecto de dı́a bisiesto se puede corregir por separado o conjun-
tamnete con el de dı́a laborable. En cualquier caso, en un ajuste de calendario de una serie,
incluiremos este regresor sólo una vez.
Para estimar ξ1 y ᾱ en (160) se utilizan técnicas de estimación de modelos RegARIMA,
(modelos de regresión con residuos que siguen procesos ARIMA). En concreto, si la serie que
estamos analizando es yt , se estima el modelo RegARIMA
θ(B)
yt − zt = yt − ξ1 ut − ᾱbt = εt , (162)
φ(B)
N̄1
donde ut = (N1am − N̄1m )− N̄ 2
(N2am − N̄2m ) y bt = Ntam − N̄tm son las dos series deterministas
que actúan como regresores.
Si llamamos ξˆ1 y ᾱ
ˆ a los parámetros estimados, definimos la serie corregida de efectos de
dı́as laborables como
yt∗ = yt − ẑt = yt − ξˆ1 ut − ᾱ
ˆ bt (163)
para el caso de que se analice la serie yt en niveles y
ˆ
yt∗ = yt e−ẑt = yt e−ξ̂1 ut −ᾱbt (164)
en caso de que se tomen logaritmos a la serie yt .
Si no queremos hacer ajuste estacional, sino tan solo corregir el efecto de los dı́as labo-
rables, con esto hemos terminado. Si queremos, además, hacer ajuste estacional, tendremos
que realizar otros procesos posteriores.
8.3.4. Un ejemplo numérico

En la práctica, lo habitual es corregir la serie de todos los efectos, de dı́a bisiesto, de
Semana Santa y de dı́a laborable, por tanto, el modelo RegARIMA que se estimará tiene
cuatro regresores y es de la forma
θ(B)
yt − βbt − α1 (eam m am m
1 − ē1 ) − α2 (e2 − ē2 ) − ξ1 ut = εt (165)
φ(B)
y la serie corregida de todos estos efectos se define como
y ∗ = yt − β̂bt − α̂1 (eam m am m ˆ
1 − ē1 ) − α̂2 (e2 − ē2 ) − ξ1 ut (166a)
am −ēm )−α̂ (eam −ēm )−ξ̂ u
y ∗ = yt e−β̂bt −α̂1 (e1 1 2 2 2 1 t
(166b)
en los casos de no tomar y de tomar logaritmos a yt , respectivamente.
A continuación, como ejemplo, utilizaremos los datos de cuatro años para calcular los
regresores de los efectos de calendario. En la realidad usarı́amos los datos de mas años para
calcular estos regresores.
Tenemos dos ficheros de datos. En el primer fichero, llamado CalIPI, en cada registro
tenemos los datos de cada uno de los dı́as de los 4 años entre 2010 y 2013. Las 65 variables
que tiene este fichero para cada dı́a son:
82
D, el número de dı́a dentro del mes
M, el número de mes dentro del año.
A, el número del año.
DS, el dı́a de la semana (1=lunes, 2=martes,...,7=domingo).
LMXSS, vale 1 si el dı́a es el lunes, martes o miércoles de Semana Santa y 0 en otro

caso.
JSS, vale 1 si el dı́a es el Jueves Santo y 0 en otro caso.
VSS, vale 1 si el dı́a es el Viernes Santo y 0 en otro caso.
LP, vale 1 si el dı́a es el Lunes de Pascua y 0 en otro caso.
XNM, son 19 variables, una para cada valor de NM, que son dos dı́gitos con valores 01,
02,...,19 y contienen un 1 si ese dı́a es un dı́a de entre lunes y viernes y es festivo en la
comunidad (o ciudad) autónoma número NM y 0 si es laborable en esa comunidad (o
ciudad) autónoma. En algunos casos (por ejemplo, en provincias insulares) la variable
contiene un número entre 0 y 1 que representa el peso de las zonas de la comuni-
dad autónoma donde es fiesta ese dı́a. La codificación concreta de las comunidades y
ciudades autónomas no es relevante para realizar los cálculos.
YNM, son 19 variables análogas a las XNM, que toman valores 0 o 1 (o, a veces, valores
intermedios) si el dı́a es un sábado y es o no laborable.
ZNM, son 19 variables, análogas a las XNM y las YNM, pero para domingos (hay
domingos laborables en algunos sectores de actividad).
UNO, es una variable que toma el valor 1 para cada dı́a, se usa para contar dı́as
totalizando esta variable.
En el segundo fichero solo hay 19 registros, uno por cada comunidad o ciudad autónoma (en
el mismo orden que las letras NM de las variables del fichero anterior) y una variable W , que
es el peso que tiene esa comunidad o ciudad autónoma en la serie de interés yt . Este peso
se utiliza para calcular los regresores de calendario, ponderando por él. Esto es necesario
debido a que hay dı́as que son laborables en unas comunidades o ciudades autónomas, pero
no en otras, y lo mismo ocurre con el Jueves Santo y el Lunes de Pascua.
En este ejemplo se calcularán efectos de calendario para un ı́ndice de producción in-
dustrial, por lo cual, los pesos del segundo fichero se refieren a producción industrial y las
variables YNM y ZNM no se emplearán (para cálcular los efectos de calendario, consideraremos
los sábados y domingos siempre como no laborables en el sector industrial).
Las siguientes sentencias de R leen los datos de un fichero de texto, escogen algunas
variables y cambian otras de nombre para crear el fichero CalIPI que hemos descrito y
calculan el regresor de dı́a bisiesto (BI o bt ) calculando la longitud de cada mes del fichero,
la longitud media de cada uno de los 12 meses del año y restando. Vemos en la salida que el
regresor resulta tener solo valores 0, −0,25 y 0,75 como se dijo en la sección correspondiente.
83
> CalIPIa<-read.csv(file="/home/CalendarioIPI4annos.csv",header=TRUE,sep=",",dec=".")
> head(CalIPIa)
FECHA DAY MONTH YEAR WEEKDAY FIESTA NDIA BIS
1 1/1/2010 1 1 2010 5 AO NUEVO 1 0
2 1/2/2010 2 1 2010 6 1 0
3 1/3/2010 3 1 2010 7 1 0
4 1/4/2010 4 1 2010 1 1 0
5 1/5/2010 5 1 2010 2 1 0
6 1/6/2010 6 1 2010 3 EPIFANA DEL SEOR 1 0
NDOM NSAB LMXSS JSS VSS LPSS XH01AND XH02ARA XH03AST XH04BAL
1 0 0 0 0 0 0 1 1 1 1
2 0 1 0 0 0 0 0 0 0 0
3 1 0 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 1 1 1 1
XH05CAN XH06CANT XH08CLM XH07CL XH09CAT XH10CV XH11EXT XH12GAL
1 1 1 1 1 1 1 1 1
2 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0
6 1 1 1 1 1 1 1 1
XH13MAD XH14MUR XH15NAV XH16PV XH17RIO XH18CEU XH19MEL XS01AND
1 1 1 1 1 1 1 1 0
2 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0
6 1 1 1 1 1 1 1 0
XS02ARA XS03AST XS04BAL XS05CAN XS06CANT XS08CLM XS07CL XS09CAT
1 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0
XS10CV XS11EXT XS12GAL XS13MAD XS14MUR XS15NAV XS16PV XS17RIO
1 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0
XS18CEU XS19MEL XD01AND XD02ARA XD03AST XD04BAL XD05CAN
84
1 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0
XD06CANT XD08CLM XD07CL XD09CAT XD10CV XD11EXT XD12GAL XD13MAD
1 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0
XD14MUR XD15NAV XD16PV XD17RIO XD18CEU XD19MEL
1 0 0 0 0 0 0
2 0 0 0 0 0 0
3 0 0 0 0 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
6 0 0 0 0 0 0
> Selec<-c(2:5,11:71)
> CalIPIb<-CalIPIa[,Selec]
> UNO<-matrix(1,nrow=nrow(CalIPIb),ncol=1)
> CalIPI<-data.frame(CalIPIb,UNO)
> (Nu1<-paste("X",1:19,sep="")) # esto nos crea el vector literal X1,...,X19
[1] "X1" "X2" "X3" "X4" "X5" "X6" "X7" "X8" "X9" "X10"
[11] "X11" "X12" "X13" "X14" "X15" "X16" "X17" "X18" "X19"
> In1<-which(names(CalIPI)=="XH01AND")
> Fi1<-which(names(CalIPI)=="XH19MEL") # nros. de variables inicial y final
> names(CalIPI)[In1:Fi1]<-Nu1
> Nu2<-paste("Y",1:19,sep="") # esto nos crea el vector literal Y1,...,Y19
> In2<-which(names(CalIPI)=="XS01AND")
> Fi2<-which(names(CalIPI)=="XS19MEL") # nros. de variables inicial y final
> Nu3<-paste("Z",1:19,sep="") # esto nos crea el vector literal Z1,...,Z19
> In3<-which(names(CalIPI)=="XD01AND")
> Fi3<-which(names(CalIPI)=="XD19MEL") # nros. de variables inicial y final
> Nu4<-c("D","M","A","DS","LMXSS","JSS","VSS","LPSS")
> names(CalIPI)[1:8]<-Nu4
> head(CalIPI)
D M A DS LMXSS JSS VSS LPSS X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
1 1 1 2010 5 0 0 0 0 1 1 1 1 1 1 1 1 1 1
2 2 1 2010 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3 3 1 2010 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0
85
4 4 1 2010 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
5 5 1 2010 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0
6 6 1 2010 3 0 0 0 0 1 1 1 1 1 1 1 1 1 1
X11 X12 X13 X14 X15 X16 X17 X18 X19 Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9
1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
6 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
Y10 Y11 Y12 Y13 Y14 Y15 Y16 Y17 Y18 Y19 Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Z9 Z10 Z11 Z12 Z13 Z14 Z15 Z16 Z17 Z18 Z19 UNO
1 0 0 0 0 0 0 0 0 0 0 0 1
2 0 0 0 0 0 0 0 0 0 0 0 1
3 0 0 0 0 0 0 0 0 0 0 0 1
4 0 0 0 0 0 0 0 0 0 0 0 1
5 0 0 0 0 0 0 0 0 0 0 0 1
6 0 0 0 0 0 0 0 0 0 0 0 1
> (DiasMesAnno<-aggregate(CalIPI$UNO, by=list(CalIPI$M,CalIPI$A), sum, na.rm=TRUE))
Group.1 Group.2 x
1 1 2010 31
2 2 2010 28
3 3 2010 31
4 4 2010 30
5 5 2010 31
6 6 2010 30
7 7 2010 31
8 8 2010 31
9 9 2010 30
10 10 2010 31
11 11 2010 30
12 12 2010 31
13 1 2011 31
14 2 2011 28
15 3 2011 31
16 4 2011 30
17 5 2011 31
18 6 2011 30
19 7 2011 31
86
20 8 2011 31
21 9 2011 30
22 10 2011 31
23 11 2011 30
24 12 2011 31
25 1 2012 31
26 2 2012 29
27 3 2012 31
28 4 2012 30
29 5 2012 31
30 6 2012 30
31 7 2012 31
32 8 2012 31
33 9 2012 30
34 10 2012 31
35 11 2012 30
36 12 2012 31
37 1 2013 31
38 2 2013 28
39 3 2013 31
40 4 2013 30
41 5 2013 31
42 6 2013 30
43 7 2013 31
44 8 2013 31
45 9 2013 30
46 10 2013 31
47 11 2013 30
48 12 2013 31
> (DiasMes<-aggregate(DiasMesAnno$x, by=list(DiasMesAnno$Group.1), mean, na.rm=TRUE))
Group.1 x
1 1 31.00
2 2 28.25
3 3 31.00
4 4 30.00
5 5 31.00
6 6 30.00
7 7 31.00
8 8 31.00
9 9 30.00
10 10 31.00
11 11 30.00
12 12 31.00
> (DiasMesAnnoRegresor<-merge(DiasMesAnno, DiasMes, by.x="Group.1", by.y="Group.1"))
Group.1 Group.2 x.x x.y
87
1 1 2010 31 31.00
2 1 2013 31 31.00
3 1 2012 31 31.00
4 1 2011 31 31.00
5 2 2010 28 28.25
6 2 2011 28 28.25
7 2 2013 28 28.25
8 2 2012 29 28.25
9 3 2010 31 31.00
10 3 2011 31 31.00
11 3 2012 31 31.00
12 3 2013 31 31.00
13 4 2010 30 30.00
14 4 2011 30 30.00
15 4 2012 30 30.00
16 4 2013 30 30.00
17 5 2010 31 31.00
18 5 2011 31 31.00
19 5 2012 31 31.00
20 5 2013 31 31.00
21 6 2010 30 30.00
22 6 2011 30 30.00
23 6 2012 30 30.00
24 6 2013 30 30.00
25 7 2010 31 31.00
26 7 2011 31 31.00
27 7 2012 31 31.00
28 7 2013 31 31.00
29 8 2010 31 31.00
30 8 2011 31 31.00
31 8 2012 31 31.00
32 8 2013 31 31.00
33 9 2010 30 30.00
34 9 2011 30 30.00
35 9 2012 30 30.00
36 9 2013 30 30.00
37 10 2010 31 31.00
38 10 2011 31 31.00
39 10 2012 31 31.00
40 10 2013 31 31.00
41 11 2011 30 30.00
42 11 2010 30 30.00
43 11 2012 30 30.00
44 11 2013 30 30.00
45 12 2012 31 31.00
88
46 12 2011 31 31.00
47 12 2010 31 31.00
48 12 2013 31 31.00
> (DiasMesAnnoRegresor$BI<-DiasMesAnnoRegresor$x.x-DiasMesAnnoRegresor$x.y)
[1] 0.00 0.00 0.00 0.00 -0.25 -0.25 -0.25 0.75 0.00 0.00
[11] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[21] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[31] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
[41] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
> (DiasMesAnnoRegresor<-DiasMesAnnoRegresor[with(DiasMesAnnoRegresor,
order(Group.2, Group.1)), ])
Group.1 Group.2 x.x x.y BI
1 1 2010 31 31.00 0.00
5 2 2010 28 28.25 -0.25
9 3 2010 31 31.00 0.00
13 4 2010 30 30.00 0.00
17 5 2010 31 31.00 0.00
21 6 2010 30 30.00 0.00
25 7 2010 31 31.00 0.00
29 8 2010 31 31.00 0.00
33 9 2010 30 30.00 0.00
37 10 2010 31 31.00 0.00
42 11 2010 30 30.00 0.00
47 12 2010 31 31.00 0.00
4 1 2011 31 31.00 0.00
6 2 2011 28 28.25 -0.25
10 3 2011 31 31.00 0.00
14 4 2011 30 30.00 0.00
18 5 2011 31 31.00 0.00
22 6 2011 30 30.00 0.00
26 7 2011 31 31.00 0.00
30 8 2011 31 31.00 0.00
34 9 2011 30 30.00 0.00
38 10 2011 31 31.00 0.00
41 11 2011 30 30.00 0.00
46 12 2011 31 31.00 0.00
3 1 2012 31 31.00 0.00
8 2 2012 29 28.25 0.75
11 3 2012 31 31.00 0.00
15 4 2012 30 30.00 0.00
19 5 2012 31 31.00 0.00
23 6 2012 30 30.00 0.00
27 7 2012 31 31.00 0.00
31 8 2012 31 31.00 0.00
35 9 2012 30 30.00 0.00
89
39 10 2012 31 31.00 0.00
43 11 2012 30 30.00 0.00
45 12 2012 31 31.00 0.00
2 1 2013 31 31.00 0.00
7 2 2013 28 28.25 -0.25
12 3 2013 31 31.00 0.00
16 4 2013 30 30.00 0.00
20 5 2013 31 31.00 0.00
24 6 2013 30 30.00 0.00
28 7 2013 31 31.00 0.00
32 8 2013 31 31.00 0.00
36 9 2013 30 30.00 0.00
40 10 2013 31 31.00 0.00
44 11 2013 30 30.00 0.00
48 12 2013 31 31.00 0.00
> (bt<-ts(DiasMesAnnoRegresor$BI,frequency=12,start=c(2010,1)))
Jan Feb Mar Apr May Jun Jul Aug Sep Oct
2010 0.00 -0.25 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
2011 0.00 -0.25 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
2012 0.00 0.75 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
2013 0.00 -0.25 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Nov Dec
2010 0.00 0.00
2011 0.00 0.00
2012 0.00 0.00
2013 0.00 0.00
En cuanto a los regresores de Semana Santa, en primer lugar tenemos que calcular las
amd amd
series Iu1 y Iu2 , esto se consigue calculando primero
P19los dı́as inhábiles de lunes a viernes
amd
como suma ponderada de los XNM, es decir Kt = N M =1 XN Mt wN M , entonces se hace
amd amd
Iu1 = Kt (JSSt + V SSt + LPt ) y Iu2 = LM M SSt + (1 − Kt )(JSSt + LP SSt ). Puede
comprobarse, analizando todos los casos posibles, que estas series son las que habı́amos
descrito para los efectos de Semana Santa.
Las sentencias de R que hacen estos cálculos y luego obtienen los regresores de dı́as
laborables de Semana Santa eam 1 y festivos de Semana Santa eam2 son:
> Peso<-read.csv(file="~/Calendario/Pesos.csv",header=FALSE,sep=" ",dec=".")
> (Pesos<-as.vector(Peso$V1)/100) # dividimos por 100 porque los pesos suman 100
[1] 0.10299297 0.04839827 0.02751639 0.01147483 0.01732239 0.01486142
[7] 0.04225102 0.06230858 0.23629398 0.09734737 0.00865160 0.05869341
[13] 0.10311822 0.02760232 0.02993623 0.09846422 0.01276678 0.00000000
[19] 0.00000000
> CalIPI$K<-CalIPI$X1*Pesos[1]+ CalIPI$X2*Pesos[2]+ CalIPI$X3*Pesos[3]+
+ CalIPI$X4*Pesos[4]+ CalIPI$X5*Pesos[5]+ CalIPI$X6*Pesos[6]+
90
+ CalIPI$X10*Pesos[10]+ CalIPI$X11*Pesos[11]+
+ CalIPI$X12*Pesos[12]+ CalIPI$X13*Pesos[13]+
+ CalIPI$X17*Pesos[17]+ CalIPI$X18*Pesos[18]+ CalIPI$X19*Pesos[19]
> CalIPI$I1<-CalIPI$K*(CalIPI$JSS+CalIPI$VSS+CalIPI$LP)
> CalIPI$I2<-CalIPI$LMXSS+(1-CalIPI$K)*(CalIPI$JSS+CalIPI$LPSS)
> E1<-aggregate(CalIPI$I1,by=list(CalIPI$M,CalIPI$A),sum, na.rm=TRUE)
> E1m<-aggregate(E1$x, by=list(E1$Group.1), mean, na.rm=TRUE)
> E1Regresor<-merge(E1, E1m, by.x="Group.1", by.y="Group.1")
> E1Regresor$e1<-E1Regresor$x.x-E1Regresor$x.y
> E1Regresor<-E1Regresor[with(E1Regresor, order(Group.2, Group.1)), ]
> (e1<-ts(E1Regresor$e1,frequency=12,start=c(2010,1)))
Jan Feb Mar Apr May Jun
2010 0.0000000 0.0000000 -0.4165897 0.3821541 0.0000000 0.0000000
2011 0.0000000 0.0000000 -0.4165897 0.4922682 0.0000000 0.0000000
2012 0.0000000 0.0000000 -0.4165897 0.3821541 0.0000000 0.0000000
2013 0.0000000 0.0000000 1.2497690 -1.2565764 0.0000000 0.0000000
Jul Aug Sep Oct Nov Dec
2010 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
2011 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
2012 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
2013 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
> E2<-aggregate(CalIPI$I2,by=list(CalIPI$M,CalIPI$A),sum, na.rm=TRUE)
> E2m<-aggregate(E2$x, by=list(E1$Group.1), mean, na.rm=TRUE)
> E2Regresor<-merge(E2, E2m, by.x="Group.1", by.y="Group.1")
> E2Regresor$e2<-E2Regresor$x.x-E2Regresor$x.y
> E2Regresor<-E2Regresor[with(E2Regresor, order(Group.2, Group.1)), ]
> (e2<-ts(E2Regresor$e2,frequency=12,start=c(2010,1)))
Jan Feb Mar Apr May Jun Jul
2010 0.000000 0.000000 1.416590 -1.382154 0.000000 0.000000 0.000000
2011 0.000000 0.000000 -1.583410 1.507732 0.000000 0.000000 0.000000
2012 0.000000 0.000000 -1.583410 1.617846 0.000000 0.000000 0.000000
2013 0.000000 0.000000 1.750231 -1.743424 0.000000 0.000000 0.000000
Aug Sep Oct Nov Dec
2010 0.000000 0.000000 0.000000 0.000000 0.000000
2011 0.000000 0.000000 0.000000 0.000000 0.000000
2012 0.000000 0.000000 0.000000 0.000000 0.000000
2013 0.000000 0.000000 0.000000 0.000000 0.000000
Finalmente, calcularemos el regresor de dı́a laborable ut . Para ello, tan solo necesitamos
calcular el número de dias laborables y no laborables de cada mes y algunos promedios suyos.
Suponemos, por tratarse de regresores para un indice industrial, que los sábados y domingos
son todos no laborables. Por tanto, podemos usar la variable Kt que habı́amos defindo para
los regresores de Semana Santa y crear una serie nueva Lt que indica si el dı́a es no laborable,
91
(
1 si DS = 6 ó 7 (sábado o domingo),
en concreto Lt = .
Kt en otro caso.
En el programa que implementa esto, la variable Lt se llama N2amd. Con esta variable,
podemos calcular el número de dı́as no laborables de cada mes sumando en la forma N2am =
Pl(a,m) amd
d=1 Lt , donde l(a, m) es la longitud del mes m del año a. El número de dı́as laborables
será N1 = l(a, m) − N2am . El programa es:
am
> CalIPI$N2amd<-(CalIPI$DS==6)*1+(CalIPI$DS==7)*1+(CalIPI$DS <6)*(CalIPI$DS>0)*CalIPI$

> DiasMesAnno<-aggregate(CalIPI$UNO, by=list(CalIPI$M,CalIPI$A), sum, na.rm=TRUE)
> N2am<-aggregate(CalIPI$N2amd,by=list(CalIPI$M,CalIPI$A),sum, na.rm=TRUE)
> names(N2am)[3]<-"N2am"
> TablaMeses<-merge(DiasMesAnno, N2am)
> TablaMeses$N1am<-TablaMeses$x-TablaMeses$N2am
> N1a<-aggregate(TablaMeses$N1am,by=list(TablaMeses$Group.1),mean,na.rm=TRUE)
> N2a<-aggregate(TablaMeses$N2am,by=list(TablaMeses$Group.1),mean,na.rm=TRUE)
> TM1<-merge(TablaMeses,N1a,by="Group.1")
> TM2<-merge(TM1,N2a,by="Group.1")
> TM2<-TM2[with(TM2, order(Group.2, Group.1)), ]
> head(TM2)
Group.1 Group.2 x.x N2am N1am x.y x
1 1 2010 31 12.000000 19.00000 20.33187 10.668130
5 2 2010 28 8.007275 19.99272 20.16730 8.082701
9 3 2010 31 8.655608 22.34439 21.49628 9.503721
13 4 2010 30 10.250582 19.74942 19.65925 10.340751
17 5 2010 31 10.100944 20.89906 21.47931 9.520688
21 6 2010 30 8.379781 21.62022 20.90297 9.097028
> (z1<-mean(N1a$x))
[1] 20.85101
> (z2<-mean(N2a$x))
[1] 9.586495
> TM2$ut<-TM2$N1a-TM2$x.y-(z1/z2)*(TM2$N2a-TM2$x)
> (u<-ts(TM2$ut,frequency=12,start=c(2010,1)))
Jan Feb Mar Apr May Jun
2010 -4.22874102 -0.01051985 2.69279493 0.28629083 -1.84233574 2.27728727
2011 -1.05370146 -0.33752661 4.73794178 -2.88686691 -0.03411438 1.39289587
2012 1.52583013 0.66247339 0.50536163 -2.88874873 1.00529939 0.17391972
2013 3.75661236 -0.31442693 -7.93609833 5.48932481 0.87115074 -3.84410286
Jul Aug Sep Oct Nov Dec
2010 0.48504659 0.36718080 2.69942461 -3.57978773 0.79375989 4.22216360
2011 -3.84979504 0.93521960 2.69722464 -3.89241551 0.79375989 -0.68293993
2012 0.29869270 0.93741957 -4.21577718 2.14858184 0.79375989 -2.87815826
2013 3.06605575 -2.23981996 -1.18087207 5.32362140 -2.38127967 -0.66106541
92
8.4. Ausencia de observaciones
Si en la serie temporal yt no disponemos de algunas observaciones, podemos intentar
estimarlas utilizando la información que nos dan las restantes observaciones.
La hipótesis que haremos es que los instantes en que faltan las observaciones están to-
mados al azar. Esto implica que, por ejemplo, no faltan precisamente las observaciones con
valores grandes (o pequeños).
En concreto, utilizaremos la esperanza condicionada, intentando calcular
Ŷm = E[Ym /Yo ], (167)
donde Ym representa un vector donde se apilan las observaciones ausentes de nuestra serie,
mientras que Yo representa un vector con las observaciones de que disponemos.
Supongamos que nos falta la observación yi . El método que describimos se podrı́a emplear,
teóricamente, para estimarla en forma óptima. La función de autocorrelación inversa IACF
está formada por las llamadas autocorrelaciones inversas. La autocorrelación inversa νk de
retardo k se define como la autocorrelación entre yt e yt−k , eliminado el efecto de todas las
demás observaciones (sean anteriores a yt−k , posteriores a yt o intermedias entre ambas).
Dado un proceso ARMA(p,q) estacionario con modelo φ(B)yt = θ(B)εt , el llamado proceso
inverso xt , que sigue el modelo θ(B)xt = φ(B)ut , obtenido intercambiando los polinomios
autorregresivo y de medias móviles en el modelo de yt y sustituyendo el ruido blanco εt por
otro ut tal que V ar(ut ) = (V ar(εt ))−1 , tiene como autocorrelaciones las autocorrelaciones
inversas de yt . Calcular las autocorrelaciones del proceso inverso xt es una forma sencilla de
calcular las autocorrelaciones inversas de yt .
Una vez conocidas (o estimadas a partir de la serie yt observada) las νk , la estima-
ción (interpolación) óptima de una observación ausente yi se puede expresar en la forma
ŷi = ∞
P
ν (y
j=1 j i+j + y i−j ). Como en la práctica, la serie observada es finita y1 , · · · , yT y no
conoceremos las νk , sino que las estimaremos a partir P del proceso inverso del proceso que se
ajuste a nuestra serie finita, deberı́amos escribir ŷi = ∞ j=1 ν̂j (ŷi+j + ŷi−j ), donde ŷi+j , para
i + j > T serı́a la predicción óptima de yi+j , para i + j < 0 serı́a la predicción óptima de la
serie hacia el pasado (o la predicción óptima hacia el futuro de la serie puesta del revés) y,
en otro caso, serı́a la observación de que disponemos.
El método anterior es poco práctico, en su lugar se puede utilizar el filtro de Kalman o
también el procedimiento que describimos a continuación.
Si faltan k observaciones, en los instantes t1 , · · · , tk , se procede en la siguiente forma:
1. Imputar los valores yt1 , · · · , ytk desconocidos por valores arbitrarios, zt1 , · · · , ztk (por
ejemplo, ceros). En el resto de instantes, hacer, simplemente, zt = yt .
2. Aplicar análisis de intervención a la serie ası́ completada, incluyendo un impulso en
cada instante t1 , · · · , tk , es decir,
k
X
zt = ωj Itj + yt (168)
j=1
3. Estimar (168). Si denotamos por ω̂j a las estimaciones de los ωj , las estimaciones de
los valores perdidos son ŷtj = ztj − ω̂j .
93
Se puede demostrar que de esta forma se obtiene (en una sola iteración) la estimación óptima
de los valores perdidos y que ésta es independiente de los valores arbitrarios empleados en
el paso 1 anterior.
9. Funciones de transferencia
9.1. Introducción
El estudio conjunto de dos o más series temporales, es decir, de series temporales múlti-
ples, se encuentra fuera del ámbito de este curso. Este estudio se puede abordar utilizando
los modelos VARMA, generalización de los ARMA al caso vectorial. Como caso particular, los
modelos VAR, que no tienen parte de medias móviles son más sencillos de ajustar a los datos.
En este curso trataremos tan solo el caso en que una de las series temporales, la explicada,
yt no influye en las otras, xjt , j ∈ {1, · · · , r}, que son las explicativas y se consideran exógenas,
es decir, sus modelos se determinan por separado, independientemente del de yt . En cambio,
se supone que las series xjt , j ∈ {1, · · · , r} influyen en yt . En este caso, no son necesarios
los modelos VAR o VARMA, sino que se puede utilizar el modelo de función de transferencia,
también llamado de regresión dinámica o de regresión de series temporales. En la sección 9.5
veremos cómo se puede comprobar la hipótesis de que las series xjt no dependen de la yt .
El modelo es
yt = f1 (B)x1t + · · · + fr (B)xrt + εt , (169)
donde se supone que las series xjt , j ∈ {1, · · · , r} son independientes entre sı́ y que cada una
de ellas es independiente del ruido blanco εt . Cada uno de los r filtros fj (B) se supone que
es un polinomio causal infinito, es decir,
fj (B) = fj0 + fj1 B + fj2 B 2 + · · · j ∈ {1, · · · , r}. (170)
En la práctica, para evitar tener que trabajar con un número infinito de parámetros de los
filtros, se suele suponer que cada filtro (170) se puede expresar en forma racional, como
cociente de polinomios finitos, de manera que el modelo (169) queda
ω1 (B)B b1 ωr (B)B br
yt = x1t + · · · + xrt + εt , (171)
δ1 (B) δr (B)
donde, para cada j ∈ {1, · · · , r}, ωj (B) = ωj0 + ωj1 B + · · · + ωjaj B aj , δ( B) = 1 + δj1 B +
· · · + δcj B cj (polinomio estable), y bj ≥ 0 es el retardo con el que actúa xjt sobre yt .
9.2. El método de pre-blanqueo

Existen dos métodos más utilizados para estimar una función de transferencia. El primero
es el de pre-blanqueo. Lo explicaremos tan sólo por motivos históricos, dado que es el que
se explica en casi todos los libros, pero debemos tener en cuenta que el segundo método que
describiremos más adelante presenta importantes ventajas y es el que utilizaremos.
El método del pre-blanqueo solo se puede utilizar cuando hay una única serie explicativa
xt . En este método se supone también que las series yt y xt son conjuntamente estacionarias
94
(si no lo fueran habrı́a que diferenciar cada serie un cierto número de veces para que lo
fueran). Con una sola serie explicativa (169) y (171) se reducen a
ω(B)B b
yt = f (B)xt + εt = f0 xt + f1 xt−1 + f2 xt−2 + · · · + εt = xt + εt . (172)
δ(B)
Sea γxy (k) = Ext yt+k la covarianza entre xt e yt+k . Se cumple que γxy (k) = γyx (−k), para
todo retardo k.
Si escribimos (172) en t + k y multiplicamos la ecuación resultante por xt queda
xt yt+k = f0 xt xt+k + f1 xt xt+k−1 + f2 xt xt+k−2 + · · · + fk xt xt + · · · + xt εt (173)
Tomando esperanzas en esta última expresión será
γxy (k) = f0 γx (k) + f1 γx (k − 1) + · · · + fk γx (0) + · · · , (174)
expresión que relaciona los pesos del filtro fj con las autocovarianzas de xt y con las cova-
rianzas cruzadas γxy .
La observación que lleva al método del pre-blanqueo es ver que, si xt fuera ruido blanco,
(174) se simplificarı́a a
γxy (k) = fk γx (0), (175)
con lo cual una estimación natural de los pesos del filtro serı́a
γxy (k) σx σy ρxy (k) σy ρxy (k)
fˆk = = 2
= , (176)
γx (0) σx σx
donde σx2 = γx (0), σy2 = γy (0) y ρxy (k) = γσxyx σ(k)

y
(autocorrelación cruzada).
Claro que xt no es ruido blanco, pero si su modelo es a(B)xt = c(B)ut , donde ut es
ruido blanco, entonces ut = a(B)x
c(B)
t
, es decir, el filtro a(B)
c(B)
blanquea (o pre-blanquea, de ahı́ el
nombre) a xt . Aplicamos este filtro a (172) y queda
a(B) a(B)
zt = yt = f (B)ut + εt . (177)
c(B) c(B)
Es decir, tenemos otro modelo de función de transferencia entre una nueva serie zt , resultado
de filtrar yt y ut , pero como ut es ruido blanco, y está incorrelado con a(B) ε (por estar xt
c(B) t
incorrelada con εt ), podemos usar (176) y estimar los pesos en la forma
σz
fˆk = ρuz (k). (178)
σu
Este resultado justifica el método de pre-blanqueo, cuyos pasos son
1. Estimar un modelo â(B)xt = b̂(B)ut para la serie xt .

â(B) â(B)
2. Obtener dos nuevas series ut = x
b̂(B) t
y zt = y:
b̂(B) t
3. Calcular las autocorrelaciones cruzadas entre ut y zt , a las que llamaremos ρ̂uz (k).
95
4. Estimar fˆk = σ̂σ̂uz ρ̂k . A los fˆj se les denomina pesos de la función de transferencia o
pesos de respuesta a impulso para la serie xt .
5. Despreciar las ρ̂k que no sean significativas (su desviación tı́pica es (T − k)1/2 )
6. Con los fˆk obtenidos que tengan autocorrelaciones ρ̂k significativas, identificar los órde-
b
nes a, b y c del filtro ω(B)B
δ(B)
comparándo estos fˆk con los que vienen en algunos libros
para filtros de órdenes bajos.
7. Obtener estimaciones preliminares de los ωj y δj con fórmulas que también vienen en

los libros para órdenes bajos. Ahora tenemos estimaciones preliminares ω̂(B) y δ̂(B).
ω̂(B)B b
8. Calcular la serie estimada del ruido ε̂t = yt − δ̂(B)
xt
ˆ
9. Estimar un modelo para este ruido, d(B)ε̂ t = n̂(B)ψt .
b
10. Tenemos el modelo tentativo yt = ω̂(B)B
δ̂(B)
xt + n̂(B)
ˆ
d(B)
ψt . Quitando denominadores converti-
mos esto en un modelo ARIMA que podemos reestimar, obteniendo la estimación final de
ω(B), δ(B), n(B), d(B) y σψ (al quitar denominadores, aparecen nuevos parámetros,
a partir de ellos estimamos los parámetros originales).
El proceso es complejo y, además, no se puede extender al caso de que haya más de un

regresor xt , pues no podemos pre-blanquear simultáneamente dos o más xjt .
9.3. El método LTF

El otro método, llamado LTF (Linear Transfer Function), está explicado en Liu (2009),
implementado en forma semiautomática en el sistema SCA y se puede emplear tanto para
uno como para varios regresores xt . Se sigue suponiendo que las series yt y xjt , j ∈ {1, · · · , r}
son conjuntamente estacionarias y que si no lo eran se ha diferenciado cada serie un cierto
número de veces de manera que ahora ya se trabaja con series conjuntamente estacionarias.
Este método consiste en los siguientes pasos (la notación emplea un solo regresor, pero
la extensión a más de uno es elemental):
1. Como δ(B) es un polinomio estable, aproximamos (172) por el modelo yt = (f0 +f1 B +
· · · + fk B k )xt + εt , para un cierto k grande y estimamos esta aproximación por mı́nimos
cuadrados ordinarios.
En realidad, esta estimación no es eficiente, pues εt no será en general, ruido blanco
(por muchos motivos, el más importante es que en el modelo (172) casi siempre nos
faltarán algunos regresores adicionales a xt ). Por ese motivo, es preferible utilizar los
modelos
yt = (f0 + f1 B + · · · + fk B k )xt + 1
ψ,
1+φ1 B t
(179a)
yt = (f0 + f1 B + · · · + fk B k )xt + 1
ψ,
(1+φ1 B)(1+Φ1 B s ) t
(179b)
96
para los casos no estacional y estacional, respectivamente, en los que permitimos au-
tocorrelación en los εt sin aumentar mucho la complejidad del modelo.
2. Contrastamos la significatividad de los fˆj (es sencillo hacerlo, son parámetros de re-
gresión) y eliminamos los que no sean significativos.
3. Estimamos los residuos ε̂t = yt − kj=0 fj xt−j . Identificamos y estimamos un modelo

P
ˆ
para ellos d(B)ε t = n̂(B)ψt .
4. Ahora nos encontramos en una situación análoga a la que tenı́amos después del paso
5 en el método de pre-blanqueo. Para identificar los grados a, b y c utilizaremos el
método corner (Liu (2009), sección 5.12).
b
5. Finalmente, reestimamos el modelo identificado yt = ω(B)B
δ(B)
xt + n(B) ψ , donde pone-
d(B) t
ˆ
mos n(B) en lugar de n̂(B) y d(B) en lugar de d(B) para indicar que no usamos los
parámetros estimados, sino que solo conservamos la información de los grados de estos
dos polinomios y reestimamos sus parámetros junto con los demás parámetros.
b
Dos puntos clave a resaltar. El primero es la sustitución del filtro ω(B)B
δ(B)
por su aproxima-
Pk j
ción autorregresiva j=0 fj B , la cual permite estimar los pesos fj de una forma sencilla y
extender el método al caso de varios regresores xt . El segundo es la utilización del método
b
corner, que automatiza en gran medida la identificación de los órdenes del filtro ω(B)B
δ(B)
en la
última etapa y también permite identificar los filtros de varios regresores simultáneamente.
9.4. El procedimiento de SSMMATLAB

En Gómez (2009) se presenta un procedimiento que mejora el método LTF en dos aspec-
tos. El primero consiste en permitir una modelización automática del modelo del ruido en
el paso 1 anterior, es decir, en lugar de elegir un AR(1), se utiliza un programa de modeli-
zación automática que escoja el modelo más adecuado. Esto implica que ahora ya no hay
que suponer que las series yt y xjt , j ∈ {1, · · · , r} son conjuntamente estacionarias ni, por
tanto, hay que diferenciarlas previamente. El segundo aspecto es sustituir el método corner
por un método que se encuentra en Shanks (1967) y que permite automatizar por completo
la identificación del filtro usándolo junto a un criterio como el AIC o el BIC. Este procedi-
meiento está programado en la librerı́a SSMMATLAB (Gómez (2017)). El algoritmo que emplea
SSMMATLAB es (de nuevo, la notación solo incluye una serie explicativa, pero la extensión a
más de una es trivial):
1. Se estima el modelo
θ(B)
yt = (f0 + f1 B + · · · + fk B k )xt + ψt , (180)
φ(B)
θ(B)
donde ψ
φ(B) t
es un modelo ARIM A(p, d, q) × (P, D, Q)s . La identificación del mode-
lo ARIMA se hace por modelización automática. Llamaremos fˆj a los parámetros de
regresión estimados.
97
2. Se contrasta la significatividad de los fˆj . Si, después de este proceso, las b primeros no
resultan ser significativos, este b se toma como el retardo de la función de transferencia.
3. Se reestima el modelo (180), pero sin los b primeros parámetros que no resultaron
significattivos. Sean f˙j los parámetros estimados en este paso.
4. Para todas las posibles combinaciones de valores pequeños a y c de grados de los
polinomios ω(B) y δ(B) se estiman los coeficientes de estos polinomios por el método
de Shanks (1967) (que se detalla más abajo) y se eligen los a y c óptimos usando el
criterio que también se detalla más abajo.
5. Con los b, a y c identificados en los pasos 2 y 4 y con los órdenes (p, d, q, P, D, Q) del
modelo ARIMA identificado en los pasos 1 y 3, se reestiman, por máxima verosimilitud,
todos los parámetros del modelo
ω0 + ω1 B + · + ωa B a b θ(B)
yt = c
B xt + ψt . (181)
1 + δ1 B + · · · + δc B φ(B)
El método de Shanks (1967) consiste en que, para a, b y c fijos, ha de ser

ω0 + ω1 B + · + ωa B a b
B ≈ f˙b B b + f˙b+1 B b+1 + · · · + f˙k B k ,
1 + δ1 B + · · · + δc B c
o bién, si ei , f˙b+i , i ∈ {1, · · · , k − b} y d , máx{a, c} (se supone que se tomó inicialmente
k lo bastante grande como para que r > d).
ω0 + ω1 B + · · · + ωa B a
≈ e0 + e1 B + · · · + ek−b B k−b . (182)
1 + δ1 B + · · · + δc B c
Equivalentemente, será, escribiendo ω(B) y δ(B) con grado d (rellenando con ceros algunos
de sus coeficientes si es necesario)
ω0 + ω1 B + · · · + ωd B d ≈ (1 + δ1 B + · · · + δd B d )(e0 + e1 B + · · · + er B r ). (183)
En primer lugar, en (183) se estima δ(B) igualando en sus términos izquierdo y derecho
los coeficientes de las potencias B d+1 , · · · , B k−b . Esto se hace porque desde B d+1 las ecua-
ciones obtenidas no dependen de los ωj . Estas ecuaciones son (pueden variar ligeramente
dependiendo de que a sea menor, igual o mayor que c)
0 = δd e1 + δd−1 e2 + · · · + δ1 ed + ed+1 ,
0 = δd e2 + δd−1 e3 + · · · + δ1 ed+1 + ed+2 ,

···
0 = δd ek−b−d + δd−1 ek−b−d+1 + · · · + δ1 ek−b−1 + ek−b ,
o bien     
e1 e2 ··· ed δd −ed+1
 e2 e3 · · · ed+1   δd−1  = −ed+2 
   

 ··· (185)
··· ··· ···  ···   ··· 
ek−b−d ek−b−d+1 · · · ek−b−1 δ1 −ek−b
98
En (185) hay d incógnitas (pueden ser menos si c > a) y k−b−d−1 ecuaciones. Se supone
que k − b − d − 1 > d, es decir, que k > b + 2d + 1 para que el sistema esté sobredeterminado
y resolverlo en el sentido de los mı́nimos cuadrados. Esta restricción no es importante en la
práctica, por ejeplo, si b = 2 y d = 3, será k > 9, lo que no supone un problema si las series
temporales son de longitudes como las que se suelen manejar en la práctica.
Una vez obtenido δ(B), se calculan, por división larga, los k − b − a primeros coeficientes
ν1 , · · · , νr−d en la expansión
1
= 1 + ν1 B + ν2 B 2 + · · · (186)
1 + δ̂1 B + · · · + δ̂c Bc
y (182) se transforma en
(ω0 + ω1 B + · + ωa B a )(1 + ν1 B + · · · + νk−b−a B k−b−a ) ≈ (e0 + e1 B + · · · + ek−b B k−b ). (187)
De nuevo, se crea un sistema de ecuaciones, esta vez igualando los coeficientes de todas las
potencias B 0 , B 1 , · · · , B k−b , que está sobredeterminado si k −b+1 > a, o sea, si k > a+b−1,
lo cual está garantizado por la condición anterior (k > b + 2d + 1). El sistema se resuelve en
el sentido de los mı́nimos cuadrados y ası́ se obtiene ω(B).
El criterio para elegir entre los distintos a y b puede ser un criterio que penalice el
número de parámetros, como el AIC o el BIC. En concreto, SSMMATLAB minimiza, para todos
los posibles a y c tales que (por defecto) 0 ≤ d ≤ 2, una función del tipo
Ca,c = ln(σ̂ 2 ) + C(k)(a + c + 1),
donde C(k) es unaPfunción de penalización (SSMMATLAB usa la asociada al criterio AIC co-
rregido) y σ 2 = k1 (f˙i − f˘i )2 y los f˘i son los que se obtienen con los ωi y δi estimados por
mı́nimos cuadrados según se ha explicado.
Una aplicación importante de las funciones de transferencia consiste en mejorar las pre-
dicciones de una serie económica utilizando un indicador adelantado. En la sección 11.5 de
Box et al. (1994) se proporcionan más detalles a este respecto.
9.5. La hipótesis de triangularidad

Para comprobar la hipótesis de que las series xjt no dependen de la yt recurriremos al
yt
concepto de triangularidad. Sea una serie temporal vectorial zt = , donde yt y xt son
xt
subvectores de zt , que sigue el proceso VARMA Φ(B)zt = Θ(B)εt , cov(εt ) = Σ, es decir,

Φ11 (B) Φ12 (B) yt Θ11 (B) Θ12 (B) Σ11 Σ12
= ε , cov(εt ) = , (188)
Φ21 (B) Φ22 (B) xt Θ21 (B) Θ22 (B) t Σ21 Σ22
donde Φ(B), Θ(B) y sus submatrices son todas matrices polinomiales en el operador B. Si
el modelo (188) se expresa en la forma

Φ11 (B) Φ12 (B) yt Θ11 (B) Θ12 (B) Σ11 0
= ε , cov(εt ) = (189)
0 Φ22 (B) xt 0 Θ22 (B) t 0 Σ22
99
se dice que el proceso es triangular. Es decir, estamos suponiendo que las matrices polino-
miales Φ(B) y Θ(B) son triangulares inferiores por bloques y que la matriz de covarianzas
de las innovaciones es diagonal por bloques.
Una forma sencilla de contrastar la triangularidad es hacer un análisis conjunto de todas
las series, yt y xjt , j ∈ {1, · · · , r} mediante un modelo VAR de orden suficientemente grande,
de la forma
Φ11 (B) Φ12 (B) yt Σ11 Σ12
= εt , cov(εt ) = . (190)
Φ21 (B) Φ22 (B) xt Σ21 Σ22
Si los coeficientes de Φ21 (B) y los de Σ12 = Σ21 no son significativos, entonces la hipótesis
de triangularidad está justificada. La ventaja de hacerlo ası́ es que un modelo VAR es más
sencillo de estimar que un modelo VARMA.
El motivo de exigir que la matriz de covarianzas de las innovaciones sea diagonal por
bloques es que, de no serlo, habrı́a correlación instantánea entre los dos grupos de series yt
y xt y esta correlación instantánea puede indicar tanto que yt dependa de xt , como que xt
dependa de yt o también que cada una depende de la otra. Esto se debe a la relación entre
las formas estructural y reducida de un modelo econométrico. Para simplificar la notación,
veamos un ejemplo de un proceso VAR(1) en dos variables, el caso de un VARMA(p,q) general
en más variables
se trata de
forma
análoga.
2
yt 1 a c d ε1t σ1 0
Sean zt = , A0 = , A1 = εt = , cov(εt ) = Σ = y la
xt b 1 e f ε2t 0 σ22
forma estructural A0 zt + A1 zt−1 = εt , es decir,

1 a yt c d yt−1 ε
+ = 1t (191)
b 1 xt e f xt−1 ε2t
En ella, si a 6= 0 yt depende de xt y si b 6= 0 xt depende de yt . Para pasar a la forma

reducida, que
es la que
se utiliza en un modelo VAR o en un modelo VARMA, premultiplicamos
1 −a
por A−1
0 = y queda
−b 1

yt c − ae d − af 1 −a ε1t
+ = . (192)
xt e − bc f − bd −b 1 ε2t
La matriz de covarianzas de las nuevas innovaciones es

2
−1 −1T σ1 − a2 σ22 −bσ12 − aσ22
A0 ΣA0 = (193)
−bσ12 − aσ22 σ22 − b2 σ12
Hay correlación instantánea entre yt y xt tanto si a 6= 0 como si b 6= 0, y esto ocurre en

general si el elemento (1, 2) de (193) es no nulo.
Si el elemento (1, 2) de (193) es no nulo, en general no podemos saber a partir de la forma
reducida si a 6= 0 o si b 6= 0, pues, incluso si e − bc = 0, de ahı́ no podemos deducir que
e = b = 0, puede ocurrir que e = c = 0 o incluso que e = bc. Por tanto, si el elemento (1, 2)
de (193) es no nulo lo más seguro es no utilizar una función de transferencia, sino un modelo
VAR o un modelo VARMA.
100
9.6. Análisis teórico del modelo de función de transferencia
Sean x2t , · · · , xrt los r − 1 inputs, que se suponen independientes entre sı́. También se
supone que el output yt no influye en ellos (triangularidad e incorrelación de los errores).
Entonces, podemos escribir el modelo de función de transferencia en la forma
     
φ11 (B) φ12 (B) · · · φ1r (B) yt θ11 (B) θ12 (B) · · · θ1r (B) εt
 0 φ22 (B) · · · 0  x2t   0
    θ22 (B) · · · 0  u2t 
 

 ··· = ,
··· ··· · · ·  · · ·  · · · ··· ··· · · ·  · · ·
0 0 · · · φrr (B) xrt 0 0 · · · θrr (B) urt
   2  (194a)
εt σε 0 ··· 0
2
u2t   0 σ2u ··· 0 
 · · ·  · · · · · · · · · · · ·  ,
cov  =  (194b)
2
urt 0 0 · · · σru
Es decir, tenemos un modelo VARMA conjunto para yt y los xj,t . Este modelo está restringido
a ser triangular superior y a que los errores estén incorrelados entre sı́. También vemos
que el modelo de cada input es univariante, si φj , φjj , θj , θjj , el modelo de xjt es
φj (B)xjt = θj (B)ujt . Suponiendo que estos modelos univariantes sean invertibles, será
ujt = θj−1 (B)φj (B)xjt , j ∈ {2, · · · , r} (195)
La primera fila de (194a) dice que
φ1 (B)yt + φ12 (B)x2t + · · · + φ1r (B)xrt = θ1 (B)εt + θ12 (B)u2t + · · · + θ1r (B)urt . (196)
Sustituyendo (195) en (196) resulta

θ12 (B)φ2 (B) − φ12 (B)θ2 (B) θ1r (B)φr (B) − φ1r (B)θr (B) θ1 (B)
φ1 (B)yt = x2t + · · · + xrt + εt
φ1 (B)θ2 (B) φ1 (B)θr (B) φ1 (B)
(197)
La expresión (197) nos dice que, para el input xjt , su filtro es de la forma
θ1j (B)φj (B) − φ1j (B)θj (B)
fj (B) = , (198)
φ1 (B)θj (B)
es decir, si hemos estimado los modelos de los inputs φ̂j (B)xjt = θ̂j (B)ujt , j ∈ {2, · · · , r} y
hemos estimado la función de transferencia según (180) en la forma
k2 kr
X X θ̂1 (B)
yt = fˆ2k x2,t−k + · · · + fˆrk xr,t−k + εt , (199)
k=1 k=1 φ̂1 (B)
también tenemos por (198) una estimación del denominador de los filtros de esa función
de transferencia, que es φ̂1 (B)θ̂j (B). Por poner un ejemplo, si yt tiene estacionalidad y hay
un solo input x2t que no la tiene, es muy probable que al ajustar (199), obtengamos un
φ̂1 (B) estacional, indicando que el denominador del filtro, que es φ̂1 (B)θ̂j (B), tiene que ser
estacional.
Llegando a este punto, varias estrategias son posibles, algunas de ellas son:
101
1. Si solo nos interesa la predicción de yt , (199) puede ser válido y no serı́a necesario
hallar los numeradores y denominadores de los filtros. Quizás tan solo eliminar (uno a
uno) los parámetros no significativos de (199), tanto los fˆjk como los de θ̂1 (B) y φ̂1 (B),
para ası́ mejorar las estimaciones de los demás parámetros y las predicciones.
2. Estimar los numeradores de los filtros nj (B) por el método de Shanks en la forma
nj (B)
fˆj (B) = , (200)
φ̂1 (B)θ̂j (B)
es decir, de (198) usar solo los denominadores. En este caso hay varias opciones, por
ejemplo, como, por (198) el grado de nj (B) es mayor o igual que los grados de φ̂j (B)
y de θ̂j (B), se probarı́an solo algunos grados de nj (B) que cumplieran esta restricción.
3. Estimar los numeradores y denominadores de los filtros nj (B) y dj (B) por el método
de Shanks en la forma
nj (B)
fˆj (B) = , (201)
dj (B)
conservando tan solo la información del grado de los denominadores φ̂1 (B)θ̂j (B) y la
restricción del grado de los numeradores del punto anterior.
4. Parecido al punto anterior, pero especificando numeradores y denominadores multipli-
cativos, para capturar mejor la estacionalidad con pocos parámetros, es decir,
n1j (B)n2j (B s )
fˆj (B) = . (202)
d1j (B)d2j (B s )
En caso de haber obtenido numeradores y denominadores de los filtros, un último paso

serı́a escribir el modelo resultante en forma ARMAX (quitando denominadores) y estimarlo
conjuntamente liberando todos los parámetros y conservando tan solo la información de los
grados de todos los polinomios que se han identificado en los pasos anteriores.
En el caso de que los inputs no tengan un modelo. los desarrollos de esta sección no son
válidos. Pero incluso en este caso se puede intentan ajustar a cada input un modelo para
usar las ideas de esta sección, aunque solo sea para tener una idea aproximada de cuáles
pueden ser los grados de los numeradores y denominadores de los filtros.
9.7. Errores de predicción

Haremos a continuación un pequeño estudio de los errores de predicción de la función de
transferencia comparados con los de un modelo univariante de yt .
Como la función de transferencia hemos visto en la sección anterior que es una mera
reformulación de un modelo VARMA conjunto para yt y los inputs, se trata de ver si la varianza
del error de predicción para yt de este modelo VARMA es menor que la del modelo marginal
ARMA de yt . Es decir, se trata de comparar el elemento (1, 1) de (15) aplicado a (194a) con
(14) para el modelo marginal de yt .
Falta decir qué entendemos por modelo marginal de yt . El modelo conjunto es (194a) y
es el que utiliza la información de las autocovarianzas conjuntas de las dos series. El modelo
102
marginal de yt es el que utiliza tan solo información de las autocovarianzas de yt , es decir,
dado (194a), obtendrı́amos las autocovarianzas de yt y, con ellas, obtendrı́amos el modelo
marginal de yt . No hay una fórmula sencilla para escribir el modelo marginal a partir de los
elementos del modelo conjunto. Si llamamos
φ(B)yt = θ(B)at (203)
al modelo marginal de yt , el error de predicción suyo serı́a el dado por (14).

En el caso no estacionario, el modelo conjunto y marginal se pueden definir, en lugar
de con las autocovarianzas conjuntas o marginales, con las matrices de Hankel extendidas
(Gómez (2016), sec. 3.9) conjuntas o marginales. Estas últimas se pueden usar para obtener
el modelo marginal. Otra forma de obtener el modelo marginal es multiplicar el modelo por
la matriz polinomial adjunta de la matriz autorregresiva para tener la parte autorregresiva en
forma diagonal y luego hacer una factorización de covarianza de la parte de medias móviles.
En teorı́a, cabe esperar que el error de predicción para yt del modelo conjunto (es lo
mismo que decir el error de predicción de la función de transferencia) sea menor o igual que
el del modelo marginal, pues el modelo conjunto tiene más información. Sin embargo, en la
práctica hay que tener en cuenta que, tanto en el modelo marginal como en la función de
transferencia, se buscan outliers y otros efectos deterministas y, del éxito de esa búsqueda
depende en parte la magnitud del error de predicción. Es decir, en la práctica puede darse
cualquier situación. Como es sencillo obtener los errores de predicción tanto del modelo
marginal como de la función de transferencia, estos pueden guiarnos sobre la utilidad de la
función de transferencia en cada situación concreta.
Para terminar decir que, aunque nuestro objetivo sea la predicción, los errores de predic-
ción no lo son todo. Hay situaciones en que los analistas prefieren una función de transferen-
cia, aunque sus errores de predicción no sean menores que los del modelo marginal porque
esas predicciones les resultan en la realidad más acertadas que las del modelo marginal.
Como ejemplo numérico, supongamos que el modelo conjunto es

yt 1 − 0,2B −0,5B εt
zt , = , Σ = I2 .
xt 0 1 − 0,8B ut

−0,2 −0,5
Entonces, si C , , es Ψ0 = I2 , Ψ1 = C y Ψj = 02×2 si j ≥ 2. Además,
0 −0,8

0 1,29 0,4
Cov(zt ) = Γz (0) = I2 ΣI2 + CΣC = ,
0,4 1,64
Cov(zt , zt−1 ) = Γz (1) = CΣI2 = C,

Por tanto, el modelo marginal de yt será el de un proceso con media nula, varianza igual a
1,29, autocovarianza de retardo 1 igual a −0,2 y resto de autocovarianzas nulas. Es decir,
será una media móvil de orden 1 del tipo yt = (1 + θB)at , donde ha de ser
σa2 (1 + θ2 ) = 1,29,
σa2 θ = −0,2.
103
con solución aproximada σa2 = 1,2582 y θ = −0,15896.
El error de predicción de la función de transferencia será el elemento (1, 1) de (15), es
decir eT (k), que vale 1 para k = 1 y 1,29 para k ≥ 2, mientras que el error de predicción
del modelo marginal vale, por (14) eT (1) = 1,2582 y eT (k) = 1,29 para k ≥ 2 En este caso
vemos que hay ganancia de precisión en la predicción inmediata posterior (k = 1) usando la
función de transferencia, pero no para k ≥ 2.
Como ejercicio, se pide analizar el caso en que el modelo conjunto sea

1−B 0 yt 1 −0,5B εt
= , Σ = I2 .
0 1−B xt 0 1 ut
Solución
Como el modelo tiene la parte autorregresiva en forma diagonal, para hallar el modelo
marginal de yt tan solo hay que hacer una factorización de covarianza a la parte de medias
móviles.
El modelo marginal con dos errores es (1 − B)yt = εt − 0,5ut−1 . La media móvil tiene
varianza 5/4 y autocovarianzas nulas, luego la factorización de covarianza es trivial y el
modelo marginal final es (1 − B)yt = at , V ar(at ) = 5/4.
Como (1 − B)−1 = 1 + B + B 2 + · · · , los pesos del modelo marginal son ψj = 1 ,
j ∈ {0, 1, 2, · · · }.
Los pesos Ψj del modelo conjunto son las matrices de coeficientes de cada potencia de
B en la matriz polinomial Ψ(B) = Θ−1 (B)Θ(B), es decir,
−1
1−B 0 1 −0,5B 1 + B + B2 + · · · −0,5(B + B 2 + B 3 + · · · )
= ,
0 1−B 0 1 0 1 + B + B2 + · · ·
(206)
de donde
1 −0,5
Ψ0 = I2 , Ψj = , j ∈ {1, 2, · · · }. (207)
0 1
El error de predicción del modelo marginal es, por (14), eT (k) = 5k
4
, mientras que el de la
función de transferencia es, por (15) (tomando sus elementos (1, 1)), eT (k) = 5k−1
4
, que es
algo menor.
9.8. Un ejemplo de función de transferencia con datos estacionales
10. Forma de espacio de estado

La forma en que hemos explicado los temas de series temporales contenidos en este curso
es la tradicional, que también podrı́amos llamar polinomial, pues el modelo φ(B)yt = θ(B)εt
se expresa mediante dos polinomios en el operador de retardo, que son φ(B) y θ(B).
Esta forma tiene la ventaja de ser mas sencilla de comprender, por eso es la que se
suele emplear en los libros de series temporales. Sin embargo, cuando se quiere trabajar
con series temporales creando programas de ordenador que hagan los cálculos o, incluso, en
descripciones teóricas que se salgan de lo habitual, hay otra forma alternativa de expresar
los modelos de series temporales.
104
Esta otra forma es la forma de espacio de estado. En ella, un modelo de series temporales
se expresa mediante un proceso de Markov ampliado (de dimensión en general superior a
uno), pero, en el cual, por la propiedad de Markov, el proceso, en el presente, solo depende
del propio proceso en el instante de tiempo anterior. Las dos principales ventajas son la
flexibilidad de la forma de espacio de estado, que se puede adaptar a muchas variaciones
de los modelos y el hecho de que existen algoritmos, como el célebre filtro de Kalman, que
permiten realizar cálculos exactos en forma muy eficiente con este tipo de procesos.
En este curso daremos una breve introducción a la forma de espacio de estado, poniendo
énfasis en los aspectos que pueden tener más relevancia al trabajar con series temporales
como las utilizadas en estadı́sticas oficiales y, en particular, al hacer ajuste estacional.
Las referencias de esta sección son Harvey (1989), Gómez (2016), Commandeur and
Koopman, Durbin and Koopman (2012) y Casals and Trindade (2016).
La forma de espacio de estado lineal en tiempo discreto se puede escribir usando varias
expresiones alternativas, que son unas equivalentes a otras. Sin embargo, algunas de ellas
son más cómodas que otras, tanto para obtener desarrollos teóricos, como para hacer los
cálculos numéricos.
Nosotros partiremos de una expresión bastante general de la forma de espacio de estado,
que, además, evita algunos de los problemas que aparecen al usar otras expresiones. Si yt es
un proceso estacionario observado de dimensión g, la expresión es
yt = Zt αt + dt + St εt (208a)
αt+1 = Tt αt + ct + Rt ηt (208b)
     
α0 a0 Σ0 0 0
 ηt  ∼ N  0   0 Qt Gt  (208c)
εt 0 0 G0t Ht
donde la primera ecuación (ecuación de medición) nos dice como se relaciona el proceso
observado yt con el estado del sistema αt , que es un proceso no observado de dimensión
r, mientras que la segunda ecuación (ecuación de transición) nos dice cómo evoluciona el
estado del sistema. La última ecuación nos dice que todo sigue una distribución normal
multivariante. En ella α0 es el estado inicial del sistema y Σ0 su matriz de covarianzas
inicial. Los procesos εt y ηt son ruidos blancos gausianos de dimensiones respectivas h y l.
Todos los demás elementos tienen las dimensiones que hacen que las operaciones reflejadas
en el modelo tengan sentido.
Las ecuaciones (208a) y (208b), cuando las matrices Zt , dt , St , Tt , ct y Rt son constantes,
se pueden escribir en la forma
yt = Zαt + d + Sεt (209a)
αt+1 = T αt + c + Rηt (209b)
Veamos como ejemplo una manera de escribir un proceso ARMA en forma de espacio de
estado. De entre varias posibilidades, escribiremos la llamada forma canónica observable, o
forma de Akaike. Sea el proceso ARMA(p,q) estacionario dado por el modelo φ(B)yt = θ(B)εt ,
con εt ruido blanco gausiano de varianza σ 2 . Llamando r , máx(p, q), la forma de Akaike es

yt = 1 0 · · · 0 1×r αt + εt (210a)
105
 
0 1 0 ··· 0
 
ψ1

 0 0 1 ···

 0
 ψ2 
αt+1 = .. .. ..  .. 
··· 
 αt +   ηt (210b)
 
. . .  .
ψr−1 
 
 0 0 0 ··· 1  
−φ∗r −φ∗r−1 −φ∗r−2 · · · −φ∗1 r×r ψr r×1
     
α0 a0 Σ0 0 0
 η t  ∼ N  0   0 σ 2 σ 2  (210c)
εt 0 0 σ2 σ2
donde εt = ηt , ψ(B) ,(θ(B)/φ(B) son los pesos de la representación del proceso como media
φj si j ≤ p,
móvil infinita y φ∗j =
0 si j > p.
Si el proceso es estacionario αt son las predicciones del proceso para los instantes t +
1, · · · , t + r. Si no es estacionario, lo mismo es cierto, suponiendo que las condiciones iniciales
estén bien especificadas (no sirven las condiciones iniciales (208c) para este caso).
Por ejemplo, para el ARMA(1,1) dado por (1 + φB)yt = (1 + θB)εt , es r = 1 y queda
yt = αt + εt (211a)
αt+1 = −φαt + ψ1 εt , (211b)

donde ya hemos usado εt = ηt y es ψ1 = θ−φ (esto último se deduce de igualar los coeficientes
de los términos en B en la identidad (1 + φB)(1 + ψ1 B + ψ2 B 2 + · · · ) = 1 + θB).
Como ejercicio se pide pasar a la forma ARMA(1,1) desde la forma de espacio de estado
en el ejemplo anterior. Para ello solo hay que escribir la ecuación de medición en t + 1 y en
t, utilizar la ecuación de transición y eliminar el estado de una combinación lineal adecuada
de las dos ecuaciones resultantes.
Si lo que tenemos es un proceso zt que sigue un modelo ARIMA(p,d,q), entonces yt ,
d
∆ zt . Basándonos en la forma de Akaike para yt , dada por (210a) y (210b), en la notación
(209a) y (209b), una forma de espacio de estado para zt viene dada por
zt = Z (−1)d+1 dd (−1)d d−1 d d

· · · d1 1×(r+d) αt + εt

(−1)d−1 d−2 (212a)

T 0 R
αt+1 = αt + ε, (212b)
AZ B (r+d)×(r+d)
A (r+d)×1 t

donde, si d = 1 A = B = 1 y, si d > 1,
 
  0 1 0 ··· 0
0
0
 0 0 1 ··· 0 
.. .. .. ..
 
A =  ..  ,B = 
   
. . . .
.
···
 
 0 0 0 1
1 (r+d)×1
(−1)d+1 dd (−1)d d d d
d−1
d−1
(−1) d−2
··· 1 (r+d)×(r+d)
(213)
106

Por ejemplo,
para un proceso ARIMA(1,1,1), es Z = S = A = B = 1 , T = −φ ,
R = θ − φ y queda
zt = 1 1 αt + εt (214a)

−φ 0 θ−φ
αt+1 = αt + εt , (214b)
1 1 1
Los modelos estructurales se expresan habitualmente en forma de espacio de estado. Un
modelo básico, que expresa la serie como suma de tendencia µt , componente estacional γt y
componete irregular εt serı́a de la forma
yt = µt + γt + εt , (215)
donde cada componente sigue, a su vez, algun modelo, por ejemplo, para el caso de series
trimestrales,
µt = µt−1 + νt + ψt , (216a)
νt = νt−1 + ξt , (216b)
γt + γt−1 + γt−2 + γt−3 = ωt (216c)
y εt puede ser ruido blanco. νt se interpreta como la pendiente de la tendencia.
La forma de espacio de estado de este modelo serı́a, tomando como estado αt = (µt , γt )T ,
 
εt
ψt 
yt = 1 0 αt + 1 0 0 0  
 ξt  (217a)
ωt
   
1 1 0 0 0 0 1 0 0  
0 1 0 0 0 0 0 1 0 εt
 αt + 0 0 0 1 ψt  ,
    
αt+1 =  0 0 −1 −1 −1 (217b)
0 0 0 0 ξt
    
0 0 1 0 0
ωt
0 0 0 1 0 0 0 0 0
donde los cuatro ruidos blancos que aparecen suponemos que stán incorrelados entre sı́.
Hay otras posibles especificaciones para la tendencia, una es, simplemente, suponer que
νt = 0 en (216a) y, por tanto, quitar (216b). Otra la veremos más adelante en (238b).
La componete estacional también se puede definir de otras formas, por ejemplo, utilizan-
do sinusoides (un senos y un coseno) con frecuencias dadas por las frecuencias de Fourier
de la estacionalidad que estemos considerando. Por ejemplo, para observaciones mensuales
tenemos frecuencias de Fourier {π/6, · · · , 5π/6, π} y, para observaciones trimestrales, las
frecuencias de Fourier son {π/2, π}.
También se puede, a veces, incluir el ciclo ct explı́citamente en el modelo y separado de
la tendencia. Es decir, serı́a
yt = µt + ct + γt + εt , (218)
donde el ciclo puede seguir un modelo con sinusoides semejantes a las que mencionábamos
para la componete estacional, pero solo para una cierta frecuencia λc asociada a ese ciclo. La
frecuencia del ciclo será baja, menor que la primera frecuiuencia estacional, que es π/6 en el
107
caso mensual y π/2 en ek caso trimestral, pues se considera que el ciclo económico tiene un
perı́odo mayor que un año.
El modelo del ciclo, en forma de espacio de estado, serı́a

ut δ1,t
ct = 1 0 + 0 0 (219a)
vt δ2,t

ut ρ cos(λc ) ρ sen(λc ) ut 1 0 δ1,t
= + , (219b)
vt −ρ sen(λc ) ρ cos(λc ) vt 0 1 δ2,t
donde ρ es un parámetro de amortiguamento (si tiene un valor menor de 1) o de estabilidad
(si su valor es 1) del ciclo.
Como ejercicio, se puede intentar ver que la forma reducida del ciclo es un proceso
ARMA(2,1), es decir, pasar (219) a forma ARMA (eliminando el estado para obtener la parte
autorregresiva y resolviendo un problema de factorización de covarianza para obtener la
parte de medias móviles).
La ventaja de la forma de espacio de estado es que se puede evaluar la verosimilitud exacta
del modelo que sigue yt , obtener los valores filtrados del estado αt (que son αt/t , E[αt /Y1:t ]
y αt/t−1 , E[αt /Y1:t−1 ]), ası́ como estimar valores perdidos, todo ello recursivamente, sin
más que utilizar el conocido filtro de Kalman, cuyas ecuaciones, para el caso de que yt sea
estacionario son, definiendo α1/0 = α0 y Σ1/0 = Σ0 ,
yt/t−1 = Zt αt/t−1 + dt (220a)

vt = yt − yt/t−1 (220b)
Ft/t−1 = Zt Σt/t−1 ZtT + St Ht StT (220c)
−1
Kt = (Tt Σt/t−1 ZtT + Rt Gt StT )Ft/t−1 (220d)
Lt = Tt − Kt Zt (220e)
αt+1/t = Tt αt/t−1 + ct + Kt vt (220f)
Σt+1/t = Tt Σt/t−1 TtT − Kt Ft/t−1 KtT + Rt Qt RtT (220g)
La expresión recursiva de la verosimilitud exacta de las observaciones es, simplemente,
T
Y
−1
f (Y1:T ) = (2π)−g/2 |Ft/t−1 |−1/2 exp((−1/2)(yt − yt/t−1 )T Ft/t−1 (yt − yt/t−1 )) (221)
t=1
Todo lo anterior se puede extender al caso de que yt sea un proceso no estacionario, que
es el caso que a nosotros nos suele ocupar.
Además, utilizando un filtro en dos pasadas (una desde t = 1 hasta t = T y otra desde
t = T hasta t = 1) se pueden obtener, también con bajo coste computacional, los valores
suavizados αt/T , E[αt /Y1:T ], donde T está fijo y t varı́a desde 1 a T , esto es, obtener la
mejor estimación posible del estado en cada instante de tiempo hasta T basada en nuestras
observaciones hasta el instante T , los cuales son fundamentales en múltiples aplicaciones,
entre ellas en ajuste estacional, benchmarking o desagregación temporal. Es por eso que
108
todos los programas de ordenador modernos que trabajan con modelos de series temporales
utilizan internamente la forma de espacio de estado para hacer los cálculos.
La extensión del filtro de Kalman al caso no estacionario se realiza aumentando el filtro,
esto quiere decir que se define un estado de dimensión mayor que k del cual αt es una parte
y se modifican las ecuaciones del filtro para que tengan en cuenta ese estado ampliado. En
pocas palabras, en el caso estacionario, se puede suponer que el proceso observado yt procede
del pasado remoto y las condiciones iniciales que dimos para el estado α0 son, simplemente,
las de la distribución estacionaria del estado, que es sencilla de calcular en cada aplicación.
En cambio, si el proceso yt no es estacionario, ya no se puede suponer que el proceso procede
del pasado remoto, pues el proceso tiene una tendencia. Entonces hay que suponer que el
proceso tiene un instante inicial y el estado asociado al valor del proceso en ese instante
inicial es desconocido. El filtro aumentado permite, pasados unos pocos instantes de tiempo,
estimar en una forma cómoda ese estado inicial desconocido y, a partir de ese punto, seguir
iterando con el filtro sin aumentar del caso estacionario.
10.1. Observabilidad y controlabilidd

Los siguientes conceptos de teorı́a de sistemas son fundamentales a la hora de trabajar
con modelos en forma de espacio de estado. Un modelo de espacio de estado se dice que es
controlable si se puede llevar el vector de estados del sistema α desde cualquier estado inicial
a cualquier estado final en un tiempo finito usando ciertos términos de error (o controles, de
ahı́ el nombre).
Un modelo de espacio de estado se dice que es observable si, dadas las observaciones de
la serie, se puede determinar cual era el estado inicial α0 (usando unos términos de error
adecuados).
Para el caso de un modelo con matrices invariantes en el tiempo, del tipo (209a) y
(209b), con dimensión del estado igual a r, los conceptos de controlabilidad y observabilidad
son equivalentes, respectivamente, a que los rangos de las matrices de controlabilidad

C , R T R T 2 R · · · T r−1 R (222)
y de observabilidad

O , Z T T T Z T (T T )2 Z T · · · (T T )r−1 Z T (223)
sean iguales a r.
10.2. Desagregación temporal

Podemos definir informalmante la desagregación temporal como el proceso de obtener
estimaciones de alta frecuencia para una serie temporal observada en baja frecuencia. Por
ejemplo, si tenemos una serie observada anualmente, podemos estar interesados en obtener
estimaciones trimestrales o mensuales de esa serie.
Para poder desagregar temporalmente de manera que obtengamos estimaciones razona-
bles, habitualmente se utiliza información adicional, por ejemplo en la forma de otra serie
temporal observada con alta frecuencia, junto con hipótesis que vinculen la serie original con
la información adicional.
109
En el caso habitual de trabajar con series que siguen modelos lineales, la forma de espa-
cio de estado proporciona un marco adecuado para tratar el problema de la desagregación
temporal.
La notación que utilizaremos emplea el subı́ndice t en alta frecuencia como en yt y el
subı́ndice u y un punto encima en baja frecuencia, como en ẏu . Cuando se expresan los
modelos en forma matricial los vectores son inicialmente vectores columna, pero pueden
resultar ser vectores fila tras hacer algunas operaciones matriciales.
Existen varios modelos clásicos de desagregación temporal. Entre ellos citaremos los de
Chow-Lin, Litterman o Fernández. Estos tres modelos se expresan en las formas escalar y
matricial respectivas
yt = βzt + αt , (224a)
y = βz + α, (224b)
donde
αt = φαt−1 + εt , con |φ| < 1 (Chow-Lin) (225a)
∆αt = φ∆αt−1 + εt , con |φ| < 1 (Litterman) (225b)

∆αt = εt . (Fernández) (225c)
Vemos que el método de Fernández es un caso particular del de Litterman, con φ = 0.
En todos los casos, estamos suponiendo que la serie temporal yt (observada en baja
frecuencia) es la suma de otra serie temporal observada de alta frecuencia zt (la cual con-
sideramos como exógena) multiplicada por una constante y otra serie no observada αt , que
varı́a según un modelo AR(1) estacionario (Chow-Lin), según un paseo aleatorio (Fernández)
o sus primeras diferencias varı́an según un AR(1) estacionario (Litterman).
Es decir, tenemos modelos de regresión entre dos variables, donde la variable dependien-
te no es observada y los residuos son procesos ARIMA(1,0,0) (Chow-Lin), ARIMA(1,1,0)
(Litterman) o ARIMA(0,1,0) (Fernández).
Ninguno de los tres modelos es estimable directamente, por no observarse la serie yt .
El modelo que podemos estimar directamente es el de baja frecuencia, que se obtiene
premultiplicando (224) por una matriz de observación adecuada M . Por ejemplo, si tenemos
k observaciones anuales ẏu u ∈ {1, · · · , k} y queremos desagregar ẏu trimestralmente para
T
obtener yt , t ∈ {1, · · · , 4k}, que escribiremos en un vector columna y = y1 , y2 , · · · , y4k ,
T
ayudándonos de otra serie trimestral z = z1 , z2 , · · · , z4k observada en los k años completos
y suponemos que lo que observamos es la serie yt al final de cada año, será
 
y1
0 0 0 1 0 0 0 0  y2 

ẏ1 ẏ2 · · · ẏk = (226)
0 0 0 0 0 0 0 1 ·
y8
En general, el modelo transformado de (224) es M y = M zβ + M α, que escribimos
(trasponiendo para tener vectores columna)
ẏ = żβ + α̇ (227)
110
Este modelo en baja frecuencia se puede estimar por GLS (mı́nimos cuadrados generalizamos)
si calculamos Cov(α), pues E(α̇) = M E(α) = 0 y V , Cov(α̇) = M Cov(α)M T . Por ejemplo,
en el caso de Chow-Lin, Cov(α) se deduce de la expresión para las autocovarianzas de un
σ 2 φk
proceso AR(1), que es γk = 1−φ 2 , es decir, es

φ2 · · · φ4k−1

1 φ
 φ 1 φ · · · φ4k−2 
σ2   φ2

4k−2 
V , Cov(α) = φ 1 · · · φ (228)
1 − φ2 
 ···

··· ··· ··· ··· 
φ4k−1 φ4k−2 φ4k−3 · · · 1
Suponiendo que hayamos estimado en una primera etapa φ mediante φ̂ y por tanto V me-
diante V̂ , la estimación por GLS de (227) es, en una segunda etapa,
β̂ = (ż T (M V̂ M T )−1 ż)−1 ż T (M V̂ M T )−1 ẏ. (229)
A continuación hay que proyectar en alta frecuencia para estimar los yt , esto se hace usando
la expresión
ŷ = z β̂ + V̂ M T (M V̂ M T )−1 (ẏ − ż β̂) (230)
El enfoque de dos etapas descrito se puede mejorar, estimando simultáneamente φ y β
mediante máxima verosimilitud, por ejemplo, usando el filtro de Kalman aplicado a la forma
de espacio de estado del modelo. De hecho, ası́ es como los programas de ordenador modernos
suelen estimar el modelo.
En los casos de Litterman y Fernández se puede diferenciar la ecuación (224), suponiendo
que yt − βzt no sea un proceso estacionario, es decir, que no haya cointegración entre ambas
series, al menos para la combinación lineal yt − βzt , y proceder con las series diferenciadas
en forma análoga a lo ya expuesto para el caso de Chow-Lin. En el caso del métoodo de
Fernández, como φ = 0, no necesitamos la primera etapa del proceso descrito.
En los casos de Litterman y Fernández también serı́a posible calcular Cov(α) y trabajar
con (224) directamente, sin diferenciar, pero es más complicado, debido a que αt no es un
proceso estacionario. En estos casos, se podrı́a, por ejemplo, calcular Cov(α) usando el filtro
de Kalman, pero entonces es más sencillo tratar todo el modelo en forma de espacio de estado
desde el principio, que es lo que suelen hacer los programas de ordenador.
En general, al intentar realizar desagregación temporal, la falta de observabilidad del
modelo de espacio de estado resultante puede ser un problema. Con los modelos clásicos,
como los de Chow-Lin, Litterman o Fernández no se presenta este problema.
Como ejemplo, pondremos el modelo de Chow-Lin que desagrega mensualmente una serie
trimestral usando un indicador xt mensual, que suponemos fuertemente exógeno, en forma
de espacio de estado, de tal manera que comprobemos que no se pierde la observabilidad.
El modelo de alta frecuencia mensual se puede expresar en la forma
yt = 1αt + βxt + 0σεt , (231a)
αt+1 = φαt + σεt . (231b)

A continuación, se itera en la ecuación de transición, y se obtiene αt+2 = φ2 αt + φσεt + σεt+1 ,
αt+3 = φ3 αt + φ2 σεt + φσεt+1 + σεt+2 , lo cual nos lleva, apilando y escribiendo la ecuación
111
de medición en los instantes t, t + 1 y t + 2, a poder expresar el modelo de alta frecuencia
en intervalos de tres instantes de tiempo, en la forma,
        
yt 1 xt 0 0 0 εt
yt+1  =  φ  αt + xt+1  β + σ  1 0 0 εt+1  (232a)
yt+2 φ2 xt+2 φ 1 0 εt+2
 
εt
αt+3 = φ3 αt + σ φ2 φ 1 εt+1 

(232b)
εt+2
T
Introducimos un nuevo tiempo τ que recorre los trimestres. Si llamamos zτ = zt , zt+1 , zt+2
a los tres valores apilados de una variable o serie zt cualquiera en los tres instantes de tiempo
que forman el trimestre τ , el modelo anterior de alta frecuencia apilado se escribe
   
1 0 0 0
yτ =  φ  ατ + xτ β + σ  1 0 0 ετ (233a)
2
φ φ 1 0
ατ +1 = φ3 ατ + σ φ2 φ 1 ετ

(233b)
A continuación, dependiendo de lo que observemos trimestalmente, definimos una matriz D
de agregación temporal
adecuada, por ejemplo, si observamos la suma trimestral de los xt ,
será D = 1 1 1 , si observamos la media trimestral de los xt , D = 1/3 1/3 1/3 , si
observamos el último mes de cada trimestre, D = 0 0 1 , etc.
Premultiplicando la ecuación de medición anterior
por D obtenemos ya el modelo de baja
frecuencia que, para el caso D = 1/3 1/3 1/3 , resulta
1+φ+φ2 σ

ȳτ = 3
αt + x̄τ β + 1 + φ 1 0 ετ
3
(234a)
= φ3 ατ + σ φ2 φ 1 ετ

ατ +1 (234b)
Veamos que este modelo es observable.
En efecto, la matriz de observabilidad será O =
1+φ+φ2 3 1+φ+φ2 6 1+φ+φ2 , que tiene rango 1, pues la ecuación φ2 + φ + 1 = 0 no tiene
3
φ 3
φ 3
soluciones reales.
El modelo en baja frecuencia lo podemos escribir en forma estándar simplemente añadien-
do el parámetro de regresión al estado y la ecuación (trivial) que rige su dinámica a la
ecuación de transición, es decir
α
1+φ+φ2 τ

ȳτ = x̄ τ + σ 1 + φ 1 0 ετ , (235a)
3 βτ
3 2
ατ +1 φ 0 ατ φ φ 1
= +σ ε , (235b)
βτ +1 0 1 βτ 0 0 0 τ
y es este último modelo el que estimamos con el filtro de Kalman difuso, pues el estado tiene
la componente βτ no estacionaria.
Para modelos sencillos como el de Chow-Lin, el modelo en baja frecuencia es observable
y no hay problemas, pero hay otros modelos en que el modelo en baja frecuencia es no
112
observable y hay que transformarlo a otro submodelo de baja frecuencia en que todas las
componentes del estado sean observables y no estimar el resto, o bien establecer hipótesis
adicionales (especı́ficas para cada caso y no contenidas en el modelo original), de tal forma
que, si se cumplen esas hipótesis, el modelo en baja frecuencia ya sea observable.
Como ejercicio, se propone comprobar que en el siguiente ejemplo, el modelo en baja
frecuencia no es observable. El ejemplo consiste en una serie temporal semestral yt = µt +
st + εt , que expresamos como suma de una tendencia µt , una componente estacional st y un
ruido blanco ε∗t . con varianza σε2 , donde la tendencia sigue un paseo aleatorio µt = µt−1 + a∗t
y la componete estacional sigue el modelo st = −st−1 + b∗t , con a∗t y b∗t ruidos blancos de
varianzas respectivas σa2 y σb2 . Se supone que los tres ruidos blancos son independientes entre
sı́. Se supone que se observa anualmente el dato del segundo semestre. Se puede tomar como
T
estado el vector αt = µt st .
10.3. Benchmarking
El Benchmarking es, en cierto sentido, un proceso inverso al de desagregación tempo-
ral. Se trata de que ahora observamos una serie temporal en alta frecuencia (por ejemplo,
mensualmente) basada en una encuesta y disponemos de información de baja frecuencia re-
lacionada con esa serie y, generalmente, más fiable que la propia serie, como pueda ser, por
ejemplo, datos anuales de un censo o también de otra encuesta que mide lo mismo que se
recoge en la serie temporal, pero con menor error.
Las técnicas de Benchmarking lo que intentan hacer es utilizar la información de baja
frecuencia para mejorar las estimaciones de la serie de alta fecuencia.
De nuevo, la forma de espacio de estado nos permite tratar el problema en una forma
cómoda y muy flexible.
Por poner un ejemplo de esta flexibilidad, supongamos que tenemos una serie temporal
estacional trimestral observada zt , basada en una encuesta, que mide con error a otra serie
de interés yt , de tal forma que
zt = yt + bt νt , (236)
donde bt es la desviación tı́pica del estimador zt (esto incluye la posibilidad de que los zt sean
heteroscedásticos)y νt es un proceso ARMA(p,q) estacionario. Habitualmente, los valores de
los bt serán conocidos por los expertos en muestreo que diseñan la encuesta de la que se
obtiene zt y también estas personas conocerán los valores de p y q.
Supondremos también que todos los años, (por ejemplo al principio de cada año), reci-
bimos información procedente de otra fuente que nos da el total xt de la serie observada
durante todo el año de forma mucho más fiable que usando los datos de la serie temporal zt
(recalcamos que xt solo tiene una observación cada año). Se trata de especificar un modelo en
forma de espacio de estado que nos permita aprovechar esta información anual para mejorar
las estimaciones de la serie trimestral.
En primer lugar, la relación (de benchmarking) entre las x y las y es de la forma (solo
para los t en que se recibe xt )  
yt
yt−1 
xt = M 
yt−2  + et ,
 (237)
yt−3
113

donde M = 1 1 1 1 y et es ruido blanco. Si lo que se recibiera fuera, por ejemplo, una
estimación mejorada de yt (mejor que zt ), la relación de benchmarking serı́a más simple, del
tipo xt = yt + et . Por supuesto, se pueden acomodar facilmente distintas extensiones, como
varias relaciones de benchmarking, que pueden ser distintas para cada año, también puede
haber más de una relación algunos años, ninguna otros años, algunas relaciones pueden ser
exactas, etc.
Ahora debemos especificar un modelo para yt . Para concretar, de entre las muchas posi-
bles especificaciones, escogeremos un modelo estructural de la forma
yt = µt + γt + εt , (238a)
∆2 µt = µt − 2µt−1 + µt−2 = ψt , (238b)

S3 γt = γt + γt−1 + γt−2 + γt−3 = ξt , (238c)
donde εt , ψt y ξt son ruidos blancos gausianos independientes. Esta especificación podrı́a
incluir además, variables de intervención, para modelizar efectos deterministas.
Supongamos que todos los ruidos blancos que hemos definido son independientes unos
de otros, definiendo pues un ruido blanco de dimensión cinco,
0
ωt = ψt ξt at ct et (239)
que contiene, por este orden, los ruidos blancos de la tendencia, de la componente estacional,
at = εt , el ruido blanco de νt y el ruido blanco del benchmark. Si, por ejemplo, νt sigue un
modelo AR(1), es
νt = φνt−1 + ct . (240)
Definamos una nueva serie temporal ψt que intercale entre los zt los xt en cada instante en
que están disponibles. Para concretar, supongamos que al principio de cada año se recibe la
x correspondiente al año anterior y que nuestras observaciones constan de k años completos,
comenzando en el primer trimestre de un año, con lo cual, la serie intercalada será
z1 , z2 , z3 , z4 , x4∗ , z5 , z6 , z7 , z8 , x8∗ , z9 , · · · , z4(k−1) , x4(k−1)∗ , z4k−3 , z4k−2 , z4k−1 , z4k , x4k∗ . (241)
En el vector de estado metemos todos los elementos necesarios para poder reconstruir las
últimas cuatro observaciones (el último año), es decir
αt = [µt , µt−1 , µt−2 , µt−3 , γt , γt−1 , γt−2 , γt−3 , εt , εt−1 , εt−2 , εt−3 , νt ], (242)
por eso hemos incluyido el error εt en el estado, para poder conservar su valor en los últimos
cuatro instantes.
La matriz de transición Tt es, simplemente, I13 cuando tenemos una de las observaciones
intercaladas x4j ∗ , j ∈ {1, · · · , k} y, en otro caso, es una matriz diagonal por bloques, con
cuatro bloques
     
2 −1 0 0 −1 −1 −1 0 0 0 0 0
1 0 0 0
 , B1 =  1 0 0 0  , C1 = 1 0 0 0 , φ .
  
A1 = 
0 1 0 0 0 (243)
1 0 0 0 1 0 0
0 0 1 0 0 0 1 0 0 0 1 0
114
Es decir, incluyendo el error de cada ecuación,
 
    ψt
A1 0 0 0 A2
  ξt 
 
 0 B1 0 0  B2
αt =  α +    at  , t ∈ {1, · · · , 4k} (244a)
 0 0 C1 0  t−1  C2  
 ct 
0 0 0 φ 0 0 0 1 0
et
αt = I13 αt−1 , t ∈ {4∗ , 8∗ , · · · , 4k ∗ }, (244b)

donde
     
1 0 0 0 0 0 1 0 0 0 0 0 1 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
A2 =  ,B =  ,C =  . (245)
0 0 0 0 0 2 0 0 0 0 0 2 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
La matriz de observación será de la forma

Zt = 1 0 0 0 1 0 0 0 1 0 0 0 bt , t ∈ {1, · · · , 4k} (246a)
Zt = 1 1 1 1 1 1 1 1 1 1 1 1 0 + 0 0 0 0 1 ωt , t ∈ {4∗ , 8∗ , · · · , 4k ∗ }

(246b)
Ahora el modelo está en forma de espacio de estado y podemos estimarlo usando el filtro de
Kalman junto con un algoritmo de optimización, que nos encuentre los parámetros óptimos,
que son φ y las cinco varianzas de los ωt . Algunos puntos a destacar son:
Como ya se ha dicho, podemos tener benchmarks irregulares en cantidades distintas

cada año. Hemos fijado unas condiciones solo por concretar el modelo.
El proceso νt puede ser más general, por ejemplo, un ARMA(p,q). Los expertos en
muestreo pueden determinar p y q dependiendo del diseño muestral de la encuesta en
que se basa yt .
Estamos suponiendo que en la definición de yt hay aleatoriedad εt causada por la

naturaleza del proceso y, además, otra aleatoriedad νt causada por la estimación basada
en una encuesta.
El benchmark puede ser también heteroscedástico, en ese caso, pondrı́amos un término

dt et en su error, en lugar de et (los dt conocidos). Si el benchmark es exacto en algunos
instantes, los dt correspondientes serian nulos.
Se pueden introducir intervenciones u otros regresores deterministas en el modelo de

yt , como, por ejemplo, efectos de calendario.
Si σc no es conocida, el algoritmo la estima y ası́ obtenemos una estimación del error

de la encuesta. De la misma forma, podemos estimar el error del benchmark σe , si no
es conocido (si σc y/o σe son conocidos, se introducen sus valores y estimaremos menos
parámetros).
115
Si los benchmarks están libres de sesgo, es posible estimar el sesgo con que zt estima
a yt , sin más que cambiar la ecuación de medición por otra del tipo

zt = h + 1 0 0 0 1 0 0 0 1 0 0 0 bt αt , t ∈ {1, · · · , 4k}, (247)
donde h es el sesgo con que zt estima a yt . En otras palabras, el modelo para zt cambia
a zt = h + yt + bt νt .
Referencias
G.E.P. Box, G.M. Jenkins, and G.C. Reinsel. Time Series Analysis: Forecasting and Control.
Prentice Hall, 1994.
Peter J. Brockwell and Richard A. Davis. Time Series: Theory and Methods. Springer-Verlag,
New York, second edition, 1991.
Garcı́a Hiernaux A. Jérez M. Sotoca S. Casals, J. and A.A. Trindade. State Space Methods
for Time Series Analysis. CRC Press, 2016.
J.J.F. Commandeur and S.J. Koopman. An Introduction to State Space Time-Series Analy-
sis. Oxford University Press.
J. Durbin and S.J. Koopman. Time Series Analysis by State Space Methods. Oxford Uni-
versity Press, second edition, 2012.
Victor Gómez. Transfer Function Model Identification. BEIO, 25(2):109–115, 2009. http:
//www.seio.es/Archivo-de-boletines/BEIO-Archivo.html.
Victor Gómez. Multivariate Time Series with Linear State Space Structure. Springer-Verlag,
2016.
Victor Gómez. 2017. http://www.sepg.pap.minhafp.gob.es/sitios/sepg/es-ES/

Presupuestos/Documentacion/Paginas/SSMMATLAB.aspx.
E.J. Hannan and M. Deistler. The Statistical Theory of Linear Systems. John Wiley, 1988.
Andrew C. Harvey. Forecasting, Strucrural Time Series Models and the Kalman Filter.
Cambridge University Press, cambridge, 1989.
L.-M. Liu. Time Series Analysis and Forecasting. Scientific Computing Associates, second
edition, 2009.
D Peña. Análisis de Series Temporales. Alianza Editorial, Madrid, 2005.
G.C. Reinsel. Elements of Multivariate Time Series Analysis. Springer-Verlag, New York,
second edition, 1993.
J.L. Shanks. Recursion Filters for Digital Processing. Geophysics, 32:33–51, 1967.
116
R. S. Tsay and G.C. Tiao. Consistent Estimates of Autoregressive Parameters and Exten-
ded Sample Autocorrelation Function for Stationary and Non-stationary ARMA Models.
Journal of the American Statistical Association, 79:84–96, 1984.
R. S. Tsay and G.C. Tiao. Use of Canonical Analysis in Time Series Model Identification.
Biometrika, 72:299–316, 1985.
W.W.S. Wei. Time Series Analysis: Univariate and Multivariate Methods. Addison-Wesley,
1990.
117

Curso Series Temporales

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Curso Series Temporales

Caricato da

Copyright:

Formati disponibili

Curso de Series Temporales

INE, septiembre de 2019.

µ = µt = E(yt ) = µt+j = E(yt+j ), (1a)

σ 2 = σt2 = V ar(yt ) = σt+j

V ˆar(ρ̂2 ) = T1 (1 + 2ρ̂21 ) (si ρ2 = ρ3 = · · · = 0),

donde de nuevo εt es ruido blanco con varianza σε2 .

3.3. Procesos mixtos. Identificación

el cual, bajo la hipótesis nula r1 = · · · = rk = 0, sigue una distribución χ2k−r , donde r es el

se puede calcular, tomando esperanzas condiciondas para t = T + k, en la forma

Se cumple, lógicamente, que ŷT (k) = yT +k si k ∈ {1 − T, · · · , −1, 0} (es decir, la predicción

donde el significado de los ψj se explica en la sección siguiente.

Por tanto, tomando la esperanza condicionada,

vemos que el error de predicción es

donde εt es ruido blanco, ψo = 1, ∞ 2 2

Es decir, el proceso yt es lineal. Un ejemplo sencillo es (1 − 0,5B)yt = εt , en este caso, es

4.2. Procesos no estacionarios en media

Diferenciando, es zt = (1 − B)yt = (1 − B)(1 + θB)εt = (1 + (θ − 1)B − θB 2 )εt .

De yt = (1+θ1 B+θ2 B 2 )εt , diferenciando, es zt = (1−B)yt = (1−B)(1+θ1 B+θ2 B 2 )εt =

El proceso ARIMA(0,1,1), tambien denominado IMA(1,1), sigue el modelo

(1 − B)yt = (1 − θB)εt . (21)

Es sencillo demostrar que la predicción optima de este proceso tiene la forma

que es de la forma (23b).

es decir, hemos conseguido quitarle la tendencia al proceso, pero el resultado es un proceso

5. Procesos ARIMA estacionales

s es el número de instantes de tiempo en que se completa un ciclo de estacionalidad

Φ(B s ) y Θ(B s ) son los polinomios autorregresivos y de medias móviles estacionales

6. Análisis espectral de series temporales

6.1. Espacios de Hilbert

< x, x >≥ 0, ∀x ∈ H y < x, x >= 0 si y solo si x = 0

kx + yk ≤ kxk + kyk, ∀x, y ∈ H. (34)

6.2. Transformada discreta de Fourier para sucesiones periódicas

λx , (λx1 , · · · , λxT ), para todo λ ∈ C (38b)

Vemos que, tanto si T es par como si es impar, c + d + 1 = T , es decir, hay T vectores en

se llaman frecuencias de Fourier y se interpretan como las frecuencias de que se compone la

o bien, para cada t ∈ {1, · · · , T },

si t = t∗ + kT para algún entero k y t∗ ∈ {1, · · · , T }.

y es inmediato que λ−j = λ̄j .

por tanto, la relación entre ambas viene dada por

µj = T ei2πj/T λj , j ∈ {−c, · · · , d} (45)

Si la media de la sucesión es cero, entonces la energı́a que hemos definido es obviamente

Más en concreto, se puede comprobar que

< sen( 2πjt

o bien, particularizando para cada t ∈ {1, · · · , T }

λ1 = 31 (4e−i2π/3 + 1e−i4π/3 + 3e−i6π/3 ) ≈ 0,1666667 − 0,8660254i

λ1 = 41 (2e−i2π/4 + 1e−i4π/4 + 4e−i6π/4 + 3e−i8π/4 ) = 0,5 + 0,5i

6.3. Transformada rápida de Fourier

A continuación, para {yt }.

6.4. Unidades de frecuencia. Frecuencia de Nyquist. Solapamiento

sen(ω1 t) y f2 (t) = sen(ω0 t) = sen( 11π

g(ω), ω ∈ (−∞, +∞)

y nosotros, en vez de observar el proceso en tiempo continuo, lo observamos en instantes

Es decir, lo que nosotros observamos es un espectro acumulado y truncado f (ω) que, en

El perı́odo promedio de un ciclo semanal en observaciones mensuales será de P0 =

Hay, principalmente, dos factores que influyen en la posibilidad de observar indirecta-

donde c , T −1 , d , T2 y, por (39), ωj , 2jπ

I(ωj ) = |λj |2 , j ∈ {−c, · · · , d}. (65)

A esto se llama espectro muestral.

Este estimador es asintóticamente insesgado, es decir, lı́mT →∞ E[fˆ(ω)] = f (ω), lo cual es

VT (−µ) = VT (µ), (70b)

Se utiliza entonces el estimador

VT (−ωj ) = VT (ωj ), (72b)

En este caso discreto, el estimador suavizado es

1. Ventana rectangular o truncada