Sei sulla pagina 1di 115

Indice

Analisi delle Serie Temporali A. Introduzione, 1


(lucidi delle lezioni) Che cos’è una serie temporale (o storica)?, 2 Esempio 1: medie giornaliere delle polveri rilevate in una delle
centraline per il controllo atomosferico in Padova, 3 Esempio 2: linci catturate annualmente in Canada, 4
Esempio 3: portata del Nilo, 5 Esempio 4: consumo di gas, 6 Esempio 5: consumo di vino bianco secco, 7
Esempio 6: vendite di un certo prodotto (e una serie che dovrebbe anticiparne le variazioni), 8 Esempio 7:
indice di qualità di un processo produttivo, 9 Esempio 8: input e output di una centrale a gas, 10 Esempio 9:
diametro delle gonne all’orlo, 11 Il problema. . . , 12 Principali applicazioni, 13 Caratteristiche del corso, 14

B. Kolmogorov perdono!, 15
Guido Masarotto Che cos’è un processo stocastico?, 16 Serie temporali e processi stocastici, 17 Caratteristiche “interessanti”
Facoltà di Scienze Statistiche di un processo stocastico, 18 Il problema della stazionarietà, 19 Processi stocastici stazionari, 21 Proprietà
della funzione di autocorrelazione di un processo stocastico stazionario, 23

Università di Padova C. Stima della funzione di autocorrelazione, 24


guido.masarotto@unipd.it Stima di alcune caratteristiche “interessanti”, 25 Una “banda” ci viene in aiuto, 27 Quattro serie tempora-
li. . . , 30 . . . il loro correlogramma. . . , 31 . . . qualche commento . . . , 32 . . . un esercizio e. . . , 33 . . . la sua
soluzione, 38 La temperatura al castello di Nottingham, 39 Un correlogramma a Nottingham, 40 A castel-
lo è meglio essere corretti, 41 Nottingham: grafici di “autodispersione”, 42 Esercizio, 44 La produzione di
automobili in Giappone, 45 Esercizio, 47 Il test di Ljung-Box (e quello di Box-Pierce), 48

6 gennaio 2003
D. Scomposizione di una serie temporale in componenti ele-
mentari, 50
E se il processo non è stazionario?, 51 Componenti di una serie temporale, 52 Modelli di composizione, 53
Esempio di una serie “additiva”, 54 Esempio di una serie “moltiplicativa”, 55 Destagionalizzazione di una
serie temporale, 56 Perchè destagionalizzare?, 57

E. Stima della media e sua scomposizione mediante modello di


regressione, 61
CO2 a Mauna Loa, 62 CO2: un modello lineare, 66 CO2: serie destagionalizzata, 70 Altri modelli di
regressione: cenni, 71 Appendice: richiami sul modello di regressione lineare multiplo, 72

i
F. Scomposizione di una serie temporale: un approccio flessibi- Materiale didattico
le, 76
Il punto debole. . . , 77 Regressione non parametrica: cenni, 78 Stima del trend in assenza di stagionalità, 97 1. Questi lucidi
Medie mobili e filtri lineari, 98 Stima della componente stagionale in assenza di trend, 99 Stima simulta-
nea delle componenti di trend e stagionali: l’algoritmo di backfitting, 104 In pratica, 106 Passeggeri delle 2. Guido Masarotto e Giovanna Capizzi (2002), “Materiali per il laboratorio con R”, http://sirio.stat.unipd.it/ts
aerolinee, 107 Scomposizioni con “problemi”, 126 Estensioni e cautele, 131
3. C. Chatfield (1996), “The analysis of time series: an introduction”, Chapman and Hall, Londra
G. Modelli dinamici basati sull’idea di lisciamento esponenziale
4. T. Di Fonzo e F. Lisi (2001), “Complementi di statistica economica. Analisi delle serie storiche univariate”, Cleup
, 132 Editrice, Padova

Struttura di un modello dinamico, 133 Un modello basato sul lisciamento esponenziale, 135 Serie alla “deriva”, 142
Introduzione di una componente stagionale, 150 Innovazione additiva o moltiplicativa?, 157 Sintesi dei mo-
delli considerati: le quattro forme di base, 159 Sintesi dei modelli considerati: casi particolari, 160 “Nomi”
assegnati ad alcuni casi particolari, 161 Costruzione empirica di un modello, 162 Stima dei parametri, 163
Scelta di un modello, 167 Verifica dell’adattamento, 168 Una serie temporale di vendite, 169 Previsione:
considerazioni generali, 176 Previsione con i modelli basati sul lisciamento esponenziale, 179 Previsione
della serie delle vendite, 185 Una serie con le bollicine, 188

H. I modelli ARMA e ARIMA, 203


Introduzione, 204 Modelli a media mobile, 205 Invertibilità di un modello MA(q), 207 Modelli autoregressivi, 210
La funzione di autocorrelazione parziale, 212 Modelli autoregressivi a media mobile, 214 L’operatore di
ritardo, 216 Modelli integrati ovvero metti un po’ di trend in un modello ARMA, 217 Identificazione di un
modello ARMA/ARIMA, 221 Esempio con serie non stagionali, 222 Modelli ARIMA stagionali, 223 Esempio
con serie stagionali, 224

I. Serie temporali bivariate: cenno, 225

ii
Che cos’è una serie temporale (o storica)?

Non è infrequente, nelle applicazioni, che le osservazioni


Unità A sulle variabili di interesse, siano raccolte sequenzialmen-
te nel tempo (vedi esempi nelle pagine seguenti).
Introduzione Nel caso in cui, siano rilevate k variabili in n istanti di
tempo, i dati prendono quindi la forma

variabili rilevate
tempo Y1 Yk
t1 y11 .. yk1
t2 y12 .. yk2
.. .. .. ..
tn y1n .. ykn

e costituiscono quello che è usualmente chiamata una


serie temporale (o storica) k-variata. Spesso, e
sarà l’unico caso che consideremo, le osservazioni sono
equispaziate nel tempo (ovvero ti − ti−1 = costante).
Ovviamente, consideremo solo il caso in cui i fenomeni
rilevati siano “statistici”, ovvero, mostrino una variabilità
non irrilevante e siano non deterministici.

Unità A: Introduzione 2
Esempio 1: medie giornaliere delle polveri Esempio 2: linci catturate annualmente in
rilevate in una delle centraline per il Canada
controllo atomosferico in Padova

7000
6000
5000
4000
lynx

3000
2000
1000
0
1820 1840 1860 1880 1900 1920

E’ evidente una componente ciclica con una frequenza


poco più lunga di 10 anni (ci sono 12 “minimi” e 12
“massimi” in circa 110 anni).

Unità A: Introduzione 3 Unità A: Introduzione 4


Esempio 3: portata del Nilo Esempio 4: consumo di gas

1200
1400

1000
1200

800
1000

UKgas
Nile

600
800

400
600

200
1880 1900 1920 1940 1960 1960 1965 1970 1975 1980 1985

Time Time

La serie è trimestrale. Si osservi sia l’aumento nel tempo


Qual’è la distribuzione del massimo in 500 anni delle che la presenza di oscillazioni di tipo stagionale la cui
portate? ampiezza aumenta con l’aumentare del livello della serie
stessa.

Unità A: Introduzione 5 Unità A: Introduzione 6


Esempio 5: consumo di vino bianco secco Esempio 6: vendite di un certo prodotto (e
una serie che dovrebbe anticiparne le
variazioni)

260
240
BJsales
5000

220
14200
4000

13
BJsales.lead

12
3000

11
10
0 50 100 150
2000

Il grafico di sopra mostra le vendite di una azienda. Il


1980 1985 1990 1995
grafico sotto una serie che anticipa i cambiamenti della
prima serie. Si vedano gli istanti di tempo indicati
dalle linee tratteggiate verticali. Sono punti di svolta
per la seconda serie che anticipano simili andamenti
nella prima. Il problema è come è possibile utilizzare
Si osservi sia l’aumento nel tempo che la presenza di queste informazioni per calcolare delle previsioni
oscillazioni di tipo stagionale. delle vendite (che ad esempio, potrebbero essere
utilizzate per decidere “quanto produrre”, quante scorte
mantenere,. . . )
Unità A: Introduzione 7 Unità A: Introduzione 8
Esempio 7: indice di qualità di un processo Esempio 8: input e output di una centrale a
produttivo gas

60
14.5

55
GFoutput
14.0

50
13.5

3
2
13.0

1
GFinput

0
12.5

−1
−2
12.0

0 50 100 150 200 250 300

5 10 15 20 25 Il grafico di sopra mostra una serie di misurazioni


condotte su un parametro che può essere interpreta-
25 giorni di misurazioni (5 misure al giorno) su di to come un indice di qualità della produzione di una
un parametro che misura la qualità di un processo fornace a gas. Il grafico di sotto una caratteristica della
produttivo. fornace che può essere controllata dal personale tecnico.
Tutte le oscillazioni sono casuali? Oppure, nascosto nel Il problema è capire come fissare i valori della seconda
“rumore”, c’è qualcosa di sistematico e quindi magari di serie per “far correre” la prima il più possibile vicino al
eliminabile? suo valore obbiettivo (cioè 60).

Unità A: Introduzione 9 Unità A: Introduzione 10


Esempio 9: diametro delle gonne all’orlo Il problema. . .

. . . è quello di capire la dinamica della serie osservata,


ovvero, il meccanismo con cui si evolve nel tempo.
In particolare, in questo corso, ci occuperemo di
1000

? descrivere/modellare le variazioni nel tempo della


media (ed, eventualmente di altre caratteristiche).
900

? descrivere/modellare le relazioni dinamiche di tipo


lineare esistenti (ovvero tra le osservazioni ieri, oggi,
800

domani, . . . ).
700
600

1870 1880 1890 1900 1910

Unità A: Introduzione 11 Unità A: Introduzione 12


Principali applicazioni Caratteristiche del corso

• Previsione: al tempo tn vogliamo prevedere i valori 1. E’ introduttivo: vuole presentare solo alcune idee e
che la serie temporale assumerà al tempo t > tn. tecniche di base. Considereremo solo
• Controllo: si supponga di avere a che fare, per • dati equispaziati nel tempo (ti − ti−1 = ∆);
semplicità, con due sole variabili (k = 2) e che: • situazioni in cui le variabili rilevate siano
i) le variazioni di y1t influenzino y2t; numeriche ed (almeno assimilabili a variabili) reali,
ii) y1t sia controllabile (ovvero possiamo fissarne i • quasi sempre il caso di serie univariate,
valori); • solo relazioni dinamiche di tipo lineare.
iii) non possiamo controllare y2t; però, desideremmo 2. E’ operativo: vuole sviluppare la capacità di
che y2t risulti uguale ad un valore prefissato, analizzare concretamente delle serie reali (per
diciamo η, per ogni t. questo le esercitazioni nel laborario informatico
Il problema è: quali valori scegliamo per la prima costituiscono una parte integrante del corso).
variabile affinchè la seconda si discosti il meno
possibile dal valore desiderato?

Osservazione: Per dare una risposta ad ambedue i


problemi dobbiamo ovviamente dare una risposta alle
domande del lucido di pagina 12.
Esercizio: Spiegare perchè è vera la precedente
osservazione.

Unità A: Introduzione 13 Unità A: Introduzione 14


Che cos’è un processo stocastico?

? Per quello che ci riguarda, trascurando definizioni più


Unità B generali, un processo stocastico consiste semplicemen-
te in una successione di variabili casuali Y = {Yt :
Kolmogorov perdono! −∞ < t < +∞} ordinate nel tempo e con arbitrarie
relazione di dipendenza interne.
? Un’esperimento su Y ci fornisce quindi una particolare
• 2 cose 2 sui processi stocastici ovvero sul modello successione numerica {yt : −∞ < t < +∞} in
probabilistico di riferimento cui ciascuna yt è il risultato di un esperimento sulla
variabile casuale Yt. Una particolare successione
• funzione di autocovarianza e di autocorrelazione generata dal processo viene usualmente chiamata
realizzazione o traiettoria del processo.
• stazionarietà
? Ovviamente, a meno di casi degeneri, esperimenti
diversi su Y risulteranno in traiettorie diverse, ovvero,
il processo può generare differenti (tipicamente
infinite) successioni. In caso contrario, il meccanismo
sarebbe deterministico non stocastico.
? Le varie traiettorie generabili dal processo non avranno
però in generale tutte la stessa probabilità, ovvero,
avremmo traiettorie più probabili e traiettorie meno
probabili.

Unità B: Kolmogorov perdono! 16


Serie temporali e processi stocastici Caratteristiche “interessanti” di un
processo stocastico
? L’analisi delle serie temporali è rivolta alla comprensio-
ne di fenomeni che si evolvono nel tempo in maniera ? E’ possibile dimostrare che la distribuzione di
non deterministica. probabibilità di un processo stocastico è completamen-
? I processi stocastici sono modelli matematici utili per te caratterizzata dall’insieme di tutte le distribuzioni
descrivere la “legge” probabilistica (o stocastica -dal di probabilità finite-dimensionali del processo, ovvero,
greco “che ha a che fare con il caso”) con cui un certo dalle distribuzioni di probabilità di (Yt1 , . . . , Ytk ) per
fenomeno fisico si può evolvere nel tempo (o nello qualsivoglia k e per qualsivoglia scelta associata di
spazio, o nel tempo e nello spazio,. . . ). In questo t1 , . . . , t k .
senso, costituiscono il modello probabilistico naturale
di riferimento per l’analisi delle serie temporali. ? Stimare però dai dati tutte queste distribuzioni
? Possiamo “guardare” alle osservazioni disponibili (la è, soprattutto in assenza di forti informazioni sul
serie storica osservata) come ad “un pezzettino” di processo, praticamente impossibile.
una realizzazione di un processo stocastico e utilizzare ? Molto spesso ci si limita perciò a considerare
questi dati per cercare di capire la legge probabilisti- solamente particolari momenti del processo. In
ca (o alcuni dei suoi aspetti) del processo stocastico particolare noi ci concentreremo sui momenti primi e
che li ha generati, ovvero, ricondurre l’analisi delle secondi e considereremo le seguenti “funzioni” (che
serie temporali ad un problema di inferenza statistica supporremmo “tranquillamente” esistere tolto in casi
su processi stocastici. particolari che saranno evidenziati):
? Questo è quello che faremo. Si osservi comunque
che non è “filosoficamente indolore”. Ovvero, spesso media: ηt = E(Yt),
l’esperimento che ha generato la serie osservata è varianza: σ2t = var(Yt),
irripetibile. A noi quindi interessa la serie osservata, autocovarianza: γ(t 0, t 00) = cov(Yt 0 , Yt 00 ),
non il meccanismo con cui potrebbero esserne generate
altre di analoghe ma, a questo punto, in mondi in cui e la associata funzione di autocorrelazione
non abitiamo. Però. . . γ(t 0, t 00)
0 00
ρ(t , t ) =
σt 0 σt 00
Unità B: Kolmogorov perdono! 17 Unità B: Kolmogorov perdono! 18
Il problema della stazionarietà • E’ però evidente che questa formula non è utilizzabi-
le senza ipotesi aggiuntive sul processo stocastico che
• Supponiamo di avere a disposizione 1000 osservazio- genera i dati. Infatti, anche se abbiamo un certo
ni su di una serie temporale univariata (ovvero numero di osservazioni (1000), poichè non abbiamo
conosciamo y1, . . . , y1000 ) e di voler calcolare una nessuna osservazione su Y1001 non abbiamo nessun
previsione per il valore che la serie assumerà al tempo dato che ci fornisca “direttamente” informazioni su
1001 (ovvero per y1001 ). η1001 . Analogamente, nei dati non abbiamo nessuna
informazione “diretta” sulla covarianza tra Y1000 e
• Sulla base delle cose che sappiamo dai corsi Y1001 (ci servirebbero dei dati generati dalla variabile
precedenti potremmo ad esempio pensare di utilizzare casuale bivariata (Y1000, Y1001)). E anche “su” Y1000
un modello di regressione lineare semplice in cui abbiamo una sola osservazione. Un po’ poco per
y1001 sia la variabile dipendente utilizzando come stimare in maniera affidabile η1000 e completamente
variabile esplicativa l’osservazione “nota” più “vicina” insufficiente per stimare dai dati σ1000
nel tempo ovvero y1000 . Questo, utilizzando le
• Il problema è generale. Ovvero non c’entra la
formule note dal corso di Statistica Descrittiva e la
formula della pagina precedente. Infatti, per calcolare
notazione del lucido (18), ci portà a pensare ad una
delle previsioni dovremmo conoscere che relazione
previsione calcolata come
esiste tra quello che è accaduto fino ad oggi e
che conosciamo, ovvero (y1, . . . , y1000 ), e quello che
γ(1001, 1000)
ŷ1001 = η1001 + (y1000 − η1000 ) accadrà domani, ovvero y1001 . Ma nei dati, in assenza
σ21000 di ipotesi aggiuntive, non abbiamo informazioni
“dirette”, sulla dipendenza tra passato, presente e
futuro per il semplice e ovvio fatto che il futuro non lo
abbiamo per definizione osservato.
• L’ipotesi di stazionarietà è una ipotesi aggiuntiva
spesso utilizzata (ovvero, che si è rivelata utile
empiricamente) per risolvere il problema precedente
(ed altri analoghi).
Unità B: Kolmogorov perdono! 19 Unità B: Kolmogorov perdono! 20
Processi stocastici stazionari Nel caso un processo stocastico sia stazionario possiamo
scrivere, con un leggero abuso di notazione rispetto a
Un processo stocastico è detto stazionario quanto fatto prima,

in senso forte se per qualsiasi h, k, t1,. . . e tk (tutti 
 E(Yt) = η

interi) la distribuzione di probabilità di var(Yt) = σ2
per qualsivoglia t e h

 cov(Yt+h, Yt) = γ(h)

corr(Yt+h, Yt) = ρ(h)
(Yt1 , . . . , Ytk )
ovvero, se un processo è stazionario,
è uguale alla distribuzione di probabilità di
? la media e la varianza non variano con il tempo
(Yt1+h , . . . , Ytk+h );
? le covarianze (e quindi le autocorrelazioni) è solo
funzione della distanza nel tempo tra le due variabili
in senso debole se per qualsiasi h, t 0 e t 00 (interi)
casuali coinvolte1

E(Yt 0 ) = E(Yt 00 )
var(Yt 0 ) = var(Yt 00 )
cov(Yt 0 , Yt 00 ) = cov(Yt 0+h , Yt 00+h)

Si osservi che la prima definizione implica la seconda


(almeno se i momenti coinvolti esistono).

1
questa relazione si ottiene dalla definizione di stazionarietà debole ponendo
h = −t 0
Unità B: Kolmogorov perdono! 21 Unità B: Kolmogorov perdono! 22
Proprietà della funzione di
autocorrelazione di un processo stocastico
stazionario
Unità C
• ρ(h) = γ(h)/σ2;
Stima della funzione di autocorrela-
• ρ(0) = 1 (beh, se “quello che capita oggi” non fosse zione
correlato perfettamente con “quello che capita oggi”
avremmo veramente da preoccuparci; formalmente
σ2 = γ(0));
• Stimatori
• −1 ≤ ρ(h) ≤ 1 ∀h (sono coefficienti di correlazione);
• Bande nel “correlogramma”
• ρ(h) = ρ(−h). E’ una conseguenza del fatto che per
qualsiasi coppia di variabili casuali, diciamo X e Y, • Test di Ljung-Box (e Box-Pierce)

cov(X, Y) = cov(Y, X);

• Per qualsiasi k e per qualsiasi scelta di (a1, . . . , ak)


(numeri qualsiasi)

k X
X k
aiajρ(i − j) ≥ 0
i=0 j=0

Infatti,
Pk la quantità sul lato sinistro è la varianza di
2
i=0 ai Yt−i divisa per σ .

Unità B: Kolmogorov perdono! 23


Stima di alcune caratteristiche Nota 1: Si osservi che dividiamo per “n” e non per
“interessanti” “n − h” che è il numero degli addendi. E’ usuale fare così
poichè in questo modo anche la stima (e non solo quello
che si vuole stimare) gode delle proprietà descritte
Nel caso di un processo stazionario, i valori attesi di
nel lucido (23). Ad esempio, dividendo per “n − h”
tutte le osservazioni (qualsiasi sia t) sono uguali ad una
potremmo ottenere stime dei coefficienti di autocorrela-
costante η. Possiamo quindi pensare di stimare il valore
zione, in modulo, più grandi di 1. Dividendo per n però
comune della media mediante
introduciamo una distorsione verso lo zero nello stima
n (=sottostiamo in maniera sistematica la correlazione
1X esistente).
η̂ = y = yt .
n
t=1
Nota 2: γ̂(h) non è definito se h > n − 1. Questo
è scontato. Con n osservazioni non abbiamo nessuna
In maniera analoga, sfruttando le altre “invarianze” nel coppia di osservazioni distanti n o n + 1 o così via.
tempo, possiamo stimare la funzione di autocovarianza Nota 3: Si osservi tra l’altro che “ha senso” calcolare
e di autocorrelazione mediante γ̂(h) solo se n − h, ovvero il numero di addendi su cui
n è basata la stima, è sufficientemente grande. Questo
1 X non è un grande problema nelle applicazioni visto che
γ̂(h) = (yt − y)(yt−h − y)
n tipicamente si è interessati alla funzione di autocovarian-
t=h+1
γ̂(h) za (o di autocorrelazione) solamente per ritardi non
ρ̂(h) = grandi. Però va sempre tenuto presente.
γ̂(0)
Nota 4: Per il calcolo di ρ̂(h) ovviamente non è
necessaria la stazionarietà. Delle volte si usa ρ̂(h) per
avere una idea “media nel tempo” della dipendenza
lineare esistente.
Nota 5: Il grafico di ρ̂(h) verso h viene chiamato
correlogramma.
Unità C: Stima della funzione di autocorrelazione 25 Unità C: Stima della funzione di autocorrelazione 26
Una “banda” ci viene in aiuto ? Valori di ρ̂(h), per quanto diversi da zero, ma
all’interno di queste bande suggeriscono che l’autocorre-
? E’ possibile dimostrare che se non esiste autocorrela- lazione “stimata” potrebbe essere in realtà dovuta al caso
zione nel processo (ovvero se ρ(h) = 0 quando h 6= (ovvero non essere una proprietà del processo).
0, ovvero se come si usa dire il processo osservato è ? Si osservi, comunque, che anche in assenza di
un rumore bianco
√ (white noise)) allora la distribuzione autocorrelazione, ci aspettiamo, utilizzando le bande
asintotica di nρ̂(h) è una normale di media nulla e precedenti, un ρ̂(h) ogni 20 “fuori” dalle bande.
varianza uno.
? Ovvero, se calcoliamo i primi 30 coefficienti di
? Quindi nel caso di una serie senza autocorrelazione, autocorrelazione, trovarne uno, due o anche tre fuori
ρ̂(h) “cadrà” nell’intervallo dalle bande può essere attribuito all’effetto del caso.
√ √ ? Ovviamente però ce li aspettiamo non di molto esterni
[−z1−α/2 / n, z1−α/2 / n]
alle bande stesse.

(dove zζ è il quantile ζ-simo di una normale standard)


con una probabilità approssimativamente uguale a 1 −
α (ovviamente n deve essere sufficientemente grande –
n > 50 sembra essere sufficiente).
? Per questo nei grafici della funzione di autocorrelazio-
ne empirica (ovvero quella stimata dai dati),
√ sono spesso

indicate delle bande del tipo [−1,96/ n, 1,96/ n]
(z0.975 = 1,96).

Unità C: Stima della funzione di autocorrelazione 27 Unità C: Stima della funzione di autocorrelazione 28
Pochi ρ̂(h) fuori di poco dalle bande possono essere attribuiti all’errore di stima. Il primo correlogramma mostra Quattro serie temporali. . .
quindi una situazione probabilmente di incorrelazione. Nel secondo, un solo ρ̂(h) è esterno alle bande. Però è molto (a)

più grande dei limiti disegnati. Probabilmente indica una autocorrelazione reale.

2
1.0

0
−2
0.5

−4
ACF

0 20 40 60 80 100
0.0

(b)
−0.5

3
2
1
−1.0

0
−3 −2 −1
0 5 10 15 20

Lag

0 20 40 60 80 100

(c)
1.0

6
4
0.5

2
0
−4 −2
ACF

0.0

0 20 40 60 80 100
−0.5

(d)
−1.0

0 5 10 15 20
1
0

Lag
−1
−2

0 20 40 60 80 100

Unità C: Stima della funzione di autocorrelazione 29 Unità C: Stima della funzione di autocorrelazione 30
. . . il loro correlogramma. . . . . . qualche commento . . .
(a)
1.0

? Il grafico della prima serie mostra la presenza di


“onde” che però non hanno lunghezza e ampiezza
0.5

costante. Le onde “a smorzare” nel correlogram-


0.0

ma ci raccontano esattamente la presenza di questa


−0.5

0 5 10 15 20
componente. Il correlogramma ci dice anche che la
(b) “lunghezza media” delle onde è di 6 periodi.
1.0

? La serie (c) è caratterizzata da oscillazioni molto più


rapide. Il correlogramma ci segnala un comportamen-
0.5

to addirittura di tipo “alternante”: ad una “osservazio-


0.0

ne grande” tendenzialmente segue una “osservazione


−0.5

0 5 10 15 20
piccola” e così via.
(c)
? Dal grafico della serie (c), come del resto in quello
1.0

della serie (a), si individua facilmente la presenza di


autocorrelazione positiva a ritardo 1 (una “osservazio-
0.6

ne grande” è tendelzialmente seguita da un’altra


0.2

“osservazione grande”, una “piccola” da una “piccola”).


−0.2

0 5 10 15 20
Il correlogramma ci racconta che questa è l’unica
(d) correlazione esistente: osservazioni più distanti sono
incorrelate.
1.0

? Il correlogramma della serie (d) ci indica che si tratta


0.6

di un white noise.
0.2
−0.2

0 5 10 15 20

Unità C: Stima della funzione di autocorrelazione 31 Unità C: Stima della funzione di autocorrelazione 32
. . . un esercizio e. . . −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

3
Le figure nelle prossime pagine riportano i grafici di yt

2
1
disegnato verso yt−h per alcuni valori di h. Chiameremo

0
a

a
questo tipo di grafici di autodispersione (lag plot nella

−1
letteratura anglosassone). Le serie utilizzate sono quelle

−2
−3
precedenti. Ogni pagina si riferisce ad una delle lag 1 lag 2 lag 3

3
serie. Ma le pagine non sono nell’ordine utilizzato

2
precedentemente. Completare il seguente “schemetto”:

1
0
a

−1
la figura si riferisce

−2
a pagina alla serie

−3
lag 4 lag 5 lag 6

34 ......

3
35 ......

2
1
36 ......

0
a

a
37 ......

−1
−2
−3
La soluzione è a pagina 38. lag 7 lag 8 lag 9

3
2
1
0
a

−1
−2
−3
lag 10 lag 11 lag 12
−3 −2 −1 0 1 2 3

Unità C: Stima della funzione di autocorrelazione 33 Unità C: Stima della funzione di autocorrelazione 34
−3 −2 −1 0 1 2 −3 −2 −1 0 1 2 −4 −2 0 2 4 −4 −2 0 2 4
2

2
1

0
0
a

a
−2
−1
−2

−4
lag 1 lag 2 lag 3 lag 1 lag 2 lag 3

2
1

0
0
a

−2
−1
−2

−4
lag 4 lag 5 lag 6 lag 4 lag 5 lag 6
2

2
1

0
0
a

a
−2
−1
−2

−4
lag 7 lag 8 lag 9 lag 7 lag 8 lag 9
2

2
1

0
0
a

−2
−1
−2

−4
lag 10 lag 11 lag 12 lag 10 lag 11 lag 12
−3 −2 −1 0 1 2 −4 −2 0 2 4

Unità C: Stima della funzione di autocorrelazione 35 Unità C: Stima della funzione di autocorrelazione 36
−6 −4 −2 0 2 4 6 8 −6 −4 −2 0 2 4 6 8
. . . la sua soluzione
6

.
4
2
a

a
la figura si riferisce
0
−2

a pagina alla serie


−4

lag 1 lag 2 lag 3 34 (b)


35 (d)

6
36 (a)

4
2
37 (c)
a

0
−2
−4
lag 4 lag 5 lag 6
6
4
2
a

a
0
−2
−4

lag 7 lag 8 lag 9


6
4
2
a

0
−2
−4

lag 10 lag 11 lag 12


−6 −4 −2 0 2 4 6 8

Unità C: Stima della funzione di autocorrelazione 37 Unità C: Stima della funzione di autocorrelazione 38
La temperatura al castello di Nottingham Un correlogramma a Nottingham

1.0
65
60

0.5
55
nottem

50

0.0
45

−0.5
40
35

−1.0
30

1920 1925 1930 1935 1940 0 2 4 6 8 10


Si osservi come le onde nel periodogramma “si
Time
smorzino” lentamente. A 10 anni di distanza1 c’è
ancora della dipendenza. Tenendo presente che “stiamo
dividendo per n” (vedi pagina 25), la diminuzione
E’ evidente la presenza (come atteso) di una importante
potrebbe addirittura essere un artefatto. Infatti. . .
componente stagionale.

1
Si osservi che i ritardi nel grafico della funzione di autocorrelazione, fatto in
R, sono etichettati utilizzando gli anni non i mesi.
Unità C: Stima della funzione di autocorrelazione 39 Unità C: Stima della funzione di autocorrelazione 40
A castello è meglio essere corretti Nottingham: grafici di “autodispersione”
30 40 50 60 70 30 40 50 60 70

60
nottem

nottem

nottem
1.0

40
30 50
lag 12 lag 24 lag 36
0.5

60
nottem

nottem

nottem

50
40
30
0.0

lag 48 lag 60 lag 72

60
nottem

nottem

nottem
40 50
−0.5

30
lag 84 lag 96 lag 108

60
nottem

nottem

nottem

50
−1.0

40
0 2 4 6 8 10

30
lag 120 lag 132 lag 144
30 40 50 60 70

. . . se “dividiamo per n − h” il correlogramma non Si osservi che sono mostrati solo i “ritardi” stagionali.
“diminuisce più”. Quindi, l’ultimo grafico, mostra il digramma di
dispersione tra la temperatura di “oggi” e quella di “12
anni fa”.

Unità C: Stima della funzione di autocorrelazione 41 Unità C: Stima della funzione di autocorrelazione 42
Esercizio
30 40 50 60 70 30 40 50 60 70 30 40 50 60 70 30 40 50 60 70
60

60
nottem

nottem

nottem

nottem

nottem

nottem
50

50
40

40
30

30
lag 6 lag 18 lag 30 lag 1 lag 2 lag 3

60

60
nottem

nottem

nottem

nottem

nottem

nottem
50

50
40

40
30

30
lag 42 lag 54 lag 66 lag 4 lag 5 lag 6
60

60
nottem

nottem

nottem

nottem

nottem

nottem
50

50
40

40
30

30
lag 78 lag 90 lag 102 lag 7 lag 8 lag 9

60

60
nottem

nottem

nottem

nottem

nottem

nottem
50

50
40

40
30

30
lag 114 lag 126 lag 138 lag 10 lag 11 lag 12
30 40 50 60 70 30 40 50 60 70

Rispetto al grafico di prima i ritardi sono stati sfasati La figura mostra i diagrammi di autodispersione per i
di 6 mesi. Con un pò di licenza potremmo dire che primi 12 ritardi. In alcuni dei grafici compaiono delle
stiamo guardando alla correlazione tra la temperatura sorta di anelli. Spiegare perche’.
nell’inverno/primavera/estate/autunno di un anno e
quella nell’estate/autunno/inverno/primavera di 1, 2, . . .
anni prima.
Unità C: Stima della funzione di autocorrelazione 43 Unità C: Stima della funzione di autocorrelazione 44
La produzione di automobili in Giappone Il correlogramma è quelo tipico in questo casi: positivo
e vicino ad uno all’inizio, poi decresce lentamente
Il grafico mostra il numero di automobili (in migliaia) e inverte il suo segno ad un ritardo pari ad
prodotte in Giappone dal 1949 al 1989. La serie è approssimativamente la metà della lunghezza della serie
evidentemente non stazionaria visto l’aumento della osservata.

1.0
media (trend) negli anni.

0.5
0.0
12000

−0.5
−1.0
10000

0 5 10 15 20 25 30
8000

1.0
6000

0.5
0.0
4000
2000

−1.0
0

0 5 10 15 20 25 30

1950 1960 1970 1980 1990


Il secondo correlogramma è stato ottenuto “dividendo
per n−h”. Si osservi come in questo caso la correlazione
negativa a ritardi elevati diventi addirittura inferiore a
−1!!!
Unità C: Stima della funzione di autocorrelazione 45 Unità C: Stima della funzione di autocorrelazione 46
Esercizio Il test di Ljung-Box (e quello di Box-Pierce)

La figura mostra i diagrammi dia autodispersione per la Una statistica test che può essere utilizzata per verificare
serie considerata nelle pagine precedenti. Indicando con l’ipotesi che il processo sia un white noise è
yt la variabile posta sulle ascisse in ogni grafico, dire se
H
sulle ordinate è stato disegnato yt−h o yt+h per i valori X ρ̂2(h)
prescelti di h (in questo caso 1, . . . , 12)? TL&B = n(n + 2)
n−h
0 2000 6000 10000 0 2000 6000 10000 h=1

dove H è un intero prescelto. Sotto l’ipotesi


10000

nulla (assenza di autocorrelazione) TL&B si distribuisce


asintoticamente come una variabile casuale χ2 con H
6000
d

d
gradi di libertà. Valori troppo grandi rispetto a quelli
2000

che ci aspettiamo da questa distribuzione sono evidenza


0

lag 1 lag 2 lag 3


che l’autocorrelazione “non è solo apparente”.
Un test, asintoticamente analogo a quello di Ljung e Box,

10000
si basa sulla statistica test proposta e studiata da Box e
6000
d

Pierce
XH
ρ̂2(h).
2000

TB&P = n
0

lag 4 lag 5 lag 6 h=1


La differenza tra le due statistiche consiste semplicemen-
10000

te nella differente ponderazione adottata: nella prima


il quadrato di ρ̂(h) “entra” con peso n(n + 2)/(n −
6000
d

h) mentre nella seconda con peso n. Asintotica-


mente sono equivalenti. Si può però mostrare che
2000

la prima statistica converge più rapidamente alla sua


0

lag 7 lag 8 lag 9


0 2000 6000 10000
distribuzione asintotica. E’ quindi consigliabile utilizzare
TL&B.
Unità C: Stima della funzione di autocorrelazione 47 Unità C: Stima della funzione di autocorrelazione 48
Esempio 1. Con i dati del primo esempio di pagina
29, TL&B calcolato sulla base dei primi 20 coefficien-
ti di autocorrelazione campionari vale 26,63. Una
approssimazione del livello di significativà del test è Unità D
quindi
Prob(χ220 ≥ 26,63) ≈ 0,15. Scomposizione di una serie temporale
Le differenze da zero delle autocorrelazioni campionarie
potrebbero quindi essere semplicemente dovute al errore
in componenti elementari
di stima.
Esempio 2. Con i dati del secondo esempio di pagina
29, TL&B calcolato sulla base dei primi 20 coefficien- • trend, stagionalità e componente irregolare
ti di autocorrelazione campionari vale 87,65. Una • differenti modelli di composizione delle componenti
approssimazione del livello di significativà del test è
quindi • serie destagionalizzate
Prob(χ220 ≥ 87,65) ≈ 2 × 10−10.
Questo valore ci dice che applicando la medesima
procedura a serie storiche incorrelate ci aspettiamo un
valore della statistica test grande come quello osservato
circa due volte ogni dieci miliardi di occasioni. Quindi,
ci suggerisce che l’autocorrelazione segnalata dal grafico
è reale (e non semplicemente dovuta all’errore di stima).

Unità C: Stima della funzione di autocorrelazione 49


E se il processo non è stazionario? Componenti di una serie temporale

Molte serie temporali contengono evidenti segni di non- Non è infrequente che una serie storica possa essere
stazionarietà In particolare in posizione e dispersione. pensata come la composizione di varie componenti.
In questi casi, è abbastanza comune per non perdere In particolare, spesso, anche solo guardando il grafico
i vantaggi assicurati dalla stazionarietà, cercare di della serie, sono evidenti:
trasformare la serie originale in una serie stazionaria.
[trend] una componente che varia lentamente nel tempo
Ovviamente, una possibilità per realizzare il “programma e che essenzialmente determina il livello della serie;
precedente” consiste nello stimare la parte non [stagionalità] una o più componenti periodiche, ovvero
stazionaria della serie osservata per poi rimuoverla. che si “ritrovano” uguali o quasi a distanza fissa nel
Questo tra l’altro è un problema spesso interessante di tempo (ad esempio, in serie mensili ogni 12 mesi, in
per se. serie trimestrali ogni 4 trimesti, in serie giornaliere,
ogni 7 giorni);
[componente irregolare] una componente più erratica
che determina nella serie delle oscillazioni tipicamente
di breve periodo. Normalmente può essere assimilato
ad un processo stocastico stazionario.

Unità D: Scomposizione di una serie . . . 51 Unità D: Scomposizione di una serie . . . 52


Modelli di composizione Esempio di una serie “additiva”

Indichiamo con Tt, St e It le tre componenti. Le maniere

3000
in cui possono interagire per “formare” la serie osservata
possono essere differenti. Alcuni esempi sono i seguenti

y
2600
“modelli” di composizione

2200
3200
additivo: yt = Tt + St + It;

3000
moltiplicativo: yt = TtStIt;

2800
trend
2600
moltiplicativo con comp. irr. additiva yt = TtSt + It.

100 2400
50
seas
0
−50
−100
150
100
50
irr
0
−100 −50

2 4 6 8 10

Time

L’ampiezza delle oscillazioni stagionali e della componente irregolare nella serie (primo grafico del pannello) è la

stessa a prescindere dal livello della serie stessa.

Unità D: Scomposizione di una serie . . . 53 Unità D: Scomposizione di una serie . . . 54


Esempio di una serie “moltiplicativa” Destagionalizzazione di una serie
temporale
5000

Nelle prossime unità vedremo alcune tecniche utili per


3000

scomporre una serie temporale nelle sue componenti


y

elementari e quindi, in particolare, per stimarne la


1000

componente stagionale.
14000

Un’utilizzo di queste tecniche consiste nella produzione


1000

di cosidette serie destagionalizzate ovvero serie in cui la


trend

parte periodica e predicibile sia stata rimossa.


600

I dettagli di come può essere fatto dipendono dal


200

modello di composizione. Ad esempio, nel caso di un


2.5

modello [additivo, moltiplicativo] è sufficiente [sottrarre


2.0

dalla,dividere la] serie originale [,per] la componente


seas
1.5

stagionale.
1.0

Esercizio: Proporre una formula per destagionalizzare


0.5

una serie per cui si è adottato un modello moltiplicativo


4

con componente irregolare additiva.


3
irr
2
1

2 4 6 8 10

Time

Le oscillazioni stagionali e la componente irregolare “entrano” nella serie (primo grafico del pannello) con una

ampiezza che dipende dal livello della serie (ovvero dal trend).

Unità D: Scomposizione di una serie . . . 55 Unità D: Scomposizione di una serie . . . 56


Perchè destagionalizzare? ? Inoltre la componente stagionale costituisce spesso una
parte della serie storica la cui esistenza è scontata e la
? Si supponga che qualcuno vi dica che la media della cui spiegazione è quindi nota e perciò non particolar-
CO2 a Padova è risultata a novembre il 20% più elevata mente interessante. Nello stesso tempo però può
che a ottobre. essere sufficientemente “grande” per mascherare altri
andamenti.
? Possiamo affermare che l’inquinamento è “realmente”
aumentato? Boh!!! ? Un esempio è mostrato nei prossimi due grafici:

? L’aumento potrebbe essere semplicemente “stagionale” i) il primo mostra la serie mensile dei passegeri su
e ad esempio legato al maggiore utilizzo delle tratte aeree internazionali (in migliaia) dai 1949
automobili e del riscaldamento privato dovuto alle al 1960; è evidente un trend crescente e una forte
temperature più fredde (traffico e riscaldamento sono componente stagionale;
le fonti maggiori di CO2); ii) nel secondo grafico viene mostrata una versione
“destagionalizzata” della stessa serie con aggiunta
? Nella serie destagionalizzata questa componente una stima della componente di trend.
prevedibile “speriamo” di averla eliminata.
Si noti come nel secondo grafico sia evidente i due
? Ovviamente lo stesso discorso può essere fatto in rallentamenti nella crescita avvenuti tra il 1953/54
moltissime altre situazioni. Ad esempio, un aumento (guerra di Corea?) e il 1957/58 (conseguenza di alcuni
degli occupati nell’agricoltura del 10% tra giugno e “disastri”?) Lo stesso non si può dire con riferimento al
maggio è una indicazione di un vero e proprio boom primo grafico dove i due rallentamenti sono “coperti”
economico? dalla componente stagionale.

Unità D: Scomposizione di una serie . . . 57 Unità D: Scomposizione di una serie . . . 58


Passegeri delle linee aree internazionali Passegeri delle linee aree internazionali
Serie osservata Serie destagionalizzata

500
600

serie destagionalizzata
500

stima del trend

400
AirPassengers

400

300
300

200
200
100

1950 1952 1954 1956 1958 1960 1950 1952 1954 1956 1958 1960

Unità D: Scomposizione di una serie . . . 59 Unità D: Scomposizione di una serie . . . 60


CO2 a Mauna Loa

Illustriamo le tecniche di questo unità utilizzando la


Unità E seguente serie mensile di misurazioni di CO2 a Mauna
Loa (una località delle Haway).
Stima della media e sua scomposizio-
ne mediante modello di regressione

360
350
340
co2
? richiami sul modello lineare di regressione multipla

330
? rappresentazione del trend mediante un polinomio

320
? rappresentazione della stagionalità mediante variabili
dummies
1960 1970 1980 1990

Time

Sono evidenti
- una componente di trend sufficientemente regolare
(potrebbe essere un polinomio del secondo ordine)
- una componente stagionale
che rendono la serie non stazionaria.

Unità E: Stima della media e sua . . . 62


Il grafico è stato costruito nella seguente maniera: Questo porta a pensare ad un modello del tipo
- per prima cosa, ad ogni osservazione è stata sottratta la
media delle 12 osservazioni del “suo” anno yt = (Trend)t + (Stagionalità)t + (Errore)t
- poi, separatamente per ogni anno, i 12 scarti sono stati
disegnati verso il numero d’ordine del mese. dove

- (Trend)t è un polinomio del secondo ordine, ovvero,


4

(Trend)t = α0 + α1t + α2t2

- (Stagionalità)t è una componente periodica che si


2

ripete di anno in anno, ovvero,

(Stagionalità)t+12 = (Stagionalità)t.
0
−2

2 4 6 8 10 12

Il grafico mostra che il profilo stagionale è sostanzialmen-


te rimasto lo stesso per tutti i 39 anni considerati.

Unità E: Stima della media e sua . . . 63 Unità E: Stima della media e sua . . . 64
Una conferma giunge anche dal grafico seguente che CO2: un modello lineare
mostra le sotto-serie mensili (ovvero la serie di tutti
i gennaii disegnata contro l’anno,. . . ). Se vale il Poniamo
modello precedente in questo grafico dovremmo infatti
osservare 12 curve approssimamente parallele, ciascuna φi = (Stagionalità)i per i = 1, . . . , 12
approssimabile da un “pezzettino” di parabola).
Allora, il modello prima formulato per la CO2 può essere
scritto come un modello lineare del tipo
456
2371
18 yt = α0 + α1t + α2t2 + φ1d1,t + · · · + φ12d12,t + (Errore)t
360

1
91

dove, d1,t è una variabile che vale 1 se siamo nel mese di


gennaio e zero altrove, d2,j è una variabile che vale 1 se
350

siamo nel mese di febbraio e zero altrove,. . . . Variabili


indicatrici di questo tipo sono usualmente chiamate
340

dummy (=mute).
456
37
1281 Scritto in termini matriciali il modello diventa
1
91
330

12 1 0 .. 0 0 
   
y1 1 1 
α
 y2   1 2 22 0 1 .. 0 0  0
 .  . . .. α
.. .. .. .. ..   1 
320

 
5
46
 .  . . 
37
2
181  y11   1 11 112 0 0 .. 1 0  
     α 2


911 φ
 y12  =  1 12 122 0 0 .. 0 1   1  + ε
     
 y13   1 13 132 1 0 .. 0 0   φ.2 
    
1960 1970 1980 1990
 . 
 .  . . .. .. .. .. .. ..   
 .  . .
 φ11
 .  . . .. .. .. .. .. ..   
 .  . .
φ12
y468 1 468 4682 0 0 .. 0 1

Unità E: Stima della media e sua . . . 65 Unità E: Stima della media e sua . . . 66
Si osservi che in un modello del tipo co2 ~ p(2) + c

360
(serie osservata)=(trend)+(stagionalità)+(errore)

data
340
il livello medio dei tre addendi in cui viene scomposta

320
la serie osservata è in una qualche forma arbitrario.

360
Ad esempio, assegnata una scomposizione di questo

trend
tipo, possiamo generarne un’altra perfettamente valida

340
aggiungendo un valore arbitrario, indichiamolo con δ,

3 320
al trend e sottraendo δ/3 alla componente stagionale e
2δ/3 alla componente di errore.

2
seasonal
1
−1 0
Possiamo superare questa ambiguità imponendo dei
vincoli in maniera tale che la prima componente, quella

2 −3
di trend, sia interpretabile come quella che ci fornisce il

remainder
1
livello della serie osservata.

0
In particolare, sembra sensato chiedere che la somma

−1
della componente stagionale in un anno sia nulla. Nel

−2
1960 1970 1980 1990
caso del modello lineare precedente, questo diventa il Time
seguente vincolo lineare sui parametri
Il primo grafico mostra la serie originale, il secondo la
φ1 + · · · + φ12 = 0. componente di trend stimata, il terzo la componente
stagionale, l’ultimo la componente erratica.
Le stime a minimi quadrati possono quindi essere
ottenuti con la procedura indicata nel lucido (75).
Esercizio: Formulare i dettagli (in particolare cosa è a e
β?)
Unità E: Stima della media e sua . . . 67 Unità E: Stima della media e sua . . . 68
Si osservi come la componente di errore sia evidentemen- CO2: serie destagionalizzata
te autocorrelata positivamente (si spieghi perche’
basandosi sul terzo grafico precedente; può essere Avendo stimato la componente stagionale possiamo
conveniente costruirsi ad esempio un diagramma di “eliminarla” ottenendo la cosidetta serie destagiona-
autodispersione su cui disegnare approssimativamente lizzata. In questo caso, ci basta sottrarre dalla serie
(Errore)t−1 sull’asse delle ascisse e (Errore)t−1 sull’asse originale la componente stagionale
delle ordinate) e forse, addirittura, non stazionaria in
media.

360
Questo ci è confermato dal correlogramma empirico

350
1.0

340
0.5

330
ACF

0.0

320
1960 1970 1980 1990
−0.5

Time

Osservazione: Poichè la componente erratica mostra


−1.0

0 1 2 3 4 5 qualche segno di stagionalità, la procedura utilizzata


Lag
per ottenere la serie destagionalizzata è criticabile.
che “decresce lentamente” e forse mostra la presenza Ritorneremo nella prossima unità su questo punto. In
una residua componente stagionale (Esercizio: Perche’?) ogni caso, trend e stagionalità “spiegano” più del 99%
della varianza della co2 (l’R2 del modello vale 0,997).
Quindi, “l’ombra” di stagionalità magari è presente ma
di certo non è importante.

Unità E: Stima della media e sua . . . 69 Unità E: Stima della media e sua . . . 70
Altri modelli di regressione: cenni Appendice: richiami sul modello di
regressione lineare multiplo
• Al posto di variabili dummy, possiamo utilizzare
funzioni trigonometriche per introdurre in un situazione: una variabile dipendente (y) e k variabili
modello di regressione una componente periodica. esplicative (x1, . . . , xk).
• Possiamo anche introdurre interazioni tra trend e relazione “lineare”:
stagionalità ad esempio introducendo nel modello dei
termini che sono il prodotto di quelli visti nell’appli- yi = β0 + β1x1i + · · · + βkxki + (errore)i
cazione fatta. Nel contesto in cui stiamo operando
ci servirebbero, ad esempio, per modellare una dove
componente stagionale che varia nel tempo.
- yi indica l’i-sima osservazione sulla variabile dipendente
• In alcuni campi applicativi è comune utilizzare per mentre
stimare la componente di trend funzioni diverse dai - xji indica l’osservazione i-sima sulla j-sima variabile
polinomi. dipendente.
• ... scrittura matriciale: n osservazioni possono essere
scritte compattamente come
Non affrontiamo questi argomenti in parte per problemi
di tempo in parte perchè nei corsi di Modelli I e II y = Xβ + ε
sviluppate capacità di questo tipo. E quindi. . .
ovvero

y1
 
1 x11 .. x   
errore

k1  1
 .   .. ..
. .. ..  β0 ..
 . = . . ..  + 
 
 .  . . .. ..   
 .. 

.. x β k
yn 1 x1n kn erroren

Unità E: Stima della media e sua . . . 71 Unità E: Stima della media e sua . . . 72
minimi quadrati: la stima a minimi quadrati dei minimi quadrati ponderati: nella soluzione precedente
parametri di regressione, ovvero, il valore di β = diamo lo stesso peso a tutte le osservazioni. In alcuni
(β0, . . . , βk) che minimizza vedremo però che ci interesserà calcolare il vettore β che
minimizza la seguente somma dei quadrati ponderata
n
X
T
(y − Xβ) (y − Xβ) = (yi − β0 − β1x1i − · · · − βkxki)2 n
X
i=1 wi(yi − β0 − β1x1i − · · · − βkxki)2
i=1
vale
β̂ = (XT X)−1XT y dove w = (w1, . . . , wn) sono pesi noti assegnati ad ogni
osservazione. E’ possibile in questo caso far vedere che
valori previsti: il valore “previsto”/”interpolato” dal la soluzione è data da
modello “alle” variabili esplicative (x̃1, . . . , x̃k), ovvero,
β̂(w) = (XT WX)−1XT Wy
βˆ0 + β̂1x̃1 + · · · + β̂kx̃k
dove W = diag(w1, . . . , wn) ovvero è una matrice
è una combinazione lineare delle “y” originali, ovvero, è diagonale in cui w1 è l’elemento (1, 1), w2 l’elemento
del tipo (2, 2) e così via.
Xn
wi y i Nota: Anche in questo caso i valori previsti dal modello
i=1 sono funzione lineare delle “y”.
Infatti,

βˆ0 + β̂1x̃1 +· · ·+ β̂kx̃k = (1, x̃1, . . . , x̃k)(XT X)−1XT y = wT y.

Ovviamente i pesi w dipendono dalla matrice di disegno


X e dalle “x” a cui vogliamo calcolare la “previsione”.

Unità E: Stima della media e sua . . . 73 Unità E: Stima della media e sua . . . 74
minimi quadrati con un vincolo: Supponiamo ora di
voler stimare il modello ma di sapere a priori che il
vettore dei parametri, β, soddisfa esattamente al vincolo
Unità F
T
a β=0
Scomposizione di una serie temporale:
dove a è un qualsiasi vettore noto. un approccio flessibile
E’ possibile dimostrare che, tra tutti i vettori che
soddisfano il vincolo, quello che minimizza la somma dei
quadrati degli scarti delle osservazioni dai valori previsti
dal modello, ovvero che risolve il problema di minimo
vincolato
P
minβ0,...,βk ni=1 (yi − β0 − β1x1i − · · · − βkxki)2
con il vincolo che a0β0 + · · · + akβk = 0

è
aT β̂
β̂(a) = β̂ − T a
a a
dove β̂ è lo stimatore a minimi quadrati.
Nota: La formula in se non è molto interessante.
L’importante è che il problema abbia una soluzione
facilmente calcolabile.

Unità E: Stima della media e sua . . . 75


Il punto debole. . . Regressione non parametrica: cenni

. . . dell’approccio precededente è che i risultati dipendono [il problema] - sono disponibili dei dati bivariati del
in maniera cruciale dalla capacità e dalla possibilità di tipo
scegliere in maniera appropriata le “funzioni” con cui {(x1, y1), . . . , (xn, yn)}
interpolare il trend e la componente stagionale. su due variabili X e Y;
In questa unità studieremo un approccio più “flessibile”. - la relazione tra “la X” e “la Y” può essere scritta nella
forma
La trattazione è orientata yi = f(xi) + εi (F.1)
dove f(·) = E(Y|X = x) mentre le “εi” sono delle
∗ al mostrare le connessioni esistenti con i problemi di
variabili casuali (visto quanto detto con media nulla);
regressione non parametrica;
- non sappiamo come specificare f(·) parametricamente
∗ all’analisi esplorativa ed interattiva dei dati più che alla (ad esempio, non è una retta, non è un polinomio,. . . );
produzione di statistiche ufficiali. - però sappiamo che f(·) è una funzione continua e
senza oscillazioni particolarmente violente;
- vogliamo utilizzare i dati per costruire una stima di f(·)

Unità F: Scomposizione di una serie . . . 77 Unità F: Scomposizione di una serie . . . 78


[medie locali] Si supponga che La media delle “Y” non può essere la soluzione generale.

f(x) = η per quasivoglia x

8
dove η indica una costante coincidente con la media f ( x) = y
^

6
della variabile Y 1

4
y

2
In questo caso degenere, potremmo stimare f(·)

0
mediante

−4
n
1X 0 1 2 3 4 5
f̂(x) = η̂ = y = yi per qualsivoglia x
n x
i=1

ovvero, semplicemente calcolando la media delle “y”. Però, se le oscillazioni di f(·) sono dolci, possiamo
pensare di stimare f(·) mediante delle medie locali del
tipo
f ( x) = y
^
22

 
media delle yi tali che |xi − x|
20

f̂(x) =  sia minore di una costante 


18
y

prescelta
16
14

o, del tipo,
12

3 4 5 6 7  
x
media ponderata delle yi con
 pesi costruiti in maniera che 
f̂(x) = 
 risultino “grandi” se xi ≈ x e 

“piccoli” se xi è “lontano” da x
1
Si ricordi che, per la (F.1), possiamo scrivere yi = η + εi e che le “ε” hanno
media nulla
Unità F: Scomposizione di una serie . . . 79 Unità F: Scomposizione di una serie . . . 80
Questo ci porta a degli stimatori del tipo [pesi costruiti da un nucleo] Supponiamo di scegliere
una funzione k(·) non decrescente per x < 0 e non
n
X crescente per x > 0 e tale che k(x) ≈ 0 quando |x| è
f̂(x) = wi(x)yi (F.2) sufficientemente grande. Una possibilità per generare i
i=1 pesi consiste nel porre

dove wi(x) è il peso che assegnamo a yi quando 


xi − x

calcoliamo la stima di f(·) a x. k
h
wi(x) = n  
X xi − x
8

k
6

h
i=1
4
2

e, quindi,
0

n
−2

 
X xi − x
k yi
−4

0.10
f̂(x) = i=1n 

0.08

pesi usati per stimare f(1) X xi − x
k
0.06
h
i=1
0.04
La funzione k(·) è usualmente indicata come nucleo
0.02

(kernel in inglese) e lo stimatore risultante stimatore


0.00

basato sul metodo del nucleo.


0.10
0.08

pesi usati per stimare f(4)


Ad esempio, l’esempio della pagina precedente è stato
0.06

costruito utilizzando come nucleo la densità di una


0.04

distribuzione normale standard.


0.02
0.00

0 1 2 3 4 5

Unità F: Scomposizione di una serie . . . 81 Unità F: Scomposizione di una serie . . . 82


Esempi di “nuclei” [regressione locale] Una possibilità diversa consiste
nell’utilizzare come stima di f(x) il valore assunto ad x
da un polinomio adattato utilizzando solo le osservazioni
“vicine”.
Ad esempio, uno degli stimatori più utilizzati è lo
stimatore loess che stima f(x) mediante
I( x < 2)

f̂(x) = b0(x) + b1(x)x + · + bp(x)xp

dove i coefficienti b0(x), . . . , b1(x), che si osservi


dipendono da x, sono determinati minimizzando

X  xi − x 
k (yi − b0(x) − b1(x)x − · · · − bp(x)xp)2
exp(− 0.5x2)

h(x)
i

con
(1 − |x|3)3 se |x| ≤ 1
k(x) =
0 altrove

1.0
I( x ≤ 2)(1 − (x 2)2)2

0.8
0.6
(1 − x 3)3
0.4
0.2
0.0

−3 −2 −1 0 1 2 3

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Unità F: Scomposizione di una serie . . . 83 Unità F: Scomposizione di una serie . . . 84


h(x) è usualmente determinato in maniera tale che solo
s osservazioni ricevono un peso maggiore di 0 (con s
valore prefissato).
Per i risultati del lucido 74 anche questo stimatore è del (2, f (2))
^

tipo (F.2) anche se non è detto che i pesi sommino ad 1


e che siano positivi.

y
pesi utilizzati per determinare la retta

w
0 1 2 3 4 5

La figura illustra come viene determinata la stima per


x = 2 nel caso in cui si scelga di adattare una retta (p=1)
utilizzando il 25% delle osservazioni più vicine.

Unità F: Scomposizione di una serie . . . 85 Unità F: Scomposizione di una serie . . . 86


Stima con loess (p=1,s=25%) [spline] Una smoothing splines è la soluzione del
seguente problema: trovare la funzione f̂(·) che
minimizza tra tutte le possibili funzioni f : R → R la
seguente somma dei quadrati penalizzata
8

n
X Z x(n)
2
SQp = [yi − f(xi)] + v [f 00(x)]2dx
x(1)
6

i=1

dove x(1) = min(x1, . . . , xn) e x(n) = max(x1, . . . , xn).


4

Si osservi che
y

- il primo addendo è una usuale somma dei quadrati


degli scarti tra le osservazioni e i valori previsti dal
0

“modello”; diventa piccolo ovviamente più il “modello”


prevede bene le osservazioni ed, in particolare, diventa
nullo per ogni funzione che interpoli esattamente i dati
−2

stessi;
- il secondo addendo viceversa è una penalità che
−4

diventa grande più la derivata seconda è grande (in


0 1 2 3 4 5
modulo), ovvero più varia la derivata prima, ovvero
x
più f(·) si allontana da una retta (per una retta la
derivata seconda è sempre nulla); penalizza quindi le
funzioni “non liscie”, quelle con molte oscillazioni e
cambi di pendenza;

Unità F: Scomposizione di una serie . . . 87 Unità F: Scomposizione di una serie . . . 88


- v è un coefficiente che controlla il peso relativo dei due
addendi; in particolare se v è piccolo la penalizzazio-
ne non “pesa”; in questo caso, otteniamo una f̂(·)
che tende ad interpolare molto bene anche a costo
di essere troppo poco “liscia” (ovvero può interpolare

8
anche la componente erratica); viceversa se h è grande
la penalità pesa molto e quindi otteniamo una stima v "giusto"
molto “liscia” (per v → ∞ otteniamo, qualsiasi siano i v "piccolo"

6
v "grande"
dati, una retta visto che in ogni altro caso la penalità
dominerebbe SQp). Si veda l’esempio a pag. 90.

4
E’ possibile dimostrare che
? la soluzione del problema è una funzione continua con

y
le prime due derivate continue che

2
? in ognuno degli intervalli determinato dai valori
distinti nelle “x” è un polinomio del terzo ordine;

0
Ad esempio se supponiamo che tutte le “x” siano
differenti e “già ordinate” (ovvero x1 < x2 < · · · < xn)
la soluzione è un polinomio cubico in tutti gli intervalli

−2
[xi −xi+1 ], i = 1, . . . , n−1; i coefficienti dei vari polinomi
che “rappresentano” localmente la funzione non sono
completamente liberi ma soddisfano a dei vincoli che
−4
garantiscono la continuità della soluzione e delle sue
prime due derivate. 0 1 2 3 4 5

E’ inoltre possibile far vedere che anche questo stimatore x

è del tipo (F.2).

Unità F: Scomposizione di una serie . . . 89 Unità F: Scomposizione di una serie . . . 90


[numero di parametri equivalenti] Gli stimatori visti
hanno un parametro “aggiustabile” che controlla il grado
di lisciamento (h nel caso dello stimatore del nucleo, s
nel caso dello stimatore loess, v nel caso delle spline).
Al di là dei dettagli formali, è possibile inoltre far vedere

8
che una volta fissato h o s o v, lo stimatore che si
ottiene ha, nella sostanza, la flessibilità di un modello di spline npe=3
regressione con un certo numero di parametri, numero loess npe=3

6
che viene usualmente chiamato numero di parametri
equivalenti.

4
Ovviamente più il numero di parametri equivalenti è
grande più lo stimatore è flessibile e viceversa.

y
Il numero di parametri equivalenti costituisce quindi una

2
maniera unificata per fissare il grado di lisciamento
desiderato.

0
Tra l’altro, stimatori diversi (ad esempio “loess” o
“spline”) con un numero di parametri equivalenti uguali
producono di norma stime molte simili (si vedano i

−2
grafici nelle prossime pagine).

−4

0 1 2 3 4 5

npe: numero di parametri equivalenti


Unità F: Scomposizione di una serie . . . 91 Unità F: Scomposizione di una serie . . . 92
8

8
spline npe=10 spline npe=30
loess npe=10 loess npe=30
6

6
4

4
y

y
2

2
0

0
−2

−2
−4

−4

0 1 2 3 4 5 0 1 2 3 4 5

x x

npe: numero di parametri equivalenti npe: numero di parametri equivalenti


Unità F: Scomposizione di una serie . . . 93 Unità F: Scomposizione di una serie . . . 94
[scelta del grado di lisciamento] La/e costante/i che Un approccio alternativo si basa sull’utilizzo di criteri del
controllano il grado di lisciamento (ad esempio, il tipo
“numero di parametri equivalenti”) può/possono essere n log(σ̂2p) + cp
scelta/e “ad occhio” utilizzando un procedimento di dove
prova ed errore e cercando di bilanciare il grado di
lisciamento con la capacità della curva stimata di - indicata con f̂p(·) la stima di f(·) ottenuta utilizzando
descrivere i dati. p parametri equivalenti,

Esistono poi procedure più formali. Alcune tra le n


1 X 2
più popolari sono basate su tecniche di validazione σ̂2p = yi − f̂p(xi)
n
incrociata. Nella forma più semplice la validazione i=1
incrociata funziona ± così:
- mentre c è una appropriata costante positiva
? i dati sono divisi (casualmente) in due sottoinsiemi; (eventualmente dipendente da n ma non da p)
? f(·) viene stimata sul primo sottoinsieme utilizzando
vari valori per la costante che controlla il lisciamento; La scelta di p avviene minimizzando il criterio.
? le varie stime vengono utilizzate per prevedere le Il primo addendo misura quanto la stima di f(·)
osservazioni del secondo sottoinsieme; “prevede” bene le osservazioni e quindi, usualmente,
? il parametro di lisciamento della “curva migliore”, decresce al crescere di p (più p è grande più lo stimatore
ovvero quella che ha previsto in maniera migliore il usato è flessibile, quindi meglio riesce a riprodurre i dati
secondo gruppo di dati viene adottato per produrre la osservati). Il secondo addendo invece penalizza i valori
stima “finale” di f·) che ovviamente sarà basata su tutti grandi di p.
i dati.
“Famosi” criteri di questo tipo sono
Esistono poi varie varianti a questo schema di base
(più di due sottoinsiemi,. . . ). Non li approfondiamo Akaike Information Criterion: lo si ottiene ponendo
anche perchè la “validazione incrociata” non funziona c = 2; è spesso indicato con la sigla AIC
particolarmente bene quando i residui intorno alla f(·) Schwarz Information Criterion o Bayesian Information
sono autocorrelati. Criterion: lo si ottiene ponendo c = log(n) ; spesso
viene indicato con la sigla BIC.
Unità F: Scomposizione di una serie . . . 95 Unità F: Scomposizione di una serie . . . 96
Stima del trend in assenza di stagionalità Medie mobili e filtri lineari

Per una serie non stagionale i metodi appena descritti Lo stimatore del trend che si ottiene nella parte centrale
sono utilizzabili direttamente per la stima della delle osservazioni (ovvero per t non troppo vicino
componente del trend. Il ruolo delle “x” sarà in questo all’inizio e alla fine del periodo osservato) è della forma
caso giocato dal tempo, ovvero xi = ti dove ti indica
l’istante di tempo in cui è stato osservato l’i-simo valore m
X
della serie temporale, mentre ovviamente le “y” saranno T̂t = wiyt+i (F.3)
i valori della serie stessa. i=−m

dove m è un intero P appropriato e wi sono opportuni pesi


che sommano a 1 ( i wi = 1). Si osservi che i pesi non
dipendono da t. Una trasformazione di questo tipo viene
usualmente indicata con il termine di media mobile. Il
suo caso generale, ovvero quando la somma dei pesi è
arbitraria, viene chiamata filtro lineare.
Le medie mobili hanno una lunga tradizione di
utilizzo nella scomposizione di una serie temporale.
Affrontare questo problema partendo dalla regressione
non parametrica presenta però alcuni vantaggi:
• permette di costruire i pesi in maniera più naturale;
• chiarisce cosa può essere fatto all’inizio e alla fine
della serie (si osservi infatti che una formula del tipo
(F.3) è incalcolabile se t ≤ m o t > n − m);
• permette di trattare anche serie con valori mancanti
senza “moltiplicarli” come accadrebbe se si rimanesse
legati alla (F.3).
Unità F: Scomposizione di una serie . . . 97 Unità F: Scomposizione di una serie . . . 98
Stima della componente stagionale in Una serie “solo” stagionale
assenza di trend

Il grafico nel lucido 100 mostra una serie mensile

1.3
“solo stagionale” ovvero senza visibili traccie di una
componente di trend. La componente stagionale sembra

1.2
però evolversi nel tempo. In particolare la sua ampiezza
aumenta.

1.1
Il grafico nel lucido 101 mostra le 12 sottoserie mensili:
(i) il grafico in basso a sinistra mostra i valori osservati
nei vari mesi di gennaio; (ii) quello alla sua destra i

1.0
valori osservati nei vari mesi di febbraio; (iii) e così via;
l’ordinamento è da sinistra verso destra e dal basso in

0.9
alto (ovvero il grafico sulla seconda riga, terza colonna
riporta i valori osservati nei vari anni durante il mese di

0.8
luglio)
Una possibilità per stimare la componente stagionale
consiste nel “lisciare” ciascuna di queste sottoserie 2 4 6 8 10 12

utilizzando i metodi presentati all’inizio dell’unità. Si


vedano i grafici nei lucidi 102 e 103.

Unità F: Scomposizione di una serie . . . 99 Unità F: Scomposizione di una serie . . . 100


Grafico delle sottoserie mensili Grafico delle sottoserie mensili “lisciate” utilizzando
Given : cycle(y)
una “spline” con 3 parametri equivalenti.
2 4 6 8 10 12 2 4 6 8 10 12 Given : cycle(y)
1.3

2 4 6 8 10 12 2 4 6 8 10 12
1.2

1.3
1.1

1.2
1.0

1.1
0.9

1.0
0.8

0.9
0.8
1.3
1.2

1.3
1.1

1.2
1.0

1.1
0.9

1.0
0.8

0.9
0.8
1.3
1.2

1.3
1.1

1.2
1.0

1.1
0.9

1.0
0.8

0.9
0.8
2 4 6 8 10 12 2 4 6 8 10 12

2 4 6 8 10 12 2 4 6 8 10 12

Unità F: Scomposizione di una serie . . . 101 Unità F: Scomposizione di una serie . . . 102
Serie osservata (cerchietti) con stima della componente Stima simultanea delle componenti di trend
stagionale (linea continua) e stagionali: l’algoritmo di backfitting

Supponiamo che la serie osservata presenti sia una


componente di trend che una componente stagionale
1.3

che si combinino tra di loro in accordo al modello


moltiplicativo (lucido 53). Supponiamo inoltre, per il
1.2

momento, di avere a disposizione una stima preliminare


(0)
della componente di trend (indichiamola con T̂t ).
Una possibilità per stimare simultaneamente le due
1.1

componenti consiste nell’utilizzare un approccio basato


sul cosidetto algoritmo di backfitting che si concretizza
1.0

nei seguenti passi:


1. Poniamo i uguale ad 1;
0.9

2. Calcoliamo una versione della serie “senza trend”


(i) (i−1)
at = yt/T̂t e poi una stima della componente
0.8

(i)
stagionale, indichiamola con Ŝt “lisciando” le
(i)
sottoserie stagionali di at .
2 4 6 8 10 12 3. Calcoliamo una versione della serie destagionalizzata
(i) (i)
bt = yt/Ŝt e una stima della componente di trend,
(i) (i)
indichiamola con T̂t , “lisciando” bt .
4. Poniamo i = i + 1 e ritorniamo al passo 2 a meno che
(i)
l’algoritmo non sia arrivato a convergenza, ovvero T̂t
(i−1)
non sia sufficientemente vicino a T̂t .

Unità F: Scomposizione di una serie . . . 103 Unità F: Scomposizione di una serie . . . 104
Note In pratica

1. Se l’algoritmo viene bloccato dopo i iterazioni, L’utilizzo dell’approccio precedente richiede una serie
(i) (i)
utilizziamo le ultime stime prodotte, ovvero T̂t e Ŝt di scelte da parte dell’analista che possono essere
come stime della componenti di trend e stagionali- convenientemente organizzate nel seguente ordine
tà. La componente irrregolare diventa quindi Ît =
(i) (i)
yt/(T̂t Ŝt ). Come si combinano trend e
stagionalità? In maniera additiva o O

2. Nel caso il modello di composizione sia additivo o moltiplicativa?


possiamo utilizzare l’algoritmo di prima sempliceme- 
mente ridefinendo Scelta dello stimatore e del grado
di lisciamento del trend; sua
(i) (i−1) stima preliminare
at = yt − T̂t
(i) (i)
Se NO:
bt = yt − Ŝt 
rivediamo le
(i) (i) Scelta dello stimatore e del grado
Ît = yt − T̂t − Ŝt di lisciamento per la stima della scelte fatte
componente stagionale precedente-
mente

Stima simultanea delle
3. “Partendo” con una stima preliminare della componente
componenti di trend e stagionali
stagionale possiamo procedere in maniera essenzialmen-
mediante backfitting
te analoga semplicemente invertendo i passi 2 e
3. 
I risultati sembrano /
soddisfacenti?

Se SI:
interpretiamo ed utilizziamo la
scomposizione ottenuta

Unità F: Scomposizione di una serie . . . 105 Unità F: Scomposizione di una serie . . . 106
Passeggeri delle aerolinee [scelta di uno stimatore per la stagionalità] Lisciando
la serie pre-destagionalizzata con una spline con 20
Illustriamo la procedura precedente utilizzando la serie gradi di libertà otteniamo una stima preliminare del
il cui grafico è mostrato nel lucido 59 trend. Dividendo la serie osservata per questa stima
otteniamo una serie in cui la componente di trend è stata
[tipo di composizione.] Il grafico mostra chiaramente approssimativamente rimossa (lucido 118).
che l’ampiezza della componente stagionale aumenta Guardando ad un grafico delle sottoserie (lucido
all’aumentare del livello della serie osservata (ovvero 119) possiamo decidere come stimare la componente
del suo trend). Adottiamo quindi in prima ipotesi un stagionale. In questo caso, anche per tenere il
modello moltiplicativo. “modello” semplice e quindi per ottenere delle stime
[scelta di uno stimatore per il trend] La presenza di stabili abbiamo deciso di lisciare le sottoserie mensili
una forte componente stagionale rende difficile capire semplicemente utilizzando delle rette. La capacità
dalla serie originale quanto sia necessario “lisciare” per di queste di spiegare le variazioni nella componente
ottenere ragionevoli stime del trend (vedi lucido 111). stagionale sembra infatti sufficiente (lucido 120).

Inoltre, se si usa uno stimatore “flessibile” del trend e [lisciamento suggerito da BIC] Il grafico nel lucido
lo si applica direttamente alla serie originale, le stime 121 mostra, utilizzando un grafico a scala di grigio, come
risentono della componente stagionale (vedi lucido varia il criterio BIC al variare del numero di parametri
112). equivalenti degli stimatori utilizzati per il trend e la
stagionalità. Nel grafico, ambedue le componenti sono
Per questi motivi è conveniente ragionare con una stimate utilizzando delle “spline”.
versione pre-destagionalizzata della serie osservata
(lucidi 113-116). In questo caso la serie pre- Il grafico sostanzialmente conferma la scelta fatta a
destagionalizzata è molto regolare (la componente di “occhio”. Indica infatti che il numero di parametri
rumore è bassa). Provando a lisciarla utilizzando equivalenti da utilizzare per il trend dovrebbe essere
stimatori con vari livelli di flessibilità (lucido 117) scelto tra 10 e 20 e quello per la stagionalità vicino a
vediamo che una spline con 20 gradi di libertà 2 (2 è ovviamente il numero di parametri liberi in una
(parametri equivalenti) sembra essere in grado di retta).
descrivere in trend.
Unità F: Scomposizione di una serie . . . 107 Unità F: Scomposizione di una serie . . . 108
[scomposizione della serie] Avendo deciso, almeno [verifica della bontà della scomposizione] Verifiche che
preliminarmente, come stimare trend e stagionali- possono essere condotte sono
tà possiamo stimarli simultaneamente utilizzando
i) disegnare la serie destagionalizzata e il trend per
l’algoritmo di backfitting. Il risultato è mostrato nel
vedere se quest’ultimo fornisce una descrizione
lucido 122.
adeguata delle variazioni di lungo periodo della
Si osservi come i risultati ottenuti indichino che con media; la serie destagionalizzata è ovviamente
il passare degli anni ci sia stato un aumento di quella calcolata con i coefficienti stagionali ottenuti
importanza del picco “estivo” mentre abbia via via perso alla fine dell’algoritmo di backfitting non quelli
di importanza il picco “primaverile” osservabile nei primi preliminari;
anni. Questi effetti sono ovviamente al netto dell’aumen- ii) disegnare le sottoserie stagionali della serie con
to della ampiezza delle oscillazioni stagionali dovuto al il trend rimosso e verificare l’adattamento dei
trend (la serie “stagionale” disegnata nel grafico è quella coefficienti stagionali stimati;
dei coefficienti “moltiplicativi”). iii) calcolare la funzione di autocorrelazione della
componente irregolare; quest’ultima non dovrebbe
indicare residui di stagionalità, ovvero, i coefficienti
di autocorrelazione ai ritardi stagionali dovrebbero
essere piccoli; sarebbe inoltre auspicabile che la
componente irregolare presenti al più solamente
della correlazione di breve periodo (solo ai primi
ritardi).
Nel caso in esame i tre grafici sono riportati rispettiva-
mente nei lucidi 123, 124 e 125 e non sembrano indicare
la presenza di particolari problemi.

Unità F: Scomposizione di una serie . . . 109 Unità F: Scomposizione di una serie . . . 110
100 200 300 400 500 600100 200 300 400 500 600
Due stime del trend Una stima del “trend” che non ci piace!

600
500
400
300
200
100
1950 1952 1954 1956 1958 1960
1950 1952 1954 1956 1958 1960

Nel primo grafico, la stima è basata su una spline con La stima del trend è stata ottenuta lisciando la serie
4 “parametri equivalenti”, nel secondo su di una spline osservata con una spline con 20 parametri equivalenti.
con 20 “parametri equivalenti”. Qualè delle due stime è Si noti come risenta della componente stagionale e
migliore? Un pò difficile da dirsi! 2 quindi non sia accettabile come stima del trend.

2
Le stime sono state ottenute “lisciando” la serie pre-destagionalizzata (vedi
lucido 113).
Unità F: Scomposizione di una serie . . . 111 Unità F: Scomposizione di una serie . . . 112
Pre-destagionalizzazione Assunzioni sensate sulle componenti sono:
i) Tt ≈ Tt−i per i = −6, . . . , 6 ovvero il trend varia
Vogliamo mostrare come sia possibile in maniera molto lentamente nel tempo;
approssimativa (e quindi utile soprattutto in una fase ii) St ≈ St−12, ovvero la componente stagionale si ripete
“esplorativa”) ma molto semplice trasformare la serie quasi uguale in due anni vicini;
originale in maniera tale da eliminare la componente iii) (St−5 + · · · + St+6)/12 = 1 ovvero, nel corso di
stagionale ed “esporre” il trend. un anno le oscillazioni stagionali si compensano; in
Nel modello moltiplicativo caso contrario Tt non sarebbe interpretabile come il
“livello” di yt;
iv) la media di It vale 1 per qualsivoglia t; di nuovo, se
yt = T t St I t .
questo non accadesse non potremmo interpretare Tt
come il “livello” della serie osservata.
Consideriamo, per un prefissato t, gli istanti di tempo
Ma allora
t − 6, . . . , t − 1, t, t + 1, . . . , t + 6 1
2 yt−6 + yt−5 + · · · + yt+5 + 12 yt+6
dt = ≈ Tt It
12
che, visto che la serie è mensile, costituiscono le
osservazioni di un intero anno più un mese.
dove It = (It−6/2+It−5 +· · ·+It+5 +It+6/2)/12 ha media
uno.
Quindi, almeno approssimativamente, dt è una serie
temporale
a) con la componente di trend della seria originale
b) ma in cui la componente stagionale è stata eliminata
Osservazione: dt è calcolabile solo per t = 7, . . . , n − 6
dove con n abbiamo indicato la lunghezza della serie.

Unità F: Scomposizione di una serie . . . 113 Unità F: Scomposizione di una serie . . . 114
Osservazione. Si osservi che le assunzioni i) e ii) Passeggeri delle aerolinee: serie
precedenti potrebbero essere sostituite dalla predestagionalizzata
Tt−5St−5 + · · · + Tt+6St+6
≈ Tt
12

450
ovvero dall’ipotesi che la media della parte sistematica
della serie fatta su di un periodo lungo un anno sia

400
approssimativamente uguale al trend in uno dei mesi
centrali.

350
Nel caso avessimo adottato un modello additivo,

300
avremmo potuto procedere nella medesima maniera.
Infatti in questo caso yt = Tt + St + It ed è ragionevole

250
assumere che
i) Tt ≈ Tt−i per i = −6, . . . , 6;

200
ii) St ≈ St−12;
iii) (St−5 + · · · + St + · · · + St+5 + St+6)/12 = 0

150
iv) la media di It vale 0 per qualsivoglia t.
Quindi, in questo caso, 1950 1952 1954 1956 1958 1960

1
2 yt−6 + yt−5 + · · · + yt+5 + 12 yt+6
dt = ≈ Tt + I t
12
Esercizio. Si estenda il ragionamento precedente al caso
dove It = (It−6/2+It−5 +· · ·+It+5 +It+6/2)/12 ha media di una serie con una frequenza qualsiasi distinguendo il
zero. caso in cui il periodo stagionale sia pari o dispari.

Unità F: Scomposizione di una serie . . . 115 Unità F: Scomposizione di una serie . . . 116
Stime preliminari della componente di trend Stima preliminare della serie “senza trend”
ottenute “lisciando” la serie
pre-destagionalizzata

1.3
1.2
spline con 2 gradi di liberta’ spline con 5 gradi di liberta’

1.1
1.0
0.9
spline con 10 gradi di liberta’ spline con 20 gradi di liberta’

0.8
1950 1952 1954 1956 1958 1960

La serie disegnata è stata ottenuta come

serie osservata
stima preliminare del trend

Unità F: Scomposizione di una serie . . . 117 Unità F: Scomposizione di una serie . . . 118
Grafici delle sottoserie mensili della serie Grafici delle sottoserie mensili della serie
“senza trend” “senza trend”
Given : cycle(y) Given : cycle(y)

1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
1.3

1.3
1.2

1.2
1.1

1.1
1.0

1.0
0.9

0.9
0.8

0.8
1.3

1.3
1.2

1.2
1.1

1.1
y
1.0

1.0
0.9

0.9
0.8

0.8
1.3

1.3
1.2

1.2
1.1

1.1
1.0

1.0
0.9

0.9
0.8

0.8
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958

time(y)

Le varie sottoserie sono state interpolate con una retta


adattata a minimi quadrati.

Unità F: Scomposizione di una serie . . . 119 Unità F: Scomposizione di una serie . . . 120
BIC in funzione dei gradi di lisciamento Scomposizione della serie
utilizzati AirPassengers ~ s(20) * p(1)

600
500
6

400
data
300
−650

200
5

100
500
−700

400
trend
300
4 −750

200
1.3
−800

1.2
3

seasonal
1.1
1.0
−850

0.9
0.8
2

1.04
5 10 15 20 25 30 35

remainder
1.00
Il grafico è basato su di un modello moltiplicativo. 0.96

Sia il trend che la stagionalità sono stimati utilizzando


0.92

delle “spline”. L’asse delle x mostra il numero di 1950 1952 1954 1956 1958 1960

parametri equivalenti utilizzato per il trend, quello delle Time

y l’analogo numero utilizzato per stimare la stagionalità.

Unità F: Scomposizione di una serie . . . 121 Unità F: Scomposizione di una serie . . . 122
Serie destagionalizzata e trend stimato Serie con il trend eliminato:
sottoserie mensili e stagionalità stimata
Given : cycle(y)

1950 1954 1958 1950 1954 1958


500

1.3
1.2
1.1
400

1.0
0.9
0.8
300

1.3
1.2
1.1
200

1.0
0.9
0.8
1950 1952 1954 1956 1958 1960

1.3
1.2
1.1
1.0
0.9
0.8

1950 1954 1958 1950 1954 1958

time(y)

Unità F: Scomposizione di una serie . . . 123 Unità F: Scomposizione di una serie . . . 124
Componente irregolare: Scomposizioni con “problemi”
funzione di autocorrelazione campionaria
Nel lucido 127, sono riportati i correlogrammi della
componente irregolare di alcune scomposizioni ottenute
con scelte non felici dei gradi di lisciamento.
1.0

Nella situazione in alto a sinistra c’è troppa correlazio-


ne a ritardi alti (ad esempio 4 anni= 48ritardi).
Normalmente accade quando il trend è stato “lisciato”
0.5

troppo (si veda anche il grafico nel lucido 128).


Nella situazione in alto a destra, il correlogramma indica
0.0

un residuo di stagionalità nella componente irregolare.


Di norma succede quando le sottoserie stagionali sono
“lisciate” troppo (vedi anche il grafico nel lucido 129).
−0.5

I correlogrammi nella seconda riga, in particolare quello


a destra, indicano un sovraaggiustamento stagionale
(autocorrelazione a ritardo 12 negativa). Di solito
accade quando la componente stagionale viene “lisciata”
−1.0

troppo poco (vedi anche il grafico nel lucido 130). Può


0 1 2 3 4 5
anche accadere se la componente di trend è lisciata
troppo. In questo caso infatti, l’algoritmo di backfitting
non potendo attribuire la parte “giusta” di variabilità
della serie osservata alla componente di trend cerca
di utilizzare il più possibile la componente stagionale
finendo per “farlo troppo”.

Unità F: Scomposizione di una serie . . . 125 Unità F: Scomposizione di una serie . . . 126
Correlogrammi che indicano “problemi” Serie destagionalizzata e trend
1.0

1.0
trend: polinomio grado 2 trend: spline 20 gdl

500
stagionalita’: retta stagionalita’: costante
0.5

0.5
0.0

0.0

400
−0.5

−0.5
−1.0

−1.0

0 1 2 3 4 5 0 1 2 3 4 5

300
1.0

1.0

trend: spline 20 gdl trend: spline 20 gdl


stagionalita’: spline 3 gdl stagionalita’: spline 6 gdl
0.5

0.5

200
0.0

0.0
−0.5

−0.5
−1.0

−1.0

1950 1952 1954 1956 1958 1960


0 1 2 3 4 5 0 1 2 3 4 5

Il trend è stato stimato utilizzando un polinomio di grado


2. La componente stagionale utilizzando delle rette per
interpolare le sottoserie mensili.

Unità F: Scomposizione di una serie . . . 127 Unità F: Scomposizione di una serie . . . 128
Serie con il trend eliminato: Serie con il trend eliminato:
sottoserie mensili e stagionalità stimata sottoserie mensili e stagionalità stimata
Given : cycle(y) Given : cycle(y)

1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
1.3

1.3
1.2

1.2
1.1

1.1
1.0

1.0
0.9

0.9
0.8

0.8
1.3

1.3
1.2

1.2
1.1

1.1
y

y
1.0

1.0
0.9

0.9
0.8

0.8
1.3

1.3
1.2

1.2
1.1

1.1
1.0

1.0
0.9

0.9
0.8

0.8
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958

time(y) time(y)

Il trend è stato stimato utilizzando una spline con 20 Il trend è stato stimato utilizzando una spline con 20
gradi di libertà. La componente stagionale utilizzando gradi di libertà. La componente stagionale utilizzando
una costante per interpolare le sottoserie mensili. una spline con 6 gradi di libertà per interpolare le
sottoserie mensili.
Unità F: Scomposizione di una serie . . . 129 Unità F: Scomposizione di una serie . . . 130
Estensioni e cautele

- Spesso prima di procedere alla scomposizione la


serie osservata viene “aggiustata” per altri fattori Unità G
noti (ad esempio, nel caso di serie mensili su
produzione, vendite,. . . , sulla base dei giorni di Modelli dinamici basati sull’idea di
effettiva “apertura”); lisciamento esponenziale
- Non abbiamo, per motivo di tempo, considerato i
problemi che sorgono quando la serie storica contiene
dei valori anomali (outliers) la cui presenza può,
In questa unità, vengono presentati alcuni modelli
purtroppo distorcere i risultati.
dinamici spesso utilizzati per la previsione a breve
- Dovrebbe essere chiaro che, indipendente dal metodo termine di serie storiche in particolare in ambito
utilizzato, esiste un qualche elemento di arbitrarietà aziendale.
in una qualsiasi scomposizione di questo tipo. Tutto
sommato, stiamo “moltiplicando i dati”:osserviamo una
serie sola e poi la trasformiamo in tre serie distinte. E’
quindi importante non sovra-interpretare i risultati.

Unità F: Scomposizione di una serie . . . 131


Struttura di un modello dinamico ∗ L’interpretazione che abbiamo dato a ut “regge”, se ut
non è prevedibile sulla base di yt−1, yt−2, . . ..
∗ Un modello dinamico cerca di descrivere la “legge” Una maniera “minima” per formalizzare questa idea
con cui un certo processo stocastico si evolve nel tempo. consiste nel richiedere qualche cosa del tipo
∗ Molti sono basati su di una relazione del tipo
E(ut|yt−1, yt−2, . . .) = 0 (G.2)
 
valore parte !
 osservato  = determinata + (innovazione)
Un alternativa utilizzata nel caso il modello sia “tutto
al tempo t dal passato
lineare”, ovvero quando g(· · ·) è una funzione lineare
nei suoi argomenti ed inoltre si è interessati solamente
dove (i) il primo addendo costituisce la parte di yt a “spiegare” la dipendenza lineare tra le osservazioni,
“prevedibile” sulla base della traiettoria precedente della consiste nel richiedere che ut abbia media nulla e sia
serie osservata, ovvero di yt−1, yt−2, . . ., mentre (ii) il incorrelato con yt−1, yt−2, . . ..
secondo addendo rappresenta “quello che di nuovo e
quindi di imprevedibile” accade al tempo t. ∗ Trascurando alcuni problemi tecnici, la (G.1) ci
dice che il “passato” di ut può essere calcolato da
∗ Tentando di tradurre in formule la relazione yt−1, yt−2, . . .. Quindi, l’interpretazione data a ut
precedente arriviamo ad una struttura del tipo regge se ut “non è prevedibile” anche sulla base di
ut−1, ut−2, . . ..
yt = gt(yt−1, yt−2, . . .) + ut (G.1)
E’ quindi usuale richiedere che . . . , ut, ut+1, . . . sia o
una successione di variabili casuali di media nulla
dove gt(· · ·) e ut indicano rispettivamente la parte del indipendenti o almeno incorrelate
presente determinata dal passato e l’innovazione.
∗ Un modello di questo tipo può essere specificato
assegnando le “funzioni” gt(· · ·) e la legge di probabilità
di ut.

Unità G: Modelli dinamici basati sull’idea di . . . 133 Unità G: Modelli dinamici basati sull’idea di . . . 134
Un modello basato sul lisciamento • Una variante molto semplice del modello precedente
esponenziale che “permette” al livello di evolversi si concretizza
nell’assumere che
• Per iniziare consideriamo il caso in cui y1, y2, . . . sia
yt = lt−1 + ut
una successione di v.c. indipendenti di media costante (G.3)
lt = (1 − α)lt−1 + αyt (l0 = η, 0 ≤ α ≤ 1)
ed uguale ad η. Volendo complicarci la vita, possiamo
pensare che la successione sia generata dal seguente
La prima equazione è rimasta invariata. La seconda
paio di equazioni alle differenze
equazione è viceversa stata modificata introducendo
un “aggiornamento” del livello sulla base dell’ultima
yt = lt−1 + ut
osservazione. In particolare, il livello della prossima
lt = lt−1 (l0 = η)
osservazione, lt, viene ottenuto come media (pesata) del
livello precedente, lt−1, e dell’osservazione corrente yt.
dove, ut = yt − η.
Con sostituzioni successive è facile mostrare che
La prima equazione ci dice che yt è ottenuto come la
somma di due addendi
lt = αyt + α(1 − α)yt−1 + α(1 − α)2yt−2 + · · ·
- il primo, lt−1, fornisce il livello della serie osservata · · · + α(1 − α)t−1y1 + +(1 − α)tl0 =
(infatti E(ut) = 0); la notazione e, in particolare, il t−1
X
pedice utilizzato per il livello, è stata scelta in maniera = α(1 − α)iyt−i + (1 − α)tl0 (G.4)
da enfatizzare il fatto che il livello delle osservazioni al i=0
tempo t è già noto al tempo t − 1;
- il secondo, ut, costituisce la deviazione del valore Quindi lt è una media pesata di yt, . . . , y1, l0. La somma
corrente dal livello determinato precedentemente. dei pesi vale 1. Se 0 < α < 1, i pesi assegnati alle
osservazioni passate decrescono geometricamente; sono
La seconda equazione ci dice che per questo modello quindi posti su una curva di tipo esponenziale – da cui il
particolarmente semplice il livello della serie rimane nome lisciamento esponenziale. Si osservi anche come
costante (ovvero era noto non solo al tempo t − 1 ma
il peso assegnato ad l0 converga a zero per t → +∞.
anche ai tempi di Adamo e Eva).
Unità G: Modelli dinamici basati sull’idea di . . . 135 Unità G: Modelli dinamici basati sull’idea di . . . 136
Pesi “esponenziali” per tre differenti valori Tre serie simulate
di α

10
0.20

α = 0.2
0.15

5
0.10

0
0.05

α = 0.2

−5
0.00

10
0.5

α = 0.5
0.4

5
0.3

0
0.2

α = 0.5
0.1

−5
0.8 0.0

10
α = 0.8
0.6

5
0.4

0
0.2

α = 0.8

−5
0 100 200 300 400 500
0.0

5 10 15
Le tre serie sono state simulate ponendo l0 = 0 e
Si osservi come all’aumentare di α i pesi assegnati alle utilizzando sempre la stessa sequenza di numeri pseudo-
osservazioni più “lontane nel tempo” decrescano. Quindi casuali normali (di media nulla e varianza unitaria).
più α è grande più la memoria del processo diminuisce. Si osservi come l’ampiezza delle variazioni del livello
aumenti all’aumentare di α.
Unità G: Modelli dinamici basati sull’idea di . . . 137 Unità G: Modelli dinamici basati sull’idea di . . . 138
• Si osservi che Ricordando che
– se α = 0 ritorniamo al modello con livello costante; - la media di una somma di v.c. è la somma delle medie;
– se α = 1, lt = yt ovvero il livello della prossima - la varianza di una somma di v.c. incorrelate è la
osservazione coincide con l’osservazione corrente. somma della varianze;
- stiamo supponendo che l0 sia una costante;
• Sostituendo la prima equazione della (G.3) nella
- le {ut} sono v.c. indipendenti (e quindi incorrelate) di
seconda, possiamo scrivere
media nulla,

yt = lt−1 + ut troviamo che
lt = lt−1 + αut (l0 = η)
E(yt) = E(lt) = l0
t−1
X
• Dalla rappresentazione precedente, possiamo vedere var(yt) = var(ut) + α 2
var(ut−i)
come i=1
t−1
X
t−1
X var(lt) = α2 var(ut−i)
yt = l 0 + u t + α ut−i i=0
i=1
t−1
X
lt = l 0 + α ut−i La prima relazione ci dice che la media della serie
i=0 osservata (e del suo livello) è costante.

Unità G: Modelli dinamici basati sull’idea di . . . 139 Unità G: Modelli dinamici basati sull’idea di . . . 140
Le altre due ci dicono però che se l’innovazione non Serie alla “deriva”
è degenere (ovvero se var(ut) non è zero) allora, le
varianze di yt e di lt aumentano all’aumentare di t. In [il problema] Molte serie temporali contengono una
particolare, se, per qualsivoglia t, var(ut) = σ2 abbiamo evidente componente di deriva (drift in inglese) ovvero
che tendono per lunghi periodi ad aumentare o a diminuire
var(yt) = (1 + α2(t − 1))σ2. sistematicamente. Vediamo allora come sia possibile
Quindi, per t sufficientemente grande yt può “essere introdurre esplicitamente una componente di questo
dovunque”. tipo nel modello.
Dall’altra parte però, poichè [deriva additiva costante] Un modello con una deriva
costante nel tempo è
var(yt − yt−1) = var(ut + (α − 1)ut−1) = (1 + (1 − α)2)σ2
yt = lt−1 + d + ut
(G.5)
è vero che yt “può arrivare per t arbitrariamente grande lt = (1 − α)(lt−1 + d) + αyt = lt−1 + d + αut
dappertutto” ma, a meno che σ2 non sia “enorme” si può
muovere solo a “piccoli passi”. dove d è il parametro di deriva, mentre, al solito, l0 = η
e 0 ≤ α ≤ 1.
Si osservi come, nella (G.5), il livello “tendenzialmente”
aumenti di d unità in ogni istante di tempo.
Inoltre, come è facile verificare,

E(yt) = l0 + d · t

ovvero, la serie osservata “contiene” una componente


di trend esattamente lineare. Se α > 0 comunque
var(yt) aumenta all’aumentare di t e quindi la serie può
“allontanarsi” anche di molto dal suo valore medio.
Unità G: Modelli dinamici basati sull’idea di . . . 141 Unità G: Modelli dinamici basati sull’idea di . . . 142
Alcune serie simulate [deriva additiva “adattiva”] Una estensione del modello
precedente che permette alla componente di “deriva” di
evolversi nel tempo è
50

α = 0.2
40


 yt = lt−1 + dt−1 + ut
30

lt = (1 − α)(lt−1 + dt−1) + αyt


20


dt = (1 − β)dt−1 + β(lt − lt−1)
10

Si osservi lt − lt−1 è il coefficiente angolare della retta


50 0

α = 0.5 passante per i punti (t−1, lt−1) e (t, lt). Quindi, la deriva,
40

che, come è facile verificare con sostituzioni successive


30

può essere scritta come


20

t−1
10

X
dt = β(1 − β)i(lt−i − lt−i−1 ) + (1 − β)td0
50 0

i=0
α = 0.8
40

è, nella sostanza, una media ottenuta con pesi che


30

decrescono geometricamente dei coefficienti angolari


20

della spezzata che passa per i punti (0, l0), (1, l1),. . . ,(t, lt).
10

Si osservi che il modello può anche essere scritto in una


0

0 100 200 300 400 500 forma che enfatizza il ruolo dell’innovazione come

In tutte le serie è stato utilizzato l0 = 0 e d =  yt = lt−1 + dt−1 + ut
0,1. L’innovazione è stata generata utilizzando un lt = lt−1 + dt−1 + αut
generatore di normali standard. La sequenza dei valori 
dt = dt−1 + αβut
dell’innovazione è la stessa nelle tre simulazioni che
quindi differiscono solo per il valore di α.
Unità G: Modelli dinamici basati sull’idea di . . . 143 Unità G: Modelli dinamici basati sull’idea di . . . 144
[deriva additiva a “smorzare” (damped)] Una estensione Due serie simulate. . .
del modello precedente che risulta a volte utile si
concretizza nell’assumere che

500
 yt = lt−1 + dt−1 + ut
lt = lt−1 + dt−1 + αut

300
dt = φdt−1 + αβut

dove φ è un ulteriore parametro (0 < φ ≤ 1).

100
Se φ = 1 riotteniamo il modello precedente. Viceversa,

80 0
quando φ < 1 la deriva “tende” a contrarsi verso lo
zero. In questi casi otteniamo quindi un modello in cui i

60
cambiamenti di direzione sono più probabili.

40
20
0
0 50 100 150 200 250 300

La prima serie è stata simulata a partire da una sequenza


ut di numeri pseudo-casuali normali di media 0 e
varianza 9 ponendo α = 0,5, β = 0.1, l0 = 0 e d0 = 0.1
e φ = 1 (modello con deriva addittiva “normale”). La
seconda a partire dalla stessa sequenza di numeri pseudo
casuali e con gli stessi valori per α, β, l0 e d0 ma ponendo
φ = 0.9 (modello con deriva addittiva “a smorzare”).

Unità G: Modelli dinamici basati sull’idea di . . . 145 Unità G: Modelli dinamici basati sull’idea di . . . 146
. . . e le rispettive derive [deriva moltiplicativa] Il punto di riferimento per i
modelli precedenti è un trend lineare. In realtà,
soprattuto nella versione con deriva che si evolve, il
modello riesce ad approssimare anche trend di natura
diversa.
4

φ=1
φ = 0.9 Esiste comunque una versione del modello precedente
che “ingloba” esplicitamente l’idea di una crescita di
3

tipo esponenziale. Si osservi innanzitutto che una serie


temporale del tipo
2

yt = exp(a + bt) + ut
z

può essere rappresentata dal sistema di equazioni alle


1

differenze

 yt = lt−1dt−1 + ut
0

lt = lt−1dt−1 (l0 = exp(a))



dt = dt−1 (d0 = exp(b))
0 50 100 150 200 250 300

La maniera usuale di rendere “adattivo” sia il livello


lt che l’incremento percentuale dt si concretizza nel
generalizzare le equazioni precedenti nella seguente
Si osservi come nel caso φ = 0.9 la deriva “tenda” a modo
rimanere vicino allo zero. 
 yt = lt−1dt−1 + ut
lt = (1 − α)lt−1dt−1 + αyt = lt−1dt−1 + αut

dt = (1 − β)dt−1 + β(lt/lt−1) = dt−1 + αβut

Unità G: Modelli dinamici basati sull’idea di . . . 147 Unità G: Modelli dinamici basati sull’idea di . . . 148
Una serie simulate con deriva moltiplicativa Introduzione di una componente stagionale

[modello di riferimento per il trend] Supponiamo, per


semplificare il discorso successivo, di avere a che fare
100

con una serie temporale il cui trend possa essere ben


descritto da un modello con deriva additiva adattiva. Gli
altri casi sono trattabili in maniera analoga.
80

[stagionalità additiva] Una componente stagionale,


additiva di periodo f può facilmente essere introdotta
ponendo
60



 yt = lt−1 + dt−1 + st−f + ut

40

lt = (1 − α)(lt−1 + dt−1) + α(yt − st−f)



 dt = (1 − β)dt−1 + β(lt − lt−1)

st = (1 − γ)st−f + γ(yt − lt−1 − dt−1)
20

dove l0, d0 e s0, . . . , s1−f sono valori arbitrari (di


inizializzazione) mentre α, β e γ sono parametri di
0 100 200 300 400 500
lisciamento che assumono valori tra 0 e 1.
La serie è stata generata a partire usando una sequenza Si osservi in particolare che se γ = 0 allora st è una
di numeri casuali normali standard per l’innovazione e successione deterministica di periodo f (ovvero abbiamo
ponendo α = 0,5, β = 0.05, l0 = 10 e d0 = 1,002. una serie che presenta una stagionalità costante).
Viceversa, se γ > 0 la stagionalità tende ad evolversi
nel tempo.

Unità G: Modelli dinamici basati sull’idea di . . . 149 Unità G: Modelli dinamici basati sull’idea di . . . 150
Si osservino inoltre le equazioni con cui vengono Una serie simulata con stagionalità
aggiornati lt, che ora è interpretabile come il livello del additiva. . .
trend, e st, la componente stagionale. In particolare
si noti come combinino in una certa qual misura l’idea
del lisciamento esponenziale con l’idea dell’algoritmo di
backfitting presentato a pagina 104. Infatti, lt e st sono

1000
una media ponderata
− dei valori precedenti, lt−1 e st−f rispettivamente,

800
− e del valore corrente della serie, yt, da cui viene
eliminata nel caso di lt la componente stagionale e

600
nel caso di st la componente di trend.
La forma che rende eplicito il ruolo dell’innovazione del

400
modello precedente è

200

 yt = lt−1 + dt−1 + st−f + ut

lt = lt−1 + dt−1 + αut

 dt = dt−1 + αβut

0

st = st−f + γut
5 10 15 20 25

La serie è stata simulata a partire da una successione di


numeri pseudo-casuali normali di media nulla e varianza
25 utilizzando α = 0,5, β = 0,1, γ = 0,5, l0 = 0, d0 =
0,1 e s1−i = 50 sin(2π(i/12)) e f = 12.

Unità G: Modelli dinamici basati sull’idea di . . . 151 Unità G: Modelli dinamici basati sull’idea di . . . 152
e le sue componenti [stagionalità moltiplicativa] Seguendo lo stesso ordine
di idee possiamo definire un modello con una
componente stagionale moltiplicativa ponendo
1000


yt = (lt−1 + dt−1)st−f + ut
600
level



 lt = (1 − α)(lt−1 + dt−1) + α yt

st−f
200

dt = (1 − β)dt−1 + β(lt − lt−1)


7 0



 yt
6

 st = (1 − γ)st−f + γ
l +d
5

t−1 t−1
drift
4
3
2
1

La forma basata sulle innovazioni diventa in questa caso


60 0
seasonality


20


 yt = (lt−1 + dt−1)st−f + ut
 lt = lt−1 + dt−1 + α ut
−20


st−f
−60

dt = dt−1 + αβut
10 15



 ut
innovation

 st = st−f + γ
5

l +d t−1 t−1
0
−10

0 5 10 15 20 25

Unità G: Modelli dinamici basati sull’idea di . . . 153 Unità G: Modelli dinamici basati sull’idea di . . . 154
Una serie simulata con stagionalità e le sue componenti
moltiplicativa. . .

250
350

150
level
50
300

1.50
1.0
250

drift
0.5
200

1.30.0
seasonality
1.2
150

1.1
1.0
0.9
100

2
innovation
1
50

0
−1
−2
0

−3
0 5 10 15 20 25

5 10 15 20 25

La serie è stata simulata a partire da una successione di


numeri pseudo-casuali normali di media nulla e varianza
1 utilizzando α = 0,5, β = 0,1, γ = 0,1, l0 = 1, d0 = 0,1
e s1−i = 1 + 0,1 sin(2π(i/12)) e f = 12.

Unità G: Modelli dinamici basati sull’idea di . . . 155 Unità G: Modelli dinamici basati sull’idea di . . . 156
Innovazione additiva o moltiplicativa? [innovazione moltiplicativa] In altri casi però la
variabilità di ut sembra dipendere da gt ed in
[notazione] Tutti i modelli precedenti possono essere particolare, lo scarto quadratico medio di ut sembra
scritti nella forma essere proporzionale a gt. E’ quindi usuale considerare
anche la possibilità che

yt = g t + u t
equazioni aggiuntive per calcolare gt var(ut) = σ2g2t

dove gt è la parte di yt predicibile sulla base del passato. In questi casi, si parla di innovazione moltiplicativa.
Infatti il modello può anche essere scritto come
[innovazione additiva] Per molte serie temporali la
varianza di ut, ovvero dell’innovazione, non sembra
yt = gt(1 + at)
dipendere dal livello della serie (ovvero da gt).
equazioni aggiuntive per calcolare gt
Supponendo che la varianza sia anche costante nel
tempo possiamo allora scrivere
dove at = ut/gt.
var(ut) = σ2 nota: Si osservi che nel caso moltiplicativo abbiamo
assunto gt > 0.
dove σ è una costante appropriata.
Si parla, in questi casi, di innovazione addittiva.

Unità G: Modelli dinamici basati sull’idea di . . . 157 Unità G: Modelli dinamici basati sull’idea di . . . 158
Sintesi dei modelli considerati: le quattro Sintesi dei modelli considerati: casi
forme di base particolari

In tutti i modelli Deriva


yt = g t + u t tipo di nome in ast per vincoli
dove deriva l’argomento drift sui parametri
additivo none β = 0, φ = 1, d0 = 0
additivo additive φ=1
tipo di tipo di equazioni per il
additivo c/additive β = 0, φ = 1
deriva stagionalità calcolo di gt
additivo d/additive nessuno
gt = lt−1 + dt−1 + st−f
moltiplicativo multiplicative nessuno
lt = lt−1 + dt−1 + αut
additiva additiva moltiplicativo c/multiplicative β=0
dt = φdt−1 + αβut
st = st−f + γut
gt = (lt−1 + dt−1)st−f Stagionalità
lt = lt−1 + dt−1 + αut/st−f tipo di nome in ast per vincoli
additiva moltiplicativa
dt = φdt−1 + αβut/st−f stagionalità l’argomento seasonality sui parametri
st = st−f + γut/(lt−1 + dt−1) additivo none γ = 0, si = 0 se i ≤ 0
gt = lt−1 dt−1 + st−f additivo additive nessuno
lt = lt−1 dt−1 + αut additivo c/additive γ=0
moltiplicativa additiva
dt = dt−1 + αβut /lt−1 moltiplicativo multiplicative nessuno
st = st−f + γut moltiplicativo c/multiplicative γ=0
gt = lt−1 dt−1st−f
lt = lt−1 dt−1 + αut/st−f
moltiplicativa moltiplicativa Innovazione
dt = dt−1 + αβut /(lt−1st−f)
st = st−f + γut/(lt−1dt−1) tipo di nome in ast per
innovazione l’argomento innovation assunzioni
additiva additive var(ut) = σ2
moltiplicativa multiplicative var(ut) = σ2g2t

Unità G: Modelli dinamici basati sull’idea di . . . 159 Unità G: Modelli dinamici basati sull’idea di . . . 160
“Nomi” assegnati ad alcuni casi particolari Costruzione empirica di un modello

[modello di Holt] Modello senza deriva e senza stagionalità. Per costruire un modello appartenente alla classe
E’ chiamato anche lisciamento esponenziale semplice.In ast: descritta è possibile seguire il seguente approccio
drift=”none” e seasonality=”none”.
[lisciamento esponenziale doppio] Modello senza stagionalità e
con deriva additiva non a smorzare. In ast: drift=”additive” e scelta di uno dei modelli della o O
seasonality=”none”. classe

NO:
[modello di Holt-Winters additivo] Modello con deriva additiva
stima dei parametri del modello rivediamo le
(non a smorzare) e stagionalità additiva. E’ chiamato
anche lisciamento esponenziale triplo additivo. In ast: scelto scelte fatte
drift=”additive” e seasonality=”additive”. 
precedente-
il modello sembra descrivere in mente
[modello di Holt-Winters moltiplicativo] Modello con deriva additiva
maniera adeguata il meccanismo /
(non a smorzare) e stagionalità moltiplicativa. E’ chiamato
anche lisciamento esponenziale triplo moltiplicativo. In ast:
generatore della serie temporale
drift=”additive” e seasonality=”multiplicative”. osservata?


[theta method] Modello senza stagionalità con deriva additiva SI:


costante. In ast: drift=”c/additive” e seasonality=”none”. utilizziamo il modello, ad
esempio, per calcolare delle
previsioni della serie.

Si osservi comunque che non è detto che il meccanismo


che genera la serie osservata possa essere approssima-
to da uno dei modelli descritti. In particolare, niente
nei modelli considerati è stato introdotto per spiegare
l’autocorrelazione di un processo stazionario. Quindi, è
anche possible che l’esito sia “nessuno dei modelli della
classe è accettabile!”.
Unità G: Modelli dinamici basati sull’idea di . . . 161 Unità G: Modelli dinamici basati sull’idea di . . . 162
Stima dei parametri [stimatori di massima verosimiglianza] Una possibilità
per stimare ϑ è offerta dagli stimatori di massima
Iniziamo occupandoci del problema della stima dei verosimiglianza, che, nel contesto in cui siamo vengono
parametri di un modello visto che, come vedremo, è di solito calcolati sotto l’ipotesi che a1, a2, . . . sia una
preliminare anche alla fase di scelta di un modello. successione di variabili casuali normali ed indipendenti.

[notazione] Indichiamo con ϑ il vettore dei parametri Sotto questa ipotesi il calcolo della verosimiglianza è
di un particolare modello, ovvero, il vettore che ha come molto agevole. Innanzitutto ricordiamoci che
elementi
p(y1, . . . , yn; ϑ) = p(y1; ϑ) × p(y2|y1; ϑ) × · · ·
(i) le costanti di lisciamento non vincolate (ovvero, i
· · · × p(yn|yn−1 , . . . , y1; ϑ)
vari α, β,. . . ),
(ii) le condizioni iniziali per le equazioni alle
differenze che definiscono il modello (ovvero, l0 e dove p(·; ϑ) indica la funzione di densità del primo
se “servono” d0 e s0, s−1, . . .) e argomento calcolata sotto l’ipotesi che il vero valore dei
(iii) il parametro di dispersione dell’innovazione (σ). parametri sia ϑ. Osserviamo poi che, dalla struttura del
modello, segue immediatamente che
Tutti i modelli di questa unità possono essere scritti nella
forma (yt|yt−1, . . . , y1) ∼ N(gt(ϑ), σ2vt(ϑ)2)
yt = gt(ϑ) + vt(ϑ)at
dove gt(ϑ) è, al solito la parte di yt predicibile sulla base Infatti, assegnate le osservazioni passate e ϑ, gt(ϑ) e
del passato, at = ut/vt(ϑ) e vt(ϑ) sono assimilabili a delle quantità non stocastiche.

1 se l’innovazione è additiva
vt(ϑ) =
gt(ϑ) se l’innovazione è moltiplicativa

Nella notazione stiamo enfatizzando, rispetto a quanto


fatto precedentemente, il ruolo dei parametri.

Unità G: Modelli dinamici basati sull’idea di . . . 163 Unità G: Modelli dinamici basati sull’idea di . . . 164
La funzione di verosimiglianza, a meno di termini [osservazioni e cautele] E’ possibile far vedere che le
moltiplicativi non dipendenti da ϑ è quindi proprietà (almeno quelle asintotiche) degli stimatori
non dipendono dall’assunzione di normalità fatta nel
n 2 !
calcolo della verosimiglianza (nel senso che, sotto ipotesi

Y 1 1 yt − gt(ϑ)
L(ϑ) = exp − piuttosto deboli, la distribuzione asintotica, almeno dei
σvt(ϑ) 2 σvt(ϑ)
t=1
parametri di lisciamento e di σ è la stessa sia se at è
normale sia se non lo è). E’ però bene tenere presente
Gli stimatori di massima verosimiglianza possono essere che
ottenuti massimizzando L(ϑ). Per nessuno dei modelli
(i) I parametri che descrivono le condizioni iniziali
considerati gli stimatori sono esprimibili in forma chiusa.
(l0, d0, s0,. . . ) non vengono stimati, in generale, in
E’ quindi necessario utilizzare delle opportune procedure
maniera consistente. Questa non è una caratteristi-
numeriche.
ca degli stimatori di massima verosimiglianza. E’ una
Esercizio. Si partizioni ϑ come (ψ, σ) dove ψ indica il caratteristica dei modelli ed in particolare del fatto
vettore di tutti i parametri escluso σ. Si osservi che gt(ϑ), che gt(ϑ) dipende “solo debolmente” dalle condizioni
qualsiasi sia il modello non dipende da σ e quindi può iniziali quando t è grande (si ricordi ad esempio come
essere scritto come gt(ψ). Si dimostri inoltre che nel l’importanza di l0 diminuisse nell’equazione (G.4)).
caso l’innovazione sia additiva gli stimatori di massima Fanno ovviamente eccezione i casi in cui l’effetto della
verosimiglianza possono essere ottenuti minimizzando condizione iniziale non scompare da gt(ϑ). Esempi sono
in ψ la somma dei quadrati degli errori di previsione un i modelli con deriva o stagionalità costante nel tempo.
passo in avanti
(ii) I parametri di lisciamento (α,. . . ) variano nell’inter-
n
X vallo [0, 1]. La teoria asintotica standard per questi
2
s (ψ) = (yt − gt(ψ))2 parametri vale ma solamente se il vero valore dei
t=1 parametri è interno all’intervallo. Negli altri casi la teoria
standard non si applica. Si tratta di una situazione
e, indicata la stima di ψ con ψ̂, stimando σ2 mediante sfortunata visto che molte ipotesi di interesse vedono
“coivolti” punti estremi (ad esempio, per verificare se
1 2 la deriva è fissa o no saremmo interessati a verificare
σ̂2 = s (ψ̂)
n l’ipotesi β = 0).
Unità G: Modelli dinamici basati sull’idea di . . . 165 Unità G: Modelli dinamici basati sull’idea di . . . 166
Scelta di un modello Verifica dell’adattamento

Una possibile strategia consiste nello Si basano usualmente sull’analisi delle innovazioni
standardizzate del modello stimato, ovvero di
(a) stimare tutti i possibili modelli (almeno tutti quelli
compatibili con le caratteristiche della serie, ovvero, ad
esempio, non ha senso considerare i modelli stagionali yt − gt(ϑ̂)
ât =
per una serie che stagionale non è); vt(ϑ̂)
(b) ordinare i modelli stimati utilizzando un criterio del
tipo di quelli considerati a pagina 96 che nel presente Verifiche “standard” sono:
caso sono definiti come
(i) disegnare ât verso t per verificare se la media è nulla
e la varianza costante per ogni t.
−2logL(ϑ̂) + cn(numero parametri del modello)
(ii) calcolare e disegnare la funzione di autocorrelazio-
dove ϑ̂ indica lo stimatore di massima verosimiglian- ne di ât e magari anche verificare l’ipotesi che ât sia
za mentre cn è una costante (per cn = 2 otteniamo il assimilabile ad un rumore bianco utilizzando il test di
criterio AIC, per cn = log(n) il criterio BIC). Ricordando Box-Ljung.
che L(ϑ) può essere interpretata come una misura della (iii) è inoltre usuale anche utilizzare un normal
capacità del modello con una particolare struttura e probability plot per verificare la normalità di at;
parametri ϑ di “spiegare” i dati osservati, la logica degli per quanto non strettamente richiesta, la normalità,
indici descritti è quella del lucido 96. almeno approssimata, di at garantisce la “sensatezza”
(c) scegliere il modello migliore (quello con il criterio dell’approccio utilizzato per la stima, può essere utile
più basso) o, se questo non è soddisfacente, uno dei per calcolare previsioni intervallari (vedi lucido 176);
“migliori”. il grafico può inoltre segnalare la presenza di eventuali
osservazioni anomale il cui effetto deve essere indagato.
Esercizio. Dimostrare che se si confrontano modelli
con innovazione additiva i criterio scritti sopra sono
equivalenti ai criteri nlogσ̂2 + cn(num. par. modello)
Unità G: Modelli dinamici basati sull’idea di . . . 167 Unità G: Modelli dinamici basati sull’idea di . . . 168
Una serie temporale di vendite Innanzitutto carichiamo i dati, selezioniamo le prime
144 osservazioni e disegnamo la serie “osservata”.
Riportiamo l’analisi, inclusi i comandi per R, per
analizzare la serie mostrata nel primo grafico della figura > data(BJsales)
nel lucido 8. La serie comprende 150 osservazioni. > y <- window(BJsales,end=144)
Per costruire un modello noi useremo le prime 144 > plot(y)
osservazioni. In questa maniera potremmo poi utilizzare
il modello per prevedere le ultime 6 osservazioni e

260
confrontare le previsioni con quanto effettivamente
avvenuto.

250
240
230
y

220
210
200
0 20 40 60 80 100 120 140

Time

Unità G: Modelli dinamici basati sull’idea di . . . 169 Unità G: Modelli dinamici basati sull’idea di . . . 170
Poi stimiamo tutti i modelli compatibili con la serie Stimiamo quindi questo modello (output rieditato
osservata (ovvero tutti i modelli non stagionali) e spezzando alcune delle righe originali)
ordiniamoli utilizzando BIC
> m <- esFit(y,drift="d/additive",
> esId(y) + seasonality="none",
drift sea inn np BIC AIC rankAIC + innovation="additive")
1 d n a 5 825.1447 810.2957 1 > m
2 a n a 4 826.2208 814.3416 2 Call: esFit(y = y, drift = "d/additive",
3 m n a 4 827.2143 815.3351 3 seasonality = "none",
4 a n m 4 830.0236 818.1444 4 innovation = "additive")
5 m n m 4 830.8629 818.9837 5 drift=d/additive,
6 c/a n a 3 838.0757 829.1662 6 seasonality=none,
7 c/m n a 3 838.2286 829.3191 7 innovation=additive
8 c/m n m 3 842.4375 833.5281 8 alpha phi beta
9 n n a 2 844.9391 838.9995 9 0.94758225 0.87909108 0.27893611
10 n n m 2 849.0382 843.0986 10 l.start d.start sigma
11 d n m 5 1610.2699 1595.4208 11 200.03953950 -0.08819421 1.34164674
12 c/a n m 3 2356.4463 2347.5368 12 -2log(likelihood)= 800.2957
AIC= 810.2957 BIC= 825.1447
I differenti modelli sono idenficati nell’output con le
“iniziali” del tipo di deriva (drift), stagionalità (sea) e
innovazione (inn). L’output del comando mostra anche
il numero di parametri del modello (np), i valori di BIC
e AIC e in numero d’ordine del modello quando se si
utilizzasse AIC per ordinare i vari modelli (rankAIC). In
questo caso, i due criteri sono perfettamente concordi
e suggeriscono un modello con deriva additiva “a
smorzare” (damped) e innovazione addittiva.
Unità G: Modelli dinamici basati sull’idea di . . . 171 Unità G: Modelli dinamici basati sull’idea di . . . 172
Il comando tsdiag può essere utilizzato per ottenere il Mostriamo anche il normal proability plot di ât.
grafico delle ât, della loro autocorrelazione campionaria
e dei livelli di significatività osservati del test di Ljung- > qqnorm(residuals(m))
Box calcolato sul primo coefficiente di autocorrelazio-
Normal Q−Q Plot
ne, sui primi due,. . . , sui primi gof.lag coefficienti di
autocorrelazione dove gof.lag è il secondo argomento

4
di tsdiag.

> tsdiag(m,20)

2
Standardized Residuals
3
2

Sample Quantiles
1
−1

0
−3

0 20 40 60 80 100 120 140

Time

−2
ACF of Residuals
1.0
0.6
ACF

0.2

−4
−0.2

0 5 10 15 20
−2 −1 0 1 2
Lag

Theoretical Quantiles
p values for Ljung−Box statistic
0.8
p value

0.4
0.0

5 10 15 20

lag

Unità G: Modelli dinamici basati sull’idea di . . . 173 Unità G: Modelli dinamici basati sull’idea di . . . 174
La funzione di autocorrelazione e i valori del test di Previsione: considerazioni generali
Ljung-Box sono molto buoni. Il grafico dei residui non
segnala deviazioni particolarmente rilevanti da quanto [il problema] Vogliamo, sulla base delle osservazioni,
atteso (al più una leggera diminuzione della variablibità indichiamole con (y1, . . . , yn), “prevedere” il valore della
con il passare del tempo). serie in un istante futuro, diciamo n + h. In altre parole,
Il normal probability plot indica un buon adattamento vogliamo “farci raccontare” dalle osservazioni y1, . . . , yn
della distribuzione normale alle ât. quello che “sanno” su yn+h .
In conclusione adottiamo il modello suggerito da BIC e [futuro|passato] La soluzione generale è offerta dalla
AIC come un possibile “modello generatore” della serie. distribuzione di yt+h condizionata a (y1, . . . , yn).
Infatti, P(yn+h |y1, . . . , yn) ci dice dove ci aspettiamo di
trovare il processo al tempo t + h sapendo che al tempo
1 era a y1, al tempo 2 a y2,. . . , al tempo n a yn.
Ad esempio, se fosse vero che P(0 ≤ yt+h ≤
1|y1, . . . , yn) = 0 allora nessuna delle realizzazioni del
processo che “passano” al tempo 1 per y1,. . . , al tempo
n per yn, poi, al tempo t + h “si trovano” nell’intervallo
[0, 1].
Mentre, se fosse vero che P(0 ≤ yt+h ≤ 1|y1, . . . , yn) =
0,9 allora 9 traiettorie su 10 del processo che “passano”
al tempo 1 per y1,. . . , si trovano al tempo t + h
nell’intervallo [0, 1].
Quindi, in termini generali, la soluzione del problema
consiste nel calcolare (almeno approssimativamen-
te) questa distribuzione condizionata o qualche suo
parametro caratteristico.
Unità G: Modelli dinamici basati sull’idea di . . . 175 Unità G: Modelli dinamici basati sull’idea di . . . 176
[media/mediana condizionati] Media e mediana della [intervalli di previsione] I quantili della distribuzione
distribuzione condizionata possono essere utilizzate per condizionata sono particolarmente interessanti poichè
fornire una idea di dove dovrebbe trovarsi il processo permettono di costruire agevolmente degli intervalli
al tempo yt+h . Tra l’altro si osservi che per una nota di previsione, ovvero degli intervalli che includono
proprietà della media i valore futuro con una probabilità preassegna-
ta. Intervalli di previsione sono nelle applicazioni
E((yn+h − yn+h|n )2|Yn) ≤ E((yn+h − ψ(Yn))2|Yn) importanti. Permettono infatti di “esporre” in maniera
intuitiva e non tecnica il grado di precisione con cui
dove “conosciamo il futuro”.

- Yn = (y1, . . . , yn) indica le osservazioni, Si supponga di voler determinare [an+h|n , bn+h|n ] tali che
- yn+h|n = E(yn+h |Yn) indica la media condizionata e
- ψ(·) indica una generica funzione. P(an+h|n ≤ yn+h ≤ bn+h|n |y1, . . . , yn) = 1 − ε

Quindi, la media condizionata gode della proprietà


dove ε è una costante assegnata (ε ∈ [0, 1]).
di minimizzare la media degli errori di previsione al
quadrato. Esistono varie possibilità. Ma quella che si adotta
comunemente consiste nel porre
Si osservi, che poichè per qualsiasi variabile casuale
u, E(u) = EYn (E(u|Yn)) (la media marginale è la (ε/2) (1−ε/2)
media delle medie condizionate), la disuguaglianza può an+h|n = yn+h|n e bn+h|n = yn+h|n
estendersi anche ai valori attesi non condizionati.
(p)
Ricordando la proprietà simile della mediana, possiamo dove yn+h|n indica il quantile p della distribuzione
anche affermare che la mediana condizionata minimizza condizionata, ovvero
la media dei valori assoluti degli errori di previsione.
(p)
P(yn+h|n ≤ yn+h|n |y1, . . . , yn) = p.

Unità G: Modelli dinamici basati sull’idea di . . . 177 Unità G: Modelli dinamici basati sull’idea di . . . 178
Previsione con i modelli basati sul
lisciamento esponenziale Algoritmo di simulazione

⇒ Ci comporteremo “come se” la struttura prescelta per


il modello (tipo di deriva,. . . ) e i parametri stimati 1. calcolare ln, dn, sn,. . . ,sn−f+1 da y1,. . . , yn;
coincidano con la “vera” struttura e i “veri” parametri, 2. generare dalla distribuzione dell’innovazione an+1 ,. . . ,
ovvero, “come se” il “vero” modello fosse noto. an+l;
3. utilizzando le equazioni alle differenze che definiscono
Si tratta di una ipotesi non realistica che però semplifica
il modello simulare a partire dalle quantità determinate
in maniera drastica la trattazione, e fornisce soluzioni
ai passi 1 e 2, yn+1 , . . . , yn+h ;
“sensate” ampiamente utilizzate nelle applicazioni.
4. ripetere i passi 2 e 3 un certo numero di volte,
L’effetto principale è quello di sovrastimare la precisione
indichiamolo con B;
delle previsioni (ci siamo persi per strada un pezzo di
5. alla fine ci troviamo con B traiettorie future
variabilità!).
simulate e quindi B possibili “yn+l ” tutti estratti
⇒ Una soluzione generale per approssimare la distribuzio- dalla distribuzione condizionata (visto che siamo
ne condizionata e quindi per calcolarne i momenti e i sempre partiti da ln, dn,. . . ). Possiamo quindi
quantili consiste nel procedere per simulazione. “stimare” la distribuzione condizionata usando queste
pseudo-determinazioni di yt+l.

Unità G: Modelli dinamici basati sull’idea di . . . 179 Unità G: Modelli dinamici basati sull’idea di . . . 180
Alcuni futuri simulati (e uno vero!!!) Per quanto riguarda la simulazione dell’innovazione
“futura” sono spesso considerate due possibilità:
270

(a) Al posto delle innovazioni future an+1 , an+2 , . . .


vengono utilizzati dei numeri pseudo casuali
N(0, σ2)1. Si parla in questo caso di simulazioni o
di bootstrap parametrico.
265

E’ un approccio sensato ovviamente nei soli casi


in cui la distribuzione di at sembra essere almeno
approssimativamente normale.
260

(b) Un approccio alternativo, utilizzabile quando


at non sembra essere normale, si concretizza
nel generare an+1 ,an+2 ,. . . , ricampionando le
255

innovazioni effettivamente osservate. Ovvero, al


passo 1 dell’algoritmo di simulazione calcoliamo
ln,. . . dalla serie osservata. Simultaneamente
250

calcoliamo quindi anche u1,. . . ,un e perciò anche


a1,. . . ,an2.
100 110 120 130 140 150 Per simulare il futuro, an+1 viene generato
scegliendo a caso una delle a1,. . . ,an, an+2 viene
Il grafico mostra la serie delle vendite osservata. Le generata nella stessa maniera,. . . . L’estrazio-
osservazioni con 100 ≤ t ≤ 144 sono disegnate ne avviene in maniera tale che ciascuna delle
con la linea continua, quelle dopo 144 (che non innovazioni osservata possa essere estratta con la
abbiamo utilizzato per costruire il modello) con una stessa probabilità.
linea tratteggiata. Sono stati poi aggiunti 5 “futuri” Si parla in questo caso di ricampionamento o
simulati utilizzando il modello stimato e ipotizzando la bootstrap non parametrico.
normalità delle innovazioni.
1
in realtà nelle applicazioni si usa σ̂2 , ovvero la varianza stimata
2
in realtà sono “â” non “a” visto che usiamo i parametri stimati
Unità G: Modelli dinamici basati sull’idea di . . . 181 Unità G: Modelli dinamici basati sull’idea di . . . 182
⇒ Nel caso di modelli “tutti additivi” (deriva, stagionali- ⇒ Si osservi inoltre che, a prescindere dalla struttura
tà e innovazione non moltiplicativi) la media condiziona- del modello, la distribuzione di yn+1 dato (y1, . . . , yn)
ta di yn+h può essere calcolata simulando il futuro è sempre e immediatamente determinabile dalla
facendo a finta che un+1 = 0, un+2 = 0,. . . ovvero distribuzione dell’innovazione standardizzata an+1 . Ad
supponendo che il futuro non ci riservi “niente di nuovo”. esempio, come già osservato,
Esercizio: Si dimostri l’affermazione precedente. poichè yn+1 = gn+1 + vn+1 an+1 , se an+1 ∼ N(0, σ2)
Aiuto: è sufficiente osservare che sempre per sostituzio- allora yn+1 ∼ N(gn+1 , σ2v2n+1 )
ni successive yn+h = ŷn+h +(combinazione lineare di
In generale,
un+1 ,. . . ,un+h) e ricordare che la media dell’innovazione
è nulla.
P(yn+1 ≤ f|y1, . . . , yn) =
⇒ Per modelli con “qualcosa di moltiplicativo” è = P(an+1 ≤ (f − gn+1 )/vn+1 |y1, . . . , yn)
possibile far vedere che simulare il futuro facendo a
finta che tutte le innovazioni future siano nulle può
essere utilizzato per calcolare delle buone approssima-
zioni della media condizionata. Chiameremo queste
previsioni ingenue o naif (in inglese e in ast naive).
⇒ Sempre per i modelli “tutti additivi” e se l’innovazio-
ne si distribuisce come una normale, è possibile far
vedere che la distribuzione di yn+h data la serie osservata
è normale e può essere determinata in forma chiusa. I
dettagli non sono presentati visto che sono molto simili
a quello che faremo nella prossima unità per un modello
ARIMA.

Unità G: Modelli dinamici basati sull’idea di . . . 183 Unità G: Modelli dinamici basati sull’idea di . . . 184
Previsione della serie delle vendite Per ottenere le previsione ingenue o l’analogo di quanto
appena vista ma calcolato ricampionando le innovazioni
Con il seguente comando, se m è l’oggetto ritornato da è sufficiente cambiare “metodo”.
esFit, chiediamo a R di generare 1000 “futuri”3 per
le 144 osservazioni utilizzate per stimare il modello. > predict(m,6,method="naive")
L’innovazione viene simulata da una distribuzione Time Series:
normale. Il metodo predict in questo caso ritorna Start = 145
una serie temporale multivariate contenenti le stime End = 150
della media, della mediana e di alcuni altri percentili Frequency = 1
della distribuzione condizionata. L’ultimo comando sotto Series 1
(il cui output è stato “tagliato”) può essere utilizzato [1,] 261.8299
per mostrare le stime della media, della mediana e un .............
intervallo di previsione al 90% per i valori futuri. [6,] 264.5363
> predict(m,6,method="resample")[,
> yg <- predict(m,6,method="gauss") + c("5%","median","mean","95%")]
> colnames(yg) Time Series:
[1] "2.5%" "5%" "25%" "median" "mean" Start = 145
"75%" "95%" "97.5%" End = 150
> yg[,c("5%","median","mean","95%")] Frequency = 1
Time Series: 5% median mean 95%
Start = 145 145 259.7755 261.7510 261.7610 263.9980
End = 150 .......................................
Frequency = 1 150 255.9069 264.2205 264.2492 272.4579
5% median mean 95%
145 259.6545 261.8513 261.8354 263.9763
.......................................
150 256.2099 264.5428 264.5254 272.9976
3
il numero è variabile utilizzando l’argomento n.series
Unità G: Modelli dinamici basati sull’idea di . . . 185 Unità G: Modelli dinamici basati sull’idea di . . . 186
Con i seguenti comandi disegnamo la media della Una serie con le bollicine
distribuzione condizionata, un intervallo di previsione al
90% e, per confronto, le vere osservazioni sulle vendite. Una delle serie temporali inclusa in ast si riferisce
alle vendite di champagne di una particolare azienda
> a <- c("5%","mean","95%") produttrice. Si tratta di una serie storica mensile.
> plot(yg[,a],plot.type="s",lty="dotdash") Anche in questo caso, per vedere la capacità previsiva
> points(window(BJsales,start=145),pch="*",cex=2) del modello “in azione” non utilizzeremo le ultime 12
osservazioni per costruire il modello.
> data(champagne)
> end(champagne)
[1] 1972 9
> bollicine <- window(champagne,end=c(1971,9))
> plot(bollicine)
270

14000
yg[, c("5%", "mean", "95%")]

12000
265

10000
* * *
* *

bollicine

8000
*
260

6000
4000
2000

145 146 147 148 149 150


1964 1966 1968 1970
Time
Time

Unità G: Modelli dinamici basati sull’idea di . . . 187 Unità G: Modelli dinamici basati sull’idea di . . . 188
Vediamo quali modelli suggeriscono AIC e BIC. Con Proviamo a stimare i tre modelli migliori per ambedue i
keep=2 “avvisiamo” esId di “ritornare” solo i due modelli criteri e verifichiamone l’adattamento.
con il BIC più piccolo e, se diversi, i due modelli con il
miglior AIC. > m1 <- esFit(bollicine,"n","c/m","a")
> tsdiag(m1)
> esId(bollicine,keep=2) Standardized Residuals
drift sea inn np BIC AIC rankAIC
1 n c/m a 14 1660.724 1625.268 3

3
1
2 m c/m a 16 1664.543 1624.022 1

−1
3 a c/m a 16 1665.408 1624.887 2

−3
1964 1966 1968 1970

Time
In questo caso c’e’ un parziale disaccordo tra i
due criteri. Il modello migliore per BIC è terzo ACF of Residuals

per AIC, quello secondo per BIC è il migliore

1.0
per AIC,. . . . Ambedue i criteri suggeriscono come

0.6
ACF
appropriata una stagionalità costante e moltiplicativa

0.2
(seasonality=”c/multiplicative”) e una innovazione

−0.2
0.0 0.5 1.0 1.5
additiva (innovation=”additive”). Però, nel miglior Lag

modello per BIC la deriva è assente (drift=”none”).


Mentre AIC suggerisce una delibera moltiplicativa p values for Ljung−Box statistic

(drift=”multiplicative”) o, in subordine, additiva

0.8
drift=”additive”).
p value

0.4
0.0

0 5 10 15 20 25 30 35

lag

Unità G: Modelli dinamici basati sull’idea di . . . 189 Unità G: Modelli dinamici basati sull’idea di . . . 190
> m2 <- esFit(bollicine,"m","c/m","a") > m3 <- esFit(bollicine,"a","c/m","a")
> tsdiag(m2) > tsdiag(m3)
Standardized Residuals Standardized Residuals

4
4
2

2
0

0
−2

−2
1964 1966 1968 1970 1964 1966 1968 1970

Time Time

ACF of Residuals ACF of Residuals


1.0

1.0
0.6

0.6
ACF

ACF
0.2

0.2
−0.2

−0.2
0.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5

Lag Lag

p values for Ljung−Box statistic p values for Ljung−Box statistic


0.8

0.8
p value

p value
0.4

0.4
0.0

0.0
0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35

lag lag

Unità G: Modelli dinamici basati sull’idea di . . . 191 Unità G: Modelli dinamici basati sull’idea di . . . 192
Per tutti e tre i modelli l’autocorrelazione dei residui La caratteristica è ancora più evidenziata dal normal
non sembra indicare particolari problemi. Comunque i probability plot. Una delle osservazioni, i grafici
modelli suggeriti da BIC sembra essere marginalmente precedenti dei residui la collocano intorno al 1967, è
migliore (sopratutto se guardiamo ai livelli di significati- anomala rispetto alle altre.
vità dei test di Ljung-Box basati su 13 o più coefficienti
di autocorrelazione). > qqnorm(residuals(m1))
Inoltre, il modello suggerito da BIC è più parsimonioso,
Normal Q−Q Plot
ovvero utilizza meno parametri, e quindi è quello che
rischia meno di cogliere caratteristiche spurie della serie
osservata. Sembra quindi sensato sceglierlo.

2000
Il grafico dei residui di tutti e tre i modelli mostra però
un caratteristica non del tutto “piacevole” e che merita
di essere investigata.

1000
Sample Quantiles

0
−1000
−2 −1 0 1 2

Theoretical Quantiles

Unità G: Modelli dinamici basati sull’idea di . . . 193 Unità G: Modelli dinamici basati sull’idea di . . . 194
Vediamo qual’è e cerchiamo di capire che cosa è successo Il grafico mostra chiaramente che cosa è successo.
facendo uno “zoom” sulla serie. Almeno negli anni vicini, dopo il picco natalizio le
vendite calano a gennaio fino ad un livello uguale od
> start(bollicine) addirittura più basso di quello nei mesi immediatamente
[1] 1964 1 successivi.
> which.max(abs(residuals(m1)))
Questa diminuzione avviene solo parzialmente a
[1] 37
gennaio 1967. Il modello sbaglia quindi la previsione.
> #l’osservazione "incriminata" e’ quindi
> #il gennaio 1967 Per capire se questo pesa sul modello, costruiamo “una
> z <- window(bollicine,start=c(1964,12), serie pulita” sostituendo al valore di gennaio 1967 la
+ end=c(1969,2)) media dei gennaii degli anni vicini e vediamo cosa
> plot(z) succede.
> points(z,pch=month.name[cycle(z)])
> arrows(1967+0.5,bollicine[37]+200, > z <- window(y,start=c(1964,12),
+ 1967,bollicine[37]) + end=c(1969,2))
> #comandi come prima
> #gennaio ’67 adesso sembra ‘‘normale’’
D
D
10000

N D
D D

10000
D N
N
8000

D
N
D
D N

8000
N O
z

N
6000

D
N O
J O
z
O

6000
S
AMJ
S MJ
O O
FM
4000

M MJ A J JF O S
M M
S A S J J
AMJ
S MJ
A J J O
FM
4000
M J JF F M MJ A JF
J
M M J J
JF S A S
A J J J
2000

M J JF F
A A A JF
A
2000

A A A
1965 1966 1967 1968 1969 A

Time 1965 1966 1967 1968 1969

Time

Unità G: Modelli dinamici basati sull’idea di . . . 195 Unità G: Modelli dinamici basati sull’idea di . . . 196
I modelli suggeriti dai due criteri non cambiano. Questo Stimiamo il modello suggerito da BIC.
è consolante. Ovvero, l’osservazione anomala non
sembra particolarmente influente. > m1bis <- esFit(y,"n","c/m","a")
> tsdiag(m1bis)
> esId(y,keep=2) Standardized Residuals
drift sea inn np BIC AIC rankAIC

2
1 n c/m a 14 1639.490 1604.033 3

1
0
2 m c/m a 16 1641.137 1600.615 1

−1
3 a c/m a 16 1642.633 1602.112 2

−3
1964 1966 1968 1970

Time

ACF of Residuals

1.0
0.6
ACF

0.2
−0.2
0.0 0.5 1.0 1.5

Lag

p values for Ljung−Box statistic

0.8
p value

0.4
0.0 0 5 10 15 20 25 30 35

lag

Unità G: Modelli dinamici basati sull’idea di . . . 197 Unità G: Modelli dinamici basati sull’idea di . . . 198
L’autocorrelazione dei residui non preoccupa. Anche il Proviamo a vedere se ci sono differenze nella distribuzio-
normal probability plot è diventato più normale. ne prevista per le prossime 12 osservazioni. Nella figura
(vedi prossimo lucido per le istruzioni R) i tre grafici
> qqnorm(residuals(m1bis)) confrontano (dall’alto verso il basso) i percentili 0.5 e
0.95 e la media calcolati utilizzando i due modelli e
Normal Q−Q Plot generando le innovazioni future con i due metodi visti
(in ogni grafico ci sono 4 curve).
1000

12000
500

2000 4000 6000 8000


Sample Quantiles

1971.8 1972.0 1972.2 1972.4 1972.6


−500

12000
−1000

8000
4000
−1500

1971.8 1972.0 1972.2 1972.4 1972.6

−2 −1 0 1 2
10000

Theoretical Quantiles
6000
2000

Unità G: Modelli dinamici basati sull’idea di . . . 199 Unità G: Modelli dinamici basati sull’idea di . . . 200
Istruzioni R per costruire il grafico sul lucido 200. Visto che le differenze nelle previsioni tra i vari modelli
e i vari metodi sembrano irrilevanti usiamo il modello
> a <- c("5%","95%","mean") originale e generiamo le innovazioni assumendo la
> p1 <- predict(m1,12,method="g")[,a] normalità. Al grafico, per vedere il modello “in azione”
> p2 <- predict(m1,12,method="r")[,a] aggiungiamo anche le vere osservazioni (che si tenga
> p3 <- predict(m1bis,12,method="g")[,a] conto, non sono state in nessuna maniera utilizzate
> p4 <- predict(m1bis,12,method="r")[,a] nell’analisi).
> oldp <- par(mfrow=c(3,1),mar=c(1,1,1,1))
> plot(p1,plot.type="s",lty="dotdash")
> for (i in 1:3)
> points(champagne,pch="*",cex=2)
+ plot(cbind(p1[,i],p2[,i],p3[,i],p4[,i]),
+ plot.type="s",ylab="")
> par(oldp)

14000
*

12000
10000
*

8000
p1
*

6000
*
*
* * *
4000
* *
*
2000

*
1971.8 1972.0 1972.2 1972.4 1972.6

Time

Unità G: Modelli dinamici basati sull’idea di . . . 201 Unità G: Modelli dinamici basati sull’idea di . . . 202
Introduzione

⇒ Nella prima parte dell’unità vengono presentati


Unità H i modelli a media mobile (MA(q)), autoregres-
sivi (AR(p)) e autoregressivi a media mobile
I modelli ARMA e ARIMA (ARMA(p, q)),
Sono modelli dinamici lineari che generano processi
stazionari. La loro caratteristica principale consiste
nella capacità di rappresentare/approssimare la
struttura di autocorrelazione di un qualsiasi processo
stazionario.
Vedremo poi una estensione di questi modelli (i
cosidetti modelli autoregressivi a media mobile
integrati o ARIMA(p, d, q)) che estendono i modelli
ARMA nella direzione della non-stazionarietà.
Consideremo poi le varianti “stagionali” di queste
classi di modelli.
⇒ In tutti questi modelli, la serie osservata à generata
a partire da un processo, {ut}, l’innovazione del
processo, che supporremo essere un rumore bianco
(vedi pagina 27) di media nulla e varianza σ2u.
⇒ Contrariamente a quanto fatto nell’unità precedente
ipotizzeremo che il processo di interesse inizi a −∞,
non a 1. Il “periodo di osservazione” però, al solito,
inizia a 1 e finisce con n.

Unità H: I modelli ARMA e ARIMA 204


Modelli a media mobile Funzioni di autocorrelazione di alcuni modelli
MA(1) e MA(2)
Un processo stocastico, {yt}, è detto generato da un
modello a media mobile di ordine q (moving average in

1.0

1.0
inglese, da cui la “sigla/acronimo” MA(q)) se
yt = ut + 0.8ut−1 yt = ut − 0.8ut−1

0.5

0.5
yt = η + ut + ϑ1ut−1 + · · · + ϑqut−q

0.0

0.0
dove (η, ϑ1, . . . , ϑq) è un vettore di parametri costanti.

−0.5

−0.5
E’ immediato verificare che

−1.0

−1.0
E(yt) = η 0 2 4 6 8 10 0 2 4 6 8 10

1.0

1.0
e che, per 0 ≤ h ≤ q, yt = ut + 0.8ut−1 + 0.6ut−2 yt = ut − 0.8ut−1 − 0.2ut−2

0.5

0.5
cov(yt, yt−h ) = (ϑh + ϑ1ϑh+1 + · · · + ϑq−h ϑq)σ2u

0.0

0.0
mentre

−0.5

−0.5
se h > q allora cov(yt, yt−h) = 0 (H.1)
La (H.1) mostra come caratteristica di un modello
−1.0

−1.0
MA(q) sia quello di avere una memoria finita1. 0 2 4 6 8 10 0 2 4 6 8 10

Poichè la media è costante e cov(yt, yt−h) dipende solo


da h, il processo è stazionario, almeno del secondo
ordine.

1
almeno quella che si manifesta attraverso la dipendenza lineare.
Unità H: I modelli ARMA e ARIMA 205 Unità H: I modelli ARMA e ARIMA 206
Invertibilità di un modello MA(q) In definitiva sembrerebbe che dovremmo arrivare a

X
Un modello MA(q) è detto invertibile se, per ogni t, ut è ut = (−ϑ)iyt−i .
calcolabile a partire da yt, yt−1, . . .. i=0

Questo non è automatico. Si consideri infatti un modello


MA(1), per semplicità di media nulla, Ma è difficile pensare di dare un senso alla sommatoria
infinita che abbiamo appena scritto se i pesi assegnati
alle “y” esplodono, ovvero se |ϑ| ≥ 1. E dall’altra parte
yt = ut + ϑut−1.
se |ϑ| ≥ 1 allora non ci aspettiamo neanche che il termine
(−ϑ)m+1 ut−m−1 che compariva prima “svanisca” quando
Con sostituzioni successive troviamo m è grande. Infatti, è possibile far vedere che un modello
MA(1) è invertibile se e solo se |ϑ| < 1.
ut = yt − ϑut−1 = In generale è possibile dimostrare che condizione
= yt − ϑyt−1 + ϑ2ut−2 = necessaria per l’invertilità di un modello MA(q) è che
= yt − ϑyt−1 + ϑ2yt−2 − ϑ3ut−3 = le q soluzioni dell’equazione
..
= yt − ϑyt−1 + · · · + (−ϑ)myt−m + (−ϑ)m+1 ut−m−1 1 + ϑ 1 x + · · · + ϑ q xq = 0 (H.2)

siano in modulo maggiori di uno (si osservi che le radici


possono anche essere numeri complessi). Nel seguito
supporremmo di avere sempre a che fare con modelli
invertibili o al più con modelli in cui le soluzioni della
(H.2) siano in modulo uguale a 1. Questo non è un
limite. Infatti è possibile dimostrare che se un processo
è rappresentabile da un modello MA(q) con radici della
(H.2) minori in modulo di 1, allora può anche essere
rappresentato da un modello MA(q) invertibile.
Unità H: I modelli ARMA e ARIMA 207 Unità H: I modelli ARMA e ARIMA 208
Nel caso un modello MA(q) sia invertibile è possibile Modelli autoregressivi
mostrare che esiste una successione di pesi λ1, λ2, · · · per
cui ∞ Un processo stocastico, {yt}, è detto generato da un
X
ut = y t − λiyt−i modello autoregressivo di ordine p (“sigla/acronimo”
i=1 AR(p)) se
dove l’uguaglianza è da intendersi nel senso della
convergenza in media quadratica, ovvero, yt = η + φ1(yt−1 − η) + · · · + φp(yt−p − η) + ut
" m
!#2
X dove (η, φ1, . . . , φp) è un vettore di parametri costanti.
lim E ut − yt − λiyt−i =0 Come si può vedere si tratta di un normale modello di
m→∞
i=1
regressione lineare in cui la variabile risposta è il valore
I pesi convergono a zero è in particolare presente del processo mentre le variabili esplicative sono
i valori passati del processo stesso.

X
λ2i < ∞ E’ possibile dimostrare che il processo generato da un
i=1
processo AR(p) è stazionario se e solo se le radici
dell’equazione
Si osservi che quindi possiamo anche scrivere
1 − φ 1 x − · · · − φ p xp = 0 (H.4)

X
yt = λiyt−i + ut (H.3) sono in modulo maggiori di uno. In questo caso, η
i=1 coincide con la media di yt e è possible far vedere che
il processo è rappresentabile come una “media mobile
ovvero, che un modello MA(q) invertibile può essere
infinita” ovvero che esistono dei pesi ψ1, ψ2, . . . tali che
visto come una specie di modello di regressione infinito
in cui le variabili esplicative sono il “passato” di yt. ∞
X
Gli infiniti coefficienti di regressione λ1, λ2, . . . non sono yt = η + u t + ψiut−i (H.5)
però completamente liberi. Tutti sono infatti funzione i=1
dei q coefficienti ϑ1, . . . , ϑq.
Unità H: I modelli ARMA e ARIMA 209 Unità H: I modelli ARMA e ARIMA 210
Funzioni di autocorrelazione di alcuni modelli AR(1) La funzione di autocorrelazione parziale
e AR(2)
La figura precedente mostra come per un modello AR(1)
1.0

1.0
yt = 0.8yt−1 + ut yt = − 0.8yt−1 + ut l’autocorrelazione ai ritardi superiori al primo sia diversa
da zero e possa anche essere non banale.
0.5

0.5
In realtà noi sappiamo che in un certo senso quella
0.0

0.0
correlazione è spuria. Ad esempio la correlazione che
troviamo a ritardo 2 è legata al fatto che yt−1 è generato
−0.5

−0.5
a partire da yt−2 e yt a partire da yt−1. Quindi, la
correlazione tra yt e yt−2 è diversa da zero ma tutta
−1.0

−1.0

“mediata” da yt−1.
0 2 4 6 8 10 0 2 4 6 8 10

Per un processo AR(2) viceversa una parte della


1.0

1.0

yt = 0.8yt−1 − 0.6yt−2 + ut yt = 0.6yt−1 + 0.3yt−2 + ut correlazione a ritardo 2 è “mediata” da yt−1 mentre una
parte e esprime l’impatto “diretto” di yt−2, non mediato,
0.5

0.5

di yt−2 su yt.
Per isolare la correlazione “diretta” dalla correlazio-
0.0

0.0

ne “mediata” è possibile utilizzare i coefficienti di


−0.5

−0.5

autocorrelazione parziale
−1.0

−1.0

π(h) = corr(yt, yt−h|yt−1, . . . , yt−h+1 ) h = 1, 2, . . .


0 2 4 6 8 10 0 2 4 6 8 10

E’ possibile far vedere che la funzione di autocorrelazio-


che misura la correlazione esistente tra yt e yt−h
ne di un processo AR(1) soddisfa l’equazione ρ(h) =
quando da ambedue le variabili venga eliminato la parte
φ1ρ(h − 1), ρ(0) = 1 e quindi che ρ(h) = φh1 . Si
“spiegabile linearmente” da yt−1, . . . , yt−h+1 . Per un
noti l’andamento diverso a seconda del segno di φ1.
processo AR(p)
Si osservi inoltre l’andamento oscillatorio a smorzare
possibile per alcuni modelli AR(2). π(h) = 0 se h > p
Unità H: I modelli ARMA e ARIMA 211 Unità H: I modelli ARMA e ARIMA 212
Funzioni di autocorrelazione parziale di alcuni Modelli autoregressivi a media mobile
modelli AR e MA
Combinano le due classi di modelli appena viste.
1.0

1.0
yt = 0.8yt−1 + ut yt = ut + 0.8ut−1
Un processo stocastico {yt} si dice generato da un
0.5

0.5
modello autoregressivo a media mobile di ordine
(p, q) (abbreviato in ARMA(p, q)) quando è generato
0.0

0.0
dall’equazione alle differenze
−0.5

−0.5
yt = η + φ1(yt−1 − η) + · · · + φp(yt−p − η) +
+ut + ϑ1ut−1 + · · · + ϑqut−q (H.6)
−1.0

−1.0

0 2 4 6 8 10 0 2 4 6 8 10

Il processo è invertibile se tutte le radici dell’equazione


1.0

1.0

yt = ut − 0.8ut−1 yt = ut − 0.8ut−1 + 0.6ut−2 analoga alla (H.2) sono in modulo maggiore di 1. In


questo caso gode anche di una rappresentazione AR(∞)
0.5

0.5

del tipo della (H.3).


0.0

0.0

Il processo è stazionario se tutte le radici dell’equazio-


ne analoga alla (H.4) sono in modulo maggiore di 1.
−0.5

−0.5

In questo caso gode anche di una rappresentazione


MA(∞) del tipo della (H.5).
−1.0

−1.0

0 2 4 6 8 10 0 2 4 6 8 10 La funzione di autocorrelazione può avere andamenti


molto diversi. La regola generale è che “i primi
Si osservi come la funzione di autocorrelazione parziale q coefficienti sono sostanzialmente arbitrari; dopo
di un processo MA(q) converga verso zero ma senza la funzione di autocorrelazione converge verso lo
diventare esattamente zero. Ed inoltre, come la funzione zero come fa, a partire da zero, la funzione di
di autocorrelazione parziale di un MA(m) possa, a autocorrelazione di un AR(p)”.
parte il segno, mostrare gli andamenti qualitativi della
funzione di autocorrelazione di un AR(m) e viceversa.
Unità H: I modelli ARMA e ARIMA 213 Unità H: I modelli ARMA e ARIMA 214
Funzioni di autocorrelazione di un modello L’operatore di ritardo
ARMA(1,2)
Questi modelli sono scrivibili in termini compatti
utilizzando l’operatore di ritardo2
1.0

Byt = yt−1.
yt = 0.7yt−1 + ut − 0.95ut−2
ARMAacf(ar = c(0.7), ma = c(0, −0.95), lag = 10)

0.5

Usandolo possiamo riscrivere l’equazione (H.6) come

φ(B)(yt − η) = ϑ(B)ut
0.0

dove

φ(B) = 1 − φ1B − φ2B2 − · · · − φpBp


−0.5

ϑ(B) = 1 − ϑ1B − ϑ2B2 − · · · − ϑqBq


−1.0

0 2 4 6 8 10

0:10

Si osservi come la convergenza verso lo zero in accordo


all’equazione ρ(h) = φ1ρ(h − 1) che caraterizza il
modello AR(1) (vedi lucido 211) in questo caso inizi da
h = q = 2. 2
uso la lettera B mutuandola dalla letteratura anglosassone dove è
l’abbreviazione di backward visto che abbiamo già troppi R in questi lucidi
Unità H: I modelli ARMA e ARIMA 215 Unità H: I modelli ARMA e ARIMA 216
Modelli integrati ovvero metti un po’ di Un processo simulato
trend in un modello ARMA

4
Si supponga che yt = ζ + ηt, ovvero di considerare un

2
processo deterministico la cui realizzazione è una retta.
Ovviamente

0
−2
(1 − B)yt = yt − yt−1 = η

200 −4
ovvero, le “differenze” di una serie costituita solo da un
trend lineare è una serie costante.

150
100
Che cosa ci aspettiamo di ottenere se sostituiamo nella

y
equazione precedente a η un processo stocastico, ad

50
esempio un ARMA(p, q) di media η? Ovvero, quali

0
caratteristiche avranno le traiettorie di un processo
generato da una equazione alle differenze del tipo 0 100 200 300 400

yt = yt−1 + zt Il processo nel primo grafico è stato generato utilizzando


l’equazione
dove {zt} indica un processo stazionario di media η 1

1

generato da un modello ARMA? La risposta è facile. zt = + 0,8 zt−1 − + ut (z−100 = 0)
2 2
Mediamente, yt dovrebbe aumentare di η unità per ogni
unità di tempo. Quindi ci aspettiamo che yt esibisca un dove ut ∼ N(0, 1). Il processo nel secondo è stato
trend lineare. generato a partire dal primo utilizzando l’equazione

yt = yt−1 + zt (y0 = 0)
Unità H: I modelli ARMA e ARIMA 217 Unità H: I modelli ARMA e ARIMA 218
Un altro processo simulato Queste semplici considerazioni ed esempi suggeriscono
di considerare modelli del tipo

(1 − B)dyt = zt con φ(B)(zt − η) = ϑ(B)ut (H.7)

per approssimare il meccanismo generatore di una serie


50

temporale non stazionaria. Si parla in questo caso


di modello autoregressivo a media mobile integrato3 di
ordine (p, d, q) (abbreviazione ARIMA(p, d, q)).
0

Si osservi che possiamo non menzionare esplicitamen-


te {zt} nella definizione di un modello ARIMA(p, d, q).
Infatti, sottraendo η e poi applicando l’operatore φ(B) ad
ambedue i termini della prima equazione che compare
−50

nella (H.7) otteniamo

φ(B)(1 − B)dyt = δ + φ(B)(zt − η)


−100

0 200 400 600 800 1000


dove δ = φ(B)η = η(1 − φ1 − · · · − φp).
La serie è stata simulata utilizzando Sostituendo quindi la seconda equazione della (H.7)
otteniamo
yt = yt−1 + zt dove zt = 0,8zt−1 + ut (ut ∼ N(0, 1))
φ(B)(1 − B)dyt = δ + ϑ(B)ut
Si osservi come usando una ARMA di media nulla
otteniamo una serie che esibisce anch’essa una
componente di trend (in questo caso, solo “localmente”
lineare). 3
il nome “integrato” discende dal fatto che yt = y0 +
Pt
i=0 zi e che la “somma”
è l’analogo a tempo discreto di un integrale.
Unità H: I modelli ARMA e ARIMA 219 Unità H: I modelli ARMA e ARIMA 220
Identificazione di un modello ARMA/ARIMA Esempio con serie non stagionali

trasformazione della serie


osservata in maniera tale che
diventi stazionaria (incluso l’uso o O

di differenze, ovvero la scelta di


d).

NO:
scelta di p e q rivediamo le
 scelte fatte
stima dei parametri del modello precedente-
scelto mente

il modello sembra descrivere in
maniera adeguata il meccanismo /

generatore della serie temporale


osservata?

SI:
utilizziamo il modello, ad
esempio, per calcolare delle
previsioni della serie.

Unità H: I modelli ARMA e ARIMA 221 Unità H: I modelli ARMA e ARIMA 222
Modelli ARIMA stagionali Esempio con serie stagionali

La versione “stagionale” dei modelli ARIMA normalmente


considerata si concretizza nell’assumere che il processo
osservato è generato in accordo all’equazione alle
differenze

φ(B)Φ(Bf)(1 − B)d(1 − Bf)Dyt = ϑ(B)Θ(Bf)ut

dove:
- f indica la lunghezza del periodo stagionale (12 nel
caso di dati mensili,. . . );
- φ(B) = 1 − φ1B − · · · − φpBp è un operatore
autoregressivo “non-stagionale”;
- Φ(Bf) = 1 − Φ1Bf − · · · − φpBPf è un operatore
autoregressivo che “vede” solo i ritardi stagionali;
- ϑ(B) = 1 + ϑ1B + · · · + ϑqBq è un operatore a media
mobile “non-stagionale”;
- Θ(Bf) = 1 + Θ1 Bf + · · · + φQBQf è un operatore a media
mobile stagionale.
Eventualmente, come prima, possiamo aggiungere un
termine costante δ al secondo termine.

Unità H: I modelli ARMA e ARIMA 223 Unità H: I modelli ARMA e ARIMA 224
Unità I

Serie temporali bivariate: cenno

Potrebbero piacerti anche