B. Kolmogorov perdono!, 15
Guido Masarotto Che cos un processo stocastico?, 16 Serie temporali e processi stocastici, 17 Caratteristiche interessanti
Facolt di Scienze Statistiche di un processo stocastico, 18 Il problema della stazionariet, 19 Processi stocastici stazionari, 21 Propriet
della funzione di autocorrelazione di un processo stocastico stazionario, 23
6 gennaio 2003
D. Scomposizione di una serie temporale in componenti ele-
mentari, 50
E se il processo non stazionario?, 51 Componenti di una serie temporale, 52 Modelli di composizione, 53
Esempio di una serie additiva, 54 Esempio di una serie moltiplicativa, 55 Destagionalizzazione di una
serie temporale, 56 Perch destagionalizzare?, 57
i
F. Scomposizione di una serie temporale: un approccio flessibi- Materiale didattico
le, 76
Il punto debole. . . , 77 Regressione non parametrica: cenni, 78 Stima del trend in assenza di stagionalit, 97 1. Questi lucidi
Medie mobili e filtri lineari, 98 Stima della componente stagionale in assenza di trend, 99 Stima simulta-
nea delle componenti di trend e stagionali: lalgoritmo di backfitting, 104 In pratica, 106 Passeggeri delle 2. Guido Masarotto e Giovanna Capizzi (2002), Materiali per il laboratorio con R, http://sirio.stat.unipd.it/ts
aerolinee, 107 Scomposizioni con problemi, 126 Estensioni e cautele, 131
3. C. Chatfield (1996), The analysis of time series: an introduction, Chapman and Hall, Londra
G. Modelli dinamici basati sullidea di lisciamento esponenziale
4. T. Di Fonzo e F. Lisi (2001), Complementi di statistica economica. Analisi delle serie storiche univariate, Cleup
, 132 Editrice, Padova
Struttura di un modello dinamico, 133 Un modello basato sul lisciamento esponenziale, 135 Serie alla deriva, 142
Introduzione di una componente stagionale, 150 Innovazione additiva o moltiplicativa?, 157 Sintesi dei mo-
delli considerati: le quattro forme di base, 159 Sintesi dei modelli considerati: casi particolari, 160 Nomi
assegnati ad alcuni casi particolari, 161 Costruzione empirica di un modello, 162 Stima dei parametri, 163
Scelta di un modello, 167 Verifica delladattamento, 168 Una serie temporale di vendite, 169 Previsione:
considerazioni generali, 176 Previsione con i modelli basati sul lisciamento esponenziale, 179 Previsione
della serie delle vendite, 185 Una serie con le bollicine, 188
ii
Che cos una serie temporale (o storica)?
variabili rilevate
tempo Y1 Yk
t1 y11 .. yk1
t2 y12 .. yk2
.. .. .. ..
tn y1n .. ykn
Unit A: Introduzione 2
Esempio 1: medie giornaliere delle polveri Esempio 2: linci catturate annualmente in
rilevate in una delle centraline per il Canada
controllo atomosferico in Padova
7000
6000
5000
4000
lynx
3000
2000
1000
0
1820 1840 1860 1880 1900 1920
1200
1400
1000
1200
800
1000
UKgas
Nile
600
800
400
600
200
1880 1900 1920 1940 1960 1960 1965 1970 1975 1980 1985
Time Time
260
240
BJsales
5000
220
14200
4000
13
BJsales.lead
12
3000
11
10
0 50 100 150
2000
60
14.5
55
GFoutput
14.0
50
13.5
3
2
13.0
1
GFinput
0
12.5
1
2
12.0
domani, . . . ).
700
600
Previsione: al tempo tn vogliamo prevedere i valori 1. E introduttivo: vuole presentare solo alcune idee e
che la serie temporale assumer al tempo t > tn. tecniche di base. Considereremo solo
Controllo: si supponga di avere a che fare, per dati equispaziati nel tempo (ti ti1 = );
semplicit, con due sole variabili (k = 2) e che: situazioni in cui le variabili rilevate siano
i) le variazioni di y1t influenzino y2t; numeriche ed (almeno assimilabili a variabili) reali,
ii) y1t sia controllabile (ovvero possiamo fissarne i quasi sempre il caso di serie univariate,
valori); solo relazioni dinamiche di tipo lineare.
iii) non possiamo controllare y2t; per, desideremmo 2. E operativo: vuole sviluppare la capacit di
che y2t risulti uguale ad un valore prefissato, analizzare concretamente delle serie reali (per
diciamo , per ogni t. questo le esercitazioni nel laborario informatico
Il problema : quali valori scegliamo per la prima costituiscono una parte integrante del corso).
variabile affinch la seconda si discosti il meno
possibile dal valore desiderato?
E(Yt 0 ) = E(Yt 00 )
var(Yt 0 ) = var(Yt 00 )
cov(Yt 0 , Yt 00 ) = cov(Yt 0+h , Yt 00+h)
1
questa relazione si ottiene dalla definizione di stazionariet debole ponendo
h = t 0
Unit B: Kolmogorov perdono! 21 Unit B: Kolmogorov perdono! 22
Propriet della funzione di
autocorrelazione di un processo stocastico
stazionario
Unit C
(h) = (h)/2;
Stima della funzione di autocorrela-
(0) = 1 (beh, se quello che capita oggi non fosse zione
correlato perfettamente con quello che capita oggi
avremmo veramente da preoccuparci; formalmente
2 = (0));
Stimatori
1 (h) 1 h (sono coefficienti di correlazione);
Bande nel correlogramma
(h) = (h). E una conseguenza del fatto che per
qualsiasi coppia di variabili casuali, diciamo X e Y, Test di Ljung-Box (e Box-Pierce)
k X
X k
aiaj(i j) 0
i=0 j=0
Infatti,
Pk la quantit sul lato sinistro la varianza di
2
i=0 ai Yti divisa per .
Unit C: Stima della funzione di autocorrelazione 27 Unit C: Stima della funzione di autocorrelazione 28
Pochi (h) fuori di poco dalle bande possono essere attribuiti allerrore di stima. Il primo correlogramma mostra Quattro serie temporali. . .
quindi una situazione probabilmente di incorrelazione. Nel secondo, un solo (h) esterno alle bande. Per molto (a)
2
1.0
0
2
0.5
4
ACF
0 20 40 60 80 100
0.0
(b)
0.5
3
2
1
1.0
0
3 2 1
0 5 10 15 20
Lag
0 20 40 60 80 100
(c)
1.0
6
4
0.5
2
0
4 2
ACF
0.0
0 20 40 60 80 100
0.5
(d)
1.0
0 5 10 15 20
1
0
Lag
1
2
0 20 40 60 80 100
Unit C: Stima della funzione di autocorrelazione 29 Unit C: Stima della funzione di autocorrelazione 30
. . . il loro correlogramma. . . . . . qualche commento . . .
(a)
1.0
0 5 10 15 20
componente. Il correlogramma ci dice anche che la
(b) lunghezza media delle onde di 6 periodi.
1.0
0 5 10 15 20
piccola e cos via.
(c)
? Dal grafico della serie (c), come del resto in quello
1.0
0 5 10 15 20
Il correlogramma ci racconta che questa lunica
(d) correlazione esistente: osservazioni pi distanti sono
incorrelate.
1.0
di un white noise.
0.2
0.2
0 5 10 15 20
Unit C: Stima della funzione di autocorrelazione 31 Unit C: Stima della funzione di autocorrelazione 32
. . . un esercizio e. . . 3 2 1 0 1 2 3 3 2 1 0 1 2 3
3
Le figure nelle prossime pagine riportano i grafici di yt
2
1
disegnato verso yth per alcuni valori di h. Chiameremo
0
a
a
questo tipo di grafici di autodispersione (lag plot nella
1
letteratura anglosassone). Le serie utilizzate sono quelle
2
3
precedenti. Ogni pagina si riferisce ad una delle lag 1 lag 2 lag 3
3
serie. Ma le pagine non sono nellordine utilizzato
2
precedentemente. Completare il seguente schemetto:
1
0
a
1
la figura si riferisce
2
a pagina alla serie
3
lag 4 lag 5 lag 6
34 ......
3
35 ......
2
1
36 ......
0
a
a
37 ......
1
2
3
La soluzione a pagina 38. lag 7 lag 8 lag 9
3
2
1
0
a
1
2
3
lag 10 lag 11 lag 12
3 2 1 0 1 2 3
Unit C: Stima della funzione di autocorrelazione 33 Unit C: Stima della funzione di autocorrelazione 34
3 2 1 0 1 2 3 2 1 0 1 2 4 2 0 2 4 4 2 0 2 4
2
2
1
0
0
a
a
2
1
2
4
lag 1 lag 2 lag 3 lag 1 lag 2 lag 3
2
1
0
0
a
2
1
2
4
lag 4 lag 5 lag 6 lag 4 lag 5 lag 6
2
2
1
0
0
a
a
2
1
2
4
lag 7 lag 8 lag 9 lag 7 lag 8 lag 9
2
2
1
0
0
a
2
1
2
4
lag 10 lag 11 lag 12 lag 10 lag 11 lag 12
3 2 1 0 1 2 4 2 0 2 4
Unit C: Stima della funzione di autocorrelazione 35 Unit C: Stima della funzione di autocorrelazione 36
6 4 2 0 2 4 6 8 6 4 2 0 2 4 6 8
. . . la sua soluzione
6
.
4
2
a
a
la figura si riferisce
0
2
6
36 (a)
4
2
37 (c)
a
0
2
4
lag 4 lag 5 lag 6
6
4
2
a
a
0
2
4
0
2
4
Unit C: Stima della funzione di autocorrelazione 37 Unit C: Stima della funzione di autocorrelazione 38
La temperatura al castello di Nottingham Un correlogramma a Nottingham
1.0
65
60
0.5
55
nottem
50
0.0
45
0.5
40
35
1.0
30
1
Si osservi che i ritardi nel grafico della funzione di autocorrelazione, fatto in
R, sono etichettati utilizzando gli anni non i mesi.
Unit C: Stima della funzione di autocorrelazione 39 Unit C: Stima della funzione di autocorrelazione 40
A castello meglio essere corretti Nottingham: grafici di autodispersione
30 40 50 60 70 30 40 50 60 70
60
nottem
nottem
nottem
1.0
40
30 50
lag 12 lag 24 lag 36
0.5
60
nottem
nottem
nottem
50
40
30
0.0
60
nottem
nottem
nottem
40 50
0.5
30
lag 84 lag 96 lag 108
60
nottem
nottem
nottem
50
1.0
40
0 2 4 6 8 10
30
lag 120 lag 132 lag 144
30 40 50 60 70
. . . se dividiamo per n h il correlogramma non Si osservi che sono mostrati solo i ritardi stagionali.
diminuisce pi. Quindi, lultimo grafico, mostra il digramma di
dispersione tra la temperatura di oggi e quella di 12
anni fa.
Unit C: Stima della funzione di autocorrelazione 41 Unit C: Stima della funzione di autocorrelazione 42
Esercizio
30 40 50 60 70 30 40 50 60 70 30 40 50 60 70 30 40 50 60 70
60
60
nottem
nottem
nottem
nottem
nottem
nottem
50
50
40
40
30
30
lag 6 lag 18 lag 30 lag 1 lag 2 lag 3
60
60
nottem
nottem
nottem
nottem
nottem
nottem
50
50
40
40
30
30
lag 42 lag 54 lag 66 lag 4 lag 5 lag 6
60
60
nottem
nottem
nottem
nottem
nottem
nottem
50
50
40
40
30
30
lag 78 lag 90 lag 102 lag 7 lag 8 lag 9
60
60
nottem
nottem
nottem
nottem
nottem
nottem
50
50
40
40
30
30
lag 114 lag 126 lag 138 lag 10 lag 11 lag 12
30 40 50 60 70 30 40 50 60 70
Rispetto al grafico di prima i ritardi sono stati sfasati La figura mostra i diagrammi di autodispersione per i
di 6 mesi. Con un p di licenza potremmo dire che primi 12 ritardi. In alcuni dei grafici compaiono delle
stiamo guardando alla correlazione tra la temperatura sorta di anelli. Spiegare perche.
nellinverno/primavera/estate/autunno di un anno e
quella nellestate/autunno/inverno/primavera di 1, 2, . . .
anni prima.
Unit C: Stima della funzione di autocorrelazione 43 Unit C: Stima della funzione di autocorrelazione 44
La produzione di automobili in Giappone Il correlogramma quelo tipico in questo casi: positivo
e vicino ad uno allinizio, poi decresce lentamente
Il grafico mostra il numero di automobili (in migliaia) e inverte il suo segno ad un ritardo pari ad
prodotte in Giappone dal 1949 al 1989. La serie approssimativamente la met della lunghezza della serie
evidentemente non stazionaria visto laumento della osservata.
1.0
media (trend) negli anni.
0.5
0.0
12000
0.5
1.0
10000
0 5 10 15 20 25 30
8000
1.0
6000
0.5
0.0
4000
2000
1.0
0
0 5 10 15 20 25 30
La figura mostra i diagrammi dia autodispersione per la Una statistica test che pu essere utilizzata per verificare
serie considerata nelle pagine precedenti. Indicando con lipotesi che il processo sia un white noise
yt la variabile posta sulle ascisse in ogni grafico, dire se
H
sulle ordinate stato disegnato yth o yt+h per i valori X 2(h)
prescelti di h (in questo caso 1, . . . , 12)? TL&B = n(n + 2)
nh
0 2000 6000 10000 0 2000 6000 10000 h=1
d
gradi di libert. Valori troppo grandi rispetto a quelli
2000
10000
si basa sulla statistica test proposta e studiata da Box e
6000
d
Pierce
XH
2(h).
2000
TB&P = n
0
Molte serie temporali contengono evidenti segni di non- Non infrequente che una serie storica possa essere
stazionariet In particolare in posizione e dispersione. pensata come la composizione di varie componenti.
In questi casi, abbastanza comune per non perdere In particolare, spesso, anche solo guardando il grafico
i vantaggi assicurati dalla stazionariet, cercare di della serie, sono evidenti:
trasformare la serie originale in una serie stazionaria.
[trend] una componente che varia lentamente nel tempo
Ovviamente, una possibilit per realizzare il programma e che essenzialmente determina il livello della serie;
precedente consiste nello stimare la parte non [stagionalit] una o pi componenti periodiche, ovvero
stazionaria della serie osservata per poi rimuoverla. che si ritrovano uguali o quasi a distanza fissa nel
Questo tra laltro un problema spesso interessante di tempo (ad esempio, in serie mensili ogni 12 mesi, in
per se. serie trimestrali ogni 4 trimesti, in serie giornaliere,
ogni 7 giorni);
[componente irregolare] una componente pi erratica
che determina nella serie delle oscillazioni tipicamente
di breve periodo. Normalmente pu essere assimilato
ad un processo stocastico stazionario.
3000
in cui possono interagire per formare la serie osservata
possono essere differenti. Alcuni esempi sono i seguenti
y
2600
modelli di composizione
2200
3200
additivo: yt = Tt + St + It;
3000
moltiplicativo: yt = TtStIt;
2800
trend
2600
moltiplicativo con comp. irr. additiva yt = TtSt + It.
100 2400
50
seas
0
50
100
150
100
50
irr
0
100 50
2 4 6 8 10
Time
Lampiezza delle oscillazioni stagionali e della componente irregolare nella serie (primo grafico del pannello) la
componente stagionale.
14000
stagionale.
1.0
2 4 6 8 10
Time
Le oscillazioni stagionali e la componente irregolare entrano nella serie (primo grafico del pannello) con una
ampiezza che dipende dal livello della serie (ovvero dal trend).
? Laumento potrebbe essere semplicemente stagionale i) il primo mostra la serie mensile dei passegeri su
e ad esempio legato al maggiore utilizzo delle tratte aeree internazionali (in migliaia) dai 1949
automobili e del riscaldamento privato dovuto alle al 1960; evidente un trend crescente e una forte
temperature pi fredde (traffico e riscaldamento sono componente stagionale;
le fonti maggiori di CO2); ii) nel secondo grafico viene mostrata una versione
destagionalizzata della stessa serie con aggiunta
? Nella serie destagionalizzata questa componente una stima della componente di trend.
prevedibile speriamo di averla eliminata.
Si noti come nel secondo grafico sia evidente i due
? Ovviamente lo stesso discorso pu essere fatto in rallentamenti nella crescita avvenuti tra il 1953/54
moltissime altre situazioni. Ad esempio, un aumento (guerra di Corea?) e il 1957/58 (conseguenza di alcuni
degli occupati nellagricoltura del 10% tra giugno e disastri?) Lo stesso non si pu dire con riferimento al
maggio una indicazione di un vero e proprio boom primo grafico dove i due rallentamenti sono coperti
economico? dalla componente stagionale.
500
600
serie destagionalizzata
500
400
AirPassengers
400
300
300
200
200
100
1950 1952 1954 1956 1958 1960 1950 1952 1954 1956 1958 1960
360
350
340
co2
? richiami sul modello lineare di regressione multipla
330
? rappresentazione del trend mediante un polinomio
320
? rappresentazione della stagionalit mediante variabili
dummies
1960 1970 1980 1990
Time
Sono evidenti
- una componente di trend sufficientemente regolare
(potrebbe essere un polinomio del secondo ordine)
- una componente stagionale
che rendono la serie non stazionaria.
(Trend)t = 0 + 1t + 2t2
(Stagionalit)t+12 = (Stagionalit)t.
0
2
2 4 6 8 10 12
Unit E: Stima della media e sua . . . 63 Unit E: Stima della media e sua . . . 64
Una conferma giunge anche dal grafico seguente che CO2: un modello lineare
mostra le sotto-serie mensili (ovvero la serie di tutti
i gennaii disegnata contro lanno,. . . ). Se vale il Poniamo
modello precedente in questo grafico dovremmo infatti
osservare 12 curve approssimamente parallele, ciascuna i = (Stagionalit)i per i = 1, . . . , 12
approssimabile da un pezzettino di parabola).
Allora, il modello prima formulato per la CO2 pu essere
scritto come un modello lineare del tipo
456
2371
18 yt = 0 + 1t + 2t2 + 1d1,t + + 12d12,t + (Errore)t
360
1
91
dummy (=mute).
456
37
1281 Scritto in termini matriciali il modello diventa
1
91
330
12 1 0 .. 0 0
y1 1 1
y2 1 2 22 0 1 .. 0 0 0
. . . ..
.. .. .. .. .. 1
320
5
46
. . .
37
2
181 y11 1 11 112 0 0 .. 1 0
2
911
y12 = 1 12 122 0 0 .. 0 1 1 +
y13 1 13 132 1 0 .. 0 0 .2
1960 1970 1980 1990
.
. . . .. .. .. .. .. ..
. . .
11
. . . .. .. .. .. .. ..
. . .
12
y468 1 468 4682 0 0 .. 0 1
Unit E: Stima della media e sua . . . 65 Unit E: Stima della media e sua . . . 66
Si osservi che in un modello del tipo co2 ~ p(2) + c
360
(serie osservata)=(trend)+(stagionalit)+(errore)
data
340
il livello medio dei tre addendi in cui viene scomposta
320
la serie osservata in una qualche forma arbitrario.
360
Ad esempio, assegnata una scomposizione di questo
trend
tipo, possiamo generarne unaltra perfettamente valida
340
aggiungendo un valore arbitrario, indichiamolo con ,
3 320
al trend e sottraendo /3 alla componente stagionale e
2/3 alla componente di errore.
2
seasonal
1
1 0
Possiamo superare questa ambiguit imponendo dei
vincoli in maniera tale che la prima componente, quella
2 3
di trend, sia interpretabile come quella che ci fornisce il
remainder
1
livello della serie osservata.
0
In particolare, sembra sensato chiedere che la somma
1
della componente stagionale in un anno sia nulla. Nel
2
1960 1970 1980 1990
caso del modello lineare precedente, questo diventa il Time
seguente vincolo lineare sui parametri
Il primo grafico mostra la serie originale, il secondo la
1 + + 12 = 0. componente di trend stimata, il terzo la componente
stagionale, lultimo la componente erratica.
Le stime a minimi quadrati possono quindi essere
ottenuti con la procedura indicata nel lucido (75).
Esercizio: Formulare i dettagli (in particolare cosa a e
?)
Unit E: Stima della media e sua . . . 67 Unit E: Stima della media e sua . . . 68
Si osservi come la componente di errore sia evidentemen- CO2: serie destagionalizzata
te autocorrelata positivamente (si spieghi perche
basandosi sul terzo grafico precedente; pu essere Avendo stimato la componente stagionale possiamo
conveniente costruirsi ad esempio un diagramma di eliminarla ottenendo la cosidetta serie destagiona-
autodispersione su cui disegnare approssimativamente lizzata. In questo caso, ci basta sottrarre dalla serie
(Errore)t1 sullasse delle ascisse e (Errore)t1 sullasse originale la componente stagionale
delle ordinate) e forse, addirittura, non stazionaria in
media.
360
Questo ci confermato dal correlogramma empirico
350
1.0
340
0.5
330
ACF
0.0
320
1960 1970 1980 1990
0.5
Time
Unit E: Stima della media e sua . . . 69 Unit E: Stima della media e sua . . . 70
Altri modelli di regressione: cenni Appendice: richiami sul modello di
regressione lineare multiplo
Al posto di variabili dummy, possiamo utilizzare
funzioni trigonometriche per introdurre in un situazione: una variabile dipendente (y) e k variabili
modello di regressione una componente periodica. esplicative (x1, . . . , xk).
Possiamo anche introdurre interazioni tra trend e relazione lineare:
stagionalit ad esempio introducendo nel modello dei
termini che sono il prodotto di quelli visti nellappli- yi = 0 + 1x1i + + kxki + (errore)i
cazione fatta. Nel contesto in cui stiamo operando
ci servirebbero, ad esempio, per modellare una dove
componente stagionale che varia nel tempo.
- yi indica li-sima osservazione sulla variabile dipendente
In alcuni campi applicativi comune utilizzare per mentre
stimare la componente di trend funzioni diverse dai - xji indica losservazione i-sima sulla j-sima variabile
polinomi. dipendente.
... scrittura matriciale: n osservazioni possono essere
scritte compattamente come
Non affrontiamo questi argomenti in parte per problemi
di tempo in parte perch nei corsi di Modelli I e II y = X +
sviluppate capacit di questo tipo. E quindi. . .
ovvero
y1
1 x11 .. x
errore
k1 1
. .. ..
. .. .. 0 ..
. = . . .. +
. . . .. ..
..
.. x k
yn 1 x1n kn erroren
Unit E: Stima della media e sua . . . 71 Unit E: Stima della media e sua . . . 72
minimi quadrati: la stima a minimi quadrati dei minimi quadrati ponderati: nella soluzione precedente
parametri di regressione, ovvero, il valore di = diamo lo stesso peso a tutte le osservazioni. In alcuni
(0, . . . , k) che minimizza vedremo per che ci interesser calcolare il vettore che
minimizza la seguente somma dei quadrati ponderata
n
X
T
(y X) (y X) = (yi 0 1x1i kxki)2 n
X
i=1 wi(yi 0 1x1i kxki)2
i=1
vale
= (XT X)1XT y dove w = (w1, . . . , wn) sono pesi noti assegnati ad ogni
osservazione. E possibile in questo caso far vedere che
valori previsti: il valore previsto/interpolato dal la soluzione data da
modello alle variabili esplicative (x1, . . . , xk), ovvero,
(w) = (XT WX)1XT Wy
0 + 1x1 + + kxk
dove W = diag(w1, . . . , wn) ovvero una matrice
una combinazione lineare delle y originali, ovvero, diagonale in cui w1 lelemento (1, 1), w2 lelemento
del tipo (2, 2) e cos via.
Xn
wi y i Nota: Anche in questo caso i valori previsti dal modello
i=1 sono funzione lineare delle y.
Infatti,
Unit E: Stima della media e sua . . . 73 Unit E: Stima della media e sua . . . 74
minimi quadrati con un vincolo: Supponiamo ora di
voler stimare il modello ma di sapere a priori che il
vettore dei parametri, , soddisfa esattamente al vincolo
Unit F
T
a =0
Scomposizione di una serie temporale:
dove a un qualsiasi vettore noto. un approccio flessibile
E possibile dimostrare che, tra tutti i vettori che
soddisfano il vincolo, quello che minimizza la somma dei
quadrati degli scarti delle osservazioni dai valori previsti
dal modello, ovvero che risolve il problema di minimo
vincolato
P
min0,...,k ni=1 (yi 0 1x1i kxki)2
con il vincolo che a00 + + akk = 0
aT
(a) = T a
a a
dove lo stimatore a minimi quadrati.
Nota: La formula in se non molto interessante.
Limportante che il problema abbia una soluzione
facilmente calcolabile.
. . . dellapproccio precededente che i risultati dipendono [il problema] - sono disponibili dei dati bivariati del
in maniera cruciale dalla capacit e dalla possibilit di tipo
scegliere in maniera appropriata le funzioni con cui {(x1, y1), . . . , (xn, yn)}
interpolare il trend e la componente stagionale. su due variabili X e Y;
In questa unit studieremo un approccio pi flessibile. - la relazione tra la X e la Y pu essere scritta nella
forma
La trattazione orientata yi = f(xi) + i (F.1)
dove f() = E(Y|X = x) mentre le i sono delle
al mostrare le connessioni esistenti con i problemi di
variabili casuali (visto quanto detto con media nulla);
regressione non parametrica;
- non sappiamo come specificare f() parametricamente
allanalisi esplorativa ed interattiva dei dati pi che alla (ad esempio, non una retta, non un polinomio,. . . );
produzione di statistiche ufficiali. - per sappiamo che f() una funzione continua e
senza oscillazioni particolarmente violente;
- vogliamo utilizzare i dati per costruire una stima di f()
8
dove indica una costante coincidente con la media f ( x) = y
^
6
della variabile Y 1
4
y
2
In questo caso degenere, potremmo stimare f()
0
mediante
4
n
1X 0 1 2 3 4 5
f(x) = = y = yi per qualsivoglia x
n x
i=1
ovvero, semplicemente calcolando la media delle y. Per, se le oscillazioni di f() sono dolci, possiamo
pensare di stimare f() mediante delle medie locali del
tipo
f ( x) = y
^
22
media delle yi tali che |xi x|
20
prescelta
16
14
o, del tipo,
12
3 4 5 6 7
x
media ponderata delle yi con
pesi costruiti in maniera che
f(x) =
risultino grandi se xi x e
piccoli se xi lontano da x
1
Si ricordi che, per la (F.1), possiamo scrivere yi = + i e che le hanno
media nulla
Unit F: Scomposizione di una serie . . . 79 Unit F: Scomposizione di una serie . . . 80
Questo ci porta a degli stimatori del tipo [pesi costruiti da un nucleo] Supponiamo di scegliere
una funzione k() non decrescente per x < 0 e non
n
X crescente per x > 0 e tale che k(x) 0 quando |x|
f(x) = wi(x)yi (F.2) sufficientemente grande. Una possibilit per generare i
i=1 pesi consiste nel porre
k
6
h
i=1
4
2
e, quindi,
0
n
2
X xi x
k yi
4
0.10
f(x) = i=1n
0.08
pesi usati per stimare f(1) X xi x
k
0.06
h
i=1
0.04
La funzione k() usualmente indicata come nucleo
0.02
0 1 2 3 4 5
X xi x
k (yi b0(x) b1(x)x bp(x)xp)2
exp( 0.5x2)
h(x)
i
con
(1 |x|3)3 se |x| 1
k(x) =
0 altrove
1.0
I( x 2)(1 (x 2)2)2
0.8
0.6
(1 x 3)3
0.4
0.2
0.0
3 2 1 0 1 2 3
y
pesi utilizzati per determinare la retta
w
0 1 2 3 4 5
n
X Z x(n)
2
SQp = [yi f(xi)] + v [f 00(x)]2dx
x(1)
6
i=1
Si osservi che
y
stessi;
- il secondo addendo viceversa una penalit che
4
8
anche la componente erratica); viceversa se h grande
la penalit pesa molto e quindi otteniamo una stima v "giusto"
molto liscia (per v otteniamo, qualsiasi siano i v "piccolo"
6
v "grande"
dati, una retta visto che in ogni altro caso la penalit
dominerebbe SQp). Si veda lesempio a pag. 90.
4
E possibile dimostrare che
? la soluzione del problema una funzione continua con
y
le prime due derivate continue che
2
? in ognuno degli intervalli determinato dai valori
distinti nelle x un polinomio del terzo ordine;
0
Ad esempio se supponiamo che tutte le x siano
differenti e gi ordinate (ovvero x1 < x2 < < xn)
la soluzione un polinomio cubico in tutti gli intervalli
2
[xi xi+1 ], i = 1, . . . , n1; i coefficienti dei vari polinomi
che rappresentano localmente la funzione non sono
completamente liberi ma soddisfano a dei vincoli che
4
garantiscono la continuit della soluzione e delle sue
prime due derivate. 0 1 2 3 4 5
8
che una volta fissato h o s o v, lo stimatore che si
ottiene ha, nella sostanza, la flessibilit di un modello di spline npe=3
regressione con un certo numero di parametri, numero loess npe=3
6
che viene usualmente chiamato numero di parametri
equivalenti.
4
Ovviamente pi il numero di parametri equivalenti
grande pi lo stimatore flessibile e viceversa.
y
Il numero di parametri equivalenti costituisce quindi una
2
maniera unificata per fissare il grado di lisciamento
desiderato.
0
Tra laltro, stimatori diversi (ad esempio loess o
spline) con un numero di parametri equivalenti uguali
producono di norma stime molte simili (si vedano i
2
grafici nelle prossime pagine).
0 1 2 3 4 5
8
spline npe=10 spline npe=30
loess npe=10 loess npe=30
6
6
4
4
y
y
2
2
0
0
2
2
4
0 1 2 3 4 5 0 1 2 3 4 5
x x
Per una serie non stagionale i metodi appena descritti Lo stimatore del trend che si ottiene nella parte centrale
sono utilizzabili direttamente per la stima della delle osservazioni (ovvero per t non troppo vicino
componente del trend. Il ruolo delle x sar in questo allinizio e alla fine del periodo osservato) della forma
caso giocato dal tempo, ovvero xi = ti dove ti indica
listante di tempo in cui stato osservato li-simo valore m
X
della serie temporale, mentre ovviamente le y saranno Tt = wiyt+i (F.3)
i valori della serie stessa. i=m
1.3
solo stagionale ovvero senza visibili traccie di una
componente di trend. La componente stagionale sembra
1.2
per evolversi nel tempo. In particolare la sua ampiezza
aumenta.
1.1
Il grafico nel lucido 101 mostra le 12 sottoserie mensili:
(i) il grafico in basso a sinistra mostra i valori osservati
nei vari mesi di gennaio; (ii) quello alla sua destra i
1.0
valori osservati nei vari mesi di febbraio; (iii) e cos via;
lordinamento da sinistra verso destra e dal basso in
0.9
alto (ovvero il grafico sulla seconda riga, terza colonna
riporta i valori osservati nei vari anni durante il mese di
0.8
luglio)
Una possibilit per stimare la componente stagionale
consiste nel lisciare ciascuna di queste sottoserie 2 4 6 8 10 12
2 4 6 8 10 12 2 4 6 8 10 12
1.2
1.3
1.1
1.2
1.0
1.1
0.9
1.0
0.8
0.9
0.8
1.3
1.2
1.3
1.1
1.2
1.0
1.1
0.9
1.0
0.8
0.9
0.8
1.3
1.2
1.3
1.1
1.2
1.0
1.1
0.9
1.0
0.8
0.9
0.8
2 4 6 8 10 12 2 4 6 8 10 12
2 4 6 8 10 12 2 4 6 8 10 12
Unit F: Scomposizione di una serie . . . 101 Unit F: Scomposizione di una serie . . . 102
Serie osservata (cerchietti) con stima della componente Stima simultanea delle componenti di trend
stagionale (linea continua) e stagionali: lalgoritmo di backfitting
(i)
stagionale, indichiamola con St lisciando le
(i)
sottoserie stagionali di at .
2 4 6 8 10 12 3. Calcoliamo una versione della serie destagionalizzata
(i) (i)
bt = yt/St e una stima della componente di trend,
(i) (i)
indichiamola con Tt , lisciando bt .
4. Poniamo i = i + 1 e ritorniamo al passo 2 a meno che
(i)
lalgoritmo non sia arrivato a convergenza, ovvero Tt
(i1)
non sia sufficientemente vicino a Tt .
Unit F: Scomposizione di una serie . . . 103 Unit F: Scomposizione di una serie . . . 104
Note In pratica
1. Se lalgoritmo viene bloccato dopo i iterazioni, Lutilizzo dellapproccio precedente richiede una serie
(i) (i)
utilizziamo le ultime stime prodotte, ovvero Tt e St di scelte da parte dellanalista che possono essere
come stime della componenti di trend e stagionali- convenientemente organizzate nel seguente ordine
t. La componente irrregolare diventa quindi It =
(i) (i)
yt/(Tt St ). Come si combinano trend e
stagionalit? In maniera additiva o O
Unit F: Scomposizione di una serie . . . 105 Unit F: Scomposizione di una serie . . . 106
Passeggeri delle aerolinee [scelta di uno stimatore per la stagionalit] Lisciando
la serie pre-destagionalizzata con una spline con 20
Illustriamo la procedura precedente utilizzando la serie gradi di libert otteniamo una stima preliminare del
il cui grafico mostrato nel lucido 59 trend. Dividendo la serie osservata per questa stima
otteniamo una serie in cui la componente di trend stata
[tipo di composizione.] Il grafico mostra chiaramente approssimativamente rimossa (lucido 118).
che lampiezza della componente stagionale aumenta Guardando ad un grafico delle sottoserie (lucido
allaumentare del livello della serie osservata (ovvero 119) possiamo decidere come stimare la componente
del suo trend). Adottiamo quindi in prima ipotesi un stagionale. In questo caso, anche per tenere il
modello moltiplicativo. modello semplice e quindi per ottenere delle stime
[scelta di uno stimatore per il trend] La presenza di stabili abbiamo deciso di lisciare le sottoserie mensili
una forte componente stagionale rende difficile capire semplicemente utilizzando delle rette. La capacit
dalla serie originale quanto sia necessario lisciare per di queste di spiegare le variazioni nella componente
ottenere ragionevoli stime del trend (vedi lucido 111). stagionale sembra infatti sufficiente (lucido 120).
Inoltre, se si usa uno stimatore flessibile del trend e [lisciamento suggerito da BIC] Il grafico nel lucido
lo si applica direttamente alla serie originale, le stime 121 mostra, utilizzando un grafico a scala di grigio, come
risentono della componente stagionale (vedi lucido varia il criterio BIC al variare del numero di parametri
112). equivalenti degli stimatori utilizzati per il trend e la
stagionalit. Nel grafico, ambedue le componenti sono
Per questi motivi conveniente ragionare con una stimate utilizzando delle spline.
versione pre-destagionalizzata della serie osservata
(lucidi 113-116). In questo caso la serie pre- Il grafico sostanzialmente conferma la scelta fatta a
destagionalizzata molto regolare (la componente di occhio. Indica infatti che il numero di parametri
rumore bassa). Provando a lisciarla utilizzando equivalenti da utilizzare per il trend dovrebbe essere
stimatori con vari livelli di flessibilit (lucido 117) scelto tra 10 e 20 e quello per la stagionalit vicino a
vediamo che una spline con 20 gradi di libert 2 (2 ovviamente il numero di parametri liberi in una
(parametri equivalenti) sembra essere in grado di retta).
descrivere in trend.
Unit F: Scomposizione di una serie . . . 107 Unit F: Scomposizione di una serie . . . 108
[scomposizione della serie] Avendo deciso, almeno [verifica della bont della scomposizione] Verifiche che
preliminarmente, come stimare trend e stagionali- possono essere condotte sono
t possiamo stimarli simultaneamente utilizzando
i) disegnare la serie destagionalizzata e il trend per
lalgoritmo di backfitting. Il risultato mostrato nel
vedere se questultimo fornisce una descrizione
lucido 122.
adeguata delle variazioni di lungo periodo della
Si osservi come i risultati ottenuti indichino che con media; la serie destagionalizzata ovviamente
il passare degli anni ci sia stato un aumento di quella calcolata con i coefficienti stagionali ottenuti
importanza del picco estivo mentre abbia via via perso alla fine dellalgoritmo di backfitting non quelli
di importanza il picco primaverile osservabile nei primi preliminari;
anni. Questi effetti sono ovviamente al netto dellaumen- ii) disegnare le sottoserie stagionali della serie con
to della ampiezza delle oscillazioni stagionali dovuto al il trend rimosso e verificare ladattamento dei
trend (la serie stagionale disegnata nel grafico quella coefficienti stagionali stimati;
dei coefficienti moltiplicativi). iii) calcolare la funzione di autocorrelazione della
componente irregolare; questultima non dovrebbe
indicare residui di stagionalit, ovvero, i coefficienti
di autocorrelazione ai ritardi stagionali dovrebbero
essere piccoli; sarebbe inoltre auspicabile che la
componente irregolare presenti al pi solamente
della correlazione di breve periodo (solo ai primi
ritardi).
Nel caso in esame i tre grafici sono riportati rispettiva-
mente nei lucidi 123, 124 e 125 e non sembrano indicare
la presenza di particolari problemi.
Unit F: Scomposizione di una serie . . . 109 Unit F: Scomposizione di una serie . . . 110
100 200 300 400 500 600100 200 300 400 500 600
Due stime del trend Una stima del trend che non ci piace!
600
500
400
300
200
100
1950 1952 1954 1956 1958 1960
1950 1952 1954 1956 1958 1960
Nel primo grafico, la stima basata su una spline con La stima del trend stata ottenuta lisciando la serie
4 parametri equivalenti, nel secondo su di una spline osservata con una spline con 20 parametri equivalenti.
con 20 parametri equivalenti. Qual delle due stime Si noti come risenta della componente stagionale e
migliore? Un p difficile da dirsi! 2 quindi non sia accettabile come stima del trend.
2
Le stime sono state ottenute lisciando la serie pre-destagionalizzata (vedi
lucido 113).
Unit F: Scomposizione di una serie . . . 111 Unit F: Scomposizione di una serie . . . 112
Pre-destagionalizzazione Assunzioni sensate sulle componenti sono:
i) Tt Tti per i = 6, . . . , 6 ovvero il trend varia
Vogliamo mostrare come sia possibile in maniera molto lentamente nel tempo;
approssimativa (e quindi utile soprattutto in una fase ii) St St12, ovvero la componente stagionale si ripete
esplorativa) ma molto semplice trasformare la serie quasi uguale in due anni vicini;
originale in maniera tale da eliminare la componente iii) (St5 + + St+6)/12 = 1 ovvero, nel corso di
stagionale ed esporre il trend. un anno le oscillazioni stagionali si compensano; in
Nel modello moltiplicativo caso contrario Tt non sarebbe interpretabile come il
livello di yt;
iv) la media di It vale 1 per qualsivoglia t; di nuovo, se
yt = T t St I t .
questo non accadesse non potremmo interpretare Tt
come il livello della serie osservata.
Consideriamo, per un prefissato t, gli istanti di tempo
Ma allora
t 6, . . . , t 1, t, t + 1, . . . , t + 6 1
2 yt6 + yt5 + + yt+5 + 12 yt+6
dt = Tt It
12
che, visto che la serie mensile, costituiscono le
osservazioni di un intero anno pi un mese.
dove It = (It6/2+It5 + +It+5 +It+6/2)/12 ha media
uno.
Quindi, almeno approssimativamente, dt una serie
temporale
a) con la componente di trend della seria originale
b) ma in cui la componente stagionale stata eliminata
Osservazione: dt calcolabile solo per t = 7, . . . , n 6
dove con n abbiamo indicato la lunghezza della serie.
Unit F: Scomposizione di una serie . . . 113 Unit F: Scomposizione di una serie . . . 114
Osservazione. Si osservi che le assunzioni i) e ii) Passeggeri delle aerolinee: serie
precedenti potrebbero essere sostituite dalla predestagionalizzata
Tt5St5 + + Tt+6St+6
Tt
12
450
ovvero dallipotesi che la media della parte sistematica
della serie fatta su di un periodo lungo un anno sia
400
approssimativamente uguale al trend in uno dei mesi
centrali.
350
Nel caso avessimo adottato un modello additivo,
300
avremmo potuto procedere nella medesima maniera.
Infatti in questo caso yt = Tt + St + It ed ragionevole
250
assumere che
i) Tt Tti per i = 6, . . . , 6;
200
ii) St St12;
iii) (St5 + + St + + St+5 + St+6)/12 = 0
150
iv) la media di It vale 0 per qualsivoglia t.
Quindi, in questo caso, 1950 1952 1954 1956 1958 1960
1
2 yt6 + yt5 + + yt+5 + 12 yt+6
dt = Tt + I t
12
Esercizio. Si estenda il ragionamento precedente al caso
dove It = (It6/2+It5 + +It+5 +It+6/2)/12 ha media di una serie con una frequenza qualsiasi distinguendo il
zero. caso in cui il periodo stagionale sia pari o dispari.
Unit F: Scomposizione di una serie . . . 115 Unit F: Scomposizione di una serie . . . 116
Stime preliminari della componente di trend Stima preliminare della serie senza trend
ottenute lisciando la serie
pre-destagionalizzata
1.3
1.2
spline con 2 gradi di liberta spline con 5 gradi di liberta
1.1
1.0
0.9
spline con 10 gradi di liberta spline con 20 gradi di liberta
0.8
1950 1952 1954 1956 1958 1960
serie osservata
stima preliminare del trend
Unit F: Scomposizione di una serie . . . 117 Unit F: Scomposizione di una serie . . . 118
Grafici delle sottoserie mensili della serie Grafici delle sottoserie mensili della serie
senza trend senza trend
Given : cycle(y) Given : cycle(y)
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
1.3
1.3
1.2
1.2
1.1
1.1
1.0
1.0
0.9
0.9
0.8
0.8
1.3
1.3
1.2
1.2
1.1
1.1
y
1.0
1.0
0.9
0.9
0.8
0.8
1.3
1.3
1.2
1.2
1.1
1.1
1.0
1.0
0.9
0.9
0.8
0.8
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
time(y)
Unit F: Scomposizione di una serie . . . 119 Unit F: Scomposizione di una serie . . . 120
BIC in funzione dei gradi di lisciamento Scomposizione della serie
utilizzati AirPassengers ~ s(20) * p(1)
600
500
6
400
data
300
650
200
5
100
500
700
400
trend
300
4 750
200
1.3
800
1.2
3
seasonal
1.1
1.0
850
0.9
0.8
2
1.04
5 10 15 20 25 30 35
remainder
1.00
Il grafico basato su di un modello moltiplicativo. 0.96
delle spline. Lasse delle x mostra il numero di 1950 1952 1954 1956 1958 1960
Unit F: Scomposizione di una serie . . . 121 Unit F: Scomposizione di una serie . . . 122
Serie destagionalizzata e trend stimato Serie con il trend eliminato:
sottoserie mensili e stagionalit stimata
Given : cycle(y)
1.3
1.2
1.1
400
1.0
0.9
0.8
300
1.3
1.2
1.1
200
1.0
0.9
0.8
1950 1952 1954 1956 1958 1960
1.3
1.2
1.1
1.0
0.9
0.8
time(y)
Unit F: Scomposizione di una serie . . . 123 Unit F: Scomposizione di una serie . . . 124
Componente irregolare: Scomposizioni con problemi
funzione di autocorrelazione campionaria
Nel lucido 127, sono riportati i correlogrammi della
componente irregolare di alcune scomposizioni ottenute
con scelte non felici dei gradi di lisciamento.
1.0
Unit F: Scomposizione di una serie . . . 125 Unit F: Scomposizione di una serie . . . 126
Correlogrammi che indicano problemi Serie destagionalizzata e trend
1.0
1.0
trend: polinomio grado 2 trend: spline 20 gdl
500
stagionalita: retta stagionalita: costante
0.5
0.5
0.0
0.0
400
0.5
0.5
1.0
1.0
0 1 2 3 4 5 0 1 2 3 4 5
300
1.0
1.0
0.5
200
0.0
0.0
0.5
0.5
1.0
1.0
Unit F: Scomposizione di una serie . . . 127 Unit F: Scomposizione di una serie . . . 128
Serie con il trend eliminato: Serie con il trend eliminato:
sottoserie mensili e stagionalit stimata sottoserie mensili e stagionalit stimata
Given : cycle(y) Given : cycle(y)
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
1.3
1.3
1.2
1.2
1.1
1.1
1.0
1.0
0.9
0.9
0.8
0.8
1.3
1.3
1.2
1.2
1.1
1.1
y
y
1.0
1.0
0.9
0.9
0.8
0.8
1.3
1.3
1.2
1.2
1.1
1.1
1.0
1.0
0.9
0.9
0.8
0.8
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
time(y) time(y)
Il trend stato stimato utilizzando una spline con 20 Il trend stato stimato utilizzando una spline con 20
gradi di libert. La componente stagionale utilizzando gradi di libert. La componente stagionale utilizzando
una costante per interpolare le sottoserie mensili. una spline con 6 gradi di libert per interpolare le
sottoserie mensili.
Unit F: Scomposizione di una serie . . . 129 Unit F: Scomposizione di una serie . . . 130
Estensioni e cautele
Unit G: Modelli dinamici basati sullidea di . . . 133 Unit G: Modelli dinamici basati sullidea di . . . 134
Un modello basato sul lisciamento Una variante molto semplice del modello precedente
esponenziale che permette al livello di evolversi si concretizza
nellassumere che
Per iniziare consideriamo il caso in cui y1, y2, . . . sia
yt = lt1 + ut
una successione di v.c. indipendenti di media costante (G.3)
lt = (1 )lt1 + yt (l0 = , 0 1)
ed uguale ad . Volendo complicarci la vita, possiamo
pensare che la successione sia generata dal seguente
La prima equazione rimasta invariata. La seconda
paio di equazioni alle differenze
equazione viceversa stata modificata introducendo
un aggiornamento del livello sulla base dellultima
yt = lt1 + ut
osservazione. In particolare, il livello della prossima
lt = lt1 (l0 = )
osservazione, lt, viene ottenuto come media (pesata) del
livello precedente, lt1, e dellosservazione corrente yt.
dove, ut = yt .
Con sostituzioni successive facile mostrare che
La prima equazione ci dice che yt ottenuto come la
somma di due addendi
lt = yt + (1 )yt1 + (1 )2yt2 +
- il primo, lt1, fornisce il livello della serie osservata + (1 )t1y1 + +(1 )tl0 =
(infatti E(ut) = 0); la notazione e, in particolare, il t1
X
pedice utilizzato per il livello, stata scelta in maniera = (1 )iyti + (1 )tl0 (G.4)
da enfatizzare il fatto che il livello delle osservazioni al i=0
tempo t gi noto al tempo t 1;
- il secondo, ut, costituisce la deviazione del valore Quindi lt una media pesata di yt, . . . , y1, l0. La somma
corrente dal livello determinato precedentemente. dei pesi vale 1. Se 0 < < 1, i pesi assegnati alle
osservazioni passate decrescono geometricamente; sono
La seconda equazione ci dice che per questo modello quindi posti su una curva di tipo esponenziale da cui il
particolarmente semplice il livello della serie rimane nome lisciamento esponenziale. Si osservi anche come
costante (ovvero era noto non solo al tempo t 1 ma
il peso assegnato ad l0 converga a zero per t +.
anche ai tempi di Adamo e Eva).
Unit G: Modelli dinamici basati sullidea di . . . 135 Unit G: Modelli dinamici basati sullidea di . . . 136
Pesi esponenziali per tre differenti valori Tre serie simulate
di
10
0.20
= 0.2
0.15
5
0.10
0
0.05
= 0.2
5
0.00
10
0.5
= 0.5
0.4
5
0.3
0
0.2
= 0.5
0.1
5
0.8 0.0
10
= 0.8
0.6
5
0.4
0
0.2
= 0.8
5
0 100 200 300 400 500
0.0
5 10 15
Le tre serie sono state simulate ponendo l0 = 0 e
Si osservi come allaumentare di i pesi assegnati alle utilizzando sempre la stessa sequenza di numeri pseudo-
osservazioni pi lontane nel tempo decrescano. Quindi casuali normali (di media nulla e varianza unitaria).
pi grande pi la memoria del processo diminuisce. Si osservi come lampiezza delle variazioni del livello
aumenti allaumentare di .
Unit G: Modelli dinamici basati sullidea di . . . 137 Unit G: Modelli dinamici basati sullidea di . . . 138
Si osservi che Ricordando che
se = 0 ritorniamo al modello con livello costante; - la media di una somma di v.c. la somma delle medie;
se = 1, lt = yt ovvero il livello della prossima - la varianza di una somma di v.c. incorrelate la
osservazione coincide con losservazione corrente. somma della varianze;
- stiamo supponendo che l0 sia una costante;
Sostituendo la prima equazione della (G.3) nella
- le {ut} sono v.c. indipendenti (e quindi incorrelate) di
seconda, possiamo scrivere
media nulla,
yt = lt1 + ut troviamo che
lt = lt1 + ut (l0 = )
E(yt) = E(lt) = l0
t1
X
Dalla rappresentazione precedente, possiamo vedere var(yt) = var(ut) + 2
var(uti)
come i=1
t1
X
t1
X var(lt) = 2 var(uti)
yt = l 0 + u t + uti i=0
i=1
t1
X
lt = l 0 + uti La prima relazione ci dice che la media della serie
i=0 osservata (e del suo livello) costante.
Unit G: Modelli dinamici basati sullidea di . . . 139 Unit G: Modelli dinamici basati sullidea di . . . 140
Le altre due ci dicono per che se linnovazione non Serie alla deriva
degenere (ovvero se var(ut) non zero) allora, le
varianze di yt e di lt aumentano allaumentare di t. In [il problema] Molte serie temporali contengono una
particolare, se, per qualsivoglia t, var(ut) = 2 abbiamo evidente componente di deriva (drift in inglese) ovvero
che tendono per lunghi periodi ad aumentare o a diminuire
var(yt) = (1 + 2(t 1))2. sistematicamente. Vediamo allora come sia possibile
Quindi, per t sufficientemente grande yt pu essere introdurre esplicitamente una componente di questo
dovunque. tipo nel modello.
Dallaltra parte per, poich [deriva additiva costante] Un modello con una deriva
costante nel tempo
var(yt yt1) = var(ut + ( 1)ut1) = (1 + (1 )2)2
yt = lt1 + d + ut
(G.5)
vero che yt pu arrivare per t arbitrariamente grande lt = (1 )(lt1 + d) + yt = lt1 + d + ut
dappertutto ma, a meno che 2 non sia enorme si pu
muovere solo a piccoli passi. dove d il parametro di deriva, mentre, al solito, l0 =
e 0 1.
Si osservi come, nella (G.5), il livello tendenzialmente
aumenti di d unit in ogni istante di tempo.
Inoltre, come facile verificare,
E(yt) = l0 + d t
= 0.2
40
yt = lt1 + dt1 + ut
30
lt = (1 )(lt1 + dt1) + yt
20
dt = (1 )dt1 + (lt lt1)
10
= 0.5 passante per i punti (t1, lt1) e (t, lt). Quindi, la deriva,
40
t1
10
X
dt = (1 )i(lti lti1 ) + (1 )td0
50 0
i=0
= 0.8
40
della spezzata che passa per i punti (0, l0), (1, l1),. . . ,(t, lt).
10
0 100 200 300 400 500 forma che enfatizza il ruolo dellinnovazione come
In tutte le serie stato utilizzato l0 = 0 e d = yt = lt1 + dt1 + ut
0,1. Linnovazione stata generata utilizzando un lt = lt1 + dt1 + ut
generatore di normali standard. La sequenza dei valori
dt = dt1 + ut
dellinnovazione la stessa nelle tre simulazioni che
quindi differiscono solo per il valore di .
Unit G: Modelli dinamici basati sullidea di . . . 143 Unit G: Modelli dinamici basati sullidea di . . . 144
[deriva additiva a smorzare (damped)] Una estensione Due serie simulate. . .
del modello precedente che risulta a volte utile si
concretizza nellassumere che
500
yt = lt1 + dt1 + ut
lt = lt1 + dt1 + ut
300
dt = dt1 + ut
100
Se = 1 riotteniamo il modello precedente. Viceversa,
80 0
quando < 1 la deriva tende a contrarsi verso lo
zero. In questi casi otteniamo quindi un modello in cui i
60
cambiamenti di direzione sono pi probabili.
40
20
0
0 50 100 150 200 250 300
Unit G: Modelli dinamici basati sullidea di . . . 145 Unit G: Modelli dinamici basati sullidea di . . . 146
. . . e le rispettive derive [deriva moltiplicativa] Il punto di riferimento per i
modelli precedenti un trend lineare. In realt,
soprattuto nella versione con deriva che si evolve, il
modello riesce ad approssimare anche trend di natura
diversa.
4
=1
= 0.9 Esiste comunque una versione del modello precedente
che ingloba esplicitamente lidea di una crescita di
3
yt = exp(a + bt) + ut
z
differenze
yt = lt1dt1 + ut
0
Unit G: Modelli dinamici basati sullidea di . . . 147 Unit G: Modelli dinamici basati sullidea di . . . 148
Una serie simulate con deriva moltiplicativa Introduzione di una componente stagionale
yt = lt1 + dt1 + stf + ut
40
Unit G: Modelli dinamici basati sullidea di . . . 149 Unit G: Modelli dinamici basati sullidea di . . . 150
Si osservino inoltre le equazioni con cui vengono Una serie simulata con stagionalit
aggiornati lt, che ora interpretabile come il livello del additiva. . .
trend, e st, la componente stagionale. In particolare
si noti come combinino in una certa qual misura lidea
del lisciamento esponenziale con lidea dellalgoritmo di
backfitting presentato a pagina 104. Infatti, lt e st sono
1000
una media ponderata
dei valori precedenti, lt1 e stf rispettivamente,
800
e del valore corrente della serie, yt, da cui viene
eliminata nel caso di lt la componente stagionale e
600
nel caso di st la componente di trend.
La forma che rende eplicito il ruolo dellinnovazione del
400
modello precedente
200
yt = lt1 + dt1 + stf + ut
lt = lt1 + dt1 + ut
dt = dt1 + ut
0
st = stf + ut
5 10 15 20 25
Unit G: Modelli dinamici basati sullidea di . . . 151 Unit G: Modelli dinamici basati sullidea di . . . 152
e le sue componenti [stagionalit moltiplicativa] Seguendo lo stesso ordine
di idee possiamo definire un modello con una
componente stagionale moltiplicativa ponendo
1000
yt = (lt1 + dt1)stf + ut
600
level
lt = (1 )(lt1 + dt1) + yt
stf
200
yt
6
st = (1 )stf +
l +d
5
t1 t1
drift
4
3
2
1
20
yt = (lt1 + dt1)stf + ut
lt = lt1 + dt1 + ut
20
stf
60
dt = dt1 + ut
10 15
ut
innovation
st = stf +
5
l +d t1 t1
0
10
0 5 10 15 20 25
Unit G: Modelli dinamici basati sullidea di . . . 153 Unit G: Modelli dinamici basati sullidea di . . . 154
Una serie simulata con stagionalit e le sue componenti
moltiplicativa. . .
250
350
150
level
50
300
1.50
1.0
250
drift
0.5
200
1.30.0
seasonality
1.2
150
1.1
1.0
0.9
100
2
innovation
1
50
0
1
2
0
3
0 5 10 15 20 25
5 10 15 20 25
Unit G: Modelli dinamici basati sullidea di . . . 155 Unit G: Modelli dinamici basati sullidea di . . . 156
Innovazione additiva o moltiplicativa? [innovazione moltiplicativa] In altri casi per la
variabilit di ut sembra dipendere da gt ed in
[notazione] Tutti i modelli precedenti possono essere particolare, lo scarto quadratico medio di ut sembra
scritti nella forma essere proporzionale a gt. E quindi usuale considerare
anche la possibilit che
yt = g t + u t
equazioni aggiuntive per calcolare gt var(ut) = 2g2t
dove gt la parte di yt predicibile sulla base del passato. In questi casi, si parla di innovazione moltiplicativa.
Infatti il modello pu anche essere scritto come
[innovazione additiva] Per molte serie temporali la
varianza di ut, ovvero dellinnovazione, non sembra
yt = gt(1 + at)
dipendere dal livello della serie (ovvero da gt).
equazioni aggiuntive per calcolare gt
Supponendo che la varianza sia anche costante nel
tempo possiamo allora scrivere
dove at = ut/gt.
var(ut) = 2 nota: Si osservi che nel caso moltiplicativo abbiamo
assunto gt > 0.
dove una costante appropriata.
Si parla, in questi casi, di innovazione addittiva.
Unit G: Modelli dinamici basati sullidea di . . . 157 Unit G: Modelli dinamici basati sullidea di . . . 158
Sintesi dei modelli considerati: le quattro Sintesi dei modelli considerati: casi
forme di base particolari
Unit G: Modelli dinamici basati sullidea di . . . 159 Unit G: Modelli dinamici basati sullidea di . . . 160
Nomi assegnati ad alcuni casi particolari Costruzione empirica di un modello
[modello di Holt] Modello senza deriva e senza stagionalit. Per costruire un modello appartenente alla classe
E chiamato anche lisciamento esponenziale semplice.In ast: descritta possibile seguire il seguente approccio
drift=none e seasonality=none.
[lisciamento esponenziale doppio] Modello senza stagionalit e
con deriva additiva non a smorzare. In ast: drift=additive e scelta di uno dei modelli della o O
seasonality=none. classe
NO:
[modello di Holt-Winters additivo] Modello con deriva additiva
stima dei parametri del modello rivediamo le
(non a smorzare) e stagionalit additiva. E chiamato
anche lisciamento esponenziale triplo additivo. In ast: scelto scelte fatte
drift=additive e seasonality=additive.
precedente-
il modello sembra descrivere in mente
[modello di Holt-Winters moltiplicativo] Modello con deriva additiva
maniera adeguata il meccanismo /
(non a smorzare) e stagionalit moltiplicativa. E chiamato
anche lisciamento esponenziale triplo moltiplicativo. In ast:
generatore della serie temporale
drift=additive e seasonality=multiplicative. osservata?
[notazione] Indichiamo con il vettore dei parametri Sotto questa ipotesi il calcolo della verosimiglianza
di un particolare modello, ovvero, il vettore che ha come molto agevole. Innanzitutto ricordiamoci che
elementi
p(y1, . . . , yn; ) = p(y1; ) p(y2|y1; )
(i) le costanti di lisciamento non vincolate (ovvero, i
p(yn|yn1 , . . . , y1; )
vari , ,. . . ),
(ii) le condizioni iniziali per le equazioni alle
differenze che definiscono il modello (ovvero, l0 e dove p(; ) indica la funzione di densit del primo
se servono d0 e s0, s1, . . .) e argomento calcolata sotto lipotesi che il vero valore dei
(iii) il parametro di dispersione dellinnovazione (). parametri sia . Osserviamo poi che, dalla struttura del
modello, segue immediatamente che
Tutti i modelli di questa unit possono essere scritti nella
forma (yt|yt1, . . . , y1) N(gt(), 2vt()2)
yt = gt() + vt()at
dove gt() , al solito la parte di yt predicibile sulla base Infatti, assegnate le osservazioni passate e , gt() e
del passato, at = ut/vt() e vt() sono assimilabili a delle quantit non stocastiche.
1 se linnovazione additiva
vt() =
gt() se linnovazione moltiplicativa
Unit G: Modelli dinamici basati sullidea di . . . 163 Unit G: Modelli dinamici basati sullidea di . . . 164
La funzione di verosimiglianza, a meno di termini [osservazioni e cautele] E possibile far vedere che le
moltiplicativi non dipendenti da quindi propriet (almeno quelle asintotiche) degli stimatori
non dipendono dallassunzione di normalit fatta nel
n 2 !
calcolo della verosimiglianza (nel senso che, sotto ipotesi
Y 1 1 yt gt()
L() = exp piuttosto deboli, la distribuzione asintotica, almeno dei
vt() 2 vt()
t=1
parametri di lisciamento e di la stessa sia se at
normale sia se non lo ). E per bene tenere presente
Gli stimatori di massima verosimiglianza possono essere che
ottenuti massimizzando L(). Per nessuno dei modelli
(i) I parametri che descrivono le condizioni iniziali
considerati gli stimatori sono esprimibili in forma chiusa.
(l0, d0, s0,. . . ) non vengono stimati, in generale, in
E quindi necessario utilizzare delle opportune procedure
maniera consistente. Questa non una caratteristi-
numeriche.
ca degli stimatori di massima verosimiglianza. E una
Esercizio. Si partizioni come (, ) dove indica il caratteristica dei modelli ed in particolare del fatto
vettore di tutti i parametri escluso . Si osservi che gt(), che gt() dipende solo debolmente dalle condizioni
qualsiasi sia il modello non dipende da e quindi pu iniziali quando t grande (si ricordi ad esempio come
essere scritto come gt(). Si dimostri inoltre che nel limportanza di l0 diminuisse nellequazione (G.4)).
caso linnovazione sia additiva gli stimatori di massima Fanno ovviamente eccezione i casi in cui leffetto della
verosimiglianza possono essere ottenuti minimizzando condizione iniziale non scompare da gt(). Esempi sono
in la somma dei quadrati degli errori di previsione un i modelli con deriva o stagionalit costante nel tempo.
passo in avanti
(ii) I parametri di lisciamento (,. . . ) variano nellinter-
n
X vallo [0, 1]. La teoria asintotica standard per questi
2
s () = (yt gt())2 parametri vale ma solamente se il vero valore dei
t=1 parametri interno allintervallo. Negli altri casi la teoria
standard non si applica. Si tratta di una situazione
e, indicata la stima di con , stimando 2 mediante sfortunata visto che molte ipotesi di interesse vedono
coivolti punti estremi (ad esempio, per verificare se
1 2 la deriva fissa o no saremmo interessati a verificare
2 = s ()
n lipotesi = 0).
Unit G: Modelli dinamici basati sullidea di . . . 165 Unit G: Modelli dinamici basati sullidea di . . . 166
Scelta di un modello Verifica delladattamento
Una possibile strategia consiste nello Si basano usualmente sullanalisi delle innovazioni
standardizzate del modello stimato, ovvero di
(a) stimare tutti i possibili modelli (almeno tutti quelli
compatibili con le caratteristiche della serie, ovvero, ad
esempio, non ha senso considerare i modelli stagionali yt gt()
at =
per una serie che stagionale non ); vt()
(b) ordinare i modelli stimati utilizzando un criterio del
tipo di quelli considerati a pagina 96 che nel presente Verifiche standard sono:
caso sono definiti come
(i) disegnare at verso t per verificare se la media nulla
e la varianza costante per ogni t.
2logL() + cn(numero parametri del modello)
(ii) calcolare e disegnare la funzione di autocorrelazio-
dove indica lo stimatore di massima verosimiglian- ne di at e magari anche verificare lipotesi che at sia
za mentre cn una costante (per cn = 2 otteniamo il assimilabile ad un rumore bianco utilizzando il test di
criterio AIC, per cn = log(n) il criterio BIC). Ricordando Box-Ljung.
che L() pu essere interpretata come una misura della (iii) inoltre usuale anche utilizzare un normal
capacit del modello con una particolare struttura e probability plot per verificare la normalit di at;
parametri di spiegare i dati osservati, la logica degli per quanto non strettamente richiesta, la normalit,
indici descritti quella del lucido 96. almeno approssimata, di at garantisce la sensatezza
(c) scegliere il modello migliore (quello con il criterio dellapproccio utilizzato per la stima, pu essere utile
pi basso) o, se questo non soddisfacente, uno dei per calcolare previsioni intervallari (vedi lucido 176);
migliori. il grafico pu inoltre segnalare la presenza di eventuali
osservazioni anomale il cui effetto deve essere indagato.
Esercizio. Dimostrare che se si confrontano modelli
con innovazione additiva i criterio scritti sopra sono
equivalenti ai criteri nlog2 + cn(num. par. modello)
Unit G: Modelli dinamici basati sullidea di . . . 167 Unit G: Modelli dinamici basati sullidea di . . . 168
Una serie temporale di vendite Innanzitutto carichiamo i dati, selezioniamo le prime
144 osservazioni e disegnamo la serie osservata.
Riportiamo lanalisi, inclusi i comandi per R, per
analizzare la serie mostrata nel primo grafico della figura > data(BJsales)
nel lucido 8. La serie comprende 150 osservazioni. > y <- window(BJsales,end=144)
Per costruire un modello noi useremo le prime 144 > plot(y)
osservazioni. In questa maniera potremmo poi utilizzare
il modello per prevedere le ultime 6 osservazioni e
260
confrontare le previsioni con quanto effettivamente
avvenuto.
250
240
230
y
220
210
200
0 20 40 60 80 100 120 140
Time
Unit G: Modelli dinamici basati sullidea di . . . 169 Unit G: Modelli dinamici basati sullidea di . . . 170
Poi stimiamo tutti i modelli compatibili con la serie Stimiamo quindi questo modello (output rieditato
osservata (ovvero tutti i modelli non stagionali) e spezzando alcune delle righe originali)
ordiniamoli utilizzando BIC
> m <- esFit(y,drift="d/additive",
> esId(y) + seasonality="none",
drift sea inn np BIC AIC rankAIC + innovation="additive")
1 d n a 5 825.1447 810.2957 1 > m
2 a n a 4 826.2208 814.3416 2 Call: esFit(y = y, drift = "d/additive",
3 m n a 4 827.2143 815.3351 3 seasonality = "none",
4 a n m 4 830.0236 818.1444 4 innovation = "additive")
5 m n m 4 830.8629 818.9837 5 drift=d/additive,
6 c/a n a 3 838.0757 829.1662 6 seasonality=none,
7 c/m n a 3 838.2286 829.3191 7 innovation=additive
8 c/m n m 3 842.4375 833.5281 8 alpha phi beta
9 n n a 2 844.9391 838.9995 9 0.94758225 0.87909108 0.27893611
10 n n m 2 849.0382 843.0986 10 l.start d.start sigma
11 d n m 5 1610.2699 1595.4208 11 200.03953950 -0.08819421 1.34164674
12 c/a n m 3 2356.4463 2347.5368 12 -2log(likelihood)= 800.2957
AIC= 810.2957 BIC= 825.1447
I differenti modelli sono idenficati nelloutput con le
iniziali del tipo di deriva (drift), stagionalit (sea) e
innovazione (inn). Loutput del comando mostra anche
il numero di parametri del modello (np), i valori di BIC
e AIC e in numero dordine del modello quando se si
utilizzasse AIC per ordinare i vari modelli (rankAIC). In
questo caso, i due criteri sono perfettamente concordi
e suggeriscono un modello con deriva additiva a
smorzare (damped) e innovazione addittiva.
Unit G: Modelli dinamici basati sullidea di . . . 171 Unit G: Modelli dinamici basati sullidea di . . . 172
Il comando tsdiag pu essere utilizzato per ottenere il Mostriamo anche il normal proability plot di at.
grafico delle at, della loro autocorrelazione campionaria
e dei livelli di significativit osservati del test di Ljung- > qqnorm(residuals(m))
Box calcolato sul primo coefficiente di autocorrelazio-
Normal QQ Plot
ne, sui primi due,. . . , sui primi gof.lag coefficienti di
autocorrelazione dove gof.lag il secondo argomento
4
di tsdiag.
> tsdiag(m,20)
2
Standardized Residuals
3
2
Sample Quantiles
1
1
0
3
Time
2
ACF of Residuals
1.0
0.6
ACF
0.2
4
0.2
0 5 10 15 20
2 1 0 1 2
Lag
Theoretical Quantiles
p values for LjungBox statistic
0.8
p value
0.4
0.0
5 10 15 20
lag
Unit G: Modelli dinamici basati sullidea di . . . 173 Unit G: Modelli dinamici basati sullidea di . . . 174
La funzione di autocorrelazione e i valori del test di Previsione: considerazioni generali
Ljung-Box sono molto buoni. Il grafico dei residui non
segnala deviazioni particolarmente rilevanti da quanto [il problema] Vogliamo, sulla base delle osservazioni,
atteso (al pi una leggera diminuzione della variablibit indichiamole con (y1, . . . , yn), prevedere il valore della
con il passare del tempo). serie in un istante futuro, diciamo n + h. In altre parole,
Il normal probability plot indica un buon adattamento vogliamo farci raccontare dalle osservazioni y1, . . . , yn
della distribuzione normale alle at. quello che sanno su yn+h .
In conclusione adottiamo il modello suggerito da BIC e [futuro|passato] La soluzione generale offerta dalla
AIC come un possibile modello generatore della serie. distribuzione di yt+h condizionata a (y1, . . . , yn).
Infatti, P(yn+h |y1, . . . , yn) ci dice dove ci aspettiamo di
trovare il processo al tempo t + h sapendo che al tempo
1 era a y1, al tempo 2 a y2,. . . , al tempo n a yn.
Ad esempio, se fosse vero che P(0 yt+h
1|y1, . . . , yn) = 0 allora nessuna delle realizzazioni del
processo che passano al tempo 1 per y1,. . . , al tempo
n per yn, poi, al tempo t + h si trovano nellintervallo
[0, 1].
Mentre, se fosse vero che P(0 yt+h 1|y1, . . . , yn) =
0,9 allora 9 traiettorie su 10 del processo che passano
al tempo 1 per y1,. . . , si trovano al tempo t + h
nellintervallo [0, 1].
Quindi, in termini generali, la soluzione del problema
consiste nel calcolare (almeno approssimativamen-
te) questa distribuzione condizionata o qualche suo
parametro caratteristico.
Unit G: Modelli dinamici basati sullidea di . . . 175 Unit G: Modelli dinamici basati sullidea di . . . 176
[media/mediana condizionati] Media e mediana della [intervalli di previsione] I quantili della distribuzione
distribuzione condizionata possono essere utilizzate per condizionata sono particolarmente interessanti poich
fornire una idea di dove dovrebbe trovarsi il processo permettono di costruire agevolmente degli intervalli
al tempo yt+h . Tra laltro si osservi che per una nota di previsione, ovvero degli intervalli che includono
propriet della media i valore futuro con una probabilit preassegna-
ta. Intervalli di previsione sono nelle applicazioni
E((yn+h yn+h|n )2|Yn) E((yn+h (Yn))2|Yn) importanti. Permettono infatti di esporre in maniera
intuitiva e non tecnica il grado di precisione con cui
dove conosciamo il futuro.
- Yn = (y1, . . . , yn) indica le osservazioni, Si supponga di voler determinare [an+h|n , bn+h|n ] tali che
- yn+h|n = E(yn+h |Yn) indica la media condizionata e
- () indica una generica funzione. P(an+h|n yn+h bn+h|n |y1, . . . , yn) = 1
Unit G: Modelli dinamici basati sullidea di . . . 177 Unit G: Modelli dinamici basati sullidea di . . . 178
Previsione con i modelli basati sul
lisciamento esponenziale Algoritmo di simulazione
Unit G: Modelli dinamici basati sullidea di . . . 179 Unit G: Modelli dinamici basati sullidea di . . . 180
Alcuni futuri simulati (e uno vero!!!) Per quanto riguarda la simulazione dellinnovazione
futura sono spesso considerate due possibilit:
270
Unit G: Modelli dinamici basati sullidea di . . . 183 Unit G: Modelli dinamici basati sullidea di . . . 184
Previsione della serie delle vendite Per ottenere le previsione ingenue o lanalogo di quanto
appena vista ma calcolato ricampionando le innovazioni
Con il seguente comando, se m loggetto ritornato da sufficiente cambiare metodo.
esFit, chiediamo a R di generare 1000 futuri3 per
le 144 osservazioni utilizzate per stimare il modello. > predict(m,6,method="naive")
Linnovazione viene simulata da una distribuzione Time Series:
normale. Il metodo predict in questo caso ritorna Start = 145
una serie temporale multivariate contenenti le stime End = 150
della media, della mediana e di alcuni altri percentili Frequency = 1
della distribuzione condizionata. Lultimo comando sotto Series 1
(il cui output stato tagliato) pu essere utilizzato [1,] 261.8299
per mostrare le stime della media, della mediana e un .............
intervallo di previsione al 90% per i valori futuri. [6,] 264.5363
> predict(m,6,method="resample")[,
> yg <- predict(m,6,method="gauss") + c("5%","median","mean","95%")]
> colnames(yg) Time Series:
[1] "2.5%" "5%" "25%" "median" "mean" Start = 145
"75%" "95%" "97.5%" End = 150
> yg[,c("5%","median","mean","95%")] Frequency = 1
Time Series: 5% median mean 95%
Start = 145 145 259.7755 261.7510 261.7610 263.9980
End = 150 .......................................
Frequency = 1 150 255.9069 264.2205 264.2492 272.4579
5% median mean 95%
145 259.6545 261.8513 261.8354 263.9763
.......................................
150 256.2099 264.5428 264.5254 272.9976
3
il numero variabile utilizzando largomento n.series
Unit G: Modelli dinamici basati sullidea di . . . 185 Unit G: Modelli dinamici basati sullidea di . . . 186
Con i seguenti comandi disegnamo la media della Una serie con le bollicine
distribuzione condizionata, un intervallo di previsione al
90% e, per confronto, le vere osservazioni sulle vendite. Una delle serie temporali inclusa in ast si riferisce
alle vendite di champagne di una particolare azienda
> a <- c("5%","mean","95%") produttrice. Si tratta di una serie storica mensile.
> plot(yg[,a],plot.type="s",lty="dotdash") Anche in questo caso, per vedere la capacit previsiva
> points(window(BJsales,start=145),pch="*",cex=2) del modello in azione non utilizzeremo le ultime 12
osservazioni per costruire il modello.
> data(champagne)
> end(champagne)
[1] 1972 9
> bollicine <- window(champagne,end=c(1971,9))
> plot(bollicine)
270
14000
yg[, c("5%", "mean", "95%")]
12000
265
10000
* * *
* *
bollicine
8000
*
260
6000
4000
2000
Unit G: Modelli dinamici basati sullidea di . . . 187 Unit G: Modelli dinamici basati sullidea di . . . 188
Vediamo quali modelli suggeriscono AIC e BIC. Con Proviamo a stimare i tre modelli migliori per ambedue i
keep=2 avvisiamo esId di ritornare solo i due modelli criteri e verifichiamone ladattamento.
con il BIC pi piccolo e, se diversi, i due modelli con il
miglior AIC. > m1 <- esFit(bollicine,"n","c/m","a")
> tsdiag(m1)
> esId(bollicine,keep=2) Standardized Residuals
drift sea inn np BIC AIC rankAIC
1 n c/m a 14 1660.724 1625.268 3
3
1
2 m c/m a 16 1664.543 1624.022 1
1
3 a c/m a 16 1665.408 1624.887 2
3
1964 1966 1968 1970
Time
In questo caso ce un parziale disaccordo tra i
due criteri. Il modello migliore per BIC terzo ACF of Residuals
1.0
per AIC,. . . . Ambedue i criteri suggeriscono come
0.6
ACF
appropriata una stagionalit costante e moltiplicativa
0.2
(seasonality=c/multiplicative) e una innovazione
0.2
0.0 0.5 1.0 1.5
additiva (innovation=additive). Per, nel miglior Lag
0.8
drift=additive).
p value
0.4
0.0
0 5 10 15 20 25 30 35
lag
Unit G: Modelli dinamici basati sullidea di . . . 189 Unit G: Modelli dinamici basati sullidea di . . . 190
> m2 <- esFit(bollicine,"m","c/m","a") > m3 <- esFit(bollicine,"a","c/m","a")
> tsdiag(m2) > tsdiag(m3)
Standardized Residuals Standardized Residuals
4
4
2
2
0
0
2
2
1964 1966 1968 1970 1964 1966 1968 1970
Time Time
1.0
0.6
0.6
ACF
ACF
0.2
0.2
0.2
0.2
0.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5
Lag Lag
0.8
p value
p value
0.4
0.4
0.0
0.0
0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35
lag lag
Unit G: Modelli dinamici basati sullidea di . . . 191 Unit G: Modelli dinamici basati sullidea di . . . 192
Per tutti e tre i modelli lautocorrelazione dei residui La caratteristica ancora pi evidenziata dal normal
non sembra indicare particolari problemi. Comunque i probability plot. Una delle osservazioni, i grafici
modelli suggeriti da BIC sembra essere marginalmente precedenti dei residui la collocano intorno al 1967,
migliore (sopratutto se guardiamo ai livelli di significati- anomala rispetto alle altre.
vit dei test di Ljung-Box basati su 13 o pi coefficienti
di autocorrelazione). > qqnorm(residuals(m1))
Inoltre, il modello suggerito da BIC pi parsimonioso,
Normal QQ Plot
ovvero utilizza meno parametri, e quindi quello che
rischia meno di cogliere caratteristiche spurie della serie
osservata. Sembra quindi sensato sceglierlo.
2000
Il grafico dei residui di tutti e tre i modelli mostra per
un caratteristica non del tutto piacevole e che merita
di essere investigata.
1000
Sample Quantiles
0
1000
2 1 0 1 2
Theoretical Quantiles
Unit G: Modelli dinamici basati sullidea di . . . 193 Unit G: Modelli dinamici basati sullidea di . . . 194
Vediamo qual e cerchiamo di capire che cosa successo Il grafico mostra chiaramente che cosa successo.
facendo uno zoom sulla serie. Almeno negli anni vicini, dopo il picco natalizio le
vendite calano a gennaio fino ad un livello uguale od
> start(bollicine) addirittura pi basso di quello nei mesi immediatamente
[1] 1964 1 successivi.
> which.max(abs(residuals(m1)))
Questa diminuzione avviene solo parzialmente a
[1] 37
gennaio 1967. Il modello sbaglia quindi la previsione.
> #losservazione "incriminata" e quindi
> #il gennaio 1967 Per capire se questo pesa sul modello, costruiamo una
> z <- window(bollicine,start=c(1964,12), serie pulita sostituendo al valore di gennaio 1967 la
+ end=c(1969,2)) media dei gennaii degli anni vicini e vediamo cosa
> plot(z) succede.
> points(z,pch=month.name[cycle(z)])
> arrows(1967+0.5,bollicine[37]+200, > z <- window(y,start=c(1964,12),
+ 1967,bollicine[37]) + end=c(1969,2))
> #comandi come prima
> #gennaio 67 adesso sembra normale
D
D
10000
N D
D D
10000
D N
N
8000
D
N
D
D N
8000
N O
z
N
6000
D
N O
J O
z
O
6000
S
AMJ
S MJ
O O
FM
4000
M MJ A J JF O S
M M
S A S J J
AMJ
S MJ
A J J O
FM
4000
M J JF F M MJ A JF
J
M M J J
JF S A S
A J J J
2000
M J JF F
A A A JF
A
2000
A A A
1965 1966 1967 1968 1969 A
Time
Unit G: Modelli dinamici basati sullidea di . . . 195 Unit G: Modelli dinamici basati sullidea di . . . 196
I modelli suggeriti dai due criteri non cambiano. Questo Stimiamo il modello suggerito da BIC.
consolante. Ovvero, losservazione anomala non
sembra particolarmente influente. > m1bis <- esFit(y,"n","c/m","a")
> tsdiag(m1bis)
> esId(y,keep=2) Standardized Residuals
drift sea inn np BIC AIC rankAIC
2
1 n c/m a 14 1639.490 1604.033 3
1
0
2 m c/m a 16 1641.137 1600.615 1
1
3 a c/m a 16 1642.633 1602.112 2
3
1964 1966 1968 1970
Time
ACF of Residuals
1.0
0.6
ACF
0.2
0.2
0.0 0.5 1.0 1.5
Lag
0.8
p value
0.4
0.0 0 5 10 15 20 25 30 35
lag
Unit G: Modelli dinamici basati sullidea di . . . 197 Unit G: Modelli dinamici basati sullidea di . . . 198
Lautocorrelazione dei residui non preoccupa. Anche il Proviamo a vedere se ci sono differenze nella distribuzio-
normal probability plot diventato pi normale. ne prevista per le prossime 12 osservazioni. Nella figura
(vedi prossimo lucido per le istruzioni R) i tre grafici
> qqnorm(residuals(m1bis)) confrontano (dallalto verso il basso) i percentili 0.5 e
0.95 e la media calcolati utilizzando i due modelli e
Normal QQ Plot generando le innovazioni future con i due metodi visti
(in ogni grafico ci sono 4 curve).
1000
12000
500
12000
1000
8000
4000
1500
2 1 0 1 2
10000
Theoretical Quantiles
6000
2000
Unit G: Modelli dinamici basati sullidea di . . . 199 Unit G: Modelli dinamici basati sullidea di . . . 200
Istruzioni R per costruire il grafico sul lucido 200. Visto che le differenze nelle previsioni tra i vari modelli
e i vari metodi sembrano irrilevanti usiamo il modello
> a <- c("5%","95%","mean") originale e generiamo le innovazioni assumendo la
> p1 <- predict(m1,12,method="g")[,a] normalit. Al grafico, per vedere il modello in azione
> p2 <- predict(m1,12,method="r")[,a] aggiungiamo anche le vere osservazioni (che si tenga
> p3 <- predict(m1bis,12,method="g")[,a] conto, non sono state in nessuna maniera utilizzate
> p4 <- predict(m1bis,12,method="r")[,a] nellanalisi).
> oldp <- par(mfrow=c(3,1),mar=c(1,1,1,1))
> plot(p1,plot.type="s",lty="dotdash")
> for (i in 1:3)
> points(champagne,pch="*",cex=2)
+ plot(cbind(p1[,i],p2[,i],p3[,i],p4[,i]),
+ plot.type="s",ylab="")
> par(oldp)
14000
*
12000
10000
*
8000
p1
*
6000
*
*
* * *
4000
* *
*
2000
*
1971.8 1972.0 1972.2 1972.4 1972.6
Time
Unit G: Modelli dinamici basati sullidea di . . . 201 Unit G: Modelli dinamici basati sullidea di . . . 202
Introduzione
1.0
1.0
inglese, da cui la sigla/acronimo MA(q)) se
yt = ut + 0.8ut1 yt = ut 0.8ut1
0.5
0.5
yt = + ut + 1ut1 + + qutq
0.0
0.0
dove (, 1, . . . , q) un vettore di parametri costanti.
0.5
0.5
E immediato verificare che
1.0
1.0
E(yt) = 0 2 4 6 8 10 0 2 4 6 8 10
1.0
1.0
e che, per 0 h q, yt = ut + 0.8ut1 + 0.6ut2 yt = ut 0.8ut1 0.2ut2
0.5
0.5
cov(yt, yth ) = (h + 1h+1 + + qh q)2u
0.0
0.0
mentre
0.5
0.5
se h > q allora cov(yt, yth) = 0 (H.1)
La (H.1) mostra come caratteristica di un modello
1.0
1.0
MA(q) sia quello di avere una memoria finita1. 0 2 4 6 8 10 0 2 4 6 8 10
1
almeno quella che si manifesta attraverso la dipendenza lineare.
Unit H: I modelli ARMA e ARIMA 205 Unit H: I modelli ARMA e ARIMA 206
Invertibilit di un modello MA(q) In definitiva sembrerebbe che dovremmo arrivare a
X
Un modello MA(q) detto invertibile se, per ogni t, ut ut = ()iyti .
calcolabile a partire da yt, yt1, . . .. i=0
1.0
yt = 0.8yt1 + ut yt = 0.8yt1 + ut lautocorrelazione ai ritardi superiori al primo sia diversa
da zero e possa anche essere non banale.
0.5
0.5
In realt noi sappiamo che in un certo senso quella
0.0
0.0
correlazione spuria. Ad esempio la correlazione che
troviamo a ritardo 2 legata al fatto che yt1 generato
0.5
0.5
a partire da yt2 e yt a partire da yt1. Quindi, la
correlazione tra yt e yt2 diversa da zero ma tutta
1.0
1.0
mediata da yt1.
0 2 4 6 8 10 0 2 4 6 8 10
1.0
yt = 0.8yt1 0.6yt2 + ut yt = 0.6yt1 + 0.3yt2 + ut correlazione a ritardo 2 mediata da yt1 mentre una
parte e esprime limpatto diretto di yt2, non mediato,
0.5
0.5
di yt2 su yt.
Per isolare la correlazione diretta dalla correlazio-
0.0
0.0
0.5
autocorrelazione parziale
1.0
1.0
1.0
yt = 0.8yt1 + ut yt = ut + 0.8ut1
Un processo stocastico {yt} si dice generato da un
0.5
0.5
modello autoregressivo a media mobile di ordine
(p, q) (abbreviato in ARMA(p, q)) quando generato
0.0
0.0
dallequazione alle differenze
0.5
0.5
yt = + 1(yt1 ) + + p(ytp ) +
+ut + 1ut1 + + qutq (H.6)
1.0
1.0
0 2 4 6 8 10 0 2 4 6 8 10
1.0
0.5
0.0
0.5
1.0
Byt = yt1.
yt = 0.7yt1 + ut 0.95ut2
ARMAacf(ar = c(0.7), ma = c(0, 0.95), lag = 10)
0.5
(B)(yt ) = (B)ut
0.0
dove
0 2 4 6 8 10
0:10
4
Si supponga che yt = + t, ovvero di considerare un
2
processo deterministico la cui realizzazione una retta.
Ovviamente
0
2
(1 B)yt = yt yt1 =
200 4
ovvero, le differenze di una serie costituita solo da un
trend lineare una serie costante.
150
100
Che cosa ci aspettiamo di ottenere se sostituiamo nella
y
equazione precedente a un processo stocastico, ad
50
esempio un ARMA(p, q) di media ? Ovvero, quali
0
caratteristiche avranno le traiettorie di un processo
generato da una equazione alle differenze del tipo 0 100 200 300 400
yt = yt1 + zt (y0 = 0)
Unit H: I modelli ARMA e ARIMA 217 Unit H: I modelli ARMA e ARIMA 218
Un altro processo simulato Queste semplici considerazioni ed esempi suggeriscono
di considerare modelli del tipo
Unit H: I modelli ARMA e ARIMA 221 Unit H: I modelli ARMA e ARIMA 222
Modelli ARIMA stagionali Esempio con serie stagionali
dove:
- f indica la lunghezza del periodo stagionale (12 nel
caso di dati mensili,. . . );
- (B) = 1 1B pBp un operatore
autoregressivo non-stagionale;
- (Bf) = 1 1Bf pBPf un operatore
autoregressivo che vede solo i ritardi stagionali;
- (B) = 1 + 1B + + qBq un operatore a media
mobile non-stagionale;
- (Bf) = 1 + 1 Bf + + QBQf un operatore a media
mobile stagionale.
Eventualmente, come prima, possiamo aggiungere un
termine costante al secondo termine.
Unit H: I modelli ARMA e ARIMA 223 Unit H: I modelli ARMA e ARIMA 224
Unit I