Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ts2 PDF
ts2 PDF
B. Kolmogorov perdono!, 15
Guido Masarotto Che cos’è un processo stocastico?, 16 Serie temporali e processi stocastici, 17 Caratteristiche “interessanti”
Facoltà di Scienze Statistiche di un processo stocastico, 18 Il problema della stazionarietà, 19 Processi stocastici stazionari, 21 Proprietà
della funzione di autocorrelazione di un processo stocastico stazionario, 23
6 gennaio 2003
D. Scomposizione di una serie temporale in componenti ele-
mentari, 50
E se il processo non è stazionario?, 51 Componenti di una serie temporale, 52 Modelli di composizione, 53
Esempio di una serie “additiva”, 54 Esempio di una serie “moltiplicativa”, 55 Destagionalizzazione di una
serie temporale, 56 Perchè destagionalizzare?, 57
i
F. Scomposizione di una serie temporale: un approccio flessibi- Materiale didattico
le, 76
Il punto debole. . . , 77 Regressione non parametrica: cenni, 78 Stima del trend in assenza di stagionalità, 97 1. Questi lucidi
Medie mobili e filtri lineari, 98 Stima della componente stagionale in assenza di trend, 99 Stima simulta-
nea delle componenti di trend e stagionali: l’algoritmo di backfitting, 104 In pratica, 106 Passeggeri delle 2. Guido Masarotto e Giovanna Capizzi (2002), “Materiali per il laboratorio con R”, http://sirio.stat.unipd.it/ts
aerolinee, 107 Scomposizioni con “problemi”, 126 Estensioni e cautele, 131
3. C. Chatfield (1996), “The analysis of time series: an introduction”, Chapman and Hall, Londra
G. Modelli dinamici basati sull’idea di lisciamento esponenziale
4. T. Di Fonzo e F. Lisi (2001), “Complementi di statistica economica. Analisi delle serie storiche univariate”, Cleup
, 132 Editrice, Padova
Struttura di un modello dinamico, 133 Un modello basato sul lisciamento esponenziale, 135 Serie alla “deriva”, 142
Introduzione di una componente stagionale, 150 Innovazione additiva o moltiplicativa?, 157 Sintesi dei mo-
delli considerati: le quattro forme di base, 159 Sintesi dei modelli considerati: casi particolari, 160 “Nomi”
assegnati ad alcuni casi particolari, 161 Costruzione empirica di un modello, 162 Stima dei parametri, 163
Scelta di un modello, 167 Verifica dell’adattamento, 168 Una serie temporale di vendite, 169 Previsione:
considerazioni generali, 176 Previsione con i modelli basati sul lisciamento esponenziale, 179 Previsione
della serie delle vendite, 185 Una serie con le bollicine, 188
ii
Che cos’è una serie temporale (o storica)?
variabili rilevate
tempo Y1 Yk
t1 y11 .. yk1
t2 y12 .. yk2
.. .. .. ..
tn y1n .. ykn
Unità A: Introduzione 2
Esempio 1: medie giornaliere delle polveri Esempio 2: linci catturate annualmente in
rilevate in una delle centraline per il Canada
controllo atomosferico in Padova
7000
6000
5000
4000
lynx
3000
2000
1000
0
1820 1840 1860 1880 1900 1920
1200
1400
1000
1200
800
1000
UKgas
Nile
600
800
400
600
200
1880 1900 1920 1940 1960 1960 1965 1970 1975 1980 1985
Time Time
260
240
BJsales
5000
220
14200
4000
13
BJsales.lead
12
3000
11
10
0 50 100 150
2000
60
14.5
55
GFoutput
14.0
50
13.5
3
2
13.0
1
GFinput
0
12.5
−1
−2
12.0
domani, . . . ).
700
600
• Previsione: al tempo tn vogliamo prevedere i valori 1. E’ introduttivo: vuole presentare solo alcune idee e
che la serie temporale assumerà al tempo t > tn. tecniche di base. Considereremo solo
• Controllo: si supponga di avere a che fare, per • dati equispaziati nel tempo (ti − ti−1 = ∆);
semplicità, con due sole variabili (k = 2) e che: • situazioni in cui le variabili rilevate siano
i) le variazioni di y1t influenzino y2t; numeriche ed (almeno assimilabili a variabili) reali,
ii) y1t sia controllabile (ovvero possiamo fissarne i • quasi sempre il caso di serie univariate,
valori); • solo relazioni dinamiche di tipo lineare.
iii) non possiamo controllare y2t; però, desideremmo 2. E’ operativo: vuole sviluppare la capacità di
che y2t risulti uguale ad un valore prefissato, analizzare concretamente delle serie reali (per
diciamo η, per ogni t. questo le esercitazioni nel laborario informatico
Il problema è: quali valori scegliamo per la prima costituiscono una parte integrante del corso).
variabile affinchè la seconda si discosti il meno
possibile dal valore desiderato?
E(Yt 0 ) = E(Yt 00 )
var(Yt 0 ) = var(Yt 00 )
cov(Yt 0 , Yt 00 ) = cov(Yt 0+h , Yt 00+h)
1
questa relazione si ottiene dalla definizione di stazionarietà debole ponendo
h = −t 0
Unità B: Kolmogorov perdono! 21 Unità B: Kolmogorov perdono! 22
Proprietà della funzione di
autocorrelazione di un processo stocastico
stazionario
Unità C
• ρ(h) = γ(h)/σ2;
Stima della funzione di autocorrela-
• ρ(0) = 1 (beh, se “quello che capita oggi” non fosse zione
correlato perfettamente con “quello che capita oggi”
avremmo veramente da preoccuparci; formalmente
σ2 = γ(0));
• Stimatori
• −1 ≤ ρ(h) ≤ 1 ∀h (sono coefficienti di correlazione);
• Bande nel “correlogramma”
• ρ(h) = ρ(−h). E’ una conseguenza del fatto che per
qualsiasi coppia di variabili casuali, diciamo X e Y, • Test di Ljung-Box (e Box-Pierce)
k X
X k
aiajρ(i − j) ≥ 0
i=0 j=0
Infatti,
Pk la quantità sul lato sinistro è la varianza di
2
i=0 ai Yt−i divisa per σ .
Unità C: Stima della funzione di autocorrelazione 27 Unità C: Stima della funzione di autocorrelazione 28
Pochi ρ̂(h) fuori di poco dalle bande possono essere attribuiti all’errore di stima. Il primo correlogramma mostra Quattro serie temporali. . .
quindi una situazione probabilmente di incorrelazione. Nel secondo, un solo ρ̂(h) è esterno alle bande. Però è molto (a)
più grande dei limiti disegnati. Probabilmente indica una autocorrelazione reale.
2
1.0
0
−2
0.5
−4
ACF
0 20 40 60 80 100
0.0
(b)
−0.5
3
2
1
−1.0
0
−3 −2 −1
0 5 10 15 20
Lag
0 20 40 60 80 100
(c)
1.0
6
4
0.5
2
0
−4 −2
ACF
0.0
0 20 40 60 80 100
−0.5
(d)
−1.0
0 5 10 15 20
1
0
Lag
−1
−2
0 20 40 60 80 100
Unità C: Stima della funzione di autocorrelazione 29 Unità C: Stima della funzione di autocorrelazione 30
. . . il loro correlogramma. . . . . . qualche commento . . .
(a)
1.0
0 5 10 15 20
componente. Il correlogramma ci dice anche che la
(b) “lunghezza media” delle onde è di 6 periodi.
1.0
0 5 10 15 20
piccola” e così via.
(c)
? Dal grafico della serie (c), come del resto in quello
1.0
0 5 10 15 20
Il correlogramma ci racconta che questa è l’unica
(d) correlazione esistente: osservazioni più distanti sono
incorrelate.
1.0
di un white noise.
0.2
−0.2
0 5 10 15 20
Unità C: Stima della funzione di autocorrelazione 31 Unità C: Stima della funzione di autocorrelazione 32
. . . un esercizio e. . . −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
3
Le figure nelle prossime pagine riportano i grafici di yt
2
1
disegnato verso yt−h per alcuni valori di h. Chiameremo
0
a
a
questo tipo di grafici di autodispersione (lag plot nella
−1
letteratura anglosassone). Le serie utilizzate sono quelle
−2
−3
precedenti. Ogni pagina si riferisce ad una delle lag 1 lag 2 lag 3
3
serie. Ma le pagine non sono nell’ordine utilizzato
2
precedentemente. Completare il seguente “schemetto”:
1
0
a
−1
la figura si riferisce
−2
a pagina alla serie
−3
lag 4 lag 5 lag 6
34 ......
3
35 ......
2
1
36 ......
0
a
a
37 ......
−1
−2
−3
La soluzione è a pagina 38. lag 7 lag 8 lag 9
3
2
1
0
a
−1
−2
−3
lag 10 lag 11 lag 12
−3 −2 −1 0 1 2 3
Unità C: Stima della funzione di autocorrelazione 33 Unità C: Stima della funzione di autocorrelazione 34
−3 −2 −1 0 1 2 −3 −2 −1 0 1 2 −4 −2 0 2 4 −4 −2 0 2 4
2
2
1
0
0
a
a
−2
−1
−2
−4
lag 1 lag 2 lag 3 lag 1 lag 2 lag 3
2
1
0
0
a
−2
−1
−2
−4
lag 4 lag 5 lag 6 lag 4 lag 5 lag 6
2
2
1
0
0
a
a
−2
−1
−2
−4
lag 7 lag 8 lag 9 lag 7 lag 8 lag 9
2
2
1
0
0
a
−2
−1
−2
−4
lag 10 lag 11 lag 12 lag 10 lag 11 lag 12
−3 −2 −1 0 1 2 −4 −2 0 2 4
Unità C: Stima della funzione di autocorrelazione 35 Unità C: Stima della funzione di autocorrelazione 36
−6 −4 −2 0 2 4 6 8 −6 −4 −2 0 2 4 6 8
. . . la sua soluzione
6
.
4
2
a
a
la figura si riferisce
0
−2
6
36 (a)
4
2
37 (c)
a
0
−2
−4
lag 4 lag 5 lag 6
6
4
2
a
a
0
−2
−4
0
−2
−4
Unità C: Stima della funzione di autocorrelazione 37 Unità C: Stima della funzione di autocorrelazione 38
La temperatura al castello di Nottingham Un correlogramma a Nottingham
1.0
65
60
0.5
55
nottem
50
0.0
45
−0.5
40
35
−1.0
30
1
Si osservi che i ritardi nel grafico della funzione di autocorrelazione, fatto in
R, sono etichettati utilizzando gli anni non i mesi.
Unità C: Stima della funzione di autocorrelazione 39 Unità C: Stima della funzione di autocorrelazione 40
A castello è meglio essere corretti Nottingham: grafici di “autodispersione”
30 40 50 60 70 30 40 50 60 70
60
nottem
nottem
nottem
1.0
40
30 50
lag 12 lag 24 lag 36
0.5
60
nottem
nottem
nottem
50
40
30
0.0
60
nottem
nottem
nottem
40 50
−0.5
30
lag 84 lag 96 lag 108
60
nottem
nottem
nottem
50
−1.0
40
0 2 4 6 8 10
30
lag 120 lag 132 lag 144
30 40 50 60 70
. . . se “dividiamo per n − h” il correlogramma non Si osservi che sono mostrati solo i “ritardi” stagionali.
“diminuisce più”. Quindi, l’ultimo grafico, mostra il digramma di
dispersione tra la temperatura di “oggi” e quella di “12
anni fa”.
Unità C: Stima della funzione di autocorrelazione 41 Unità C: Stima della funzione di autocorrelazione 42
Esercizio
30 40 50 60 70 30 40 50 60 70 30 40 50 60 70 30 40 50 60 70
60
60
nottem
nottem
nottem
nottem
nottem
nottem
50
50
40
40
30
30
lag 6 lag 18 lag 30 lag 1 lag 2 lag 3
60
60
nottem
nottem
nottem
nottem
nottem
nottem
50
50
40
40
30
30
lag 42 lag 54 lag 66 lag 4 lag 5 lag 6
60
60
nottem
nottem
nottem
nottem
nottem
nottem
50
50
40
40
30
30
lag 78 lag 90 lag 102 lag 7 lag 8 lag 9
60
60
nottem
nottem
nottem
nottem
nottem
nottem
50
50
40
40
30
30
lag 114 lag 126 lag 138 lag 10 lag 11 lag 12
30 40 50 60 70 30 40 50 60 70
Rispetto al grafico di prima i ritardi sono stati sfasati La figura mostra i diagrammi di autodispersione per i
di 6 mesi. Con un pò di licenza potremmo dire che primi 12 ritardi. In alcuni dei grafici compaiono delle
stiamo guardando alla correlazione tra la temperatura sorta di anelli. Spiegare perche’.
nell’inverno/primavera/estate/autunno di un anno e
quella nell’estate/autunno/inverno/primavera di 1, 2, . . .
anni prima.
Unità C: Stima della funzione di autocorrelazione 43 Unità C: Stima della funzione di autocorrelazione 44
La produzione di automobili in Giappone Il correlogramma è quelo tipico in questo casi: positivo
e vicino ad uno all’inizio, poi decresce lentamente
Il grafico mostra il numero di automobili (in migliaia) e inverte il suo segno ad un ritardo pari ad
prodotte in Giappone dal 1949 al 1989. La serie è approssimativamente la metà della lunghezza della serie
evidentemente non stazionaria visto l’aumento della osservata.
1.0
media (trend) negli anni.
0.5
0.0
12000
−0.5
−1.0
10000
0 5 10 15 20 25 30
8000
1.0
6000
0.5
0.0
4000
2000
−1.0
0
0 5 10 15 20 25 30
La figura mostra i diagrammi dia autodispersione per la Una statistica test che può essere utilizzata per verificare
serie considerata nelle pagine precedenti. Indicando con l’ipotesi che il processo sia un white noise è
yt la variabile posta sulle ascisse in ogni grafico, dire se
H
sulle ordinate è stato disegnato yt−h o yt+h per i valori X ρ̂2(h)
prescelti di h (in questo caso 1, . . . , 12)? TL&B = n(n + 2)
n−h
0 2000 6000 10000 0 2000 6000 10000 h=1
d
gradi di libertà. Valori troppo grandi rispetto a quelli
2000
10000
si basa sulla statistica test proposta e studiata da Box e
6000
d
Pierce
XH
ρ̂2(h).
2000
TB&P = n
0
Molte serie temporali contengono evidenti segni di non- Non è infrequente che una serie storica possa essere
stazionarietà In particolare in posizione e dispersione. pensata come la composizione di varie componenti.
In questi casi, è abbastanza comune per non perdere In particolare, spesso, anche solo guardando il grafico
i vantaggi assicurati dalla stazionarietà, cercare di della serie, sono evidenti:
trasformare la serie originale in una serie stazionaria.
[trend] una componente che varia lentamente nel tempo
Ovviamente, una possibilità per realizzare il “programma e che essenzialmente determina il livello della serie;
precedente” consiste nello stimare la parte non [stagionalità] una o più componenti periodiche, ovvero
stazionaria della serie osservata per poi rimuoverla. che si “ritrovano” uguali o quasi a distanza fissa nel
Questo tra l’altro è un problema spesso interessante di tempo (ad esempio, in serie mensili ogni 12 mesi, in
per se. serie trimestrali ogni 4 trimesti, in serie giornaliere,
ogni 7 giorni);
[componente irregolare] una componente più erratica
che determina nella serie delle oscillazioni tipicamente
di breve periodo. Normalmente può essere assimilato
ad un processo stocastico stazionario.
3000
in cui possono interagire per “formare” la serie osservata
possono essere differenti. Alcuni esempi sono i seguenti
y
2600
“modelli” di composizione
2200
3200
additivo: yt = Tt + St + It;
3000
moltiplicativo: yt = TtStIt;
2800
trend
2600
moltiplicativo con comp. irr. additiva yt = TtSt + It.
100 2400
50
seas
0
−50
−100
150
100
50
irr
0
−100 −50
2 4 6 8 10
Time
L’ampiezza delle oscillazioni stagionali e della componente irregolare nella serie (primo grafico del pannello) è la
componente stagionale.
14000
stagionale.
1.0
2 4 6 8 10
Time
Le oscillazioni stagionali e la componente irregolare “entrano” nella serie (primo grafico del pannello) con una
ampiezza che dipende dal livello della serie (ovvero dal trend).
? L’aumento potrebbe essere semplicemente “stagionale” i) il primo mostra la serie mensile dei passegeri su
e ad esempio legato al maggiore utilizzo delle tratte aeree internazionali (in migliaia) dai 1949
automobili e del riscaldamento privato dovuto alle al 1960; è evidente un trend crescente e una forte
temperature più fredde (traffico e riscaldamento sono componente stagionale;
le fonti maggiori di CO2); ii) nel secondo grafico viene mostrata una versione
“destagionalizzata” della stessa serie con aggiunta
? Nella serie destagionalizzata questa componente una stima della componente di trend.
prevedibile “speriamo” di averla eliminata.
Si noti come nel secondo grafico sia evidente i due
? Ovviamente lo stesso discorso può essere fatto in rallentamenti nella crescita avvenuti tra il 1953/54
moltissime altre situazioni. Ad esempio, un aumento (guerra di Corea?) e il 1957/58 (conseguenza di alcuni
degli occupati nell’agricoltura del 10% tra giugno e “disastri”?) Lo stesso non si può dire con riferimento al
maggio è una indicazione di un vero e proprio boom primo grafico dove i due rallentamenti sono “coperti”
economico? dalla componente stagionale.
500
600
serie destagionalizzata
500
400
AirPassengers
400
300
300
200
200
100
1950 1952 1954 1956 1958 1960 1950 1952 1954 1956 1958 1960
360
350
340
co2
? richiami sul modello lineare di regressione multipla
330
? rappresentazione del trend mediante un polinomio
320
? rappresentazione della stagionalità mediante variabili
dummies
1960 1970 1980 1990
Time
Sono evidenti
- una componente di trend sufficientemente regolare
(potrebbe essere un polinomio del secondo ordine)
- una componente stagionale
che rendono la serie non stazionaria.
(Stagionalità)t+12 = (Stagionalità)t.
0
−2
2 4 6 8 10 12
Unità E: Stima della media e sua . . . 63 Unità E: Stima della media e sua . . . 64
Una conferma giunge anche dal grafico seguente che CO2: un modello lineare
mostra le sotto-serie mensili (ovvero la serie di tutti
i gennaii disegnata contro l’anno,. . . ). Se vale il Poniamo
modello precedente in questo grafico dovremmo infatti
osservare 12 curve approssimamente parallele, ciascuna φi = (Stagionalità)i per i = 1, . . . , 12
approssimabile da un “pezzettino” di parabola).
Allora, il modello prima formulato per la CO2 può essere
scritto come un modello lineare del tipo
456
2371
18 yt = α0 + α1t + α2t2 + φ1d1,t + · · · + φ12d12,t + (Errore)t
360
1
91
dummy (=mute).
456
37
1281 Scritto in termini matriciali il modello diventa
1
91
330
12 1 0 .. 0 0
y1 1 1
α
y2 1 2 22 0 1 .. 0 0 0
. . . .. α
.. .. .. .. .. 1
320
5
46
. . .
37
2
181 y11 1 11 112 0 0 .. 1 0
α 2
911 φ
y12 = 1 12 122 0 0 .. 0 1 1 + ε
y13 1 13 132 1 0 .. 0 0 φ.2
1960 1970 1980 1990
.
. . . .. .. .. .. .. ..
. . .
φ11
. . . .. .. .. .. .. ..
. . .
φ12
y468 1 468 4682 0 0 .. 0 1
Unità E: Stima della media e sua . . . 65 Unità E: Stima della media e sua . . . 66
Si osservi che in un modello del tipo co2 ~ p(2) + c
360
(serie osservata)=(trend)+(stagionalità)+(errore)
data
340
il livello medio dei tre addendi in cui viene scomposta
320
la serie osservata è in una qualche forma arbitrario.
360
Ad esempio, assegnata una scomposizione di questo
trend
tipo, possiamo generarne un’altra perfettamente valida
340
aggiungendo un valore arbitrario, indichiamolo con δ,
3 320
al trend e sottraendo δ/3 alla componente stagionale e
2δ/3 alla componente di errore.
2
seasonal
1
−1 0
Possiamo superare questa ambiguità imponendo dei
vincoli in maniera tale che la prima componente, quella
2 −3
di trend, sia interpretabile come quella che ci fornisce il
remainder
1
livello della serie osservata.
0
In particolare, sembra sensato chiedere che la somma
−1
della componente stagionale in un anno sia nulla. Nel
−2
1960 1970 1980 1990
caso del modello lineare precedente, questo diventa il Time
seguente vincolo lineare sui parametri
Il primo grafico mostra la serie originale, il secondo la
φ1 + · · · + φ12 = 0. componente di trend stimata, il terzo la componente
stagionale, l’ultimo la componente erratica.
Le stime a minimi quadrati possono quindi essere
ottenuti con la procedura indicata nel lucido (75).
Esercizio: Formulare i dettagli (in particolare cosa è a e
β?)
Unità E: Stima della media e sua . . . 67 Unità E: Stima della media e sua . . . 68
Si osservi come la componente di errore sia evidentemen- CO2: serie destagionalizzata
te autocorrelata positivamente (si spieghi perche’
basandosi sul terzo grafico precedente; può essere Avendo stimato la componente stagionale possiamo
conveniente costruirsi ad esempio un diagramma di “eliminarla” ottenendo la cosidetta serie destagiona-
autodispersione su cui disegnare approssimativamente lizzata. In questo caso, ci basta sottrarre dalla serie
(Errore)t−1 sull’asse delle ascisse e (Errore)t−1 sull’asse originale la componente stagionale
delle ordinate) e forse, addirittura, non stazionaria in
media.
360
Questo ci è confermato dal correlogramma empirico
350
1.0
340
0.5
330
ACF
0.0
320
1960 1970 1980 1990
−0.5
Time
Unità E: Stima della media e sua . . . 69 Unità E: Stima della media e sua . . . 70
Altri modelli di regressione: cenni Appendice: richiami sul modello di
regressione lineare multiplo
• Al posto di variabili dummy, possiamo utilizzare
funzioni trigonometriche per introdurre in un situazione: una variabile dipendente (y) e k variabili
modello di regressione una componente periodica. esplicative (x1, . . . , xk).
• Possiamo anche introdurre interazioni tra trend e relazione “lineare”:
stagionalità ad esempio introducendo nel modello dei
termini che sono il prodotto di quelli visti nell’appli- yi = β0 + β1x1i + · · · + βkxki + (errore)i
cazione fatta. Nel contesto in cui stiamo operando
ci servirebbero, ad esempio, per modellare una dove
componente stagionale che varia nel tempo.
- yi indica l’i-sima osservazione sulla variabile dipendente
• In alcuni campi applicativi è comune utilizzare per mentre
stimare la componente di trend funzioni diverse dai - xji indica l’osservazione i-sima sulla j-sima variabile
polinomi. dipendente.
• ... scrittura matriciale: n osservazioni possono essere
scritte compattamente come
Non affrontiamo questi argomenti in parte per problemi
di tempo in parte perchè nei corsi di Modelli I e II y = Xβ + ε
sviluppate capacità di questo tipo. E quindi. . .
ovvero
y1
1 x11 .. x
errore
k1 1
. .. ..
. .. .. β0 ..
. = . . .. +
. . . .. ..
..
.. x β k
yn 1 x1n kn erroren
Unità E: Stima della media e sua . . . 71 Unità E: Stima della media e sua . . . 72
minimi quadrati: la stima a minimi quadrati dei minimi quadrati ponderati: nella soluzione precedente
parametri di regressione, ovvero, il valore di β = diamo lo stesso peso a tutte le osservazioni. In alcuni
(β0, . . . , βk) che minimizza vedremo però che ci interesserà calcolare il vettore β che
minimizza la seguente somma dei quadrati ponderata
n
X
T
(y − Xβ) (y − Xβ) = (yi − β0 − β1x1i − · · · − βkxki)2 n
X
i=1 wi(yi − β0 − β1x1i − · · · − βkxki)2
i=1
vale
β̂ = (XT X)−1XT y dove w = (w1, . . . , wn) sono pesi noti assegnati ad ogni
osservazione. E’ possibile in questo caso far vedere che
valori previsti: il valore “previsto”/”interpolato” dal la soluzione è data da
modello “alle” variabili esplicative (x̃1, . . . , x̃k), ovvero,
β̂(w) = (XT WX)−1XT Wy
βˆ0 + β̂1x̃1 + · · · + β̂kx̃k
dove W = diag(w1, . . . , wn) ovvero è una matrice
è una combinazione lineare delle “y” originali, ovvero, è diagonale in cui w1 è l’elemento (1, 1), w2 l’elemento
del tipo (2, 2) e così via.
Xn
wi y i Nota: Anche in questo caso i valori previsti dal modello
i=1 sono funzione lineare delle “y”.
Infatti,
Unità E: Stima della media e sua . . . 73 Unità E: Stima della media e sua . . . 74
minimi quadrati con un vincolo: Supponiamo ora di
voler stimare il modello ma di sapere a priori che il
vettore dei parametri, β, soddisfa esattamente al vincolo
Unità F
T
a β=0
Scomposizione di una serie temporale:
dove a è un qualsiasi vettore noto. un approccio flessibile
E’ possibile dimostrare che, tra tutti i vettori che
soddisfano il vincolo, quello che minimizza la somma dei
quadrati degli scarti delle osservazioni dai valori previsti
dal modello, ovvero che risolve il problema di minimo
vincolato
P
minβ0,...,βk ni=1 (yi − β0 − β1x1i − · · · − βkxki)2
con il vincolo che a0β0 + · · · + akβk = 0
è
aT β̂
β̂(a) = β̂ − T a
a a
dove β̂ è lo stimatore a minimi quadrati.
Nota: La formula in se non è molto interessante.
L’importante è che il problema abbia una soluzione
facilmente calcolabile.
. . . dell’approccio precededente è che i risultati dipendono [il problema] - sono disponibili dei dati bivariati del
in maniera cruciale dalla capacità e dalla possibilità di tipo
scegliere in maniera appropriata le “funzioni” con cui {(x1, y1), . . . , (xn, yn)}
interpolare il trend e la componente stagionale. su due variabili X e Y;
In questa unità studieremo un approccio più “flessibile”. - la relazione tra “la X” e “la Y” può essere scritta nella
forma
La trattazione è orientata yi = f(xi) + εi (F.1)
dove f(·) = E(Y|X = x) mentre le “εi” sono delle
∗ al mostrare le connessioni esistenti con i problemi di
variabili casuali (visto quanto detto con media nulla);
regressione non parametrica;
- non sappiamo come specificare f(·) parametricamente
∗ all’analisi esplorativa ed interattiva dei dati più che alla (ad esempio, non è una retta, non è un polinomio,. . . );
produzione di statistiche ufficiali. - però sappiamo che f(·) è una funzione continua e
senza oscillazioni particolarmente violente;
- vogliamo utilizzare i dati per costruire una stima di f(·)
8
dove η indica una costante coincidente con la media f ( x) = y
^
6
della variabile Y 1
4
y
2
In questo caso degenere, potremmo stimare f(·)
0
mediante
−4
n
1X 0 1 2 3 4 5
f̂(x) = η̂ = y = yi per qualsivoglia x
n x
i=1
ovvero, semplicemente calcolando la media delle “y”. Però, se le oscillazioni di f(·) sono dolci, possiamo
pensare di stimare f(·) mediante delle medie locali del
tipo
f ( x) = y
^
22
media delle yi tali che |xi − x|
20
prescelta
16
14
o, del tipo,
12
3 4 5 6 7
x
media ponderata delle yi con
pesi costruiti in maniera che
f̂(x) =
risultino “grandi” se xi ≈ x e
“piccoli” se xi è “lontano” da x
1
Si ricordi che, per la (F.1), possiamo scrivere yi = η + εi e che le “ε” hanno
media nulla
Unità F: Scomposizione di una serie . . . 79 Unità F: Scomposizione di una serie . . . 80
Questo ci porta a degli stimatori del tipo [pesi costruiti da un nucleo] Supponiamo di scegliere
una funzione k(·) non decrescente per x < 0 e non
n
X crescente per x > 0 e tale che k(x) ≈ 0 quando |x| è
f̂(x) = wi(x)yi (F.2) sufficientemente grande. Una possibilità per generare i
i=1 pesi consiste nel porre
k
6
h
i=1
4
2
e, quindi,
0
n
−2
X xi − x
k yi
−4
0.10
f̂(x) = i=1n
0.08
pesi usati per stimare f(1) X xi − x
k
0.06
h
i=1
0.04
La funzione k(·) è usualmente indicata come nucleo
0.02
0 1 2 3 4 5
X xi − x
k (yi − b0(x) − b1(x)x − · · · − bp(x)xp)2
exp(− 0.5x2)
h(x)
i
con
(1 − |x|3)3 se |x| ≤ 1
k(x) =
0 altrove
1.0
I( x ≤ 2)(1 − (x 2)2)2
0.8
0.6
(1 − x 3)3
0.4
0.2
0.0
−3 −2 −1 0 1 2 3
y
pesi utilizzati per determinare la retta
w
0 1 2 3 4 5
n
X Z x(n)
2
SQp = [yi − f(xi)] + v [f 00(x)]2dx
x(1)
6
i=1
Si osservi che
y
stessi;
- il secondo addendo viceversa è una penalità che
−4
8
anche la componente erratica); viceversa se h è grande
la penalità pesa molto e quindi otteniamo una stima v "giusto"
molto “liscia” (per v → ∞ otteniamo, qualsiasi siano i v "piccolo"
6
v "grande"
dati, una retta visto che in ogni altro caso la penalità
dominerebbe SQp). Si veda l’esempio a pag. 90.
4
E’ possibile dimostrare che
? la soluzione del problema è una funzione continua con
y
le prime due derivate continue che
2
? in ognuno degli intervalli determinato dai valori
distinti nelle “x” è un polinomio del terzo ordine;
0
Ad esempio se supponiamo che tutte le “x” siano
differenti e “già ordinate” (ovvero x1 < x2 < · · · < xn)
la soluzione è un polinomio cubico in tutti gli intervalli
−2
[xi −xi+1 ], i = 1, . . . , n−1; i coefficienti dei vari polinomi
che “rappresentano” localmente la funzione non sono
completamente liberi ma soddisfano a dei vincoli che
−4
garantiscono la continuità della soluzione e delle sue
prime due derivate. 0 1 2 3 4 5
8
che una volta fissato h o s o v, lo stimatore che si
ottiene ha, nella sostanza, la flessibilità di un modello di spline npe=3
regressione con un certo numero di parametri, numero loess npe=3
6
che viene usualmente chiamato numero di parametri
equivalenti.
4
Ovviamente più il numero di parametri equivalenti è
grande più lo stimatore è flessibile e viceversa.
y
Il numero di parametri equivalenti costituisce quindi una
2
maniera unificata per fissare il grado di lisciamento
desiderato.
0
Tra l’altro, stimatori diversi (ad esempio “loess” o
“spline”) con un numero di parametri equivalenti uguali
producono di norma stime molte simili (si vedano i
−2
grafici nelle prossime pagine).
−4
0 1 2 3 4 5
8
spline npe=10 spline npe=30
loess npe=10 loess npe=30
6
6
4
4
y
y
2
2
0
0
−2
−2
−4
−4
0 1 2 3 4 5 0 1 2 3 4 5
x x
Per una serie non stagionale i metodi appena descritti Lo stimatore del trend che si ottiene nella parte centrale
sono utilizzabili direttamente per la stima della delle osservazioni (ovvero per t non troppo vicino
componente del trend. Il ruolo delle “x” sarà in questo all’inizio e alla fine del periodo osservato) è della forma
caso giocato dal tempo, ovvero xi = ti dove ti indica
l’istante di tempo in cui è stato osservato l’i-simo valore m
X
della serie temporale, mentre ovviamente le “y” saranno T̂t = wiyt+i (F.3)
i valori della serie stessa. i=−m
1.3
“solo stagionale” ovvero senza visibili traccie di una
componente di trend. La componente stagionale sembra
1.2
però evolversi nel tempo. In particolare la sua ampiezza
aumenta.
1.1
Il grafico nel lucido 101 mostra le 12 sottoserie mensili:
(i) il grafico in basso a sinistra mostra i valori osservati
nei vari mesi di gennaio; (ii) quello alla sua destra i
1.0
valori osservati nei vari mesi di febbraio; (iii) e così via;
l’ordinamento è da sinistra verso destra e dal basso in
0.9
alto (ovvero il grafico sulla seconda riga, terza colonna
riporta i valori osservati nei vari anni durante il mese di
0.8
luglio)
Una possibilità per stimare la componente stagionale
consiste nel “lisciare” ciascuna di queste sottoserie 2 4 6 8 10 12
2 4 6 8 10 12 2 4 6 8 10 12
1.2
1.3
1.1
1.2
1.0
1.1
0.9
1.0
0.8
0.9
0.8
1.3
1.2
1.3
1.1
1.2
1.0
1.1
0.9
1.0
0.8
0.9
0.8
1.3
1.2
1.3
1.1
1.2
1.0
1.1
0.9
1.0
0.8
0.9
0.8
2 4 6 8 10 12 2 4 6 8 10 12
2 4 6 8 10 12 2 4 6 8 10 12
Unità F: Scomposizione di una serie . . . 101 Unità F: Scomposizione di una serie . . . 102
Serie osservata (cerchietti) con stima della componente Stima simultanea delle componenti di trend
stagionale (linea continua) e stagionali: l’algoritmo di backfitting
(i)
stagionale, indichiamola con Ŝt “lisciando” le
(i)
sottoserie stagionali di at .
2 4 6 8 10 12 3. Calcoliamo una versione della serie destagionalizzata
(i) (i)
bt = yt/Ŝt e una stima della componente di trend,
(i) (i)
indichiamola con T̂t , “lisciando” bt .
4. Poniamo i = i + 1 e ritorniamo al passo 2 a meno che
(i)
l’algoritmo non sia arrivato a convergenza, ovvero T̂t
(i−1)
non sia sufficientemente vicino a T̂t .
Unità F: Scomposizione di una serie . . . 103 Unità F: Scomposizione di una serie . . . 104
Note In pratica
1. Se l’algoritmo viene bloccato dopo i iterazioni, L’utilizzo dell’approccio precedente richiede una serie
(i) (i)
utilizziamo le ultime stime prodotte, ovvero T̂t e Ŝt di scelte da parte dell’analista che possono essere
come stime della componenti di trend e stagionali- convenientemente organizzate nel seguente ordine
tà. La componente irrregolare diventa quindi Ît =
(i) (i)
yt/(T̂t Ŝt ). Come si combinano trend e
stagionalità? In maniera additiva o O
Unità F: Scomposizione di una serie . . . 105 Unità F: Scomposizione di una serie . . . 106
Passeggeri delle aerolinee [scelta di uno stimatore per la stagionalità] Lisciando
la serie pre-destagionalizzata con una spline con 20
Illustriamo la procedura precedente utilizzando la serie gradi di libertà otteniamo una stima preliminare del
il cui grafico è mostrato nel lucido 59 trend. Dividendo la serie osservata per questa stima
otteniamo una serie in cui la componente di trend è stata
[tipo di composizione.] Il grafico mostra chiaramente approssimativamente rimossa (lucido 118).
che l’ampiezza della componente stagionale aumenta Guardando ad un grafico delle sottoserie (lucido
all’aumentare del livello della serie osservata (ovvero 119) possiamo decidere come stimare la componente
del suo trend). Adottiamo quindi in prima ipotesi un stagionale. In questo caso, anche per tenere il
modello moltiplicativo. “modello” semplice e quindi per ottenere delle stime
[scelta di uno stimatore per il trend] La presenza di stabili abbiamo deciso di lisciare le sottoserie mensili
una forte componente stagionale rende difficile capire semplicemente utilizzando delle rette. La capacità
dalla serie originale quanto sia necessario “lisciare” per di queste di spiegare le variazioni nella componente
ottenere ragionevoli stime del trend (vedi lucido 111). stagionale sembra infatti sufficiente (lucido 120).
Inoltre, se si usa uno stimatore “flessibile” del trend e [lisciamento suggerito da BIC] Il grafico nel lucido
lo si applica direttamente alla serie originale, le stime 121 mostra, utilizzando un grafico a scala di grigio, come
risentono della componente stagionale (vedi lucido varia il criterio BIC al variare del numero di parametri
112). equivalenti degli stimatori utilizzati per il trend e la
stagionalità. Nel grafico, ambedue le componenti sono
Per questi motivi è conveniente ragionare con una stimate utilizzando delle “spline”.
versione pre-destagionalizzata della serie osservata
(lucidi 113-116). In questo caso la serie pre- Il grafico sostanzialmente conferma la scelta fatta a
destagionalizzata è molto regolare (la componente di “occhio”. Indica infatti che il numero di parametri
rumore è bassa). Provando a lisciarla utilizzando equivalenti da utilizzare per il trend dovrebbe essere
stimatori con vari livelli di flessibilità (lucido 117) scelto tra 10 e 20 e quello per la stagionalità vicino a
vediamo che una spline con 20 gradi di libertà 2 (2 è ovviamente il numero di parametri liberi in una
(parametri equivalenti) sembra essere in grado di retta).
descrivere in trend.
Unità F: Scomposizione di una serie . . . 107 Unità F: Scomposizione di una serie . . . 108
[scomposizione della serie] Avendo deciso, almeno [verifica della bontà della scomposizione] Verifiche che
preliminarmente, come stimare trend e stagionali- possono essere condotte sono
tà possiamo stimarli simultaneamente utilizzando
i) disegnare la serie destagionalizzata e il trend per
l’algoritmo di backfitting. Il risultato è mostrato nel
vedere se quest’ultimo fornisce una descrizione
lucido 122.
adeguata delle variazioni di lungo periodo della
Si osservi come i risultati ottenuti indichino che con media; la serie destagionalizzata è ovviamente
il passare degli anni ci sia stato un aumento di quella calcolata con i coefficienti stagionali ottenuti
importanza del picco “estivo” mentre abbia via via perso alla fine dell’algoritmo di backfitting non quelli
di importanza il picco “primaverile” osservabile nei primi preliminari;
anni. Questi effetti sono ovviamente al netto dell’aumen- ii) disegnare le sottoserie stagionali della serie con
to della ampiezza delle oscillazioni stagionali dovuto al il trend rimosso e verificare l’adattamento dei
trend (la serie “stagionale” disegnata nel grafico è quella coefficienti stagionali stimati;
dei coefficienti “moltiplicativi”). iii) calcolare la funzione di autocorrelazione della
componente irregolare; quest’ultima non dovrebbe
indicare residui di stagionalità, ovvero, i coefficienti
di autocorrelazione ai ritardi stagionali dovrebbero
essere piccoli; sarebbe inoltre auspicabile che la
componente irregolare presenti al più solamente
della correlazione di breve periodo (solo ai primi
ritardi).
Nel caso in esame i tre grafici sono riportati rispettiva-
mente nei lucidi 123, 124 e 125 e non sembrano indicare
la presenza di particolari problemi.
Unità F: Scomposizione di una serie . . . 109 Unità F: Scomposizione di una serie . . . 110
100 200 300 400 500 600100 200 300 400 500 600
Due stime del trend Una stima del “trend” che non ci piace!
600
500
400
300
200
100
1950 1952 1954 1956 1958 1960
1950 1952 1954 1956 1958 1960
Nel primo grafico, la stima è basata su una spline con La stima del trend è stata ottenuta lisciando la serie
4 “parametri equivalenti”, nel secondo su di una spline osservata con una spline con 20 parametri equivalenti.
con 20 “parametri equivalenti”. Qualè delle due stime è Si noti come risenta della componente stagionale e
migliore? Un pò difficile da dirsi! 2 quindi non sia accettabile come stima del trend.
2
Le stime sono state ottenute “lisciando” la serie pre-destagionalizzata (vedi
lucido 113).
Unità F: Scomposizione di una serie . . . 111 Unità F: Scomposizione di una serie . . . 112
Pre-destagionalizzazione Assunzioni sensate sulle componenti sono:
i) Tt ≈ Tt−i per i = −6, . . . , 6 ovvero il trend varia
Vogliamo mostrare come sia possibile in maniera molto lentamente nel tempo;
approssimativa (e quindi utile soprattutto in una fase ii) St ≈ St−12, ovvero la componente stagionale si ripete
“esplorativa”) ma molto semplice trasformare la serie quasi uguale in due anni vicini;
originale in maniera tale da eliminare la componente iii) (St−5 + · · · + St+6)/12 = 1 ovvero, nel corso di
stagionale ed “esporre” il trend. un anno le oscillazioni stagionali si compensano; in
Nel modello moltiplicativo caso contrario Tt non sarebbe interpretabile come il
“livello” di yt;
iv) la media di It vale 1 per qualsivoglia t; di nuovo, se
yt = T t St I t .
questo non accadesse non potremmo interpretare Tt
come il “livello” della serie osservata.
Consideriamo, per un prefissato t, gli istanti di tempo
Ma allora
t − 6, . . . , t − 1, t, t + 1, . . . , t + 6 1
2 yt−6 + yt−5 + · · · + yt+5 + 12 yt+6
dt = ≈ Tt It
12
che, visto che la serie è mensile, costituiscono le
osservazioni di un intero anno più un mese.
dove It = (It−6/2+It−5 +· · ·+It+5 +It+6/2)/12 ha media
uno.
Quindi, almeno approssimativamente, dt è una serie
temporale
a) con la componente di trend della seria originale
b) ma in cui la componente stagionale è stata eliminata
Osservazione: dt è calcolabile solo per t = 7, . . . , n − 6
dove con n abbiamo indicato la lunghezza della serie.
Unità F: Scomposizione di una serie . . . 113 Unità F: Scomposizione di una serie . . . 114
Osservazione. Si osservi che le assunzioni i) e ii) Passeggeri delle aerolinee: serie
precedenti potrebbero essere sostituite dalla predestagionalizzata
Tt−5St−5 + · · · + Tt+6St+6
≈ Tt
12
450
ovvero dall’ipotesi che la media della parte sistematica
della serie fatta su di un periodo lungo un anno sia
400
approssimativamente uguale al trend in uno dei mesi
centrali.
350
Nel caso avessimo adottato un modello additivo,
300
avremmo potuto procedere nella medesima maniera.
Infatti in questo caso yt = Tt + St + It ed è ragionevole
250
assumere che
i) Tt ≈ Tt−i per i = −6, . . . , 6;
200
ii) St ≈ St−12;
iii) (St−5 + · · · + St + · · · + St+5 + St+6)/12 = 0
150
iv) la media di It vale 0 per qualsivoglia t.
Quindi, in questo caso, 1950 1952 1954 1956 1958 1960
1
2 yt−6 + yt−5 + · · · + yt+5 + 12 yt+6
dt = ≈ Tt + I t
12
Esercizio. Si estenda il ragionamento precedente al caso
dove It = (It−6/2+It−5 +· · ·+It+5 +It+6/2)/12 ha media di una serie con una frequenza qualsiasi distinguendo il
zero. caso in cui il periodo stagionale sia pari o dispari.
Unità F: Scomposizione di una serie . . . 115 Unità F: Scomposizione di una serie . . . 116
Stime preliminari della componente di trend Stima preliminare della serie “senza trend”
ottenute “lisciando” la serie
pre-destagionalizzata
1.3
1.2
spline con 2 gradi di liberta’ spline con 5 gradi di liberta’
1.1
1.0
0.9
spline con 10 gradi di liberta’ spline con 20 gradi di liberta’
0.8
1950 1952 1954 1956 1958 1960
serie osservata
stima preliminare del trend
Unità F: Scomposizione di una serie . . . 117 Unità F: Scomposizione di una serie . . . 118
Grafici delle sottoserie mensili della serie Grafici delle sottoserie mensili della serie
“senza trend” “senza trend”
Given : cycle(y) Given : cycle(y)
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
1.3
1.3
1.2
1.2
1.1
1.1
1.0
1.0
0.9
0.9
0.8
0.8
1.3
1.3
1.2
1.2
1.1
1.1
y
1.0
1.0
0.9
0.9
0.8
0.8
1.3
1.3
1.2
1.2
1.1
1.1
1.0
1.0
0.9
0.9
0.8
0.8
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
time(y)
Unità F: Scomposizione di una serie . . . 119 Unità F: Scomposizione di una serie . . . 120
BIC in funzione dei gradi di lisciamento Scomposizione della serie
utilizzati AirPassengers ~ s(20) * p(1)
600
500
6
400
data
300
−650
200
5
100
500
−700
400
trend
300
4 −750
200
1.3
−800
1.2
3
seasonal
1.1
1.0
−850
0.9
0.8
2
1.04
5 10 15 20 25 30 35
remainder
1.00
Il grafico è basato su di un modello moltiplicativo. 0.96
delle “spline”. L’asse delle x mostra il numero di 1950 1952 1954 1956 1958 1960
Unità F: Scomposizione di una serie . . . 121 Unità F: Scomposizione di una serie . . . 122
Serie destagionalizzata e trend stimato Serie con il trend eliminato:
sottoserie mensili e stagionalità stimata
Given : cycle(y)
1.3
1.2
1.1
400
1.0
0.9
0.8
300
1.3
1.2
1.1
200
1.0
0.9
0.8
1950 1952 1954 1956 1958 1960
1.3
1.2
1.1
1.0
0.9
0.8
time(y)
Unità F: Scomposizione di una serie . . . 123 Unità F: Scomposizione di una serie . . . 124
Componente irregolare: Scomposizioni con “problemi”
funzione di autocorrelazione campionaria
Nel lucido 127, sono riportati i correlogrammi della
componente irregolare di alcune scomposizioni ottenute
con scelte non felici dei gradi di lisciamento.
1.0
Unità F: Scomposizione di una serie . . . 125 Unità F: Scomposizione di una serie . . . 126
Correlogrammi che indicano “problemi” Serie destagionalizzata e trend
1.0
1.0
trend: polinomio grado 2 trend: spline 20 gdl
500
stagionalita’: retta stagionalita’: costante
0.5
0.5
0.0
0.0
400
−0.5
−0.5
−1.0
−1.0
0 1 2 3 4 5 0 1 2 3 4 5
300
1.0
1.0
0.5
200
0.0
0.0
−0.5
−0.5
−1.0
−1.0
Unità F: Scomposizione di una serie . . . 127 Unità F: Scomposizione di una serie . . . 128
Serie con il trend eliminato: Serie con il trend eliminato:
sottoserie mensili e stagionalità stimata sottoserie mensili e stagionalità stimata
Given : cycle(y) Given : cycle(y)
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
1.3
1.3
1.2
1.2
1.1
1.1
1.0
1.0
0.9
0.9
0.8
0.8
1.3
1.3
1.2
1.2
1.1
1.1
y
y
1.0
1.0
0.9
0.9
0.8
0.8
1.3
1.3
1.2
1.2
1.1
1.1
1.0
1.0
0.9
0.9
0.8
0.8
1950 1954 1958 1950 1954 1958 1950 1954 1958 1950 1954 1958
time(y) time(y)
Il trend è stato stimato utilizzando una spline con 20 Il trend è stato stimato utilizzando una spline con 20
gradi di libertà. La componente stagionale utilizzando gradi di libertà. La componente stagionale utilizzando
una costante per interpolare le sottoserie mensili. una spline con 6 gradi di libertà per interpolare le
sottoserie mensili.
Unità F: Scomposizione di una serie . . . 129 Unità F: Scomposizione di una serie . . . 130
Estensioni e cautele
Unità G: Modelli dinamici basati sull’idea di . . . 133 Unità G: Modelli dinamici basati sull’idea di . . . 134
Un modello basato sul lisciamento • Una variante molto semplice del modello precedente
esponenziale che “permette” al livello di evolversi si concretizza
nell’assumere che
• Per iniziare consideriamo il caso in cui y1, y2, . . . sia
yt = lt−1 + ut
una successione di v.c. indipendenti di media costante (G.3)
lt = (1 − α)lt−1 + αyt (l0 = η, 0 ≤ α ≤ 1)
ed uguale ad η. Volendo complicarci la vita, possiamo
pensare che la successione sia generata dal seguente
La prima equazione è rimasta invariata. La seconda
paio di equazioni alle differenze
equazione è viceversa stata modificata introducendo
un “aggiornamento” del livello sulla base dell’ultima
yt = lt−1 + ut
osservazione. In particolare, il livello della prossima
lt = lt−1 (l0 = η)
osservazione, lt, viene ottenuto come media (pesata) del
livello precedente, lt−1, e dell’osservazione corrente yt.
dove, ut = yt − η.
Con sostituzioni successive è facile mostrare che
La prima equazione ci dice che yt è ottenuto come la
somma di due addendi
lt = αyt + α(1 − α)yt−1 + α(1 − α)2yt−2 + · · ·
- il primo, lt−1, fornisce il livello della serie osservata · · · + α(1 − α)t−1y1 + +(1 − α)tl0 =
(infatti E(ut) = 0); la notazione e, in particolare, il t−1
X
pedice utilizzato per il livello, è stata scelta in maniera = α(1 − α)iyt−i + (1 − α)tl0 (G.4)
da enfatizzare il fatto che il livello delle osservazioni al i=0
tempo t è già noto al tempo t − 1;
- il secondo, ut, costituisce la deviazione del valore Quindi lt è una media pesata di yt, . . . , y1, l0. La somma
corrente dal livello determinato precedentemente. dei pesi vale 1. Se 0 < α < 1, i pesi assegnati alle
osservazioni passate decrescono geometricamente; sono
La seconda equazione ci dice che per questo modello quindi posti su una curva di tipo esponenziale – da cui il
particolarmente semplice il livello della serie rimane nome lisciamento esponenziale. Si osservi anche come
costante (ovvero era noto non solo al tempo t − 1 ma
il peso assegnato ad l0 converga a zero per t → +∞.
anche ai tempi di Adamo e Eva).
Unità G: Modelli dinamici basati sull’idea di . . . 135 Unità G: Modelli dinamici basati sull’idea di . . . 136
Pesi “esponenziali” per tre differenti valori Tre serie simulate
di α
10
0.20
α = 0.2
0.15
5
0.10
0
0.05
α = 0.2
−5
0.00
10
0.5
α = 0.5
0.4
5
0.3
0
0.2
α = 0.5
0.1
−5
0.8 0.0
10
α = 0.8
0.6
5
0.4
0
0.2
α = 0.8
−5
0 100 200 300 400 500
0.0
5 10 15
Le tre serie sono state simulate ponendo l0 = 0 e
Si osservi come all’aumentare di α i pesi assegnati alle utilizzando sempre la stessa sequenza di numeri pseudo-
osservazioni più “lontane nel tempo” decrescano. Quindi casuali normali (di media nulla e varianza unitaria).
più α è grande più la memoria del processo diminuisce. Si osservi come l’ampiezza delle variazioni del livello
aumenti all’aumentare di α.
Unità G: Modelli dinamici basati sull’idea di . . . 137 Unità G: Modelli dinamici basati sull’idea di . . . 138
• Si osservi che Ricordando che
– se α = 0 ritorniamo al modello con livello costante; - la media di una somma di v.c. è la somma delle medie;
– se α = 1, lt = yt ovvero il livello della prossima - la varianza di una somma di v.c. incorrelate è la
osservazione coincide con l’osservazione corrente. somma della varianze;
- stiamo supponendo che l0 sia una costante;
• Sostituendo la prima equazione della (G.3) nella
- le {ut} sono v.c. indipendenti (e quindi incorrelate) di
seconda, possiamo scrivere
media nulla,
yt = lt−1 + ut troviamo che
lt = lt−1 + αut (l0 = η)
E(yt) = E(lt) = l0
t−1
X
• Dalla rappresentazione precedente, possiamo vedere var(yt) = var(ut) + α 2
var(ut−i)
come i=1
t−1
X
t−1
X var(lt) = α2 var(ut−i)
yt = l 0 + u t + α ut−i i=0
i=1
t−1
X
lt = l 0 + α ut−i La prima relazione ci dice che la media della serie
i=0 osservata (e del suo livello) è costante.
Unità G: Modelli dinamici basati sull’idea di . . . 139 Unità G: Modelli dinamici basati sull’idea di . . . 140
Le altre due ci dicono però che se l’innovazione non Serie alla “deriva”
è degenere (ovvero se var(ut) non è zero) allora, le
varianze di yt e di lt aumentano all’aumentare di t. In [il problema] Molte serie temporali contengono una
particolare, se, per qualsivoglia t, var(ut) = σ2 abbiamo evidente componente di deriva (drift in inglese) ovvero
che tendono per lunghi periodi ad aumentare o a diminuire
var(yt) = (1 + α2(t − 1))σ2. sistematicamente. Vediamo allora come sia possibile
Quindi, per t sufficientemente grande yt può “essere introdurre esplicitamente una componente di questo
dovunque”. tipo nel modello.
Dall’altra parte però, poichè [deriva additiva costante] Un modello con una deriva
costante nel tempo è
var(yt − yt−1) = var(ut + (α − 1)ut−1) = (1 + (1 − α)2)σ2
yt = lt−1 + d + ut
(G.5)
è vero che yt “può arrivare per t arbitrariamente grande lt = (1 − α)(lt−1 + d) + αyt = lt−1 + d + αut
dappertutto” ma, a meno che σ2 non sia “enorme” si può
muovere solo a “piccoli passi”. dove d è il parametro di deriva, mentre, al solito, l0 = η
e 0 ≤ α ≤ 1.
Si osservi come, nella (G.5), il livello “tendenzialmente”
aumenti di d unità in ogni istante di tempo.
Inoltre, come è facile verificare,
E(yt) = l0 + d · t
α = 0.2
40
yt = lt−1 + dt−1 + ut
30
dt = (1 − β)dt−1 + β(lt − lt−1)
10
α = 0.5 passante per i punti (t−1, lt−1) e (t, lt). Quindi, la deriva,
40
t−1
10
X
dt = β(1 − β)i(lt−i − lt−i−1 ) + (1 − β)td0
50 0
i=0
α = 0.8
40
della spezzata che passa per i punti (0, l0), (1, l1),. . . ,(t, lt).
10
0 100 200 300 400 500 forma che enfatizza il ruolo dell’innovazione come
In tutte le serie è stato utilizzato l0 = 0 e d = yt = lt−1 + dt−1 + ut
0,1. L’innovazione è stata generata utilizzando un lt = lt−1 + dt−1 + αut
generatore di normali standard. La sequenza dei valori
dt = dt−1 + αβut
dell’innovazione è la stessa nelle tre simulazioni che
quindi differiscono solo per il valore di α.
Unità G: Modelli dinamici basati sull’idea di . . . 143 Unità G: Modelli dinamici basati sull’idea di . . . 144
[deriva additiva a “smorzare” (damped)] Una estensione Due serie simulate. . .
del modello precedente che risulta a volte utile si
concretizza nell’assumere che
500
yt = lt−1 + dt−1 + ut
lt = lt−1 + dt−1 + αut
300
dt = φdt−1 + αβut
100
Se φ = 1 riotteniamo il modello precedente. Viceversa,
80 0
quando φ < 1 la deriva “tende” a contrarsi verso lo
zero. In questi casi otteniamo quindi un modello in cui i
60
cambiamenti di direzione sono più probabili.
40
20
0
0 50 100 150 200 250 300
Unità G: Modelli dinamici basati sull’idea di . . . 145 Unità G: Modelli dinamici basati sull’idea di . . . 146
. . . e le rispettive derive [deriva moltiplicativa] Il punto di riferimento per i
modelli precedenti è un trend lineare. In realtà,
soprattuto nella versione con deriva che si evolve, il
modello riesce ad approssimare anche trend di natura
diversa.
4
φ=1
φ = 0.9 Esiste comunque una versione del modello precedente
che “ingloba” esplicitamente l’idea di una crescita di
3
yt = exp(a + bt) + ut
z
differenze
yt = lt−1dt−1 + ut
0
Unità G: Modelli dinamici basati sull’idea di . . . 147 Unità G: Modelli dinamici basati sull’idea di . . . 148
Una serie simulate con deriva moltiplicativa Introduzione di una componente stagionale
yt = lt−1 + dt−1 + st−f + ut
40
Unità G: Modelli dinamici basati sull’idea di . . . 149 Unità G: Modelli dinamici basati sull’idea di . . . 150
Si osservino inoltre le equazioni con cui vengono Una serie simulata con stagionalità
aggiornati lt, che ora è interpretabile come il livello del additiva. . .
trend, e st, la componente stagionale. In particolare
si noti come combinino in una certa qual misura l’idea
del lisciamento esponenziale con l’idea dell’algoritmo di
backfitting presentato a pagina 104. Infatti, lt e st sono
1000
una media ponderata
− dei valori precedenti, lt−1 e st−f rispettivamente,
800
− e del valore corrente della serie, yt, da cui viene
eliminata nel caso di lt la componente stagionale e
600
nel caso di st la componente di trend.
La forma che rende eplicito il ruolo dell’innovazione del
400
modello precedente è
200
yt = lt−1 + dt−1 + st−f + ut
lt = lt−1 + dt−1 + αut
dt = dt−1 + αβut
0
st = st−f + γut
5 10 15 20 25
Unità G: Modelli dinamici basati sull’idea di . . . 151 Unità G: Modelli dinamici basati sull’idea di . . . 152
e le sue componenti [stagionalità moltiplicativa] Seguendo lo stesso ordine
di idee possiamo definire un modello con una
componente stagionale moltiplicativa ponendo
1000
yt = (lt−1 + dt−1)st−f + ut
600
level
lt = (1 − α)(lt−1 + dt−1) + α yt
st−f
200
yt
6
st = (1 − γ)st−f + γ
l +d
5
t−1 t−1
drift
4
3
2
1
20
yt = (lt−1 + dt−1)st−f + ut
lt = lt−1 + dt−1 + α ut
−20
st−f
−60
dt = dt−1 + αβut
10 15
ut
innovation
st = st−f + γ
5
l +d t−1 t−1
0
−10
0 5 10 15 20 25
Unità G: Modelli dinamici basati sull’idea di . . . 153 Unità G: Modelli dinamici basati sull’idea di . . . 154
Una serie simulata con stagionalità e le sue componenti
moltiplicativa. . .
250
350
150
level
50
300
1.50
1.0
250
drift
0.5
200
1.30.0
seasonality
1.2
150
1.1
1.0
0.9
100
2
innovation
1
50
0
−1
−2
0
−3
0 5 10 15 20 25
5 10 15 20 25
Unità G: Modelli dinamici basati sull’idea di . . . 155 Unità G: Modelli dinamici basati sull’idea di . . . 156
Innovazione additiva o moltiplicativa? [innovazione moltiplicativa] In altri casi però la
variabilità di ut sembra dipendere da gt ed in
[notazione] Tutti i modelli precedenti possono essere particolare, lo scarto quadratico medio di ut sembra
scritti nella forma essere proporzionale a gt. E’ quindi usuale considerare
anche la possibilità che
yt = g t + u t
equazioni aggiuntive per calcolare gt var(ut) = σ2g2t
dove gt è la parte di yt predicibile sulla base del passato. In questi casi, si parla di innovazione moltiplicativa.
Infatti il modello può anche essere scritto come
[innovazione additiva] Per molte serie temporali la
varianza di ut, ovvero dell’innovazione, non sembra
yt = gt(1 + at)
dipendere dal livello della serie (ovvero da gt).
equazioni aggiuntive per calcolare gt
Supponendo che la varianza sia anche costante nel
tempo possiamo allora scrivere
dove at = ut/gt.
var(ut) = σ2 nota: Si osservi che nel caso moltiplicativo abbiamo
assunto gt > 0.
dove σ è una costante appropriata.
Si parla, in questi casi, di innovazione addittiva.
Unità G: Modelli dinamici basati sull’idea di . . . 157 Unità G: Modelli dinamici basati sull’idea di . . . 158
Sintesi dei modelli considerati: le quattro Sintesi dei modelli considerati: casi
forme di base particolari
Unità G: Modelli dinamici basati sull’idea di . . . 159 Unità G: Modelli dinamici basati sull’idea di . . . 160
“Nomi” assegnati ad alcuni casi particolari Costruzione empirica di un modello
[modello di Holt] Modello senza deriva e senza stagionalità. Per costruire un modello appartenente alla classe
E’ chiamato anche lisciamento esponenziale semplice.In ast: descritta è possibile seguire il seguente approccio
drift=”none” e seasonality=”none”.
[lisciamento esponenziale doppio] Modello senza stagionalità e
con deriva additiva non a smorzare. In ast: drift=”additive” e scelta di uno dei modelli della o O
seasonality=”none”. classe
NO:
[modello di Holt-Winters additivo] Modello con deriva additiva
stima dei parametri del modello rivediamo le
(non a smorzare) e stagionalità additiva. E’ chiamato
anche lisciamento esponenziale triplo additivo. In ast: scelto scelte fatte
drift=”additive” e seasonality=”additive”.
precedente-
il modello sembra descrivere in mente
[modello di Holt-Winters moltiplicativo] Modello con deriva additiva
maniera adeguata il meccanismo /
(non a smorzare) e stagionalità moltiplicativa. E’ chiamato
anche lisciamento esponenziale triplo moltiplicativo. In ast:
generatore della serie temporale
drift=”additive” e seasonality=”multiplicative”. osservata?
[notazione] Indichiamo con ϑ il vettore dei parametri Sotto questa ipotesi il calcolo della verosimiglianza è
di un particolare modello, ovvero, il vettore che ha come molto agevole. Innanzitutto ricordiamoci che
elementi
p(y1, . . . , yn; ϑ) = p(y1; ϑ) × p(y2|y1; ϑ) × · · ·
(i) le costanti di lisciamento non vincolate (ovvero, i
· · · × p(yn|yn−1 , . . . , y1; ϑ)
vari α, β,. . . ),
(ii) le condizioni iniziali per le equazioni alle
differenze che definiscono il modello (ovvero, l0 e dove p(·; ϑ) indica la funzione di densità del primo
se “servono” d0 e s0, s−1, . . .) e argomento calcolata sotto l’ipotesi che il vero valore dei
(iii) il parametro di dispersione dell’innovazione (σ). parametri sia ϑ. Osserviamo poi che, dalla struttura del
modello, segue immediatamente che
Tutti i modelli di questa unità possono essere scritti nella
forma (yt|yt−1, . . . , y1) ∼ N(gt(ϑ), σ2vt(ϑ)2)
yt = gt(ϑ) + vt(ϑ)at
dove gt(ϑ) è, al solito la parte di yt predicibile sulla base Infatti, assegnate le osservazioni passate e ϑ, gt(ϑ) e
del passato, at = ut/vt(ϑ) e vt(ϑ) sono assimilabili a delle quantità non stocastiche.
1 se l’innovazione è additiva
vt(ϑ) =
gt(ϑ) se l’innovazione è moltiplicativa
Unità G: Modelli dinamici basati sull’idea di . . . 163 Unità G: Modelli dinamici basati sull’idea di . . . 164
La funzione di verosimiglianza, a meno di termini [osservazioni e cautele] E’ possibile far vedere che le
moltiplicativi non dipendenti da ϑ è quindi proprietà (almeno quelle asintotiche) degli stimatori
non dipendono dall’assunzione di normalità fatta nel
n 2 !
calcolo della verosimiglianza (nel senso che, sotto ipotesi
Y 1 1 yt − gt(ϑ)
L(ϑ) = exp − piuttosto deboli, la distribuzione asintotica, almeno dei
σvt(ϑ) 2 σvt(ϑ)
t=1
parametri di lisciamento e di σ è la stessa sia se at è
normale sia se non lo è). E’ però bene tenere presente
Gli stimatori di massima verosimiglianza possono essere che
ottenuti massimizzando L(ϑ). Per nessuno dei modelli
(i) I parametri che descrivono le condizioni iniziali
considerati gli stimatori sono esprimibili in forma chiusa.
(l0, d0, s0,. . . ) non vengono stimati, in generale, in
E’ quindi necessario utilizzare delle opportune procedure
maniera consistente. Questa non è una caratteristi-
numeriche.
ca degli stimatori di massima verosimiglianza. E’ una
Esercizio. Si partizioni ϑ come (ψ, σ) dove ψ indica il caratteristica dei modelli ed in particolare del fatto
vettore di tutti i parametri escluso σ. Si osservi che gt(ϑ), che gt(ϑ) dipende “solo debolmente” dalle condizioni
qualsiasi sia il modello non dipende da σ e quindi può iniziali quando t è grande (si ricordi ad esempio come
essere scritto come gt(ψ). Si dimostri inoltre che nel l’importanza di l0 diminuisse nell’equazione (G.4)).
caso l’innovazione sia additiva gli stimatori di massima Fanno ovviamente eccezione i casi in cui l’effetto della
verosimiglianza possono essere ottenuti minimizzando condizione iniziale non scompare da gt(ϑ). Esempi sono
in ψ la somma dei quadrati degli errori di previsione un i modelli con deriva o stagionalità costante nel tempo.
passo in avanti
(ii) I parametri di lisciamento (α,. . . ) variano nell’inter-
n
X vallo [0, 1]. La teoria asintotica standard per questi
2
s (ψ) = (yt − gt(ψ))2 parametri vale ma solamente se il vero valore dei
t=1 parametri è interno all’intervallo. Negli altri casi la teoria
standard non si applica. Si tratta di una situazione
e, indicata la stima di ψ con ψ̂, stimando σ2 mediante sfortunata visto che molte ipotesi di interesse vedono
“coivolti” punti estremi (ad esempio, per verificare se
1 2 la deriva è fissa o no saremmo interessati a verificare
σ̂2 = s (ψ̂)
n l’ipotesi β = 0).
Unità G: Modelli dinamici basati sull’idea di . . . 165 Unità G: Modelli dinamici basati sull’idea di . . . 166
Scelta di un modello Verifica dell’adattamento
Una possibile strategia consiste nello Si basano usualmente sull’analisi delle innovazioni
standardizzate del modello stimato, ovvero di
(a) stimare tutti i possibili modelli (almeno tutti quelli
compatibili con le caratteristiche della serie, ovvero, ad
esempio, non ha senso considerare i modelli stagionali yt − gt(ϑ̂)
ât =
per una serie che stagionale non è); vt(ϑ̂)
(b) ordinare i modelli stimati utilizzando un criterio del
tipo di quelli considerati a pagina 96 che nel presente Verifiche “standard” sono:
caso sono definiti come
(i) disegnare ât verso t per verificare se la media è nulla
e la varianza costante per ogni t.
−2logL(ϑ̂) + cn(numero parametri del modello)
(ii) calcolare e disegnare la funzione di autocorrelazio-
dove ϑ̂ indica lo stimatore di massima verosimiglian- ne di ât e magari anche verificare l’ipotesi che ât sia
za mentre cn è una costante (per cn = 2 otteniamo il assimilabile ad un rumore bianco utilizzando il test di
criterio AIC, per cn = log(n) il criterio BIC). Ricordando Box-Ljung.
che L(ϑ) può essere interpretata come una misura della (iii) è inoltre usuale anche utilizzare un normal
capacità del modello con una particolare struttura e probability plot per verificare la normalità di at;
parametri ϑ di “spiegare” i dati osservati, la logica degli per quanto non strettamente richiesta, la normalità,
indici descritti è quella del lucido 96. almeno approssimata, di at garantisce la “sensatezza”
(c) scegliere il modello migliore (quello con il criterio dell’approccio utilizzato per la stima, può essere utile
più basso) o, se questo non è soddisfacente, uno dei per calcolare previsioni intervallari (vedi lucido 176);
“migliori”. il grafico può inoltre segnalare la presenza di eventuali
osservazioni anomale il cui effetto deve essere indagato.
Esercizio. Dimostrare che se si confrontano modelli
con innovazione additiva i criterio scritti sopra sono
equivalenti ai criteri nlogσ̂2 + cn(num. par. modello)
Unità G: Modelli dinamici basati sull’idea di . . . 167 Unità G: Modelli dinamici basati sull’idea di . . . 168
Una serie temporale di vendite Innanzitutto carichiamo i dati, selezioniamo le prime
144 osservazioni e disegnamo la serie “osservata”.
Riportiamo l’analisi, inclusi i comandi per R, per
analizzare la serie mostrata nel primo grafico della figura > data(BJsales)
nel lucido 8. La serie comprende 150 osservazioni. > y <- window(BJsales,end=144)
Per costruire un modello noi useremo le prime 144 > plot(y)
osservazioni. In questa maniera potremmo poi utilizzare
il modello per prevedere le ultime 6 osservazioni e
260
confrontare le previsioni con quanto effettivamente
avvenuto.
250
240
230
y
220
210
200
0 20 40 60 80 100 120 140
Time
Unità G: Modelli dinamici basati sull’idea di . . . 169 Unità G: Modelli dinamici basati sull’idea di . . . 170
Poi stimiamo tutti i modelli compatibili con la serie Stimiamo quindi questo modello (output rieditato
osservata (ovvero tutti i modelli non stagionali) e spezzando alcune delle righe originali)
ordiniamoli utilizzando BIC
> m <- esFit(y,drift="d/additive",
> esId(y) + seasonality="none",
drift sea inn np BIC AIC rankAIC + innovation="additive")
1 d n a 5 825.1447 810.2957 1 > m
2 a n a 4 826.2208 814.3416 2 Call: esFit(y = y, drift = "d/additive",
3 m n a 4 827.2143 815.3351 3 seasonality = "none",
4 a n m 4 830.0236 818.1444 4 innovation = "additive")
5 m n m 4 830.8629 818.9837 5 drift=d/additive,
6 c/a n a 3 838.0757 829.1662 6 seasonality=none,
7 c/m n a 3 838.2286 829.3191 7 innovation=additive
8 c/m n m 3 842.4375 833.5281 8 alpha phi beta
9 n n a 2 844.9391 838.9995 9 0.94758225 0.87909108 0.27893611
10 n n m 2 849.0382 843.0986 10 l.start d.start sigma
11 d n m 5 1610.2699 1595.4208 11 200.03953950 -0.08819421 1.34164674
12 c/a n m 3 2356.4463 2347.5368 12 -2log(likelihood)= 800.2957
AIC= 810.2957 BIC= 825.1447
I differenti modelli sono idenficati nell’output con le
“iniziali” del tipo di deriva (drift), stagionalità (sea) e
innovazione (inn). L’output del comando mostra anche
il numero di parametri del modello (np), i valori di BIC
e AIC e in numero d’ordine del modello quando se si
utilizzasse AIC per ordinare i vari modelli (rankAIC). In
questo caso, i due criteri sono perfettamente concordi
e suggeriscono un modello con deriva additiva “a
smorzare” (damped) e innovazione addittiva.
Unità G: Modelli dinamici basati sull’idea di . . . 171 Unità G: Modelli dinamici basati sull’idea di . . . 172
Il comando tsdiag può essere utilizzato per ottenere il Mostriamo anche il normal proability plot di ât.
grafico delle ât, della loro autocorrelazione campionaria
e dei livelli di significatività osservati del test di Ljung- > qqnorm(residuals(m))
Box calcolato sul primo coefficiente di autocorrelazio-
Normal Q−Q Plot
ne, sui primi due,. . . , sui primi gof.lag coefficienti di
autocorrelazione dove gof.lag è il secondo argomento
4
di tsdiag.
> tsdiag(m,20)
2
Standardized Residuals
3
2
Sample Quantiles
1
−1
0
−3
Time
−2
ACF of Residuals
1.0
0.6
ACF
0.2
−4
−0.2
0 5 10 15 20
−2 −1 0 1 2
Lag
Theoretical Quantiles
p values for Ljung−Box statistic
0.8
p value
0.4
0.0
5 10 15 20
lag
Unità G: Modelli dinamici basati sull’idea di . . . 173 Unità G: Modelli dinamici basati sull’idea di . . . 174
La funzione di autocorrelazione e i valori del test di Previsione: considerazioni generali
Ljung-Box sono molto buoni. Il grafico dei residui non
segnala deviazioni particolarmente rilevanti da quanto [il problema] Vogliamo, sulla base delle osservazioni,
atteso (al più una leggera diminuzione della variablibità indichiamole con (y1, . . . , yn), “prevedere” il valore della
con il passare del tempo). serie in un istante futuro, diciamo n + h. In altre parole,
Il normal probability plot indica un buon adattamento vogliamo “farci raccontare” dalle osservazioni y1, . . . , yn
della distribuzione normale alle ât. quello che “sanno” su yn+h .
In conclusione adottiamo il modello suggerito da BIC e [futuro|passato] La soluzione generale è offerta dalla
AIC come un possibile “modello generatore” della serie. distribuzione di yt+h condizionata a (y1, . . . , yn).
Infatti, P(yn+h |y1, . . . , yn) ci dice dove ci aspettiamo di
trovare il processo al tempo t + h sapendo che al tempo
1 era a y1, al tempo 2 a y2,. . . , al tempo n a yn.
Ad esempio, se fosse vero che P(0 ≤ yt+h ≤
1|y1, . . . , yn) = 0 allora nessuna delle realizzazioni del
processo che “passano” al tempo 1 per y1,. . . , al tempo
n per yn, poi, al tempo t + h “si trovano” nell’intervallo
[0, 1].
Mentre, se fosse vero che P(0 ≤ yt+h ≤ 1|y1, . . . , yn) =
0,9 allora 9 traiettorie su 10 del processo che “passano”
al tempo 1 per y1,. . . , si trovano al tempo t + h
nell’intervallo [0, 1].
Quindi, in termini generali, la soluzione del problema
consiste nel calcolare (almeno approssimativamen-
te) questa distribuzione condizionata o qualche suo
parametro caratteristico.
Unità G: Modelli dinamici basati sull’idea di . . . 175 Unità G: Modelli dinamici basati sull’idea di . . . 176
[media/mediana condizionati] Media e mediana della [intervalli di previsione] I quantili della distribuzione
distribuzione condizionata possono essere utilizzate per condizionata sono particolarmente interessanti poichè
fornire una idea di dove dovrebbe trovarsi il processo permettono di costruire agevolmente degli intervalli
al tempo yt+h . Tra l’altro si osservi che per una nota di previsione, ovvero degli intervalli che includono
proprietà della media i valore futuro con una probabilità preassegna-
ta. Intervalli di previsione sono nelle applicazioni
E((yn+h − yn+h|n )2|Yn) ≤ E((yn+h − ψ(Yn))2|Yn) importanti. Permettono infatti di “esporre” in maniera
intuitiva e non tecnica il grado di precisione con cui
dove “conosciamo il futuro”.
- Yn = (y1, . . . , yn) indica le osservazioni, Si supponga di voler determinare [an+h|n , bn+h|n ] tali che
- yn+h|n = E(yn+h |Yn) indica la media condizionata e
- ψ(·) indica una generica funzione. P(an+h|n ≤ yn+h ≤ bn+h|n |y1, . . . , yn) = 1 − ε
Unità G: Modelli dinamici basati sull’idea di . . . 177 Unità G: Modelli dinamici basati sull’idea di . . . 178
Previsione con i modelli basati sul
lisciamento esponenziale Algoritmo di simulazione
Unità G: Modelli dinamici basati sull’idea di . . . 179 Unità G: Modelli dinamici basati sull’idea di . . . 180
Alcuni futuri simulati (e uno vero!!!) Per quanto riguarda la simulazione dell’innovazione
“futura” sono spesso considerate due possibilità:
270
Unità G: Modelli dinamici basati sull’idea di . . . 183 Unità G: Modelli dinamici basati sull’idea di . . . 184
Previsione della serie delle vendite Per ottenere le previsione ingenue o l’analogo di quanto
appena vista ma calcolato ricampionando le innovazioni
Con il seguente comando, se m è l’oggetto ritornato da è sufficiente cambiare “metodo”.
esFit, chiediamo a R di generare 1000 “futuri”3 per
le 144 osservazioni utilizzate per stimare il modello. > predict(m,6,method="naive")
L’innovazione viene simulata da una distribuzione Time Series:
normale. Il metodo predict in questo caso ritorna Start = 145
una serie temporale multivariate contenenti le stime End = 150
della media, della mediana e di alcuni altri percentili Frequency = 1
della distribuzione condizionata. L’ultimo comando sotto Series 1
(il cui output è stato “tagliato”) può essere utilizzato [1,] 261.8299
per mostrare le stime della media, della mediana e un .............
intervallo di previsione al 90% per i valori futuri. [6,] 264.5363
> predict(m,6,method="resample")[,
> yg <- predict(m,6,method="gauss") + c("5%","median","mean","95%")]
> colnames(yg) Time Series:
[1] "2.5%" "5%" "25%" "median" "mean" Start = 145
"75%" "95%" "97.5%" End = 150
> yg[,c("5%","median","mean","95%")] Frequency = 1
Time Series: 5% median mean 95%
Start = 145 145 259.7755 261.7510 261.7610 263.9980
End = 150 .......................................
Frequency = 1 150 255.9069 264.2205 264.2492 272.4579
5% median mean 95%
145 259.6545 261.8513 261.8354 263.9763
.......................................
150 256.2099 264.5428 264.5254 272.9976
3
il numero è variabile utilizzando l’argomento n.series
Unità G: Modelli dinamici basati sull’idea di . . . 185 Unità G: Modelli dinamici basati sull’idea di . . . 186
Con i seguenti comandi disegnamo la media della Una serie con le bollicine
distribuzione condizionata, un intervallo di previsione al
90% e, per confronto, le vere osservazioni sulle vendite. Una delle serie temporali inclusa in ast si riferisce
alle vendite di champagne di una particolare azienda
> a <- c("5%","mean","95%") produttrice. Si tratta di una serie storica mensile.
> plot(yg[,a],plot.type="s",lty="dotdash") Anche in questo caso, per vedere la capacità previsiva
> points(window(BJsales,start=145),pch="*",cex=2) del modello “in azione” non utilizzeremo le ultime 12
osservazioni per costruire il modello.
> data(champagne)
> end(champagne)
[1] 1972 9
> bollicine <- window(champagne,end=c(1971,9))
> plot(bollicine)
270
14000
yg[, c("5%", "mean", "95%")]
12000
265
10000
* * *
* *
bollicine
8000
*
260
6000
4000
2000
Unità G: Modelli dinamici basati sull’idea di . . . 187 Unità G: Modelli dinamici basati sull’idea di . . . 188
Vediamo quali modelli suggeriscono AIC e BIC. Con Proviamo a stimare i tre modelli migliori per ambedue i
keep=2 “avvisiamo” esId di “ritornare” solo i due modelli criteri e verifichiamone l’adattamento.
con il BIC più piccolo e, se diversi, i due modelli con il
miglior AIC. > m1 <- esFit(bollicine,"n","c/m","a")
> tsdiag(m1)
> esId(bollicine,keep=2) Standardized Residuals
drift sea inn np BIC AIC rankAIC
1 n c/m a 14 1660.724 1625.268 3
3
1
2 m c/m a 16 1664.543 1624.022 1
−1
3 a c/m a 16 1665.408 1624.887 2
−3
1964 1966 1968 1970
Time
In questo caso c’e’ un parziale disaccordo tra i
due criteri. Il modello migliore per BIC è terzo ACF of Residuals
1.0
per AIC,. . . . Ambedue i criteri suggeriscono come
0.6
ACF
appropriata una stagionalità costante e moltiplicativa
0.2
(seasonality=”c/multiplicative”) e una innovazione
−0.2
0.0 0.5 1.0 1.5
additiva (innovation=”additive”). Però, nel miglior Lag
0.8
drift=”additive”).
p value
0.4
0.0
0 5 10 15 20 25 30 35
lag
Unità G: Modelli dinamici basati sull’idea di . . . 189 Unità G: Modelli dinamici basati sull’idea di . . . 190
> m2 <- esFit(bollicine,"m","c/m","a") > m3 <- esFit(bollicine,"a","c/m","a")
> tsdiag(m2) > tsdiag(m3)
Standardized Residuals Standardized Residuals
4
4
2
2
0
0
−2
−2
1964 1966 1968 1970 1964 1966 1968 1970
Time Time
1.0
0.6
0.6
ACF
ACF
0.2
0.2
−0.2
−0.2
0.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5
Lag Lag
0.8
p value
p value
0.4
0.4
0.0
0.0
0 5 10 15 20 25 30 35 0 5 10 15 20 25 30 35
lag lag
Unità G: Modelli dinamici basati sull’idea di . . . 191 Unità G: Modelli dinamici basati sull’idea di . . . 192
Per tutti e tre i modelli l’autocorrelazione dei residui La caratteristica è ancora più evidenziata dal normal
non sembra indicare particolari problemi. Comunque i probability plot. Una delle osservazioni, i grafici
modelli suggeriti da BIC sembra essere marginalmente precedenti dei residui la collocano intorno al 1967, è
migliore (sopratutto se guardiamo ai livelli di significati- anomala rispetto alle altre.
vità dei test di Ljung-Box basati su 13 o più coefficienti
di autocorrelazione). > qqnorm(residuals(m1))
Inoltre, il modello suggerito da BIC è più parsimonioso,
Normal Q−Q Plot
ovvero utilizza meno parametri, e quindi è quello che
rischia meno di cogliere caratteristiche spurie della serie
osservata. Sembra quindi sensato sceglierlo.
2000
Il grafico dei residui di tutti e tre i modelli mostra però
un caratteristica non del tutto “piacevole” e che merita
di essere investigata.
1000
Sample Quantiles
0
−1000
−2 −1 0 1 2
Theoretical Quantiles
Unità G: Modelli dinamici basati sull’idea di . . . 193 Unità G: Modelli dinamici basati sull’idea di . . . 194
Vediamo qual’è e cerchiamo di capire che cosa è successo Il grafico mostra chiaramente che cosa è successo.
facendo uno “zoom” sulla serie. Almeno negli anni vicini, dopo il picco natalizio le
vendite calano a gennaio fino ad un livello uguale od
> start(bollicine) addirittura più basso di quello nei mesi immediatamente
[1] 1964 1 successivi.
> which.max(abs(residuals(m1)))
Questa diminuzione avviene solo parzialmente a
[1] 37
gennaio 1967. Il modello sbaglia quindi la previsione.
> #l’osservazione "incriminata" e’ quindi
> #il gennaio 1967 Per capire se questo pesa sul modello, costruiamo “una
> z <- window(bollicine,start=c(1964,12), serie pulita” sostituendo al valore di gennaio 1967 la
+ end=c(1969,2)) media dei gennaii degli anni vicini e vediamo cosa
> plot(z) succede.
> points(z,pch=month.name[cycle(z)])
> arrows(1967+0.5,bollicine[37]+200, > z <- window(y,start=c(1964,12),
+ 1967,bollicine[37]) + end=c(1969,2))
> #comandi come prima
> #gennaio ’67 adesso sembra ‘‘normale’’
D
D
10000
N D
D D
10000
D N
N
8000
D
N
D
D N
8000
N O
z
N
6000
D
N O
J O
z
O
6000
S
AMJ
S MJ
O O
FM
4000
M MJ A J JF O S
M M
S A S J J
AMJ
S MJ
A J J O
FM
4000
M J JF F M MJ A JF
J
M M J J
JF S A S
A J J J
2000
M J JF F
A A A JF
A
2000
A A A
1965 1966 1967 1968 1969 A
Time
Unità G: Modelli dinamici basati sull’idea di . . . 195 Unità G: Modelli dinamici basati sull’idea di . . . 196
I modelli suggeriti dai due criteri non cambiano. Questo Stimiamo il modello suggerito da BIC.
è consolante. Ovvero, l’osservazione anomala non
sembra particolarmente influente. > m1bis <- esFit(y,"n","c/m","a")
> tsdiag(m1bis)
> esId(y,keep=2) Standardized Residuals
drift sea inn np BIC AIC rankAIC
2
1 n c/m a 14 1639.490 1604.033 3
1
0
2 m c/m a 16 1641.137 1600.615 1
−1
3 a c/m a 16 1642.633 1602.112 2
−3
1964 1966 1968 1970
Time
ACF of Residuals
1.0
0.6
ACF
0.2
−0.2
0.0 0.5 1.0 1.5
Lag
0.8
p value
0.4
0.0 0 5 10 15 20 25 30 35
lag
Unità G: Modelli dinamici basati sull’idea di . . . 197 Unità G: Modelli dinamici basati sull’idea di . . . 198
L’autocorrelazione dei residui non preoccupa. Anche il Proviamo a vedere se ci sono differenze nella distribuzio-
normal probability plot è diventato più normale. ne prevista per le prossime 12 osservazioni. Nella figura
(vedi prossimo lucido per le istruzioni R) i tre grafici
> qqnorm(residuals(m1bis)) confrontano (dall’alto verso il basso) i percentili 0.5 e
0.95 e la media calcolati utilizzando i due modelli e
Normal Q−Q Plot generando le innovazioni future con i due metodi visti
(in ogni grafico ci sono 4 curve).
1000
12000
500
12000
−1000
8000
4000
−1500
−2 −1 0 1 2
10000
Theoretical Quantiles
6000
2000
Unità G: Modelli dinamici basati sull’idea di . . . 199 Unità G: Modelli dinamici basati sull’idea di . . . 200
Istruzioni R per costruire il grafico sul lucido 200. Visto che le differenze nelle previsioni tra i vari modelli
e i vari metodi sembrano irrilevanti usiamo il modello
> a <- c("5%","95%","mean") originale e generiamo le innovazioni assumendo la
> p1 <- predict(m1,12,method="g")[,a] normalità. Al grafico, per vedere il modello “in azione”
> p2 <- predict(m1,12,method="r")[,a] aggiungiamo anche le vere osservazioni (che si tenga
> p3 <- predict(m1bis,12,method="g")[,a] conto, non sono state in nessuna maniera utilizzate
> p4 <- predict(m1bis,12,method="r")[,a] nell’analisi).
> oldp <- par(mfrow=c(3,1),mar=c(1,1,1,1))
> plot(p1,plot.type="s",lty="dotdash")
> for (i in 1:3)
> points(champagne,pch="*",cex=2)
+ plot(cbind(p1[,i],p2[,i],p3[,i],p4[,i]),
+ plot.type="s",ylab="")
> par(oldp)
14000
*
12000
10000
*
8000
p1
*
6000
*
*
* * *
4000
* *
*
2000
*
1971.8 1972.0 1972.2 1972.4 1972.6
Time
Unità G: Modelli dinamici basati sull’idea di . . . 201 Unità G: Modelli dinamici basati sull’idea di . . . 202
Introduzione
1.0
1.0
inglese, da cui la “sigla/acronimo” MA(q)) se
yt = ut + 0.8ut−1 yt = ut − 0.8ut−1
0.5
0.5
yt = η + ut + ϑ1ut−1 + · · · + ϑqut−q
0.0
0.0
dove (η, ϑ1, . . . , ϑq) è un vettore di parametri costanti.
−0.5
−0.5
E’ immediato verificare che
−1.0
−1.0
E(yt) = η 0 2 4 6 8 10 0 2 4 6 8 10
1.0
1.0
e che, per 0 ≤ h ≤ q, yt = ut + 0.8ut−1 + 0.6ut−2 yt = ut − 0.8ut−1 − 0.2ut−2
0.5
0.5
cov(yt, yt−h ) = (ϑh + ϑ1ϑh+1 + · · · + ϑq−h ϑq)σ2u
0.0
0.0
mentre
−0.5
−0.5
se h > q allora cov(yt, yt−h) = 0 (H.1)
La (H.1) mostra come caratteristica di un modello
−1.0
−1.0
MA(q) sia quello di avere una memoria finita1. 0 2 4 6 8 10 0 2 4 6 8 10
1
almeno quella che si manifesta attraverso la dipendenza lineare.
Unità H: I modelli ARMA e ARIMA 205 Unità H: I modelli ARMA e ARIMA 206
Invertibilità di un modello MA(q) In definitiva sembrerebbe che dovremmo arrivare a
∞
X
Un modello MA(q) è detto invertibile se, per ogni t, ut è ut = (−ϑ)iyt−i .
calcolabile a partire da yt, yt−1, . . .. i=0
1.0
yt = 0.8yt−1 + ut yt = − 0.8yt−1 + ut l’autocorrelazione ai ritardi superiori al primo sia diversa
da zero e possa anche essere non banale.
0.5
0.5
In realtà noi sappiamo che in un certo senso quella
0.0
0.0
correlazione è spuria. Ad esempio la correlazione che
troviamo a ritardo 2 è legata al fatto che yt−1 è generato
−0.5
−0.5
a partire da yt−2 e yt a partire da yt−1. Quindi, la
correlazione tra yt e yt−2 è diversa da zero ma tutta
−1.0
−1.0
“mediata” da yt−1.
0 2 4 6 8 10 0 2 4 6 8 10
1.0
yt = 0.8yt−1 − 0.6yt−2 + ut yt = 0.6yt−1 + 0.3yt−2 + ut correlazione a ritardo 2 è “mediata” da yt−1 mentre una
parte e esprime l’impatto “diretto” di yt−2, non mediato,
0.5
0.5
di yt−2 su yt.
Per isolare la correlazione “diretta” dalla correlazio-
0.0
0.0
−0.5
autocorrelazione parziale
−1.0
−1.0
1.0
yt = 0.8yt−1 + ut yt = ut + 0.8ut−1
Un processo stocastico {yt} si dice generato da un
0.5
0.5
modello autoregressivo a media mobile di ordine
(p, q) (abbreviato in ARMA(p, q)) quando è generato
0.0
0.0
dall’equazione alle differenze
−0.5
−0.5
yt = η + φ1(yt−1 − η) + · · · + φp(yt−p − η) +
+ut + ϑ1ut−1 + · · · + ϑqut−q (H.6)
−1.0
−1.0
0 2 4 6 8 10 0 2 4 6 8 10
1.0
0.5
0.0
−0.5
−1.0
Byt = yt−1.
yt = 0.7yt−1 + ut − 0.95ut−2
ARMAacf(ar = c(0.7), ma = c(0, −0.95), lag = 10)
0.5
φ(B)(yt − η) = ϑ(B)ut
0.0
dove
0 2 4 6 8 10
0:10
4
Si supponga che yt = ζ + ηt, ovvero di considerare un
2
processo deterministico la cui realizzazione è una retta.
Ovviamente
0
−2
(1 − B)yt = yt − yt−1 = η
200 −4
ovvero, le “differenze” di una serie costituita solo da un
trend lineare è una serie costante.
150
100
Che cosa ci aspettiamo di ottenere se sostituiamo nella
y
equazione precedente a η un processo stocastico, ad
50
esempio un ARMA(p, q) di media η? Ovvero, quali
0
caratteristiche avranno le traiettorie di un processo
generato da una equazione alle differenze del tipo 0 100 200 300 400
yt = yt−1 + zt (y0 = 0)
Unità H: I modelli ARMA e ARIMA 217 Unità H: I modelli ARMA e ARIMA 218
Un altro processo simulato Queste semplici considerazioni ed esempi suggeriscono
di considerare modelli del tipo
Unità H: I modelli ARMA e ARIMA 221 Unità H: I modelli ARMA e ARIMA 222
Modelli ARIMA stagionali Esempio con serie stagionali
dove:
- f indica la lunghezza del periodo stagionale (12 nel
caso di dati mensili,. . . );
- φ(B) = 1 − φ1B − · · · − φpBp è un operatore
autoregressivo “non-stagionale”;
- Φ(Bf) = 1 − Φ1Bf − · · · − φpBPf è un operatore
autoregressivo che “vede” solo i ritardi stagionali;
- ϑ(B) = 1 + ϑ1B + · · · + ϑqBq è un operatore a media
mobile “non-stagionale”;
- Θ(Bf) = 1 + Θ1 Bf + · · · + φQBQf è un operatore a media
mobile stagionale.
Eventualmente, come prima, possiamo aggiungere un
termine costante δ al secondo termine.
Unità H: I modelli ARMA e ARIMA 223 Unità H: I modelli ARMA e ARIMA 224
Unità I