Sei sulla pagina 1di 317

Metodi di previsione statistica

Francesco Battaglia

Metodi di
• • • •
previsrone statisttca

~ Springer
FRANCESCO BATTAGLIA
Dipartimento di Statistica, Probabilita e Statistiche Applicate
Universita La Sapienza
Roma

ISBN 978-88-470-0602-7 Springer Milan Berlin Heidelberg New York

Springer-Verlag fa parte di Springer Science+Business Media

springer.com

© Springer-Verlag Italia, Milano 2007

Quest'opera e protetta dalla legge sul diritto d'autore. Tutti i diritti, in particolare quelli relativi alla tradu-
zione, alla ristampa, all'uso di figure e tabelle, alla citazione orale, alla trasmissione radiofonica 0 televisiva,
alla riproduzione su microfilm 0 in database, alla diversa riproduzione in qualsiasi altra forma (stampa 0
elettronica) rimangono riservati anche nel caso di utilizzo parziale. Una riproduzione di quest'opera, oppu-
re di parte di questa, e anche nel caso specifico solo ammessa nei limiti stabiliti dalla legge sul diritto d'au-
tore, ed esoggetta all'autorizzazione dell'Editore. La violazione delle norme comporta sanzioni previste dalla
legge.

L'utilizzo di denominazioni generiche, nomi commerciali, marchi registrati, ecc., in quest' opera, anche in
assenza di particolare indicazione, non consente di considerare tali denominazioni 0 marchi liberamente
utilizzabili da chiunque ai sensi della legge sul marchio.

Impianti forniti dall'autore


Progetto grafico della copertina: Simona Colombo, Milano
Stampa: Signum, Bollate (Mi)
Stampato in Italia

Springer- Verlag Italia srl


Via Decembrio 28
20137 Milano
Prefazione

Questo volume presenta una trattazione della metodologia statistica relativa


alla previsione di fenomeni riferibili al tempo.
L' occasione immediata per la realizzazione di questo testo e stata determi-
nata dalla istituzione di nuovi corsi di insegnamento sulla previsione statistica
nelle lauree di primo e di secondo livello della Facolta di Scienze Statistiche
dell'Universita La Sapienza di Roma; cia ha condizionato la struttura generale
del volume, richiedendo la possibilita di una lettura su due diversi livelli di
approfondimento, e con differenti pre-requisiti.
La trattazione si rivolge, comunque, a lettori che possiedano la formazione
tipica dei contenuti di base e di quelli caratterizzanti del primo biennio di una
laurea in Statistica. In particolare, e data per nota la conoscenza del calcolo
differenziale e integrale di una e pili variabili con elementi di teoria della mi-
sura, di serie numeriche e serie di funzioni; della geometria analitica classica,
spazi euclidei di dimensione finita e algebra lineare; del calcolo delle probabi-
lita relativo aIle variabili aleatorie univariate (compresi i teoremi limite); della
statistica di base e dei fondamenti di inferenza statistica.
Invece, alcuni approfondimenti necessari per una pili completa conoscenza
degli argomenti trattati sono esposti brevemente nel volume stesso: quelli
relativi alle variabili aleatorie multivariate e alle norrnali multiple nel terzo
capitolo, altri concernenti l'analisi di Fourier e complementi di trigonometria
nell'appendice A.
Questo modo di procedere si e rivelato opportuno poiche la piena compren-
sione dei metodi di previsione statistica richiede l'applicazione e la padronanza
di un vasto ventaglio di discipline quantitative. Tuttavia, per non appesantire
troppo 10 svolgimento, si e rinunciato a fornire dimostrazioni completamente
esaurienti di tutti i risultati, anche se di ognuno si cerca costantemente di
fornire la genesi, una spiegazione intuitiva e una prova formale anche se non
sempre rigorosa.
La scelta e la sistemazione logica del materiale, l'ordine in cui e presentato
e la sua motivazione seguono una linea personale dell'autore, e differiscono in
buona parte da altri volumi relativi alla stessa problematica, in particolare per
VI Prefazione

quanto riguarda il primo capitolo (e segnatamente per i concetti di previsione


statistica, glob ale e puntuale), per la bipartizione della parte strutturale nei
suoi aspetti probabilistici e in quelli statistici, per la parallela distinzione tra
processi e modelli autoregressivi a somma mobile, per il risalto dato ai risultati
propri del dominio frequenziale, e per la trattazione, anche se succinta, delle
catene di Markov e dei processi di punto.
E naturale infine che in base agli interessi e alla sensibilita personale del-
l'autore, alcuni argomenti siano trattati pili approfonditamente della maggior
parte dei testi del settore, e altri meno approfonditamente, 0 solo accennati
rimandando alla bibliografia.
Per un corso introduttivo di primo livello concernente l'analisi e previsione
delle serie temporali univariate e i modelli ARIMA si possono prendere in
considerazione i capitoli 1, 2, 3, 5 (paragrafi 1, 2, 6), 6, 8, 9 (paragrafi dal 1
al 4 e il 7), 10 (paragrafi dal 1 al 4 e il 6) e 13 (paragrafi 1 e 2).
Per un corso pili approfondito di secondo livello si puo completare la trat-
tazione utilizzando, oltre ad approfondimenti quali l'analisi nel dominio delle
frequenze e il filtraggio lineare (paragrafi 3, 4 e 5 del capitolo 5 e paragrafo
5 del capitolo 9), le deviazioni dalle ipotesi (capitolo 11) e i modelli a ete-
roschedasticita condizionale, anche materiale sulle serie bivariate (paragrafi 8
e 9 del capitolo 5, paragrafo 6 del capitolo 9, paragrafo 7 del capitolo 10),
sulle catene di Markov e i processi di punti (capitoli 4, 7, 12, 14) e su ulte-
riori approcci alla previsione puntuale, alternativi 0 complementari ai modelli
ARIMA (paragrafi dal 3 al 6 del capitolo 13).
Questo libro espone una impostazione e un punta di vista personali, ma-
turati in pili di trent'anni di ricerca nel campo delle serie temporali, e quindi
porta con se il riflesso degli insegnamenti e dell' esperienza dei tanti maestri e
colleghi che ho incontrato nel mio percorso; non e possibile nominarli tutti an-
che se a tutti sono grato, rna non posso esimermi dal citare almeno Francesco
Carlucci, che mi ha introdotto, fin da studente, ana problematica che sarebbe
poi diventata il mio settore principale di ricerca. Desidero infine ringraziare
in particolare gli amici e colleghi che con i loro consigli hanno contribuito a
rendere pili chiaro e completo questo testo, tra essi Adelchi Azzalini, Rober-
to Baragona, Maria Maddalena Barbieri, Estela Bee Dagum e Anna Clara
Monti.

Rama, Febbraio 2007 Francesco Battaglia


Indice

Parte I Fenomeni dinamici e previsione

1 La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3
1.1 Introduzione............................................ 3
1.2 La previsione statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Delimitazione del concetto di previsione statistica ..... 6
1.2.2 Previsione statistica globale . . . . . . . . . . . . . . . . . . . . . . . .. 10
1.2.3 Previsione statistica puntuale . . . . . . . . . . . . . . . . . . . . . .. 12

2 Caratteristiche generali dei fenomeni dinamici . . . . . . . . . . . .. 15


2.1 II primo approccio: la rappresentazione grafica 15
2.2 Analisi delle tendenze di fondo . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22
2.3 Analisi della stagionalita 26
2.4 Analisi dei residui 28

Parte II La teoria dei processi aleatori

3 Processi aleatori e loro classificazione . . . . . . . . . . . . . . . . . . . . .. 33


3.1 Che cos'e un processo aleatorio. . . . . . . . . . . . . . . . . . . . . . . . . . .. 33
3.2 Richiami sulle distribuzioni di probabilita multivariate 34
3.3 La distribuzione normale multipla . . . . . . . . . . . . . . . . . . . . . . . .. 38
3.4 Alcune proprieta dei processi aleatori 44
3.5 Una classificazione dei processi aleatori . . . . . . . . . . . . . . . . . . . .. 47

4 Catene di Markov 51
4.1 Generalita.............................................. 51
4.2 Classificazione degli stati e delle catene. . . . . . . . . . . . . . . . . . . .. 58
4.3 Distribuzioni di equilibrio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 61
4.4 Processi non markoviani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 67
VIII Indice

5 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 71
5.1 Introduzione............................................ 71
5.2 Analisi nel dominio temporale . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74
5.3 Analisi nel dominio frequenziale . . . . . . . . . . . . . . . . . . . . . . . . . .. 78
5.4 Le relazioni tra i due domini. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87
5.5 I filtri lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 90
5.6 Operatori lineari 95
5.7 I filtri alle differenze per la depurazione di una componente
ciclica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 98
5.8 Relazioni tra processi stazionari 102
5.9 Sistemi lineari bivariati 107

6 Processi lineari 111


6.1 La decomposizione di Wold 111
6.2 Processi puramente autoregressivi 115
6.3 Processi puramente a somma mobile 128
6.4 Processi misti 130

7 Processi di punti 133


7.1 Caratteristiche generali 133
7.2 Processi di Poisson 135
7.3 Cenni sull'analisi nel dominio temporale e frequenziale 138

Parte III La statistica dei fenomeni dinamici

8 Inferenza statistica per processi aleatori 143


8.1 Differenze rispetto all'inferenza parametrica classica 143
8.2 L'ergodicita 145

9 Inferenza per processi stazionari 147


9.1 Introduzione 147
9.2 Stima della media 148
9.3 Stima delle autocovarianze e delle autocorrelazioni 152
9.4 Stima delle autocorrelazioni parziali 161
9.5 Stima dello spettro 163
9.6 Inferenza per processi bivariati 179
9.7 Stima dei parametri per processi ARMA 181

10 I modelli rappresentativi 187


10.1 Introduzione 187
10.2 Identificazione del modena 190
10.3 Stima dei parametri e verifica del modello 201
10.4 Modelli per serie non stazionarie in media 207
10.5 Modelli per serie non stazionarie in varianza e ad
eteroschedasticita condizionata 214
Indice IX

10.6 Modelli per serie stagionali 218


10.7 Modelli lineari per le relazioni tra due processi 227

11 Deviazioni dalle ipotesi 233


11.1 Perturbazioni nei dati e nella struttura 233
11.2 Perturbazioni dovute a fattori noti 234
11.3 Dati anomali 237

12 Inferenza per catene di Markov e processi di punti 243


12.1 Stima delle probabilita per catene di Markov 243
12.2 Inferenza per processi di Poisson 246

Parte IV Metodi di previsione puntuale

13 Previsioni per processi stazionari 253


13.1 Teoria della previsione 253
13.2 Previsioni con modelli ARIMA 257
13.3 Previsioni con metodi adattivi 266
13.4 Previsioni con modelli strutturali 271
13.5 Spazio degli stati e filtro di Kalman 274
13.6 La combinazione delle previsioni 284

14 Previsioni per catene di Markov e processi di punti 287


14.1 Previsioni nelle catene di Markov 287
14.2 Previsione per processi di punti 289

Parte V Appendici

A Fondamenti di Analisi di Fourier 299


A.l Richiami di trigonometria e analisi complessa 299
A.2 Sviluppo di Fourier per funzioni periodiche 305
A.3 Analisi di Fourier per funzioni non periodiche 310

B Software per la previsione 313

Bibliografia 315

Indice 319
Parte I

Fenorneni dinarnici e previsione


1

La previsione

In questo capitolo iniziale si illustrano i fondamenti logici della previsione e


si delimita il campo di interesse alla previsione statistica, intesa come insieme
di procedimenti statistici coerenti ed espliciti volti alla attivita di previsione,
e se ne discutono alcune caratteristiche.

1.1 Introduzione
II tentativo di prevedere il futuro e vecchio quanto il mondo e ha attraversato
la intera storia dell'umanita assumendo di volta in volta le forme e le modalita
proprie delle varie civilta e anche delle diverse impostazioni religiose.
La necessita di prevedere, 0 almeno l'esigenza di tentare di farlo, e evidente,
non solo a scapi puramente speculativi e conoscitivi, quanto operativi, per
mettere in atto il comportamento pili adeguato a fronteggiare nel miglior
modo possibile le diflicolta che si presenteranno, e cercare di trarre il massimo
vantaggio 0 beneficio dalla situazione futura.
Allo stesso tempo e chiaro che la grande difficolta insita nella previsione
deriva dalla incertezza intrinseca del futuro, che al momento in cui va previsto
non e ancora (0 per 10 meno del tutto) determinato; la forte rilevanza degli
elementi di incertezza nella previsione spiega perche gli strumenti del calcolo
delle probabilita e della statistica siano cost essenziali nell' attivita previsiva.
Anzi, l'attivita previsiva puo essere qualificata essenzialmente attraverso l'in-
certezza, come tentativo di produrre affermazioni su fatti non noti (in tutto
o in parte): quindi potremmo parlare di previsione anche per questioni non
relative al futuro, rna anche, per esempio, distanti nello spazio (0 addirittura
nel passato), 0 per lc quali non e possibile una rilevazione diretta ed esaurien-
te; oppure, ancora, quando non sono disponibili conoscenze 0 informazioni
sufficienti.
Va anche considerato attentamente il ruolo di colui che prevede, poiche a
volte egli, 0 la formulazione e pubblicazione stessa delle previsioni, possono
modificare il corso del futuro. Mentre cio non avviene quando si tratta della
4 1 La previsione

maggior parte dei fenomeni naturali (il meteorologo non puo - almeno per il
momento - influenzare le condizioni climatiche future), e invece pili frequente
quando si considera il campo sociale ed economico, in cui spesso l'attivita
previsiva non e disgiunta da un tentativo di intervenire sulle condizioni sociali
o sul quadro economico per modificarne la situazione 0 le prospettive (alcuni
parlano di approccio normativo alla previsione, per esempio quando si tenta
di rispondere a domande del tipo: Quale deve essere l'andamento di alcune va-
riabili di politica economica per ottenere un certo risultato sull'occupazione?).
Se le previsioni sono elaborate da fonte autorevole e vengono rese pubbliche
agli attori del fenomeno previsto, esse possono essere da cost oro considerate
come guida di comportamento, 0, all'opposto, come indicazione di ipotetici
sviluppi da evitare, e quindi possono, per il solo fatto di essere state pubbli-
cizzate, favorire il loro avverarsi 0 la loro smentita. Cia avviene a volte per le
previsioni basate su sondaggi elettorali, e per quelle relative alla congiuntura
economica.
In ogni caso, la formulazione della previsione e basata sulla conoscenza
e sulla rielaborazione di informazioni tratte dalle manifestazioni passate del
fenomeno sotto esame, e una operazione di "collegamento tra passato e fu-
turo" (Cipolletta, 1992). Quindi ogni previsione e determinata da un preciso
insieme di informazioni (che a volte puo essere esattamente determinato ed
esplicitato, rna pili spesso e in parte implicito e non formalizzato): si parla
di previsioni condizionali 0 condizionate da tale insieme. Coerentemente, si
dovrebbe riporre ogni sforzo nel tentare di precisare la esplicitazione delle in-
formazioni che condizionano la previsione, e nel rendere chiaro e giustificato il
processo che porta dalla conoscenza di tali informazioni alla formulazione del-
la previsione. Inoltre cia permette di variare alcune delle condizioni iniziali, e
verificare l'effetto di questi cambiamenti sulle previsioni che ne derivano. Que-
sta chiarificazione logica ha permesso l'allargamento del concetto tradizionale
di previsione alla formulazione di un intero ventaglio di alternative possibili,
condizionate ciascuna dal verificarsi di determinate situazioni che sono al di
fuori del controllo del soggetto che prevede. Tale impostazione, spesso detta
what . . . if, attribuisce alla previsione il compito di individuare una serie di
alternative (a volte dette scenari) che si possono verificare in dipendenza del-
l'andamento di variabili esogene non controllabili (per esempio la previsione di
grandezze macroeconomiche distinta in base all'andamento demografico, 0 la
previsione a lungo termine del clima in funzione della situazione energetica).
Cia risulta spesso necessario perchc l'attivita previsiva deve combinare
tre varieta di fattori: quelli direttamente desumibili, in maniera pili 0 meno
precisa, da un'analisi dell'oggi; quelli gia manifestatisi, rna che al momento
appaiono connessi in maniera difficilmente apprezzabile, dal punto di vista
statistico, ai dati di cui si dispone; e infine i fattori non ancora manifestati-
si, rna che eserciteranno un'influenza sulla situazione futura. Queste ultime
due categorie impongono che si formulino ipotesi precise sull'andamento e il
comportamento dei relativi fattori, non controllabili, conducendo alle varie
previsioni condizionali. I problemi metodologici della costruzione di queste
1.1 Introdtiziane 5

alternative ipotetiche sono rilevanti e hanno originato il cosiddetto metodo


degli scenari (si veda ad esempio Martelli, 1988).
Altro aspetto che presenta spesso notevoli diflicolta e quello della esplici-
tazione dell'insieme di informazioni, 0 base informativa, sul quale fondare la
previsione, specie quando si prendano in considerazione fenomeni molto com-
plessi 0 con elevato grado di incertezza. Inoltre, l'importanza 0 il peso di certe
informazioni possono essere variamente valutate, per cui accade che sogget-
ti diversi, anche esperti del settore, forniscano previsioni diverse. Per questo
motivo sono stati elaborati diversi metodi volti ad integrare e armonizzare
previsioni, oppure opinioni, differenti ugualmente autorevoli. Tra questi va
ricordato il metodo Delphi che ha 10 scopo di arrivare attraverso una proce-
dura iterativa alla armonizzazione dei giudizi di un team di esperti (si veda
ad esempio Linstone e Turoff, 1975; una esposizione sintetica in italiano e in
Marbach et al, 1991).
II tema della previsione e talmente vasto che una classificazione netta dei
metodi di previsione e difficile, e le classificazioni proposte dai diversi autori
sono spesso molto differenti e incompatibili. Osserviamo solo alcuni aspetti
distintivi, oltre a quelli gia menzionati:
• La natura delle previsioni puo essere qualitativa 0 quantitativa, rna spesso
per fenomeni complessi si presentano ambedue gli aspetti.
• L'oggetto della previsione puo essere il valore futuro di un fenomeno che
si manifesta con continuita 0 si puo rilevare a intervalli regolari (come la
temperatura, 0 la popolazione, 0 il prodotto interno); oppure il tempo in
cui si verifica un fenomeno (previsioni di terremoti, calamita naturali, 0
innovazioni tecnologiche); 0 ancora Ie modalita e le caratteristiche di un
evento che si produrra nel futuro (esempio tipico, i risultati elettorali).
• L' orizzonte della previsione, cioe la lontananza nel futuro degli eventi che
si prevedono, viene usuaimente classificato in breve, medio e Iungo pe-
riodo. La distinzione non e netta e precisa. In linea di massima si parla
di previsioni a orizzonte breve quando Ie condizioni strutturali rimangono
immutate poiche l'evento da prevedere sara in larga parte determinato da
azioni e comportamenti che sono gia stati messi in atto al momento in
cui le previsioni vengono formulate, e viceversa di previsione a orizzonte
lungo (0 di lungo periodo) se le condizioni fondamentali che determinano
l'evento da prevedere sono ancora sostanzialmente incerte.
• Infine, con riguardo alla dimensione, la previsione puo riguardare un solo
fenomeno (previsione univariata) oppure contemporaneamente pili feno-
meni connessi (previsione multivariata) e in tal caso puo essere basata su
nessi di causalita attraverso i quali il comportamento di un fenomeno de-
termina, eventualmente con un certo sfasamento temporale, l'andamento
di altri (previsione causale).
All'interno del vasto panorama della problematica relativa alla previsione,
questo testo si occupa del contributo che la metodologia statistica puo offrire
6 1 La previsione

alla formulazione di procedimenti coerenti ed espliciti, basandosi su alcune


caratteristiche essenziali:
1. I fenomeni considerati sono suscettibili di misurazione statistica.
2. La previsione si basa su una base informativa completamente esplicitata.
3. L'andamento del fenomeno e formalizzato attraverso un modello statistico
matematico volto a rappresentare sia le sue proprieta dinamiche sia il
livello di incertezza.
4. L' esito della previsione viene misurato attraverso una funzione di costo
che permette di confrontare tra loro tutti i possibili tipi e gradi di errore,
e si adotta il procedimento previsivo che assicura il costo minimo secondo
i criteri della teoria delle decisioni statistiche.
Attribuiamo il nome di previsione statistica a questa impostazione, e
cercheremo di chiarirne meglio caratteristiche e limiti nel paragrafo che segue.

1.2 La previsione statistica

1.2.1 Delimitazione del concetto di previsione statistica

Con l'obiettivo di delimitare meglio il concetto di previsione statistica ne


discuteremo brevemente l'oggetto, 10 scopo e il metodo.
Oggetto di una previsione statistica. La previsione statistica si ap-
plica a fenomeni concettualmente definiti in modo da essere passibili di mi-
surazione oggettiva. Deve essere pertanto precisato e definito il fenomeno e
il metodo di misurazione, che deve mantenersi invariato per tutta la durata
della rilevazione. Cia garantisce da un lato che l'analisi non sia perturbata
da modificazioni nelle modalita di rilevazione, e peraltro costringe a forma-
lizzare compiutamente l'oggetto di studio. Percio alcuni concetti generici (co-
me il clima, 0 il benessere economico) dovranno essere esplicitati nelle loro
determinanti quantitative prima di poter procedere a uno studio previsivo.
Un aspetto connesso e quello della qualita dei dati utilizzati, alla Quale e
quasi superfluo sottolineare che si deve prestare la massima attenzione. Nella
previsione statistica, poiche si prendono in considerazione fenomeni che si svi-
luppano nel tempo, i dati presentano precise relazioni di dipendenza dinamica,
che coinvolgono non solo il loro valore, rna anche la loro mutua posizione nel
tempo. Errori e imprecisioni nella rilevazione delle manifestazioni quantitati-
ve, e anche della loro localizzazione nel tempo, possono portare a conseguenze
decisive sul successo della previsione, ancor pili di quanto avvenga nelle inda-
gini in cui la dimensione temporale e assente. Sotto il profilo della valutazione
dcll'attcndibilita dei dati, la metodologia statistica ha proposto sviluppi volti,
da un lato, a limitare gli effetti dei dati non affidabili sulle conclusioni del-
l'indagine (robustezza) , e dall' altro a cercare di individuare e correggere, a
posteriori e servendosi dell'intero insieme di informazioni disponibili, gli even-
tuali errori ( validazione). L'importanza di sottoporre i dati a un procedimento
1.2 La previsione statistica 7

di validazione prima di affrontare una analisi dettagliata 0 una previsione e


ormai consolidata in letteratura, tanto da poterla considerare una fase irri-
nunciabile. Meritano naturalmente attenzione anche lc tecniche robuste, che
permettono a volte di aggirare l'ostacolo della inaffidabilita dei dati; tuttavia,
nel campo dei fenomeni trattati come dipendenti dal tempo, forse per la com-
plessita delle connesse procedure inferenziali, questo tipo di tecniche non e
ancora completamente sviluppato nc largamente diffuso a livello applicativo.
Un altro aspetto importante, che sta assumendo una sempre maggiore
rilevanza, risiede nell'abbondanza e a volte ridondanza delle informazioni di-
sponibili. Una volta definito l'oggetto della previsione, dovrebbe essere atten-
tamente valutato quali tipi di rilevazione sono effettivamente utili e quali si
possano ragionevolmente trascurare. L'enorme incremento della massa di da-
ti disponibili, verificatosi in molti settori negli ultimi anni, porta con sc la
potenzialita di analisi pili precise, rna anche il pericolo che l'aumento delle
dimensioni non possa esser padroneggiato con strumenti statistici sufficiente-
mente potenti ed elastici, e che gli elementi di incertezza e di errore, insiti in
ogni rilevazione, moltiplichino i loro effetti.
In questo testo verranno prese in considerazione Ie previsioni univariate,
che si riferiscono a un fenomeno le cui manifestazioni possono essere sintetiz-
zate, a ogni rilevazione, con un solo numero reale (scalare). La metodologia
statistica e stata sviluppata negli ultimi anni anche nel campo della previ-
sione multivariata, che studia il caso in cui siano rilevati simultaneamente
pili fenomeni, e ne analizza Ie mutue relazioni di dipendenza (statistica) tra
manifestazioni contemporanee e sfasate nel tempo. Questa parte comporta dif-
ficolta matematiche e probabilistiche maggiori, e illivello di sistematizzazione
attualmente raggiunto e meno completo; percio nel seguito ci si limitera solo
ad alcuni accenni, rimandando per un esame pili approfondito ana letteratura
specialistica.
Scopo di una previsione statistica e studiare lc rnanifestazioni future
di un fenomeno, determinate dal permanere di una stabilita nelle proprieta
generali strutturali che si sono verificate nel passato.
Col riferirsi aIle proprieta strutturali non si intendono indicare i puri e
semplici valori della rilevazione, rna Ie caratteristiche del meccanismo di natura
statistica e probabilistica che genera il fenomeno, il Quale sara oggetto di
formalizzazione matematica e di approfondito studio nel seguito. La richiesta
che queste caratteristiche rimangano stabili tra passato e futuro e minimale
per dare un senso alla previsione statistica, poiche se questa proprieta venisse
a mancare allora la conoscenza del passato non aiuterebbe in alcun modo il
compito di formulare congetture sul futuro. Fenomeni di questo ultimo tipo
vengono a buon diritto chiamati imprevedibili.
Le modalita e diversi aspetti con cui vengono studiate le manifestazioni
future del fenomeno previsto costituiscono l'oggetto principale di questo testo
e verranno precisate nel seguito: ne verra proposta una articolazione in due
impostazioni diverse che indicheremo con i termini di previsione globale e
locale.
8 1 La previsione

La previsione globale si occupa delle proprieta statistiche e dinamiche delle


manifestazioni del fenomeno allo scorrere del tempo nel futuro, che verranno
dedotte per analogia da quelle manifestatesi nel passato dopo averle inferite ed
idealizzate. La previsione locale invece prende in considerazione uno specifico
istante futuro e la manifestazione che il fenomeno presentera in quell'istan-
te, trattandola come valore incognito su cui costruire procedure di inferenza
statistica.
La previsione potra basarsi, oltre che sulla attenta analisi del completo
insieme di informazioni relativo al passato e al presente, anche su alcune ipo-
tesi, 0 su pili alternative, relative a fattori incontrollabili perche incogniti, 0,
pili spesso, perche relativi anch'essi al futuro, permettendo cost di perveni-
re a insiemi alternativi di previsioni condizionali, da adoperare per costruire
scenari diversi. Escluderemo invece che colui che prevede possa intervenire, in
alcun modo, sul fenomeno oggetto di previsione, con l'obiettivo di guidarlo 0
modificarlo: l'analisi statistica di questo tipo di procedure, pur ben sviluppa-
ta e approfonditamente studiata specie nel campo dei processi industriali e
produttivi, appartiene al settore del controllo stocastico.
Metodo della previsione statistica e il metodo statistico matematico
dell'analisi moderna delle serie temporali, che si avvale, da un lato, degli svi-
luppi del calcolo delle probabilita relativi ai processi stocastici, e dall'altro del
paradigma della inferenza statistica e dei principi della teoria delle decisioni
in condizioni di incertezza.
I dati vengono assimilati a realizzazioni di variabili aleatorie, e in que-
sto modo il fenomeno viene messo in relazione con una collezione di variabili
aleatorie, ciascuna delle quali determina la sua manifestaziane in un certa
istante, chiamata processo aleatorio 0 stocastico. Le caratteristiche salienti del
fenomena sono in questa modo determinate dalle proprieta matematico- pro-
babilistiche del processo, che costituiscono l'oggetto principale di studio. In
altri termini, si passa dal fenomeno oggetto di studio a un suo modello teorico
specificato in termini di equazioni, relazioni analitiche, proprieta matematiche
e probabilistiche. Esso incorpora una serie di ipotesi ispirate dall'osservazione
della realta, e in genere prevede in larga misura semplificazioni 0 "stilizzazio-
ni" del comportamento osservato, in modo da ottenere formule matematiche
sufficientemente maneggevoli e interpretabili. Per questo motivo un modello
non avra mai l'ambizione di riprodurre esattamente la realta, rna di metterne
in evidenza, e quindi di prevedere, solo alcuni aspetti.
Nell'ambito della previsione statistica i modelli pili usati si prefiggono an-
che 10 scopo di mettere in relazione esplicita i dati futuri con quelli passati, e
in genere questa relazione e ipotizzata di tipo lineare al fine di assicurare una
maggiore semplicita matematica.
Una volta costruito un modello e necessario verificare attraverso metodi
statistici se esso si adatta soddisfacentemente alla realta che vuole riprodurre.
In caso affermativo, e il modello stesso che puo essere adoperato per simulare
il comportamento del fenomeno studiato in varie condizioni sperimentali.
1.2 La previsione statistica 9

In questo testo viene privilegiata e analizzata pili a fondo l'impostazione


basata sui modelli probabilistici di tipo autoregressivo a somma mobile, che e
la pili diffusa e collaudata in una vasta gamma di campi applicativi. Qualche
accenno verra dato anche ad alcune estensioni verso modelli di dipendenza
dinamica non lineare.
Esistono tuttavia altre impostazioni per la costruzione di modelli utili per
problemi di previsione, e tra le proposte pili moderne e innovative, e che hanno
visto notevole sviluppo pili recentemente, vanno ricordate sicuramente Ie reti
neurali e i modelli caotici.
Le reti neurali nascono dal tentativo di rappresentare matematicamente, e
di riprodurre con strumenti di calcolo, le strutture dei tessuti cerebrali, al fine
di riprodurre formalmente i meccanismi di funzionamento del sistema nervoso
cerebrale. Le reti sono costituite da un insieme di unita semplici (dette neuroni
artificiali) connesse tra lora da collegamenti (sinapsi) che permettono il tran-
sito orientato di segnali dall'una all'altra. Alcuni neuroni della rete ricevono
segnali dall'esterno (input), altri possono comunicarne all' esterno (output).
Ciascun neurone artificiale si trova a ogni istante in uno stato esprimibile me-
diante un numero (spesso binario), determinato in funzione del complesso di
segnali che esso riceve, anch'essi espressi numericamente. In dipendenza della
stato in cui si trova, ogni neurone puo trasmettere segnali agli altri neuroni
cui e collegato. In tal modo la rete nel suo complesso risponde a un insieme
di segnali in input con un insieme di segnali in output. Al variare delle leggi
di funzionamento della rete, della distribuzione delle connessioni e delle lora
caratteristiche trasmissive, si puo ottenere una gamma vastissima di compor-
tamenti, e un punto di forza delle reti neurali e la possibilita di una fase di
"apprendimento" in cui la struttura si adatta gradualmente al fenomeno da
rappresentare. Le applicazioni di reti neurali alle serie temporali hanno mo-
strato una buona capacita previsiva, anche se non c'c evidenza conclusiva che
essa sia superiore ai modelli lineari tradizionali (Sharda e Patil, 1990). D'altra
parte, studi pili approfonditi hanno mostrato stretti legami tra una classe di
reti neurali e i modelli autoregressivi a somma mobile, rna le reti neurali si
prestano anche a prevedere fenomeni che si comportano secondo schemi non
lineari (per una discussione si veda ad esempio Weigend e Gerschenfeld, 1994,
e Chatfield, 1993).
Un problema di fondo e che spesso le reti neurali appaiono come "scatole
nere" e non e possibile attribuire un significato strutturale ne alle unita ne
alle connessioni, e neppure evidenziare precisi legami di dipendenza statistica,
ne causale, tra l'input e l'output. Come osservano Fabbri e Orsini (1993), " se
da un lato 10 sperimentatore non rimane condizionato da ipotesi aprioristiche
nella scelta delle unita della rete, dall'altro la rete stessa non puo far altro
che riprodurre in maniera fenomenologica il comportamento del sistema ana-
lizzato, senza contribuire alla conoscenza delle relazioni interne tra Ie singole
parti. II contributo interpretativo del modello e nullo" .
E presumibile percio che, fino a quando non verra superata questa fron-
tiera, collegando pili saldamente la struttura della rete aIle caratteristiche
10 1 La previsione

dinamiche del fenomeno studiato, le applicazioni previsive delle reti neurali


non sostituiranno validamente la metodologia basata sui modelli stocastici
rappresentativi.
I modelli caotici si rifanno invece a una spiegazione dei fenomeni basata
su strutture matematiche fortemente non lineari, rna di natura strettamente
deterministica, senza ricorrere alla impostazione probabilistica e senza alcun
elemento di natura casuale. La possibilita che sistemi non lineari determini-
stici diano luogo a comportamenti spiccatamente erratici simili a quelli delle
realizzazioni di processi stocastici, osservano Tong e Smith (1992), e nota al-
meno dagli studi di Poincare del XIX secolo; tuttavia l'interesse da parte degli
statistici per gli studi suI caos si e acceso negli ultimi venti- trenta anni.
A una stimolante discussione di Bartlett (1990) e seguito un meeting della
Royal Statistical Society inglese (i cui atti sono riportati nel Journal of the
Royal Statistical Society serie B vol. 54 n. 2); il dibattito e ancora aperto
anche se la maggior parte degli studiosi ha assunto una posizione critica.
Se 10 statistico non puo disconoscere il ruolo dei sistemi non lineari de-
terministici e del lora comportamento, se non altro perche essi costituiscono
la base per la generazione dei numeri pseudo-casuali e quindi per gli studi di
simulazione e di Monte Carlo, tuttavia la costruzione di modelli plausibili per
la rappresentazione di serie temporali, con caratteristiche vicine a quelle che
si riscontrano nei pili importanti campi applicativi, si e rivelata molto difficile
e non e ancora molto sviluppata (si veda ad esempio Casdagli, 1992).
Queste difficolta fan no sorgere dubbi sulla convenienza di abbandonare la
impostazione di tipo stocastico per quella di tipo caotico, anche riconoscendo
che l'attribuire natura di variabile casuale alle manifestazioni di un fenomeno
reale possa essere una costruzione teorica semplificatrice, e che la incertezza
non sia intrinseca, rna dovuta solo a mancanza di informazioni 0 conoscenze
sufficienti. E in conclusione arduo valutare, al presente, se i modelli caotici
potranno fornire un valida supporto per la previsione nelle applicazioni reali
a problemi di tipo economico e sociale.
Comunque, la discussione sulla utilita e applicabilit.a delle reti neurali e
dei modelli caotici nella previsione di fenomeni dinamici e ancora aperta e
ambedue i campi sono oggetto di studio approfondito da parte di studio-
si di numerose discipline, pertanto sono da attendersi significativi sviluppi
metodologici e applicativi.

1.2.2 Previsione statistica globale

La previsione statistica globale prende in considerazione il periodo di tempo


che inizia dopo l'ultimo istante noto e si prolunga indefinitamente nel futuro,
e ha 10 scopo di descrivere le proprieta e Ie caratteristiche che il fenomeno
studiato presenta nel suo dispiegarsi nel tempo.
L'assunzione chiave, che traduce e formalizza l'ipotesi fondamentale di
stabilita delle caratteristiche del fenomeno preso in considerazione, e che Ie
manifestazioni passate e future si ritengono generate da un unico processo
1.2 La previsione statistica 11

stocastico, le cui proprieta principali rimangono stabili e quindi si applicano


sia al passato sia al futuro. Lo studio e l'inferenza di tali proprieta vengono
effettuate in base all'insieme di informazioni note, e quindi principalmente
usando le manifestazioni gia rilevate del fenomeno, ovvero i dati gia noti al
momento della previsione. Le caratteristiche inferite vengono attribuite anche
al futuro, permettendo di formulare affermazioni (di natura statistica) sul suo
comportamento dinamico. Esse concernono l'andamento generale tendenziale,
sia dei valori sia della loro variabilita, la presenza di comportamenti ciclici, e
le relazioni di dipendenza statistica tra dati consecutivi 0 a una determinata
distanza temporale, oltre che 10 studio della dipendenza tra le manifestazioni
simultanee 0 ritardate di due 0 pili fenomeni.
Queste caratteristiche, come gia pili volte ricordato, vengono riferite ai
processi stocastici di cui il fenomeno e assunto come realizzazione. Pertanto
sara necessario innanzitutto svolgere uno studio, di natura probabilistica, delle
principali proprieta dei processi stocastici, e degli strumenti matematici pili
atti a sintetizzarle, cia che viene fatto nella Parte II. L'analisi viene svolta
secondo due differenti (rna strettamente connessi) punti di vista, che vengono
denominati del dominio temporale (0 dei tempi) e del dominio frequenziale
(0 delle frequenze). Nel primo si ha riguardo principalmente alle distribuzioni
di probabilita delle variabili aleatorie che costituiscono il processo, e quindi
alle relazioni di dipendenza statistica che tra loro intercorrono. Ci si limita
in genere a studiare le correlazioni, e quindi la dipendenza viene riconosciuta
soltanto attraverso la sua forma lineare. Nel dominio frequenziale, invece, in
base a una fondamentale generalizzazione dell'analisi armonica di Fourier, il
processo stocastico e visto come la risultante della sovrapposizione di onde
periodiche di periodo diverso, ciascuna con una importanza diversa, e ci si
propone di analizzare nel dettaglio questa decomposizione, che determina, in
linea di principio, l'andamento complessivo del processo.
Con 10 studio di natura probabilistica appena accennato arriveremo a defi-
nire rigorosamente gli strumenti e indici statistici che permettono di descrivere
e sintetizzare le principali caratteristiche di un processo aleatorio. II passo se-
guente e quello di applicare questi strumenti alla realta effettiva mostrata dal
fenomeno nel suo manifestarsi, e che e costituita essenzialmente dall'insieme
dei dati rilevati nel passato. Questa fase di raccordo tra la manifestazione
concreta di un fenomeno e la sua descrizione attraverso gli indici sintetici
costituisce l'attivita propriamente statistica che pili precisamente rientra nel
settore della inferenza statistica. La Parte III e quindi dedicata all'inferenza
statistica per i processi stocastici.
L'inferenza statistica "classica", che si occupa delle manifestazioni ripetu-
te di un fenomeno statico, e associata a uno schema probabilistico che prevede
un campione casuale, cioe un insieme di variabili aleatorie indipendenti e iden-
ticamente distribuite. Nel nostro caso invece e necessario costruire inferenze
prendendo come riferimento insiemi di variabili aleatorie non indipendenti (e
d'altra parte non necessariamente distribuite in modo identico). Cia comporta
il sorgere di considerevoli difficolta, tuttavia si cerca di continuare a procedere
12 1 La previsione

secondo l'impostazione metodologica dell'inferenza "classic a" .


Si individuano innanzitutto le quantita rilevanti che assumono il signifi-
cato di "parametri" su cui esercitare l'inferenza: nel dominio temporale sono
in genere coefficienti di correlazione, mentre nel dominio delle frequenze so-
no legati a misure di importanza relativa delle varie componenti periodiche.
L'inferenza puo essere articolata nelle tre diverse attivita di stima puntuale,
stima per intervallo e verifica delle ipotesi, e nell'ambito di ciascuna di esse si
cerca di procedere secondo la stessa logica: enunciare proprieta desiderabili,
e costruire metodi che le possiedano. Si vedra come in alcuni casi l'estensio-
ne all'ambito dei processi aleatori non comporti rilevanti difficolta, mentre
per molti altri aspetti (come ad esempio la propricta di consistenza) siano
necessarie generalizzazioni piuttosto complesse.
Le rilevanti complicazioni che sopravvengono quando viene a cadere la
proprieta di indipendenza tipica del campione casuale fanno sl che i risultati
analitici che si riescono a ottenere (ad esempio per quanto riguarda le distri-
buzioni di probabilita degli stimatori) sono meno netti, compatti e semplici
dal punto di vista matematico, percio si fa ricorso molto spesso a semplifica-
zioni e approssimazioni, sia nelle ipotesi di partenza sia nella descrizione dei
risultati, ed e comune riferirsi al comportamento asintotico.
Infine, osserveremo che questa stessa complessita fa SI che i calcoli necessari
per effettuare una inferenza su un fenomeno dinamico siano molto onerosi,
e non e generalmente possibile effettuarli senza disporre di un elaboratore
elettronico e di software specializzato.

1.2.3 Previsione statistica puntuale

Una volta descritte le caratteristiche generali che il fenomeno presentera nel


futuro, e pero spes so necessario fissare l'attenzione sul valore con il Quale
esso si manifestera in un determinato istante. Frequentemente e necessario
prevedere il comportamento del fenomeno nell'immediato futuro (riferirsi cioe
al primo dato non ancora realizzatosi), rna puo presentarsi a volte l'esigenza di
descrivere in maniera pili 0 meno precisa 10 sviluppo dei dati anche a distanza
temporale superiore dall'ultimo istante noto.
Nella previsione statistica puntuale prendiamo percio come riferimento un
singolo istante riferito al futuro, e consideriamo come elemento da prevedere il
dato che sintetizza la manifestazione che il fenomeno assumera a quell'istante.
L' oggetto della previsione e quindi una variabile aleatoria, e Ie affermazio-
ni richieste concernono il valore nel Quale essa si realizzera. Si tratta quindi,
in sostanza, di una operazione di inferenza statistica, con la differenza che
l'oggetto non e un parametro fisso anche se incognito, rna la determinazione
di un ente aleatorio, che non si e ancora concretizzata nel momento in cui
va prevista. Questa difficolta (peraltro irrilevante se si adotta la impostazione
bayesiana) puo essere superata ricorrendo a un modello dinamico rappresenta-
1.2 La previsione statistica 13

tivo (1) che mette in relazione le variabili relative al futuro con quelle relative
al passato e dunque gia realizzatisi e note. In questo modo e possibile, in linea
di principio, descrivere la distribuzione di probabilita della variabile da pre-
vedere condizionata all'insieme di dati conosciuti, e quindi calcolarne indici
sintetici (media, moda, mediana, varianza), e intervalli di valori, associati con
la loro massa di probablita, Tuttavia questo puo ancora non essere sufficiente,
se e richiesto un valore numerico puntuale da attribuire al valore futuro.
E necessaria quindi una funzione dei dati noti, detta previsore, che de-
scriva il valore previsto per il dato futuro. Ma come scegliere tra Ie infinite
possibili funzioni quella pili conveniente? A tal fine e opportuno impostare
questa scelta come problema di decisione in condizioni di incertezza (per una
esposizione della teoria delle decisioni si veda ad esempio Piccinato, 1996).
Elemento fondamentale di tale impostazione e la esplicitazione di una funzio-
ne di costo (detta anche di perdita) che a ogni possibile esito, descritto dalla
coppia (valore previsto, valore effettivamente realizzatosi) associ un numero,
in modo da ordinare gli esiti possibili dal pili desiderabile al meno favorevole.
Per ogni possibile funzione assumibile come previsore, viene calcolato il costo
medio (0 perdita media, detta anche rischio), usando la distribuzione di pro-
babilita della variabile futura condizionata ai dati noti, e viene scelta come
previsore ottimo quella funzione che fornisce il costo medio pili piccolo.
Come si vede, questa impostazione (a parte Ie difficolta matematiche even-
tualmente insite nella minimizzazione su uno spazio di funzioni) offre un qua-
dro logico preciso e rigoroso per la risoluzione del problema della previsione
puntuale, rna comporta la difficolta della formulazione della funzione di co-
sto, che potra cambiare a seconda della natura dei fenomeni analizzati e degli
scopi della previsione. Per questo si e cercato di trovare forme di previsori
che risultassero ottimi rispetto a intere classi di funzioni di costo. II risultato
pili rilevante di questo tipo e i1 seguente: se la funzione di costo e quadratica,
cioe dipende dal quadrato della differenza tra valore previsto e valore effetti-
vamente realizzato, allora il previsore ottimo, che assicura cioe il costo medio
pili piccolo, e la media condizionata del dato da prevedere, dati i valori gia
realizzatisi all'origine della previsione.
La differenza tra valore effettivo e previsto e detta errore di previsione,
di conseguenza il costo medio e, nel caso quadratico, proporzionale all'erro-
re quadratico medio di previsione (anche chiamato varianza di previsione).
Pertanto l'uso della media condizionata come previsore assicura anche la mi-
nimizzazione dell'errore quadratico medio. Questa considerazione, assieme alla
relativa facilita di calcolo della media condizionata e alla ragionevolezza dei
criteri quadratici, ne spiega la larga diffusione e il motivo per cui frequen-
temente ci si riferisce alla media condizionata come previsore ottimo senza
specificazioni. Vanno peraltro sempre tenute presenti le caratteristiche della

1 In questa testa l'aggettiva rappresentativo viene usato nel sensa di atta a rap-
presentare le caratteristiche dinamiche del fenomeno, e nan ha attinenza can la
rappresentativita campionaria.
14 1 La previsione

funzione di costo quadratica. Se l'andamento parabolico rispecchia l'esigenza


spesso fondamentale di evitare errori molto elevati, la simmetria puo rivelar-
si a volte inadeguata, poiche errori di previsione positivi 0 negativi di ugual
ammontare ricevono la medesima valutazione di costo, mentre in alcune situa-
zioni applicative sbagliare in meno 0 in pili comporta conseguenze di diversa
gravita,
Non esistono criteri generali pili specifici, e nei casi dubbi sara sempre
opportuno, ove possibile, eseguire pili previsioni seguendo differenti funzioni di
costo, in modo da evidenziare la diversita delle conseguenze insite in ciascuna
scelta.
La problematica della costruzione dei modelli rappresentativi e affrontata
nel capitolo 10, mentre la Parte IV e interamente dedicata alla previsione
statistica puntuale.
2

Caratteristiche generali dei fenorneni dinarnici

In questo capitolo introduciamo gli strumenti e le considerazioni statistiche


pili semplici volte a una prima analisi delle rilevazioni di un fenomeno al tra-
scorrere del tempo. Un'analisi generale descrittiva e sempre opportuna come
primo passo dell'analisi statistica vera e propria, e permette di evidenziare
le caratteristiche pili macroscopiche del fenomeno studiato, indirizzando an-
che alla scelta delle tecniche pili appropriate per approfondire l'indagine. II
linguaggio che useremo qui e discorsivo e pili attento a introdurre i concetti
che non al rigore formale. Supporremo di avere a disposizione un insieme di
dati numerici relativi a un fissato fenomeno, rilevati a tempi equispaziati e
consecutivi, che chiameremo serie storica 0 temporale e indicheremo simbo-
licamente con una lettera minuscola indicizzata dal numero progressivo, ad
esempio (Xl,X2, ... ,X n ) .

2.1 II primo approccio: la rappresentazione grafica

Quando si considerano fenomeni dinamici il numero di dati a disposizione e


spesso molto grande, ed e difficile apprezzarne le proprieta leggendo la lista
dei loro valori; d' altra parte essi sono ordinati naturalmente in funzione del
trascorrere del tempo, e quindi eimportante cogliere la relazione tra un singolo
dato e quelli che 10 precedono e seguono.
Uno dei metodi pili semplici ed efficaci per rappresentare simultaneamente
tutte le osservazioni, e favorire l'intuizione relativa alloro andamento comples-
sivo e aIle eventuali regolarita, e quello di rappresentare i dati graficamente
in funzione del tempo.
Su un sistema di assi cartesiani viene rappresentato un punto per ogni
dato, usando come ordinata il valore del dato e come ascissa l'istante a cui
si riferisce, oppure pili semplicemente, il suo numero d'ordine progressivo,
ad esempio (t, Xt) per t == 1,2, ... , n se la rilevazione e composta da n dati
consecutivi. I punti cost ottenuti vengono uniti da una spezzata. II grafico
che si ottiene ha il vantaggio di essere completamente informativo rispetto
16 2 Caratteristiche generali dei fenomeni dinamici

30

25

20

15

10

0-+----.------.--.----.----.----.------.--.------.---------,---,--------,-------,----.------.----.-

1890 1900 1910 1920 1930 1940 1950 1960

Fig. 2.1. Tasso di disoccupazione annuale negli Stati Uniti, dal 1890 al 1970

ana rilevazione (cioe ne conserva tutte le informazioni numeriche) rna rende


facile una interpretazione complessiva dana Quale risultano pili evidenti le
caratteristiche generali.
Consideriamo la Fig. 2.1 dove e riportato il grafico del tasso annuale di
disoccupazione negli Stati Uniti dal 1890 al 1970 (fonte: Hipel e Me Leod,
1994). L'andamento evidenzia con chiarezza i vari periodi storici (ad esempio
il periodo seguente all'inizio della crisi economica del 1929, che mostra alta
disoccupazione) e da anche un'idea della variabilita intrinseca del fenomeno,
segnalata dall'entita media delle variazioni da un an no al successivo. I feno-
meni sociali ed economici, quando vengono seguiti in periodi lunghi, mostrano
frequentemente periodi di limitata durata caratterizzati da un comportamento
disomogeneo, che sono generalmente indotti da perturbazioni di alcuni fattori
determinanti (come la "grande depressione" degli Stati Uniti). A volte invece
si trovano dati isolati incongrui con i precedenti e seguenti, che potrebbero es-
sere determinati anche da errori di misura 0 da cause eccezionali e circoscritte
(si parla dati anomali 0 outliers, cia potrebbe essere accaduto per il dato del
1922). 0 ancora, puo accadere che da un certo istante di rilevazione in poi il
fenomeno cambi le sue caratteristiche principali (come potrebbe accadere se
vengono variate le modalita di rilevazione, oppure il quadro legistlativo che 10
influenza) .
Fortunatamente queste mutazioni nella struttura si verificano generalmen-
te su una scala pili ampia di quella che interessa l'attivita previsiva, e con-
seguentemente in genere ci si trova ad analizzare insiemi di rilevazioni che
presentano una situazione sostanzialmente omogenea nel tempo. In questi ca-
si i fenomeni dinamici oggetto di studio mostrano caratteristiche strutturali
che esercitano una influenza analoga durante tutta la rilevazione, e che sono
poi l'oggetto di maggiore interesse ai fini previsivi, dato che ci si puo legit-
2.1 La rappresentazione grafica 17

120

110

100

90

80

70

60 + - - - - - - - - - - , - - - - - - , - - - - - - - , - - - - - - - - - - , - - - - - - - , - -
gen-90 gen-92 gen-94 gen-96 gen-98 gen-OO

Fig. 2.2. Indice della produzione industriale italiana nel settore estrattivo (miniere
e cave), mensile dal 1990 al 2000

timamente attendere che influiscano con modalita simili anche nel futuro.
Un esempio e nella Fig. 2.2 che riporta l'indice della produzione industriale
italiana nel settore estrattivo, mensilmente dal 1990 al 2000 (fonte Istat).
Nella impostazione classica dell'analisi delle serie storiche, ovvero quell'in-
sieme di metodi statistici sviluppati per la descrizione dei dati rilevati su un
fenomeno dinamico (senza ricorrere alla teoria dei processi aleatori), imposta-
zione che e stata sviluppata soprattutto per serie di natura economica nella
prima meta del ventesimo secolo, si riconoscono essenzialmente tre catgorie
di caratteristiche strutturali che spiegano la variabilita nel tempo: il trend, il
ciclo, la staqioruiiiia.
Si parla di trend quando ci si riferisce all'andamento tendenziale di fon-
do, crescente 0 decrescente, di un fenomeno, caratterizzato da una variazione
relativamente lenta nel tempo, e sempre nello stesso verso, che si riconosce
graficamente dal fatto che la linea indicante la serie non tende a restare ap-
prossimativamente orizzontale (parallela all' asse delle acisse), rna si dispone
su una traiettoria obliqua, crescente 0 decrescente al trascorrere del tempo.
Questo andamento e molto frequente quando si considerano grandezze macro-
economiche 0 sociali, meno frequente per serie di natura meteorologica 0 idro-
logica. Si consideri a titolo di esempio la Fig. 2.3 che riporta (a) la popolazione
degli Stati Uniti ogni 10 anni dal1790 al1980 (fonte Brockwell e Davis, 1987)
e (b) il quoziente di mortalita annuale per l'Inghilterra negli anni dal 1886 al
1911 (fonte: Ripel e McLeod, 1994).
II ciclo 0 ciclo congiunturale 0 economico, e legato a variazioni pluriennali
delle grandezze macro-economiche originate dall'alternarsi di periodi di svi-
luppo e contrazione 0 crisi, tipico della economia capitalista, che comporta un
andamento oscillante di molti indicatori, senza che pero i cicli che cost si ven-
18 2 Caratteristiche generali dei fenomeni dinamici

17
1

1790 1840 1890 1940 1866 1876 1886 1896 1906

(a) (b)

Fig. 2.3. Serie con trend: (a) Popolazione degli Stati Uniti, decennale dal 1790 al
1980; (b) Quoziente di mortalita in Inghilterra, annuale dal 1866 al 1911

31 61 91 121

Fig. 2.4. Serie di vendite mensili di un prodotto, serie M di Box e Jenkins (1970)

gono a creare siano molto simili l'uno all'altro no per la loro ampiezza ne per
la loro periodicita (che tuttavia viene in genere ritenuta compresa approssi-
mativamente tra 3 e 7 anni). Quindi, rilevando un fenomeno economicamente
significativo, come la produzione 0 le vendite, per un intervallo sufficientemen-
te lungo, si riconosceranno delle oscillazioni non regolari, con distanza tra i
massimi pari a qualche anno, che possono essere ricondotte al ciclo congiun-
turale; spesso queste oscillazioni si sovrappongono a una tendenza crescente
che rimane avvertibile anche nelle fasi di crisi (si veda ad esempio la Fig. 2.4
che si riferisce a rilevazioni mensili di vendita di un bene, serie indicata come
Serie M in Box e Jenkins, 1970).
La siaqionalita invece si riferisce aIle variazioni indotte sul fenomeno dal-
l'alternarsi delle stagioni durante l'anno, ed e quindi determinata dalle modifi-
cazioni climatiche e del comportamento umana e sociale che si susseguono nei
diversi periodi dell'anno. Le variazioni stagionali si riscontrano solo se i dati
sono rilevati con cadenza inferiore all'anno; spesso i dati sono mensili e allora
2.1 La rappresentaziane grafica 19

Fig. 2.5. Marti per cause accidentali negli Stati Uniti, mensilmente dal1973 al1978

l'effetto dei fattori stagionali si ripete ogni 12 dati, se sono trimestrali si ripete
ogni 4 dati, se sono settimanali ogni 52 e cosi via. In ogni caso la periodicita
di queste variazioni e precisa e nota, mentre non si puo escludere che la loro
intensita sia diversa da un anna all'altro. Prendiamo come riferimento una
serie mensile, come quella di Fig. 2.5 che riporta i morti per cause accidentali
negli Stati Uniti dal 1973 al 1978 (fonte Brockwell e Davis, 1987). L' esistenza
di stagionalita si nota dal fatto che i dati presentano uno schema tipico che si
ripete ogni 12 dati, in quanto all'interno di ciascun an no ci sono mesi in cui il
fenomeno presenta valori pili alti (nel nostro caso luglio e agosto) e altri mesi
in cui invece i valori sono pili piccoli (per la nostra serie gennaio e febbraio),
e questa avviene pili a meno regolarmente in tutti gli anni. Una descrizione
sintetica dell'effetto della stagionalitn si puo avere osservando il grafico dei
valori medi dei dati riferiti allo stesso mese (0 trimestre, 0 settimana etc.),
che e riportato per la nostra serie nella Fig. 2.6. La differenza tra Ie barre
verticali permette di apprezzare subito l'esistenza di diversita tra i vari mesi
e di valutarne la rilevanza.
Tra i fenomeni con forte stagionalita, oltre ovviamente a tutti quelli me-
teorologici, citiamo la produzione industriale in Italia, che se rilevata su base
mensile evidenzia spesso un minimo marcato nel mese di agosto, quando molte
aziende chiudono per le ferie estive. La Fig. 2.7a riporta il grafico dell'indice
generale della produzione industriale (mesi da gennaio 1993 a dicembre 2000,
fonte Istat) e la Fig. 2.7b evidenzia le medie mensili.
Nell'irnpostazione classica si ipotizza che un fenomeno possa essere spiega-
to attraverso la composizione (additiva 0 moltiplicativa) delle tre componenti
trend, ciclo e stagionalita, pili un effetto di natura casuale, attribuibile a un
complesso di cause non sistematiche. Tuttavia, anche se queste componenti
sono usualmente quelle pili rilevanti almeno nel campo economico, esse non
20 2 Caratteristiche generali dei fenomeni dinamici

G F M A M G LAS 0 N 0

Fig. 2.6. Grafico delle medie mensili della serie di Fig. 2.5

80 1
70

80
50
40 -

(a)
i III J I
GFMAMGlAS

(b)
o N 0

Fig. 2.7. Indice generale della produzione industriale in It alia: (a) dati mensili dal
gennaio 1993 al dicembre 2000 ; (b) grafico delle medic mensili

esauriscono le t ipologie che si riscontrano in ambiti pili vasti . A t it olo di esem-


pia riportiamo il gra fico del num ero di macchie solari registrato annualmente
(fenomeno su cui ritorneremo in seguito, Fig. 2.8) e quello del num ero men-
sile di casi di morbillo a New York (Fig. 2.9). Nel primo casu vediamo che
il fenomeno mostra un comport ament o approssimativamente cicIico con un a
periodicita attorno a 10-11 anni, rna non pre cisa ne costante; nel secondo casu
vediamo invece che i dati pr esentano una mar cata st agiona lita, rna le carat-
teristiche di ciasc un mese non si pr esent ano simili ogni anno, rna piu t to sto ad
anni alte rni.
Se ne puo dedurre che l'articolazione basata su trend - cicIo - stagionalit a
risulta a volt e troppo schema tica, e che c'e bisogno di un a impostazione pili
generale, che ci viene fornit a dalla cosiddet ta analisi rnoderna delle serie st o-
riche, la quale, corne gia osservato , ricorre a un a impost azione probabili sti ca
e quindi lega ogni dato a un a variabile aleatoria di cui esso e realizzazione; in
questo qu adro e pili facile studiare alt re cara t te ristic he come un andament o
2.1 La rappresentazione grafica 21

160

Fig. 2.8. Numero annuale di macchie solari, anni dal 1770 al 1920

Fig. 2.9. Numero mensile dei casi di morbillo registrati a New York dal 1952 al
1962

ciclico di periodicita qualunque.


Uno strumento esplorativo semplice di qualche utilita per indagare l'esi-
stenza di ciclicita e il grafico a dispersione delle coppie di dati che sono stati
rilevati a una fissata distanza temporale. Infatti se il fenomeno tende a ripe-
tersi ogni k unita di tempo (mesi, giorni, anni) allora i dati rilevati a distanza
temporale pari a k tenderanno ad essere concordanti (ad esempio in una serie
trimestrale con stagionalita, i dati a distanza 4, essendo relativi allo stesso
trimestre di due anni consecutivi, tenderanno ad essere pili simili). Se dise-
gnamo su un piano cartesiano i punti con coordinate date da queste coppie di
valori (il punta che ha came ascissa il data Xl e came ardinata il data Xk+l,
22 2 Caratteristiche generali dei fenomeni dinamici

., ....
... -.

(a) (b)

Fig. 2.10. Indice generale della produzione industriale in Italia: (a) dispersione a
distanza 12 mesi; (b) dispersione a distanza 2 mesi

il punto con ascissa X2 e ordinata Xk+2 e cost via) la nuvola che si ottiene
dovrebbe percio denotare la concordanza, e quindi disporsi tendenzialmente
secondo una fascia rettilinea, come nello studio della regressione lineare. L'i-
dea e esemplificata nella Fig. 2.10 dove sono riportati, per la serie dell'indice
generale della produzione industriale, il grafico a dispersione delle coppie di
dati a distanza di 12 mesi (a sinistra) e quello delle coppie di dati a distanza
di 2 mesi (a destra). Come si vede, nel primo caso si ha una relazione lineare
molto evidente, mentre nel quadro a destra non si ritrova una concordanza
apprezzabile.
Nel seguito di questo capitolo introduciamo alcuni strumenti statistici tra-
dizionalmente adoperati per 10 studio del trend e della stagionalita, moti-
vandoli intuitivamente e per Ie loro proprieta descrittive. Si vedra pili avanti
come alcuni di questi modi di procedere possiedano una giustificazione formale
anche nell'analisi moderna, fondata su sviluppi statistico-matematici rigorosi.

2.2 Analisi delle tendenze di fondo

Quando si vuole prendere in considerazione una specifica componente della


serie, si possono distinguere due aspetti e quindi muoversi verso due obiettivi:
la rappresentazione della componente e la sua rimozione. Nel primo caso cer-
cheremo di costruire una nuova serie storica che contenga solo l' effetto della
componente scelta, nel secondo caso si modificano i dati della serie rilevata
in modo che la serie risultante non risenta pili della componente. C'e un mo-
do ovvio di rimuovere una componente dopo che la si e rappresentata (cioe
sottrarla ordinatamente ai dati, oppure dividerla se si suppone un modello di
composizione moltiplicativa invece che additiva), rna come vedremo tra poco
non e l'unico modo possibile di procedere.
2.2 Analisi delle tendenze di fonda 23

120.0

110.0

100.0

90.0

80.0

70.0

60.0

50.0

40.0
7
Fig. 2.11. Indice mensile generale della produzione industriale can retta adattata
al trend

La rappresentazione del trend (0 del trend e del ciclo insieme) si puo


effettuare seguendo due impostazioni alternative:
1. Interpolazione (0 perequazione) analitica 0 parametrica: si suppone che
l'effetto del trend sia assimilabile a una funzione matematica del tempo,
i cui parametri vengono stimati sulla base dei dati.
2. Interpolazione (0 perequazione) meccanica 0 non parametrica: si sostitui-
see ogni dato con una media locale in modo da far risaltare nel risultato
soltanto l'andamento di lungo periodo.
L'interpolazione analitica corrisponde graficamente ad adattare alla linea
dei dati una retta, 0 una parabola (0 una funzione ancor pili complicata). Cia
viene fatto in genere con il metodo dei minimi quadr iti (in modo che la somma
dei quadrati degli errori sia minima) e corrisponde ( d effettuare una analisi di
regressione (eventualmente non lineare) sulle copp j { ( Xt, t), t == 1, 2, ... , n }.
La scelta della funzione e guidata dall'esame del ~rafico della serie: spesso
appare sufficiente una semplice retta (ad esempio per le serie delle Figg. 2.3b e
2.4) mentre in alcuni casi di crescita a ritmo accelera:o puo essere pili adeguata
una parabola 0 una funzione esponenziale (ad esernpio nel caso della serie di
Fig. 2.3a). In ogni caso tutti i software statistici sono in grado di effettuare
immediatamente questo tipo di analisi. Un esempio e nella Fig. 2.11 in cui si
e adattata una retta ai dati dell'indice generale della produzione industriale
gia presentati nella Fig. 2.7a.
La perequazione meccanica, invece, si basa su un insieme di considerazioni
meno immediate, e fa uso della tecnica delle medie mobili (strumento che si
riconduce alla teoria del filtraggio che verra illustrata nel Cap. 5). In breve,
se si sostituisce a ogni singolo dato una media dei dati relativi a un interval-
10 che 10 comprende, si avra un effetto di "lisciamento" che fa scomparire le
24 2 Caratteristiche generali dei fenomeni dinamici

120.0

110.0

100.0

90.0

80.0

70.0

Fig. 2.12. Indice mensile della produzione industriale nel settore estrattivo con
medie mobili a 19 termini

oscillazioni rapide e quindi lascia presenti nel risultato solo quelle pili lente,
ovvero Ie tendenze di fondo. In questo modo la serie originaria viene trasfor-
mata in modo da far risaltare solo il trend e l'eventuale ciclo pluriennale.
Una esemplificazione si trova nella Fig. 2.12 che riporta la serie dell'indice
della produzione industriale nel settore estrattivo e, in tratteggio, la serie del-
le medie mobili semplici a 19 termini (ottenute sostituendo a ciascun dato
Xt la media aritmetica semplice dei dati nell'intervallo tra t - 9 e t + 9), la
quale, come si vede, evidenzia l'andamento tendenziale con caratteristiche di
trend e di ciclo pluriennale. Naturalmente sorge il problema di Quale tipo di
media adoperare (quale ampiezza dell'intervallo e quali pesi se si usa una me-
dia ponderata), problema che e stato ampiamente dibattuto nella letteratura
statistico-economica (si veda ad esempio il Cap. 3 in Di Fonzo e Lisi, 2005).
Una volta rappresentata la tendenza di fondo, ci si puo porre il problema
di depurare i dati da tale componente (a volte si dice detrendizzare la serie). II
modo pili semplice sembra quello di sottrarre ordinatamente dai dati originali
quelli del trend stimato. Questa operazione e usualmente efficace, rna presenta
almena due inconvenienti:
• E legata alla procedura usata per la rappr eseutazionc del trend, e risente
quindi di qualunque eventuale errore 0 imprecisione in tale procedura.
• Non permette di risalire facilmente dana serie detrendizzata ana serie
originale.
Per tali motivi si preferisce a volte ricorrere a semplici trasformazioni dei
dati che permettono di rimuovere la presenza del trend senza doverlo preven-
tivamente esplicitare e rappresentare, ed hanno anche il vantaggio di essere
immediatamente invertibili, assicurando la possibilita di risalire facilmente
dalla serie depurata alla serie originale; tali trasformazioni si basano sulla
2.2 Analisi delle tendenze di fonda 25

(a) (b)

Fig. 2.13. Popolazione degli Stati Uniti decennale dal 1790 al 1980: (a) serie delle
differenze prime; (b) serie delle differenze seconde

tecnica della differenziazione della serie osservata. II principio di base e sem-


plice e consiste nel calcolare Ie differenze tra ciascun dato e il suo precedente:
Yt == x, - Xt-I· La serie delle differenze (0 serie differenziata) {Y2' Y3, ... , Yn}
e in relazione diretta ed immediata con i dati originali, rna presenta caratteri-
stiche dinamiche completamente diverse. L'operazione puo essere ripetuta pili
volte, calcolando Ie differenze sui dati differenziati:

Zt == Yt - Yt-I == (Xt - Xt-I) - (Xt-I - Xt-2) == Xt - 2Xt-1 + Xt-2


cioe la serie detta delle differenze seconde, e cosl via. L'efficacia di questo me-
todo nella rimozione del trend si basa su una semplice considerazione: se una
serie ha una crescita lineare nel tempo, l'incremento tra un dato e il successivo
tende a mantenersi costante; se la crescita e quadratica, la differenza tra due
incrementi successivi tende a rimanere costante e cosi via. Pertanto quando si
ha a che fare con una serie il cui trend eben rappresentabile da una funzione
polinomiale nel tempo (diciamo di grado k), la serie che si ottiene applicando
l'operazione di differenza un numero sufficiente di volte (almeno k) non mostra
pili tendenza di fondo. Qui il problema e decidere l'ordine di differenziazione
necessario, decisione che puo essere effettuata esaminando i grafici delle serie
che risultano dalla applicazione ripetuta delle differenze. II procedimento e
esemplificato nella Fig. 2.13 dove si considera la popolazione degli Stati Uniti
gia riportata nella precedente Fig. 2.3a. Nella Fig. 2.13a si trova la serie delle
differenze prime, nella Fig. 2.13b la serie delle differenze seconde. Come si ve-
de l'applicazione delle differenze una sola volta non e sufficiente per eliminare
il trend crescente, mentre se si applica la differenziazione una seconda volta
(Fig. 2.13b) si ottiene una serie risultante priva di trend. Anche la tecnica
delle differenze va inquadrata nell'ambito della teoria del filtraggio line are che
verra illustrata nel Cap. 5, dove la analizzeremo pili dettagliatamente.
26 2 Caratteristiche generali dei fenomeni dinamici

2.3 Analisi della stagionalita


Lo studio delle variazioni stagionali e pili agevole se condotto su serie prive di
tendenze di fondo, pertanto in genere si rimuove prima un eventuale trend e
poi si passa all'analisi dei fattori stagionali.
Anche per la stagionalita ci si puo porre il duplice obiettivo di rappresen-
tare l'influenza delle stagioni oppure di rimuoverla dalla serie (si parla anche
in tal caso di serie destagionalizzate).
La rappresentazione puo essere effettuata per via analitica supponendo che
l'intensita dei fattori stagionali rimanga costante nel tempo: allora si identi-
fica la stagionalita con una funzione periodica di periodo annuale (e dunque
periodo 12 se i dati sono mensili, 52 se sono settimanali e cosi via). Le fun-
zioni periodiche ad argomento intero hanno una specifica forma matematica
(combinazione lineare di funzioni trigonometriche, come viene illustrato nel-
l'Appendice A) e quindi se ne possono stimare i parametri sui dati rilevati,
con una logica analoga a quella adottata per il trend. Tuttavia, come verra
mostrato nella Sez. 10.6, cia equivale semplicemente ad assumere l'effetto sta-
gionale di ciascun mese pari alla media di tutti i dati relativi a quel mese nei
diversi anni; in sostanza quindi con questo metodo la stima della stagionalita
e data proprio dalle medie mensili (che abbiamo riportato ad esempio nelle
Figg. 2.6 e 2.7b).
Per quanto riguarda la rimozione della stagionalita, oltre a sottrarre le me-
die mensili, e molto usato in alternativa il ricorso a medie mobili di ampiezza
annuale. Infatti (supporremo per fissare le idee di avere una serie mensile) se
a ogni dato si sostituisce una media dei suoi 12 dati contigui pili vicini, si
ottiene una nuova serie in cui ogni elemento risente in pari misura dei fattori
stagionali (in quanto ogni dato della nuova serie contiene un dodicesimo di
gennaio, un dodicesimo di febbraio e cosi via). Ne segue che nella serie delle
medie mobili non si avvertono variazioni stagionali. La tecnica e esemplificata
nella Fig. 2.14 dove si mostra il risultato della sua applicazione all'indice gene-
rale della produzione industriale italiana. Si noti tra l'altro come la serie delle
medie mobili, oltre a non presentare stagionalita, risulta molto pili liscia della
originale: infatti, come tutte le medie mobili, tende ad eliminare le oscillazioni
pili rapide.
Anche per la stagionalita, come per il trend, e possibile ricorrere a semplici
trasformazioni dei dati che permettono di rimuovere le variazioni stagionali.
Anche in questo caso ci si basa su una differenza, sottraendo a ciascun dato
quello dell'anno precedente che si presenta nella stessa posizione stagionale. Se
parliamo di dati mensili, quindi, si considerano le differenze Yt == Xt - Xt-12,
se i dati sono trimestrali si considera x, - Xt-4, se sono settimanali Xt -
Xt-52; poiche i dati che si sottraggono risentono in egual misura dei fattori
stagionali, si puo ritenere che nella differenza la stagionalita non avra aleun
effetto (sempre che, come ipotizzato anche prima, l'ampiezza delle variazioni
stagionali rimanga costante nel tempo). Come esempio, il grafico della Fig.
2.3 Analisi della stagionalita 27

120.0

110.0

100.0

90.0

80.0

70.0

60.0

50.0

40.0

Fig. 2.14. Indice generale mensile della produzione industriale con la serie delle
medie mobili a 12 termini

15.0

-10.0

Fig. 2.15. Indice generale mensile della produzione industriale: serie delle differenze
dodicesime

2.15 riporta Ie differenze dodicesime calcolate sulla serie dell'indice generale


della produzione ind ustriale.
I valori delle serie differenziate ottenute con Ie differenze dodicesime hanno
il significato di incrementi annuali del fenomeno rilevato, tuttavia si faccia at-
tenzione che queste serie, oltre alla rimozione della stagionalita, hanno anche
altre caratteristiche dinamiche ben diverse dai dati originali, poiche l'operazio-
ne di differenza introduce modificazioni profonde nella struttura di dipendenza
temporale, come verra chiarito nel Cap. 5.
28 2 Caratteristiche generali dei fenomeni dinamici

2.4 Analisi dei residui

Accenniamo per completezza allo studio dei residui, fase che completa, nell'a-
nalisi classica delle serie storiche, la procedura di scomposizione.
Dopo aver determinato lc serie corrispondenti alle componenti trend ci-
clo e stagionalita, si valuta il successo del procedimento andando a calcolare
la parte non spiegata della serie originale (i cosiddetti residui) che dovrebbe
presentarsi come un insieme di valori completamente casuali, senza caratteri-
stiche sistematiche. In pratica si sottraggono ordinatamente dai dati originali
Ie componenti trend cicIo e stagionalita calcolate, e si ottiene cost la serie
dei residui (se invece si supponesse un modello di composizione moltiplicativo
anziche additivo, allora si dividerebbe invece che sottrarre).
II concetto di casualita dei residui viene esplicitato in diversi modi alterna-
tivi, rna nella grande maggioranza della letteratura si ricorre a questo punto
a una impostazione probabilistica, assumendo che i residui siano realizzazioni
di variabili aleatorie, e si valuta la casualita sulla base del controllo di alcune
proprieta:
1. I residui hanno media nulla.
2. I residui hanno ugual varianza.
3. Ciascun residuo e incorrelato con tutti gli altri.
Oltre a una verifica empirica sul grafico dei residui, esistono molti test sta-
tistici che permettono di sottoporre a verifica queste tre proprieta e simili
caratteristiche. Se non si fanno ipotesi sulla forma della distribuzione di pro-
babilita dei residui, vengono spesso preferiti test non parametrici (basati sulla
permutazione, si veda ad esempio il Cap. 2 di Piccolo, 1990). Una ulteriore
assunzione, molto comune in letteratura, e quella di distribuzione normale (di
Gauss) dei residui. Per sottoporla a verifica si puo calcolare la distribuzione di
frequenza (l'istogramma) e applicare uno dei molti test statistici di norrnalit.a,
che sono disponibili nei pili comuni software statistici. Va sottolineato che l'i-
stogramma e un valido strumento di indagine sulla forma della distribuzione
se i dati sono indipendenti, e quindi costituiscono un campione casuale. Se
invece i dati fossero dipendenti, l'istogramma non fornirebbe una stima plau-
sibile della distribuzione di probabilita, in quanto Ie osservazioni non possono
essere pensate come "prove ripetute". Cia spiega perche non si usa calcolare
l'istogramma di frequenza delle serie storiche, rna solo dei residui.
Esemplifichiamo la procedura complessiva di scomposizione classica con
riferimento alla serie dell'indice mensile generale della produzione industriale
dal1990 a12000, che abbiamo pili volte considerato (Fig. 2.7a). La componente
cicIo-trend, stimata come media mobile a 24 termini, compare nella Fig. 2.16a,
mentre nella 2.16b sono riportate le medie mensili ripetute periodicamente,
che quindi costituiscono la stima della componente stagionale. Sottraendo
ordinatamente i dati delle due serie di Fig. 2.16 dai dati originali si ottengono
i residui, riportati nella Fig. 2.17, che possono essere anche interpretati come
errori della procedura. L'andamento dei residui non mostra regolarita evidenti
2.4 Analisi dei residui 29

110.0 20

10

-10
100.0
-20

-30

-40

90.0 -50

(a) (b)

F'ig. 2.16. Indice mensile generale della produzione industriale: (a) serie delle medie
mobili a 24 termini; (b) serie periodica delle medie mensili

8.0

4.0

0.0

-4.0

-8.0

Fig. 2.17. Residui della scomposizione della serie dell'indice mensile generale della
produzione industriale

e quindi non suggerisce dubbi sulla casualita (si noti la scala pili piccola delle
precedenti). L'istogramma della distribuzione di frequenza dei residui, infine, e
invece riportato nella Fig. 2.18 e permette di valutare le differenze, abbastanza
sensibili, rispetto all'andamento campanulare tipico della normale.
30 2 Caratteristiche generali dei fenomeni din amici

"
p
..
I-

0
mr
-10,00 -5,00 0,00 5,00
rn
10 ,00

F ig . 2. 18. Istogramma della distribuzione dei residui della Fig. 2.17


Parte II

La teoria dei processi aleatori


3

Processi aleatori e lora classificazione

Questo capitolo ha 10 scopo di introdurre i principali sviluppi del calcolo delle


probabilita relativi ai processi aleatori, illustrando gli strumenti interpretativi
delle lora proprieta dinamiche e tratteggiando una classificazione.

3.1 Che cos'e un processo aleatorio

II concetto di processo aleatorio 0 stocastico rappresenta la naturale estensione


della variabile aleatoria multipla a un numero infinito di componenti. Anche
se questa estensione risulta generalmente intuitiva, l'introduzione di infiniti
componenti comporta a volte qualche difficolta dal punto di vista matematico.
II punto di partenza e uno spazio di probabilita (D, A, P), dove D e l'in-
sieme degli eventi elementari, A e la sigma algebra degli elementi di D, e P
e una misura di probabilita definita su A. Una variabile aleatoria X e una
funzione misurabile da D in JR (insieme dei numeri reali) , che associa quindi a
ogni evento w (elemento di D) un numero reale. Su tale spazio di probabilita e
definita una collezione di variabili aleatorie ciascuna contraddistinta dal valore
di un indice 0 parametro t appartenente a un insieme T. Un processo aleatorio
e quindi definito come una collezione di variabili aleatorie {Xt, t E T} . L'in-
sieme puo essere numerabile, nel qual caso si usa generalmente la convenzione
di indicarne gli elementi con i numeri naturali (0 interi). In questo caso il pro-
cesso viene detto a parametro discreto (a volte anche sequenza aleatoria). Se
invece T ha la potenza del continuo, come quando e costituito da un intervallo
o da tutta la retta, si parla di processo a parametro continuo (a volte funzione
aleatoria). Ovviamente anche i valori che le variabili X, possono assumere
cambiano: nella generalita delle applicazioni si suppone pero che il supporto
sia uguale per tutte le X t , e che esse abbiano la stessa natura. II caso pili
frequente e che vengano assunte assolutamente continue; a volte si suppone
che abbiano una distribuzione discreta, oppure dicotomica come vedremo nel
seguito.
34 3 Processi aleatori e loro classificazione

Alternativamente, e in modo equivalente, un processo aleatorio puo essere


pensato come una funzione dall'insieme prodotto cartesiano T x [2 in JR.: X, ==
f (t, w) con la proprieta che per ogni t E T la funzione f (t, .) sia misurabile.
In questo modo, per ogni t fissato si ha una variabile aleatoria, mentre per
ogni w fissato si ha una funzione di t E T. In altri termini, in corrispondenza
di ogni evento dello spazio di probabilita, ciascuna variabile aleatoria X, si
realizza in un valore Xt; la collezione ordinata di tali valori {Xt, t E T} viene
chiamata una realizzazione del processo e a ciascuna realizzazione e associata
in linea di principio una probabilita (0 una densita). Pertanto le caratteristiche
di un processo aleatorio sono legate alla sua distribuzione di probabilita, che
coinvolge un numero infinito di componenti e la cui esplicitazione comporta
difficolt.a insormontabili. Tuttavia e stato dimostrato che la struttura proba-
bilistica del processo e completamente specificata dalla conoscenza di tutte
le distribuzioni di probabilita multiple con un numero finito di componenti.
In altri termini la conoscenza delle distribuzioni di probabilita delle varia-
bili multiple (XiI, X t 2 , ... , X t n ) per ogni n e per ogni scelta di tl, t2, ... , t.;
nell'insieme T, determina completamente le propriota del processo.
II paragrafo che segue riassume le principali proprieta delle distribuzioni
di probabilita multiple finite, con particolare riferimento alla distribuzione
normale.

3.2 Richiami sulle distribuzioni di probabilita


multivariate
Consideriamo una variabile aleatoria m-dimensionale che indichiamo con
(Xl, X 2 , ... , X m ) , e specifichiamo la sua distribuzione di probabilita attraverso
la funzione di ripartizione multipla (0 congiunta):

Se la variabile e assolutamente continua, esiste la funzione di densita


f(XI,X2, ... ,x m ) tale che

Integrando rispetto ad una 0 pili variabili sul loro supporto si ottengono


le cosiddette marginali, cioc Ie funzioni di ripartizione (0 densita) di un
sottoinsieme delle m variabili; ad esempio
3.2 Richiami sulle distribuzioni di probabilita multivariate 35
Xl jX2
F l d x l , X2) = j -00 _ooh2(tl,t2)dhdt2
Xl jX2 j+oo j+oo f (tl, t2, ..., t m) dtldt2,..dtm .
= j -00 -00 -00 '" -00

Una variabile m- pla ha m distribuzioni marginali can (m - 1) componenti,


m( m - 1)/2 distribuzioni marginali can (m - 2) componenti, (7:) distribuzioni
marginali can (m - k) componenti, ..., m distribuzioni marginali (univariate)
can una componente. Comunque dalla definizione risulta evidente che la cono-
scenza delle marginali non implica la conoscenza della distribuzione congiunta,
perche non ci da informazioni sul modo in cui Ie variabili si associano. Solo
se le variabili sana indipendenti si ha che la probabilita dell'intersezione e
uguale al prodotto delle probabilita, e quindi le marginali permettono di ri-
costruire la congiunta. Ad esempio can due variabili, se sana indipendenti,
si ha F(XI,X2) == F I (Xl) F2 (X2) e !(XI,X2) == !1(XI)!2(X2). In caso contra-
rio questa relazione non vale e quindi ad esempio !2(X2) i- !(XI, X2)/!1(XI).
L'espressione a destra puo essere interpretata in termini di probabilita condi-
zionate, e descrive la distribuzione di una variabile condizionatamente ad una
particolare determinazione dell'altra. E possibile definire in modo analogo la
distribuzione condizionata di un sottoinsieme delle m componenti, data il va-
lore assunto da un altro sottoinsieme (a intersezione nulla can il precedente)
in questa modo. Siano A e B due sottoinsiemi di {I, 2, ..., m}, can An B == 0,
B i- 0, consideriamo i vettori aleatori XA == (Xi, i E A), X B == (Xi, i E B) e
sia XB un punta del supporto di X B . La distribuzione di probabilita di XA
condizionata a X B == X B e data da

Naturalmente se il vettore XA e il vettore X B sana indipendenti

I momenti di una variabile multipla sana definiti come media del prodotto
delle componenti, ciascuna elevata a un particolare esponente

/112 ... m (kl, ka- . . , , k m ) = E (X;l X;2 ... x~m) =


+OO ... j+oo X~lX~2 ... X~1n! (Xl, X2, ... , X
== j
-00 -00
m ) dXldx2··· dx-; .

Ovviamente si possono ottenere tutti i momenti delle distribuzioni marginali


ponendo uguali a zero gli esponenti k, relativi alle variabili escluse, ad esempio
36 3 Processi aleatori e loro classificazione

Le medie delle singole variabili sono espresse come momenti con tutti gli
esponenti uguali a zero tranne uno unitario
+00
E (Xl) = ; _00 xI!1 (xI) dX1 = JL 1 (1) = JL 12 ... m (1,0, 0, ..., 0)

e i momenti centrali possono essere definiti sostituendo negli integrali le


quantita Xj - E (X j ) al posta delle Xj.
I momenti delle distribuzioni condizionate verranno generalmente indicati
con il simbolo E (. I·) dove a destra della barra si esplicita l'evento condizio-
nante, il Quale spesso viene indicato in maniera sintetica con X j invece che
X, == Xj. Per esempio

E(xrxiIX3,X4) = 1: 1:
00 00

xix~f(X1,X2,X3,X4)/h4(X3,X4)dx1dx2'
La funzione generatrice dei momenti della variabile m-pla e definita da

e i coefficienti del suo sviluppo in serie sono i momenti, che sono quindi legati
alle derivate della H dalla relazione

O:l=···=O:rn=O

Le funzioni generatrici dei momenti di un sottoinsieme della m- pla si otten-


gono dalla H ( aI, a2, ..., am) ponendo uguali a zero gli argomenti relativi alle
variabili da trascurare, ad esempio

H 123 (aI, a2, a3) == H (aI, a2, a3, 0, 0, ...,0)


== E{exp(al Xl +a2 X2 +a3 X3)} .
Se le componenti sono indipendenti, la funzione generatrice dei momenti si
fattorizza nel prodotto delle funzioni generatrici dei momenti delle singole
componenti.
II logaritmo della funzione generatrice dei momenti e detta funzione dei
seminvarianti 0 cumulanti

e i coefficienti del suo sviluppo in serie sono chiamati cumulanti. Una lora
espressione piuttosto semplice e fornita dal seguente teorema (Brillinger, 1981
p.19):
3.2 Richiami sulle distribuzioni di probabilita multivariate 37

Teorema 3.1. Data una variabile aleatoria m-pla, per ogni r ~ m e per ogni
r-pla (aI, a2, ..., a r ) il coefficiente di (al x a2 x ... x a r ) nello sviluppo in se-
rie della funzione generatrice dei cumulanti, indicato con cum (Xl, X 2, ..., X r )
e dato da
cum(X l , X 2, ...,Xr ) == (3.1)

= t
p=l
(_l)p-l (p - I)! LE
Dp
(II Xj) E(II Xj) ... E(II Xj)
JErI JE r 2 JEr p

dove la seconda somma e estesa all'insieme Dp di tutte le partizioni (rl' r2, ...,
rp ) dell'insieme (1,2, ..., r) in p parti.
Va sottolineato che il teorema vale anche se le Xl, X 2 , ... , X; non sono tutte
diverse tra loro, quindi la formula permette di ricavare anche i cumulanti di or-
dine superiore di una variabile univariata ponendo Xl == X 2 == ... == X; == X.
I cumulanti godono di molte proprieta importanti e sono legati agli altri
momenti. Ad esempio si dimostra che cum (X j) == E(X j), cum (Xj,X j) ==
Var (X j) , cum (X j, X k ) == Cov (X j, X k ) ; inoltre se nelle variabili (Xl, X 2 , ...,
X r ) un sottoinsieme e indipendente dalle altre, cum (Xl, ..., X r ) == O.

Spesso la notazione matriciale risulta molto utile e comoda nel trattare


l'algebra delle variabili multiple. Se indichiamo con X == (Xl, ..., X m ) ' il vet-
tore delle variabili aleatorie, con x == (Xl, ... , X m ) ' il vettore dei valori assunti,
con J-L == (J-Ll, ..., J-Lm)' dove J-Lj == E (Xj) il vettore delle medie, possiamo scri-
vere J-L == E (X). I momenti centrali secondi (varianze e covarianze) si possono
indicare con O"ij == E {(Xi - J-Li) (Xj - J-Lj)} e riunire in una matrice detta di
dispersione E == ((O"ij)) == E {(X - J-L) (X - J-L)'}. La matrice di dispersione
viene anche indicata con E == Var(X). Poiche O"ij == O"ji la matrice risulta
simmetrica; inoltre e anche definita positiva. Infatti la forma quadratica c' E c
e sempre maggiore di zero essendo pari alIa varianza della variabile aleatoria
y == c' X == Lj CjX j. Escludererno sempre il caso degenere che lc componenti
siano linearmente dipendenti, 0 pili precisamente che esista una combinazione
lineare delle componenti costante con probabilita uno.
La notazione matriciale e comoda quando si trattano trasformazioni linea-
rio Consideriamo le variabili Z == (Z 1, Z2, ..., Zn)' ottenute dalle X attraverso
una trasformazione lineare
Z == AX
dove A e una matrice di costanti note a n righe e m colonne.
Le medie, varianze e covarianze delle Z possono essere ottenute facilmente
sfruttando Ie proprieta di Iinearita delle medie

J-Lz == E (Z) == E (AX) == AE (X) == AJ-L

Var (Z) == E {(Z - J-Lz) (Z - J-Lz)'} == E {(AX - AJ-L) (AX - AJ-L)'} ==


== E{A (X - J-L) (X - J-L)' A'} == AE{(X - J-L) (X - J-L)'}A' == AEA' .
38 3 Processi aleatori elora classificazione

Nel caso che n == meA ammetta inversa, c'e corrispondenza biunivoca tra X
e Z e ci possiamo aspettare che sotto le ipotesi che X abbia distribuzione di
probabilita assolutamente continua, anche Z == AX possieda una densita che
puo essere facilmente calcolata a partire da quella della X. Infatti

Pr{Z E C} = J ···LIx(X)dX

con D == {x == (Xl, X2, ... , X m ) : Z == Ax E C}. Data la biunivocita, si puo ef-


fettuare nell'integrale la sostituzione delle variabili (Zl' ... , zm) alle (Xl, ... , X m )
il cui Jacobiano e 1/ IAI. Ne segue

Pr{Z E C} = J.. LIx (A- z) 1~ldZ


1

e quindi la densita di Z e Ix (A-lz) I~I.


La funzione generatrice dei momenti puo essere espressa in forma vettoriale
ponendo a == (aI, a2, ..., am)' :
Hx (a) == E{exp(a'X)} . (3.2)
In questo modo si puo calcolare facilmente la funzione generatrice dei momenti
di una trasformazione lineare invertibile Z == AX + /1
Hz (a) == E {exp (a' Z)} == E {exp (a' AX + a' /1)} == H x ({3) ea ' J1- (3.3)
dove {3 == A' a.

3.3 La distribuzione normale multipla


La distribuzione normale multipla riveste un ruolo del tutto particolare nell'a-
nalisi statistica multivariata, in ragione della sua proprieta caratteristica che
la dipendenza tra Ie componenti si esercita in modo esclusivamente lineare, ed
e quindi sintetizzata dai coefficienti di correlazione. Ogni qual volta si possa
ritenere sufficiente studiare la dipendenza tra variabili limitandosi alla forma
lineare, la normale puo essere presa in considerazione come distribuzione ap-
prossimante. Questa considerazione si estende anche allo studio dei processi
aleatori.
Un processo aleatorio viene detto gaussiano se tutte Ie sue distribuzioni di
un numero finito di variabili sono normali multiple. Richiamiamo la definizione
di distribuzione normale multipla.
Definizione 3.2. Una variabile aleatoria a m componenti X == (Xl, X 2 ,
... ,Xm )' con media /1 == (/11, /12, ... , /1m)' e matrice di dispersione E == ((aij))
ha distribuzione normale multipla se e assolutamente continua e la sua detisiia
di probabiiitii, posto X == (Xl, X2, ... , X m )' e data da:

p (x) = (27r)-m/2I17I- 1/ 2 exp { -~ (x - J-l)' 17- 1 (x - J-l)} . (3.4)


3.3 La distribuzione normale multipla 39

Simbolicamente si indica X N(J-l, E). La distribuzione e completamente


r-;»

specificata, oltre che dalle medie, dalle sole varianze e covarianze: cia rende
ragione del fatto che la dipendenza si esplica in forma lineare, perche due va-
riabili multiple che abbiano le stesse covarianze e varianze, hanno la medesima
distribuzione multipla (e quindi 10 stesso tipo di legame).
La genesi della (3.4) puo essere compresa facilmente partendo dal caso di
componenti indipendenti e standardizzate. Se Zl, Z2, ..., Zm sono m variabi-
li normali standardizzate indipendenti, la loro densita congiunta e data dal
prodotto delle densita individuali:

( )_rr rr {1,}
m m

P ZI, Z2, ... , Zm -


() _ (
j=1 Pj Zj - j=1 21f
)-1/2
e
-z~ /2 _
J -
()-m/2
21f exp -"2
Z Z

ove si e scritto z == (Zl,Z2, ... ,Zm)'. Notiamo che E(Z) == 0 e Var(Z) ==


I. Questo e il tipo pili semplice di associazione tra m variabili. Per avere
dipendenza non nulla, possiamo sfruttare una trasformazione lineare biunivoca
considerando le nuove variabili X == (Xl, X 2, ... ,Xm)' ottenute da X == AZ +
J-l dove A e una matrice quadrata regolare. Sappiamo che E(X) == p., e si
calcola facilmente 17 == Var(X) == E{AZ(AZ)'} == AA'. Inoltre sappiamo che
la densita multipla di X e ottenuta secondo la regola :

PX (x) == pz [A- l (X - J-l)] IAI- l ==


I
= (21f)-m/2IAI- exp { -~ (X - p,)' A,-I A-I (X - p,)} .

Infine notando che 17- 1 == A,-l A-I e che 1171 == IAA'I == IAI si ottiene la
2

densita (3.4).
Questo procedimento suggerisce anche un modo per estendere il concetto
di standardizzazione a una normale multipla. Se X e normale multipla con
media J-l e matrice di dispersione 17, poiche E e definita positiva esiste la sua
matrice radice quadrata, ovvero una matrice Q tale che E == QQ', e Q e
regolare. Percio possiamo considerare la trasformazione lineare:

Z == o:' (X - J-l)

che definisce la nuova variabile a m dimensioni Z == (Zl, Z2, ... , Zm)'. Si


ottiene facilmente E(Z) == 0, Var(Z) == Q-lE{(X - J-l) (X - J-l)'}Q-l' ==
Q-lQQ'Q,-l == I, quindi le (Zl, Z2, ..., Zm) sono normali standardizzate
indipendenti.
Per le proprieta analitiche della distribuzione normale si verifica che sono
di forma normale tutte le distribuzioni marginali della X == (X l,X2, ...,Xm)
e anche tutte le distribuzioni condizionate. Se consideriamo un sottoinsieme
di componenti 5 C (1,2, ..., m), la distribuzione marginale delle Xj, j E 5
e normale con vettore delle medie dato dal corrispondente sottovettore di u:
J-ls == (J-lj, j E 5)', e matrice di dispersione ottenuta selezionando da 17 Ie righe
e le colonne relative alle componenti di 5.
40 3 Processi aleatori elora classificazione

Per le distribuzioni condizionate, ferma restando la forma gaussiana,


lc medie, varianze e covarianze richiedono uno sviluppo meno immediato.
Ricaveremo ora una formula che generalizza il noto risultato bivariato:

a~y
E (X IY == y) == ux + -aXY
ayy
(y - f-LY) , Var (X IY == y) == a x x - -
ayy
.

Consideriamo una partizione di (1,2, ..., m) in due parti 51 e 52 di numerosita


rispettivamente m1 e m2 (con m., + m2 == m) e riordiniamo i vettori X, f-L e
la matrice E in modo che compaiano ai primi posti gli indici appartenenti a
51, e poi tutti quelli che appartengono a 52. Possiamo usare una notazione
conseguente:

/1 == (/1(1»)
/1(2)
dove X(l) == (Xj,j E 51)" X(2) == (Xj,j E 52)' e cosi via. La distribuzione di
X(l) condizionata a X(2) == X(2) si puo scrivere:

PX(l) (X(l) IX(2) == X(2») == PX (X(l)' X(2») /PX(2) (X2) ==

IE I-
1/2
(21T)-m/2 exp {-~ (x - f-L)' E- 1 (x - f-L)}
(2Jr)-m2/2I17221-1/2 exp { -~ (X2 - JL(2))' E:;} (X2 - JL(2)) }

== (21T)-m 1/2 (lEI / 117221)-1/2 X


x exp { - ~ [(X - JL)' 17- 1 (X - JL) - (X2 - JL( 2) )' 17221 (X2 - JL (2))]} .

Se partizioniamo anche la matrice 17- 1 riunendo prima lc m i righe e colonne


di 51, e poi le m2 righe e colonne di 52 nel modo seguente:

otteniamo le relazioni:

ed eseguendo i prodotti tra le matrici condizionate:

(a) V11E11 + V12E21 == I

(b) V11E12 + V12E22 == 0

(c) V21E11 + V22E21 == 0


(d) V21E12 + V22E22 == I .
3.3 La distribuzione normale multipla 41

Dalla (b) si ricava postmoltiplicando per E 221 :

V12 == -V11E12Ez/

e sostituendo nella (a) e premoltiplicando ancora una volta per V1I 1 si ha:
1
V11 == Ell - E12E2;lE21 .
Ricavando dalla (b) la 1712:

1712 == - V1I 1V12E22


e sostituendo nella (d), dopo aver postmoltiplicato per E2;l, si ricava:

172;1 == V22 - V21V111V12.


Usando queste relazioni possiamo sviluppare la forma quadratica che appare
nell'esponenziale della densita condizionata:

- (X2 - f-L(2))' (V22 - V21V111V12) (X2 - f-L(2)) ==

== (Xl - f-L(l))' V11 (Xl - f-L(l)) + (X2 - f-L(2))' V22 (X2 - f-L(2)) +
+ 2 (Xl - f-L(l))' V12 (X2 - f-L(2)) - (X2 - f-L(2))' (V22 - V21V111V12) (X2 - f-L(2)) ==

== [Xl - fL(l) + V1I 1V12 (X2 - fL(2))]' VII [Xl - fL(l) + VII 1 V12 (X2 - fL(2))] ==

Ponendo f-L l 12 == fL(l) - 1712172;1 (X2 - fL(2))' 17112 == 1711 - 1712172211721 la


densita condizionata, che e funzione dell'argomento Xl, risulta:

ed e di forma normale a m1 dimensioni con media f-L l 12 e varianza E 112 . Ne


segue:

Calcoliamo adesso la funzione generatrice dei momenti partendo da varia-


bili normali standardizzate indipendenti. Poiche la funzione generatrice dei
42 3 Processi aleatori elora classificazione

momenti di una variabile normale standardizzata e pari a H (t) == exp { t 2 /2 },


per un vettore di m normali standardizzate indipendenti Z == (Zl, Z2, ..., Zm)'
avremo:

Quindi, considerando una trasformazione lineare X == AZ + J-L si ottiene:

H x (0:) = en' JL Hz (A' 0:) = exp { 0:' JL + ~o:' AA' 0: }

e indicando con E == AA' la matrice di dispersione se X r-;» N (J-L, E), allora:

u. (0:) = exp { 0:' JL + ~o:' EO:} .

Ne segue che la funzione generatrice dei cumulanti e:

K (0:) = log H (0:) = 0:' JL + ~o:' Eo: = L O:iJLi + ~ L L O:iO:j(Jij .


i i j

Poiche sono nulli i coefficienti di grado superiore a 2 in Q, ne segue che i cumu-


lanti di ordine superiore a 2 di una distribuzione normale sono nulli. Questa
proprieta ecaratteristica (cioe esclusiva) della forma normale, e usandola insie-
me al teorema 3.1 ci permette di calcolare facilmente alcuni momenti di ordine
superiore. Consideriamo una variabile multipla can media nulla E (Xi) == 0
e calcoliamo la formula (3.1) per r == 3. Le partizioni D p (p == 1,2,3) sono le
seguenti:

D I == {(1,2,3)}
D 2 == {[(I) , (2,3)] , [(2) , (1,3)] , [(3) , (1, 2)]}
D 3 == {[(I), (2), (3)]} .

Quindi:

o == cum (Xl, X 2, X 3 ) == E (X IX 2X 3 ) - E (Xl) E (X 2X 3 ) +


- E (X 2) E (X I X 3 ) - E (X 3 ) E (X I X 2) + 2E (Xl) E (X 2) E (X 3 )

e ricordando che E (Xi) == 0 si ottiene:

In modo analogo si dimostra che tutti i momenti di ordine dispari sono nulli.
II risultato per r == 4 si ottiene nel seguente modo. Le partizioni risultano:
3.3 La distribuzione normale multipla 43

1)1 ~ {(1,2,3,4)}
1)2 ~ {[(I) , (2,3, 4)] , [(2) , (1,3, 4)] , [(3) , (1,2,4)] , [(4) , (1, 2,3)] ,
[(1,2) , (3,4)] , [(1,3) , (2,4)] , [(1,4) , (2,3)]}
1)3 ~ {[(I), (3), (2,4)], [(1), (4), (2,3)], [(2), (3), (1,4)],
[(2), (4), (1,3)], [(3), (4), (1,2)]}
1)4 ~ {(I) ,(2),(3),(4)}

e il cumulante:

° ~ cum (Xl, X 2 , X 3 , X 4 ) ~ E (X 1X2X3X4 ) +


- {E (Xl) E (X 2X3X4 ) + E (X2 ) E (X 1X3X4 ) + E (X3 ) E (X 1X2X4 ) +
+ E (X4 ) E (X 1X2X3 ) + E (X 1X2 ) E (X3X4 ) + E (X 1X3 ) E (X 2X4 ) +
+ E (X 1X4 ) E (X 2X3 ) } + 2{E (Xl) E (X 3 ) E (X2X4 ) +
+ E (Xl) E (X4 ) E (X 2X3 ) + E (X 2 ) E (X3 ) E (X 1X4 ) +
+ E (X 2 ) E (X4 ) E (X 1X3 ) + E (X 3 ) E (X4 ) E (X 1X2 )}+
- 6E (Xl) E (X 2 ) E (X 3 ) E (X 4 )

tenendo sempre conto che E (Xi) ~ 0, i ~ 1,2,3,4 gli unici termini che non
si annullano sono E (X 1X2X3X4 ) e i prodotti del tipo E (X 1X2 ) E (X3X4 ) .
Riordinando otteniamo:

E (X 1X2X3X4 ) ~ E (X 1X2 ) E (X 3X4 ) + E (X 1X3 ) E (X 2X4 ) +


+ E (X 1X4 ) E (X 2X3 )
che e nota come formula di Isserlis e permette di esprimere i momenti quarti
in funzione delle covarianze. La propricta caratteristica della normale di avere
i cumulanti di ordine superiore a 2 tutti nulli permette tramite applicazioni
ripetute del teorema 3.1 di calcolare tutti i momenti di qualunque ordine (pari)
in funzione delle covarianze.
Tra le variabili derivate dalla normale multipla esiste una generalizzazione
multivariata della t di Student, e la distribuzione chi-quadrato ha un ruolo
rilevante. Infatti sappiamo che se Z ~ (ZI, Z2, ..., Zm)' e normale multipla
standardizzata, cioe E (Z) ~ 0, E (ZZ') ~ I, allora la Zf + Z~ + ... + Z~ ~
Z' Z si distribuisce secondo un X2 con m gradi di liberta. Se invece X ~
(Xl, X 2 , ... , X m )' e normale multipla con una media E (X) ~ J-l e matrice
di dispersione E {(X - J-l) (X - J-l)'} ~ E allora possiamo prima riportarci
alla standardizzata con la gia introdotta trasformazione Z ~ (X - J-l)o:'
dove E ~ QQ'. Pertanto la Z' Z ~ (X - J-l)' E- 1 (X - J-l) ha distribuzione
chi quadrato con m gradi di liberta. In realta molte funzioni quadratiche di
variabili normali hanno una distribuzione che si approssima al chi-quadrato.
Consideriamo un vettore normale standardizzato Z ~ (Zl, Z2, ..., Zm)' e una
matrice quadrata simmetrica A. La matrice A puo essere scritta A ~ U AU'
dove A ~ diag (AI, A2'..., Am) e i Ai sono gli autovalori mentre le colonne di U
sono gli autovettori, e U e ortogonale. Se consideriamo la forma quadratica:
44 3 Processi aleatori elora classificazione

Q (Z) == Z' AZ == Z'U AU' Z == Y' AY


dove Y == U' Z, lc Y sono normali multiple standardizzate perche hanno media
zero e matrice di dispersione E{YY'} == E{U' ZZ'U} == o't: == I. Quindi dato
che A e diagonale:
m
Q (Z) == L AjYj2
j=l

con Yj2 che sono chi-quadrato con un grado di Iiberta indipendenti. Ne segue
che ogni forma quadratica costruita su normali standardizzate e distribuita
come una combinazione lineare di variabili chi-quadrato indipendenti con un
grado di liberta, e i coefficienti della combinazione lineare sono dati dagli
autovalori della matrice della forma quadratica. Ne segue che se la A ha au-
tovalori uguali a 0 oppure 1 la Q(Z) e un chi-quadro, in caso contrario la
distribuzione e pili complicata (si veda ad esempio Johnson and Kotz (1970),
vol. 2), rna puo' essere approssimata con un multiplo di un chi-quadro del
tipo cx~ dove 9 e scelto in modo da ottenere la stessa media e la stessa va-
rianza: E{ Q (Z)} == E Ai == cg; V ar{ Q (Z)} == 2 E A; == 2c2 9 da cui si ricava
c == E A;/ E Ai, 9 == (E Ai)2 / E A;.

3.4 Alcune proprieta dei processi aleatori

e
L'insieme dei processi aleatori come 10 abbiamo introdotto talmente vasto
da comprendere intere classi di processi con caratteristiche e comportamenti
molto complicati, anche patologici 0 degeneri, che sono poco utili come modelli
di fenomeni reali. Per questo motivo si usa restringere il campo dei proces-
si aleatori da utilizzare come modelli, imponendo che essi soddisfino alcune
proprieta che garantiscono almeno i due aspetti seguenti:
1. Quando 1'insieme in cui varia il parametro (ad esempio il tempo) e illimi-
tato, il comportamento del processo al crescere del parametro non deve
degenerare.
2. Le caratteristiche fondamentali del processo {Xt } al variare del parame-
tro t nel suo insieme T devono mantenere una sorta di stabilita ovvero
omogeneita, devono cioe essere proprie del processo e quindi manifestarsi
in maniera analoga indipendentemente dal valore del parametro.
Per cautelarsi dal degenerare del processo e in genere sufficiente assumere
che i momenti di ogni ordine finito sono finiti, D'ora in poi assumeremo in
tutto il testo che questa proprieta sia soddisfatta.
Per assicurare I'ornogeneita delle caratteristiche del processo Ie propriet.a
che si richiedono sono indicate con il concetto di st.azionarieta. II massimo
che possiamo richiedere e che una traslazione del parametro non modifichi
in alcun modo le caratteristiche univariate e multivariate delle variabili del
processo: questa e la stazionarieta in senso forte.
3.4 Alcune proprieta dei processi aleatori 45

Un processo aleatorio {X t, t E T} e stazionario in senso forte se per ogni


n naturale e per ogni n-pla (tl, t2, ..., tn) E T" e per ogni scelta di h tale che
t, + h E T Vi, si ha:

P (X h == Xl, Xt2 == X2, ... , X t n == X n ) ==


== P (X h +h == Xl, X t 2+ h == X2, ... , X t n +h == X n ) (3.6)

dove la P e da intendersi naturalmente come funzione di densita se la distri-


buzione e assolutamente continua. In particolare applicando la proprieta con
n == 1 si ha che tutte le variabili Xi sono somiglianti.
La proprieta di stazionarieta forte implica che la distribuzione (e quindi
tutti i momenti) resti invariata rispetto a traslazioni del parametro, e quindi
coinvolge l'intera distribuzione di probabilita del processo a un numero arbi-
trario di componenti. Essendo questa proprieta molto restrittiva, in genere ci
si accontenta di richiedere un tipo di stabilita me no rigorosa, che coinvolga
solo i momenti fino a un certo or dine (e non la distribuzione di probabilita nel
suo complesso). Si parla di stazionariet.a in senso debole, e del relativo ordine.
Un processo aleatorio {Xt, t E T} e detto stazionario in senso deb ole
di ordine s (naturale) se per ogni naturale n ::; s e per ogni scelta di
(tl, t2, ...,tn) E T": e h tale che ti + h E T, Vi, si abbia:

La proprieta sottintende che tutti i momenti in (3.7) debbono essere finiti.


Sotto questa condizione, la stazionarieta in senso forte implica quella deb ole
di ogni or dine s.
Notiamo che se il processo ha distribuzione gaussiana, allora tutti i mo-
menti possono essere espressi in funzione di medie e covarianze (momenti di
ordine 1 e 2), ed' altra parte queste ultime caratterizzano completamente la
distribuzione di probabilita, Pertanto, nel caso di processi normali, la stazio-
narieta in senso forte e quella debole di or dine due coincidono (purche le medie
e Ie varianze siano finite).
In realta anche quando non si assuma la normalita, la propricta di sta-
zionarieta a cui si fa pili frequentemente riferimento e quella debole di ordine
due, a cui a volte ci si riferisce come stazionariet.a tout court. Vediamone nei
dettagli il significato.
Per un processo aleatorio {X t , t E T} stazionario in senso debole del se-
condo ordine, la (3.7) implica che Ie variabili univariate hanno tutte la stessa
media, che possiamo quindi indicare con un simbolo unico /1:

t E T.

Per n == 2 invece, la (3.7) puo essere scritta ponendo t l == t e t 2 - t l == l:


46 3 Processi aleatori elora classificazione

e quindi il momento secondo dipende solo dal valore di l, cioe dalla differenza
tra i parametri delle due variabili. Per ottenere la covarianza tra le variabili
e sufficiente sottrarre il prodotto delle medie, uguale a J12 indipendente da t
e l. La espressione che si ottiene, funzione solo di l (chiamato lag 0 ritardo)
viene detta funzione di autocovarianza del processo r(l):

Cov (Xt, X t+l ) == E (XtX t+l ) - E (X t) E (X t+l )


== E{(Xt - J1)(Xt+l - J1)} == r (l) . (3.8)

E immediato rendersi conto che:


r (0) == Var (Xt ) Vt E T
r (l) == r (-l) Vl .

Come nella statistica multivariata, anche qui puo essere opportuno ricor-
rere a un indice relativo, compreso tra -1 e 1, e si definisce quindi la funzione
di autocorrelazione del processo:

Cov (X t, X t+l )
r (l) -- C orre l (X t, X t+l ) -_ -----;========================
JVar (X t ) Var (Xt + l )
r (l)
(3.9)
r (0) .
Naturalmente r (0) == 1, r (l) == r (-l) e Ir(l) I ~ 1.
La maggior parte delle analisi che si effettuano sulle serie storiche prende
in considerazione le relazioni lineari tra le variabili, e quindi si limita all'ana-
lisi dei momenti di ordine uno e due. Tuttavia, anche all'interno dell'insieme
dei processi debolmente stazionari al secondo ordine si usa restringersi a un
sottoinsieme che soddisfi ulteriori proprieta, Esse devono assicurare che la di-
pendenza tra due variabili diventi sempre piu' deb ole al crescere della distanza
parametrica che Ie separa. In altri termini, si limita la dipendenza a una for-
ma locale, che possa essere riconosciuta sulla base di una realizzazione finita,
cioe di un insieme limitato di variabili del processo. Questo obiettivo puo es-
sere raggiunto con due tipi (alternativi rna di fatto equivalenti) di condizioni,
dette condizioni di mixing. II primo tipo concerne le distribuzioni congiun-
te, e impone che al crescere della distanza tra le variabili esse si avvicinino
all'indipendenza. Una richiesta tipica e che la quantita:

(3.10)

tenda a zero al crescere di h. In alternativa si puo richiedere invece che siano


convergenti le serie dei cumulanti (Brillinger, 1981 p.126):

L
00

Icum{Xt,Xt+U 1 ' ••• ,Xt+uk}1 < 00 k == 1,2, ... (3.11 )


3.5 Una classificazione dei processi aleatori 47

Una proprieta del tutto particolare che puo essere soddisfatta dai processi
aleatori, e che prende il nome di proprieta markoviana 0 di Markov, riguarda
la natura della dipendenza tra le variabili: in un certo senso l'influenza su
una variabile del passato del processo viene riassunta dalla informazione pili
recente. Per introdurre questa proprieta, consideriamo un insieme di variabi-
li indipendenti {et, t E T} e definiamo un processo {X t , t E T} attraverso la
relazione:
X t == X t - 1 + et . (3.12)
Be fissiamo un istante iniziale, X o, si ottiene:

(3.13)

e per ogni t > 0 e 0 < s < t:


(3.14)

Notiamo che data l'indipendenza delle {et}, si ha anche l'indipendenza tra et


e Xt-h per ogni h > O.
La (3.14) definisce la variabile X, come la somma di una variabile X s re-
lativa al passato pili un termine (es + 1 + ... + et) completamente indipendente
da essa e da tutte Ie X s - h , h > O. Pertanto, se fosse noto il valore assunto da
X s , la distribuzione condizionata di X, non dipenderebbe da nessuno degli
X s - h , h > 0, cioe dalla "storia del processo" precedente. In altri termini, ai
fini della distribuzione di probabilita di Xt, l'ultimo valore noto del processo,
cioe il precedente a t pili prossimo a t, assorbe in se tutta la dipendenza dal
passato. Questa e in sostanza la proprieta markoviana, che puo essere forma-
lizzata come segue:
e
II processo {Xt, t E T} di Markov se per ogni naturale n e per ogni scelta
di tl < t2 < ... < i« tutti appartenenti a T, si ha:

La proprieta di markovianita e particolarmente adeguata quando il processo


aleatorio registra 10 stato di un sistema i cui mutamenti sono puramente ca-
suali, rna puo costituire una buona approssimazione anche in molti altri casi.
Essa permette una drastica semplificazione analitica e consente di ottenere
facilmente risultati decisivi, specie nel caso che i valori assumibili dal processo
siano un insieme discreto, finito 0 numerabile.

3.5 Una classificazione dei processi aleatori

Una classificazione dei processi aleatori unanimemente riconosciuta in lettera-


tura non esiste, anche se corpus metodologici diversi, sviluppati per processi
aleatori di una particolare natura, vengono indicati con il medesimo nome da
tutta Ia Ietteratura.
48 3 Processi aleatori elora classificazione

Qui useremo una classificazione, utile ai fini della trattazione e sostanzial-


mente aderente alla terminologia corrente, basata sulla natura dei valori as-
sunti dal parametro e dalle variabili del processo distinguendo principalmente
se i relativi insiemi sono continui 0 discreti.
Se il parametro t varia in un insieme continuo, e le variabili X, hanno di-
stribuzione assolutamente continua, siamo nel campo delle funzioni aleatorie
(0 processi aleatori a parametro continuo). E un settore per il Quale la teoria
dei processi aleatori e particolarmente sviluppata e approfondita, con risultati
teorici profondi e di elevato livello matematico. Questo testo non approfondi-
sce tali aspetti, perche l'obiettivo fondamentale e quello della applicazione alle
previsioni, e le funzioni aleatorie sono pili raramente osservabili con sufficiente
completezza nella realta empirica dei fenomeni economico sociali. D'altra par-
te, la teoria dei processi aleatori a parametro continuo, e la relativa inferenza
statistica, rappresentano un campo cosi vasto e approfondito, con profonde
relazioni con la fisica, da richiedere un intero corso, e non si possono esaurire
in pochi accenni.
Se il parametro t varia in un insieme discreto e le variabili X, hanno una
distribuzione assolutamente continua, siamo nel campo delle serie temporali
propriamente dette. II parametro t assume convenzionalmente valori interi,
viene generalmente chiamato tempo, e indicizza le rilevazioni che sono effet-
tuate a cadenza fissa, quindi sono equidistanziate (ogni ora, ogni giorno, ogni
mese, ogni anno, ecc.). I valori rilevati, che costituiscono le realizzazioni delle
singole variabili del processo, possono riferirsi a misurazioni istantanee (come
per esempio la temperatura: in questo caso ad ogni valore del parametro deve
essere associato, in maniera implicita 0 esplicita, un istante preciso), oppure a
misurazioni convenzionali (ad esempio la quotazione di chiusura di un titolo,
oppure di una valuta); 0 ancora, infine, a dati di accumulo che sintetizzano
le manifestazioni complessive del fenomeno ncll'unita di tempo (ad esempio
la quantita di pioggia caduta in una settimana, 0 la produzione industriale
mensile, 0 Ie vendite annuali di un bene). In tutti questi casi generalmen-
te la metodologia usata e simile, e fa riferimento all'inferenza per i processi
stazionari e alle sue estensioni.
Se l'insieme in cui varia il parametro e discreto e anche i valori assunti
dalle variabili sono in numero finito (0 numerabile), si usa privilegiare 10 stu-
dio delle distribuzioni di probabilita, univariate e condizionate, che possono
essere sintetizzate con un vettore finito (0 numerabile) di numeri non negativi
a somma uno. Se chiamiamo stati i vari valori assumibili dal processo, ci do-
manderemo quindi ad esempio qual e la probabilita di essere in un certo stato,
o quella di passare da uno stato a un altro in un certo numero di istanti (0
anche passi) e cost via. Per questi tipi di processi nei quali ha molta rilevanza
10 studio delle probabilita condizionate, la proprieta markoviana semplifica
notevolmente gli sviluppi e permette di raggiungere facilmente risultati in-
teressanti. Per questo motivo un capitolo importante dei processi aleatori e
costituito da quelli con parametro discreto, valori discreti e markoviani, che
prendono il nome di catene di Markov, ed esamineremo pili da vicino.
3.5 Una classificazione dei processi aleatori 49

Consideriamo infine il caso che il parametro t sia continuo, e i valori assu-


mibili formino un insieme discreto e finito. In questa classe hanno particolare
importanza i cosiddetti processi di punti. Supponiamo che T coincida con
l'insieme dei numeri reali, e che il parametro t abbia ancora il significato di
indice temporale che scorre con continuita. Dunque in ogni istante si realiz-
za una variabile del processo. Tra i valori assumibili, ne individuiamo uno a
cui possiamo attribuire per comodita il valore zero, mentre daremo agli al-
tri valori positivi. Interpreteremo 10 zero come assenza di un evento, mentre
il numero positivo come il realizzarsi di un evento di una certa importanza
determinata dal valore assunto. Nella forma pili semplice possiamo ipotizzare
che le variabili del processo siano dicotomiche, e assumano solo valore zero
oppure uno. Se ci assicuriamo che gli istanti in cui il processo assume valore
uno sono sufficientemente rari (una richiesta che ovviamente andra precisata)
possiamo interpretare questo modello aleatorio come la schematizzazione di
una serie di eventi che si realizzano allo scorrere del tempo: si realizza un
evento in corrispondenza a ogni istante s per cui X s assume valore diverso da
zero.
Per un processo di punti hanno interesse alcune grandezze aleatorie che
assumono un particolare significato, come il numero di eventi che si realizza
in un intervallo temporale di una fissata estensione, 0 anche il tempo che
trascorre tra un evento e il successivo. Anzi a volte e proprio questa variabile
aleatoria (tempo tra due eventi) che viene usata per caratterizzare i processi
di punti. Noi tratteremo brevemente i processi di punti, anche se va subito
osservato che le potenzialita previsive di un processo di questa natura sono
sicuramente meno incisive rispetto a cia che e possibile usualmente ottenere
nell'analisi delle serie temporali.
4

Catene di Markov

II capitolo e dedicato alle catene di Markov (processi aleatori markoviani


a valori discreti e parametro discreto) e alle loro proprieta principali, con
particolare riguardo alla distribuzione di equilibrio.

4.1 Generalita

Consideriamo processi a parametro discreto e con variabili aleatorie discrete.


Per comodita quindi useremo i numeri naturali per il parametro, scrivendo
il processo come {X t , t == 1, 2, 3, ...}. Spesso si identifica un istante iniziale,
indicato con t == 0, in cui il valore assunto dal processo si suppone noto, oppure
sul Quale si formulano ipotesi particolari. I valori assumibili da X, saranno
indicati convenzionalmente con i numeri interi, e vengono anche chiamati stati
della catena: se sana in numero finito si parla di catena finita, altrimenti di
catena infinita.
Un processo cost schematizzato si dice catena di Markov se vale la proprieta
markoviana:

per ogni nl > n2 > n3 > n4 > ns .... Un esempio semplicissimo di catena
di Markov e quello descritto dal numero di teste nel lancio ripetuto di una
moneta. Indichiamo con X, il numero di successi in t lanci ripetuti. Questo
meccanismo e markoviano perche il passaggio da X, a X t + 1 avviene attraver-
so un nuovo lancio della moneta il cui risultato e indipendente da X, e dai
precedenti. I valori assunti al passo (0 tempo) n dipendono da quelli assunti al
passo n-l: infatti i successi possono aumentare di uno (se viene testa) oppure
rimanere invariati (se viene croce). Data la conoscenza di X n - 1 , quindi vale
la proprieta di Markov. Precisamente si ha:
52 4 Catene di Markov

Pr{Xn == x IXn - 1 == y} == 0 X<y


== Pr {croce} x==y
== Pr {testa} x==y+1
==0 x>y+1.

In modo analogo e facile rendersi conto che se si conoscono diversi valori


assunti da {Xt } nel passato, l'unico rilevante per X n e il pili recente, diciamo
X n- s == X n- s , perche allora X n e pari a X n- s pili il numero aleatorio di teste
in s prove.
In sostanza, in una catena di Markov l'elemento pili importante e costitui-
to dalle probabilita condizionate del tipo (4.1) che vengono chiamate anche
probabilita di transizione:

Pr {X n == i IXm == j} == Pij (n, m) n>m

che indica la probabilita che al passo n la catena sia nella stato i, condi-
zionatamente al fatto che al passo (precedente) m era nella stato j. Queste
probabilita dipendono in linea di principio sia da m che da n, rna potrebbe
accadere che siano solo in funzione di n - m, cioc del tempo (0 numero di
passi) trascorso, e in tal caso abbiamo:

Pr{Xn==iIXm==j}==Pij(n-m) .

Quando questo accade la catena si dice omogenea (altrimenti non omogenea)


e si usa la notazione:

Pr {X n == i IXn - 1 == j} == Pij; Pr {X n == i IXn- s == j} == p~;) s == 2,3, ...

Si faccia attenzione che il primo indice indica 10 stato di arrivo, e il secondo


denota 10 stato di partenza.
Ci occuperemo d'ora in poi solo di catene finite, e quindi i valori attribuibili
allo stato (indici i e j) saranno indicati con i primi naturali da 1 a k. Ne segue
che per le distribuzioni di probabilita condizionate:

k k

LPij == 1 Vj LP~;) = 1 Vj,Vs .


i=l i=l

Se consideriamo la matrice P == ((Pij)) quadrata k x k, abbiamo allora che


essa ha elementi tutti non negativi, e la somma degli elementi di ciascuna
colonna e uguale a uno:
r == 1/ v
dove 1 e il vettore (colonna) di dimensione k con tutti elementi pari a 1. Le
matrici di questo tipo sono dette matrici stocastiche.
Una importante conseguenza della proprieta di Markov sta nella possibi-
lita di esprimere le probabilit.a di passaggio in n passi attraverso le probabilita
4.1 Ceneralita 53

di passaggio in un numero inferiore di istanti. Infatti considerando due inte-


ri qualunque n e m con n > m possiamo scrivere (usando la proprieta di
Markov):

p~;) = Pr{Xn +s = ilXs = j} =

== Pr{ X n +s == i, Xm+squalunque IXs == j} ==


k

== L Pr{ X n +s == i, X m +s == IIXs == j} ==
l=1
k

== LPr{Xn +s == ilXm +s == l.X, ==j}Pr{Xm+s == IIXs ==j} ==


l=1
k
'""'" (n-m) (m) (4.2)
== ~Pil Plj'
l=1

Questo risultato va sotto il nome di equazione di Chapman e Kolmogorov, e


puo essere scritto anche nel modo seguente:

k
(n+m)
v., == c: v;(n) Plj(m)
'""'"
n,m==1,2, ... (4.3)
l=1

Poiche le probabilita di passaggio in n passi sono tutte esprimibili in fun-


zione di que lle in un numero di passaggi inferiore, e facile capire che in realta
per calcolarle tutte e sufficiente conoscere le sole probabilita di passaggio in un
passo, cioe le probabilita di transizione contenute nella matrice P. Infatti, se
indichiamo con p(n) la matrice delle probabilita di passaggio in n istanti: p(n)
== ((p~7))), le equazioni di Chapman e Kolmogorov descrivono gli elementi di
p(n+m) come il prodotto delle righe di p(n) per le colonne di p(m), ovvero:

p(n+m) == p(n) p(m) .

Allora ponendo m == 1 si ha:


p(n+1) == p(n) p

e quindi per induzione:


p(n) == P" .
In conclusione, le probabilita di passaggio in n passi sono gli elementi della
potenza n-esima della matrice di transizione. Ovviamente poiche I' P" == I'
come si verifica immediatamente, ogni colonna di P" e una distribuzione di
probabilita ben definita.
Oltre alle probabilita condizionate, possiamo studiare le probabilita non
condizionate, cioe le probabilita che a un certo istante il processo assuma
un determinato valore (0, col linguaggio delle catene, la probabilita che la
54 4 Catene di Markov

catena a un certo passo sia in un determinato stato). Queste probabilita,


dette probabilita di stato, verranno indicate con:

j == 1, ..., k n == 0,1, ...

e il relativo vettore (colonna) sara:

(n) _ ((n) (n) (n))'


P , - PI ,P2 ,···,Pk .

In particolare, immaginiamo che la catena abbia inizio aH'istante zero nel


Quale il valore assunto e determinato in base a una distribuzione di probabilita
iniziale p(O). Allora al primo passo avremo:

pj1) = Pr{X1 = j} = LPr{Xo = l}Pr{X1 = j IXo = l}


l=l
k
_ '"""" (0)
- L-JPl Pjl
l=l

e al secondo passo:
k k
pj2) = Pr {X2= j} = L Pr {Xo = l} Pr {X 2= j IXo = l} = LPfO)pj~) =
l=l l=l
k k
== L Pr {Xl == l} Pr {X 2 == j IX1 == l} == LPjl)Pj[
l=l l=l

e cosi via, in generale possiamo scrivere:


k
(n+m) ,,(m) (n)
Pj == LJPjl v; n,m==1,2, ... (4.4)
[=1

e in forma matriciale:

Esempio 4.1 (Testa 0 croce). Sviluppiamo l'esempio del numero di successi


nel lancio di una moneta ( 1 ) . Gli stati sono indicati can i numeri da zero in
su, e possiamo supporre di partire al tempo zero can nessun successo, quindi
pjO) == 1 per j == 0, pjO) == 0 per j > O. Se si assume che la probabilita di un
successo (testa) sia pari a q (0.5 nel caso di moneta perfetta) Ie probabilita di
transizione sono:

Pi+1,i == q, Pi,i == 1 - q, Pj,i == 0 j -# i, i + 1


1 Si noti pero che a stretto rigore si tratta di una catena infinita.
4.1 Generalita 55

e la matrice P ha il seguente aspetto (si ricordi che 10 stato di partenza e


associato alla colonna e 10 stato di arrivo e associato alla riga):

1-q 0 000
q 1-q 000
P== o q 1- q 0 0
o 0 q 1- q 0

Calcoliamo le probabilita di stato agli istanti 1 e 2: dalle (4.4) otteniamo


che p(l) == pp(O) e poiche p(O) == (1,0,0, ...), p(l) e dato dalla prima colonna
di P:
P61 ) == 1 - q, 1
) == q . pi
Per ottenere p(2) moltiplichiamo P per p(l) , ottenendo la combinazione lineare
della colonna prima e seconda di P con coefficienti 1 - q e q:

pi
2
) == (1 - q) q + q (1 - q) == 2q (1 - q) ;
Si puo intuire facilmente che la iterazione di questa procedura porta a definire
la probabilita di stato all'n-esimo passo come una binomiale:

j == 0,1, ..., n .

Anche le probabilita di transizione in pili passi seguono una struttura bi-


nomiale, perchc Pr {X n +m == i IXm == j} sara nulla per i < j mentre i ~ j
corrisponde a ottenere i - j successi in n prove:

~~)
P1,J
= ( n )
.. q i-j (1 _ q )n-i+
j
i '2 j .
~-J

Esempio 4.2 (Scommesse su testa 0 croce). Immag .iiamo uno scommettitore


che punta ogni volta un euro sull'uscita della testa comincia con 3 euro, e si
ritirera se esaurisce la somma a sua disposizione, OJ .pure raggiunge 6 euro. A
ogni lancio, se il risultato e testa guadagna un eure, se e croce ne perde uno.
Consideriamo come stato della catena la somma che possiede. A ogni lancio,
se il risultato e testa essa aumenta di uno, se e croce diminuisce di uno. Se
invece la catena e nello stato zero, il giocatore smette di puntare e quindi la
catena rimane indefinitamente in tale stato. Lo stesso avviene se il giocatore
ha raggiunto il suo scopo, cioe se la catena e arrivata nello stato 6.
La matrice di transizione, sempre supponendo che la probabilita di testa
sia q, e la seguente:
56 4 Catene di Markov

a 1 da ---+ 0 1 2 3 4 5 6
0 11- q 0 0 0 0 0
1 0 0 1-q 0 0 0 0
2 0 q 0 1-q 0 0 0
3 0 0 q 0 1-q 0 0
4 0 0 0 q 0 1-qO
5 0 0 0 0 q 0 0
6 0 0 0 0 0 q 1

Come si vede la matrice di transizione ha una struttura simile alla precedente,


eccettuata la prima e l'ultima colonna che si riferiscono a stati che si compor-
tano in maniera assorbente: cioe se la catena arriva in quello stato non se ne
allontana pili. II vettore delle probabilita iniziali allo stato 0, avendo supposto
che il giocatore comincia a giocare con 3 euro, sara p(O) == (0,0,0,1,0,0,0)' e
quindi ad esempio:

p(l) == pp(O) == (0,0,1 - q, 0, q, 0, 0)'

p(2) = pp(l) = (0, (1- q)2 ,0,2q(1- q) ,0,q2,0)'


e cosl via.

Esempio 4.3 (Passeggiata aleatoria). Con il termine passeggiata aleatoria


(random walk) si indica il processo descritto dalla posizione di una parti-
cella che si muove su una retta in modo casuale: ad ogni passo si puo spostare
verso sinistra con probabilita q, verso destra con probabilita p, 0 rimanere fer-
rna con probabilita (1- p - q). Per semplicit.a supporremo che gli spostamenti
siano di lunghezza unitaria, quindi la ascissa al passo n si puo scrivere:

dove Zn puo assumere valori -1,0,1 con probabilita q, 1 - p - q, p, e le


{Zj, j == 1, 2, ... } sono indipendenti. La catena descritta dalla posizione X n
puo assumere come valori tutti i numeri interi, e ha matrice di transizione:

a 1 da ---+ k-1 k k+1

q 0 0
k-1 ... 1-p-q q 0
k p 1-p-q q
k+1 0 p 1-p-q ...
0 0 p

cioe e una matrice a banda diagonale con 1 - p - q sulla diagonale principale,


valori q al di sopra e valori p al di sotto.
4.1 Gcneralita 57

Nella teoria delle passeggiate aleatorie si considerano le barriere, cioe partico-


lari stati che non possono essere superati a destra (barriere superiori) oppure
a sinistra (barriere inferiori). Le barriere possono essere di tipo assorbente (se
la catena una volta arrivata in quello stato vi rimane indefinitamente) oppure
riflettenti (se la catena una volta arrivata in quello stato ritorna con certezza
nello stato assunto precedentemente). Le distribuzioni di probabilita condi-
zionate dal trovarsi in uno stato barriera sono percio diverse: se b e uno stato
barriera assorbente, allora dato X n == b avremo X n + l == b con probabilita
uno. Se invece b e una barriera riflettente, allora condizionatamente a X n == b,
X n + l e con probabilita uno uguale a b-l (se e barriera superiore) oppure b+ 1
(se e barriera inferiore). Ad esempio consideriamo una passeggiata aleatoria
con barriera riflettente superiore nello stato 3 e barriera assorbente inferiore
nello stato -1. La matrice di transizione diventa:

a 1 da ---+ -1 0 1 2 3
-1 1 q 0 0 0
0 0 I-p-q q 0 0
1 0 P I-p-q q 0
2 0 0 P I-p-ql
3 0 0 0 P 0

II caso precedente dello scommettitore e un esempio di passeggiata alea-


toria con P == 1 - q (e quindi 1 - P - q == 0), una barriera assorbente inferiore
in 0 e una barriera assorbente superiore nello stato 6.

Esempio 4.4 (Giorni di pioggia a Tel Aviv). In un classico articolo Gabriel e


Neumann (1962) proposero di utilizzare una catena di Markov per descrivere
l'alternanza di giorni di pioggia e asciutti in alcuni mesi dell'anno a Tel Aviv.
La catena ha quindi due soli stati: piove 0 asciutto, e i tempi si riferiscono ai
giorni. Se attribuiamo il valore zero allo stato giorno asciutto e il valore 1 allo
stato giorno di pioggia abbiamo una matrice di transizione a due righe e due
colonne:
p == [POO POI] .
PIO PII

Poiche pero la somma degli elementi di ciascuna colonna e uno, possiamo


esprimerle assumendo due sole incognite, ad esempio la probabilita di passare
da un giorno di pioggia a un giorno asciutto POI == a e quella di passare da
un giorno asciutto a uno di pioggia PIa == {3:

p==[I-{3
{3
a].
I-a

Per escludere casi degeneri assumeremo che 0 < a < 1 e 0 < {3 < 1. La
semplicita dello schema probabilistico della catena a due stati permette di
ricavare facilmente altre quantita interessanti. Ad esempio consideriamo la
durata di una sequenza di giorni di pioggia, che e una variabile aleatoria che
58 4 Catene di Markov

indichiamo con S. Dato che il giorno iniziale piove (X o == 1), perche sia S == k
deve verificarsi simultaneamente Xl == 1, X 2 == 1, X 3 == 1,...,Xk- 1 == 1,
Xk == O. Sfruttando la proprieta markoviana, la probabilita dell'intersezione
di questi eventi puo essere scritta come prodotto di probabilita condizionate:

Pr{XI == 1,X2 == 1, ... ,Xk -


== 1,Xk == 0 IXo == 1} ==
l

== Pr{X I == 11Xo == 1}Pr{X2 == 11X I == 1} x···


x Pr{Xk-1 == 11Xk-2 == l}Pr{Xk == 0 IXk- 1 == 1} ==
k-l POI == a ( 1 - a )k-l .
== PII (4.5)

Quindi S ha la distribuzione geometrica di parametro a (e il suo valor me-


dio ella). Analogamente la durata di una sequenza di giorni asciutti e una
variabile aleatoria geometrica di parametro (3. Notiamo che la (4.5) puo es-
sere interpretata come la probabilita che, partendo da un giorno di pioggia,
il primo giorno asciutto si verifichi esattamente dopo k giorni. E cioe, nella
terminologia delle catene, la probabilita che il primo passaggio dallo stato 0
allo stato 1 avvenga esattamente dopo k passi.

4.2 Classificazione degli stati e delle catene

Gli stati delle catene di Markov possono essere classificati a seconda della
possibilita che si ha di passare da uno all'altro, oppure di tornare in uno stato
dopo averlo visitato (cioe dopo che la catena ha assunto quello stato come
valore a un certo istante). Prima di tutto, si dice che uno stato e periodico di
periodo h se e possibile ritornarvi solo dopo un numero di passi multiplo di h,
ovvero quando p;;)
e uguale a zero per tutti gli n che non siano multipli di h.
Non prenderemo in considerazione questa eventualita, e quindi supporremo
che nessuno degli stati della catena sia periodico, in altre parole che tutti
gli stati siano aperiodici (in questo caso anche la catena e detta aperiodica).
Definiamo ora le probabilita di primo passaggio e quelle di primo ritorno.
La probabilita di primo passaggio dallo stato j allo stato i in n passi si
riferisce all'evento seguente: la catena all'istante t e nello stato i, negli n - 1
istanti seguenti e in stati diversi da i, e all'istante t + n e nello stato i:

ii~n) = Pr{Xn = i.X; # i (r = 1,2, ... ,n -1) IXo = j} .

Naturalmente r: == Pij; se sommiamo rispetto a n otteniamo:

00

iij = Lii~n)
n=l

che e la probabilita di raggiungere prima 0 poi 10 stato i partendo dallo stato


j, detta probabilita di passaggio da j a i. Se calcoliamo il numero di passi
medio:
4.2 Classificazione degli stati e delle catene 59
00

mij = L nfi~n)
n=l

chiameremo mij tempo medio di passaggio da j a i. Analoghi concetti possono


essere estesi al ritorno nello stesso stato: fY;)
e la probabilita che partendo
dallo stato j, ci si ritorni per la prima volta dopo n passi:

Ii;) == Pr {X n == j, X; =F j (r == 1,2, ..., n - 1) IXo == j} .


Anche qui sommando rispetto ansi ottiene la probabilita di ritorno nello
stato, cioe la probabilita che la catena, partendo dallo stato j, ci ritorni prima
o poi:
00

!Jj = Lfj~)
n=l

e il tempo medio di ritorno:


00

mj = Lnfj~) .
n=l

Uno stato j si dice transitorio se Ijj < 1, cioe il ritorno nello stato non
e certo. Se invece si ha Ijj == 1, e quindi si ritorna prima 0 poi nello stato
con probabilita uno, 10 stato si dice ricorrente. In questo caso, a seconda che
il tempo medio di ritorno mj sia finito 0 infinito, 10 stato si dice ricorrente
positivo 0 ricorrente nullo.
La classificazione degli stati che abbiamo proposto e basata sulle probabi-
lita di primo passaggio 0 di primo ritorno, che non sono di calcolo immediato,
rna possono essere espresse anche in termini delle probabilita di transizione
p~7). Infatti esse sono legate da semplici relazioni che adesso introduciamo.
L'evento (X n == i IXo == j) la cui probabilita e p~7) puo essere decomposto
distinguendo quando e avvenuto il primo passaggio da j a i, che puo esser-
si verificato ai passi 1,2, ..., n. Poiche queste possibilita sono incompatibili,
possiamo scrivere:

n
== L Pr [primo passaggio in i al passo rlXo == j} Pr {X n == i IXr == i}
r=l
n
== 'Z::
"""'" f~:)p~~-r)
1,) 1,1,
n == 1,2, ...
r=l
(4.6)

dove abbiamo indicato per completezza p~~) 1 per ogni i. La relazione e


valida anche per i == j e quindi:
60 4 Catene di Markov

n == 1,2, ...

Queste relazioni possono essere sintetizzate definendo lc funzioni genera-


trici delle probabilita:

I: fi~n) sn
00 00

Fij (s) = _ ~ (n) n


Pij (S ) - ~Pij S Vi,j.
n=l n=l

Infatti moltiplicando i membri della relazione (4.6) per s" e sommando


rispetto a n da 1 a infinito si ricava:

e ancora:
Fi j (s) == Pi j (s) / [1 + r; (s)] Vi,j.
Notiamo che la probabilita di ritorno nello stato j, fjj, e uguale a F j j (1) ==
+ Pj j (1)]. Se Pj j (1) efinito, allora F j j (1) esempre minore di uno.
Pj j (1) / [1
Ne segue che uno stato j e transitorio se e solo se Pj j (1) < 00. Ma Pj j (1)
e la serie deiPJ7) , n = 1,2, ..., e quindi uno stato e ricorrente se e solo se
la serie 2::'=1 PJ7) e divergente. Se invece la serie e convergente, 10 stato j e
transitorio. Si puo inoltre dimostrare che se 10 stato j e ricorrente, allora il
limite per n -+ 00 di PJ;) e uguale al reciproco del tempo medio di ritorno mj
(e se mj non e finito allora PJ7) ----+ 0). Questo risultato e noto come teorema
ergodico per le catene di Markov, rna sul concetto di ergodicita torneremo nei
capitoli successivi.
Passiamo adesso a considerare gli insiemi e sottoinsiemi di statio Si dice
che due stati i e j comunicano se e possibile passare dall'uno all'altro in un
numero finito di passi, cioe se esiste un intero m tale che p~?) > 0 e un intero
r tale che PJ:) > o. E stato dimostrato che se due stati comunicano devono
essere dello stesso tipo (transitori 0 ricorrenti). Chiamiamo chiuso un insieme
di stati C tale che tutti gli stati di C comunicano tra loro, rna non comuni-
cano con gli stati non appartenenti a C, cioe Pij == 0 se j E C e i ~ C. Se la
catena entra in un insieme chiuso di stati, permane indefinitamente all'interno
dell'insieme. E stato dimostrato che gli stati ricorrenti di ogni catena possono
essere decomposti in maniera unica in insiemi chiusi, all'interno di ciascuno
dei quali tutti gli stati comunicano e sono dello stesso periodo (oppure ape-
riodici) e tutti ricorrenti nulli 0 ricorrenti positivi. La catena in sostanza, si
puo suddividere in sottocatene chiuse, e una volta che si sia entrati in una di
queste non se ne puo uscire. II caso pili semplice, interessante e adeguato alle
applicazioni e che non ci siano sottocatene, e quindi non esistano sottoinsiemi
chiusi di statio Cia avviene quando tutti gli stati comunicano, ovvero comun-
que scelti due stati i e j esistono sempre p~?) > 0 e P]:)
> O. In questo caso
la catena viene detta irriducibile. Una catena irriducibile e aperiodica viene
anche chiamata ergodica.
4.3 Distribuzioni di equilibria 61

4.3 Distribuzioni di equilibrio


Se consideriamo una catena irriducibile e aperiodica vediamo che ogni stato
puo essere rivisitato un numero indefinitamente grande di volte, e proceden-
do indefinitamente la catena continuera a muoversi tra tutti gli stati (perche
non ci sono sottoinsiemi chiusi). Abbiamo indicato con p;n) == Pr{Xn == j}
Ie probabilita di trovare la catena nello stato j al tempo n, e la irriducibilita
implica che da un certo n in poi, tutte queste probabilita sono strettamente
positive per ogni j. Ci possiamo domandare allora se queste quantita ammet-
tono limite, ovvero se esiste una distribuzione {1r j} con 1r j > 0 Vj, E 1r j == 1
j
e:
Vj . (4.7)

La risposta e affermativa: ogni catena irriducibile e aperiodica ammette una


distribuzione limite, detta anche distribuzione di equilibrio, per la Quale vale
la (4.7). Senza addentrarci per il momento nella dimostrazione, esaminiamo
invece il significato di questa proprieta.
Se consideriamo le equazioni di Chapman e Kolmogorov (4.4) e prendiamo
illimite n ---+ 00, indicandolo con 1rj, otteniamo:

1rj == '"""" (m)


~Pjl 1rl m == 1,2, ...
l=l

e in forma matriciale, indicando il vettore delle probabilita 1rj con 1r


(1r1, 1r2, ... , 1rk )' SI. 0 tt'rene:

1r == P'":» m==I,2, ... (4.8)

Quindi se le probabilita iniziali della catena sono date dalle 1rj == Pr {Xo == j},
allora la distribuzione di probabilita dello stato rimane uguale a 1r a ogni passo
(il che spiega il nome di distribuzione di equilibrio).
La (4.8) indica anche che la distribuzione limite 1r e completamente deter-
minata dalla matrice P, cioe dalle probabilita di transizione. Vediamo come
determinarla. Se prendiamo m == 1 si puo scrivere:

(P - I) 1r == 0

che costituisce l'equazione caratteristica della matrice P in corrispondenza


all'autovalore ,\ == 1. In effetti, la matrice P ha un autovalore uguale a 1:
infatti, se ricordiamo che la somma degli elementi di ogni colonna di P euguale
aI, ne segue che la somma degli elementi di ogni colonna di P - I e uguale
al vettore nullo; pertanto P - I e singolare. In conclusione 1r e autovettore
(destro) di P associato all'autovalore ,\ == 1, ovviamente normalizzato in modo
che E 1rj == 1. Le particolari caratteristiche della matrice P assicurano (e il
j
cosiddetto teorema di Perron e Frobenius) che gli eIementi dell'autovettore
62 4 Catene di Markov

sono tutti positivi, che l'autovalore uguale a 1 e il massimo autovalore, che e


semplice (ha molteplicita uno), e che tutti gli altri autovalori sono in modulo
minori di uno. Inoltre anche gli elementi della matrice potenza P" hanno un
limite preciso: al crescere di n tutte le colonne di P" convergono al vettore di
equilibrio 7r:
. (n)
1im Pi' == 7ri Vi,j. (4.9)
n~oo J

Questa proprieta si spiega dal punto di vista logico, considerando che dopo un
numero sufficiente di passi non ha pili rilevanza 10 stato da cui si e partiti, rna
prevalgono Ie caratteristiche della catena che attribuiscono a ciascuno stato
la sua probabilita di occupazione.
Osserviamo che in realta l'esistenza della distribuzione di equilibrio di
e
stato proprio conseguenza di questa proprieta del limite delle probabilita di
transizione. Infatti dalla (4.4) si ottiene:

k
p;n) = LP;7)piO)
l=1

e prendendo illimite per n -+ 00:

k k
lim p~n) == "p(O) lim p\n) == "p(O)7r' ==7r' . (4.10)
n~oo J Z:: l n~oo Jl Z:: l J J
l=1 l=1

Dal punto di vista matematico, invece, la proprieta (4.9) si puo spiegare


ricorrendo alla rappresentazione spettrale della matrice P. Siano a1, ... , ak gli
autovettori (destri) di P (normalizzati in modo che la somma degli elementi di
ciascun vettore sia pari a 1), e sia H == (aI, a2, ..., ak) la relativa matrice, e A ==
diag (AI, A2, ..., Ak) la matrice diagonale degli autovalori, per cui PH == HA ==
Lj Ajaj. Assumiamo per semplicita che esista l'inversa H- I e ne indichiamo
le righe con b~ per cui H- I == (bl , b2, ..., bk)', si ha pre e postmoltiplicando
H- 1 p == AH- 1 , ovvero bjP == Ajbj, quindi bj sono autovettori a sinistra,
normalizzati in modo che bjaj == 1. Possiamo scrivere P == H AH- 1 e quindi
anche P == Lj Ajajbj. Ricordiamo che Al == 1 e il relativo autovettore destro
e 7r, mentre poiche I' P == I' l'autovettore a sinistra associato a Al == 1
e proporzionale a I' e anzi I' realizza la normalizzazione richiesta perche
l'7r == L 7rj == 1. Quindi al == at • b1 == 1. Per la matrice potenza e immediato
k
che P" == HAn H- 1 == L Ajajbj. Prendendo il limite per n -+ 00, poiche
j=1
1 == Al > IAj I (j == 2, ... , k) otterremo:
lim P" == AI a I b~ == 7r I' == (7r, tt, ... , 7r) .
n~oo

Esempio 4.5 (Pioggia a Tel Aviv). Poiche la matrice delle probabilita di


transizione e:
4.3 Distribuzioni di equilibrio 63

p== 1 - ;3 a ]
[ ;3 I-a
la distribuzione di equilibrio 1f == (1fo, 1f1) puo essere ricavata dal sistema
(P - I)1f == 0 che si scrive:

-;31fO + a1f1 == 0 .
{ ;31fo - a1f1 == 0

Tenendo conto pero che 1f1 == 1 - 1fo perche I: 1fj == 1fo + 1f1 == 1 otteniamo:

a ;3
1fo ==-- 1f1 == a +;3 .
a+;3
Si puo facilmente ricavare che gli autovalori di P sono A1 == 1 e A2 == 1 -
a - ;3. In corrispondenza a A2 == 1 - a - ;3 l'autovettore e proporzionale
a (1, -1) I (come si vede solo per A == 1 e assicurato che gli elementi siano
positivi). Quindi possiamo scrivere:

H == [ai -
f3 1 ]
-1
a+13
H- 1 -
-
[1a+13 - a~13
13 1] A- [1
- 01-a-;3
0 ]
e si verifica facilmente P == H AH- 1.
Le matrici di transizione in n passi sono date da:

Pn
=
HAnH-1
=
[a~13 1]
;3t ] [1
a~f3 -1 a~f3
[1 0
0 (1 - a - -
1]
a~f3

== _ 1 [aa] + (l-a-;3t [{3 -a] .


a + f3 f3 f3 a + f3 -(3 a

Poiche 11 - a - 131 < 1 la seconda matrice tende ad annullarsi per n ---+ 00 e:

lim tr: == [a/ (a + 13) a/ (a + 13)] == [1f O 1f0]


n-too 13/ (a + 13) 13/ (a + 13) 1f1 1f1 .

Esempio 4.6 (Scommesse e la rovina del giocatore). Se riprendiamo l'esempio


4.2 del paragrafo precedente vediamo che la catena descritta non e irriducibile,
poiche gli stati 0 (bancarotta) e 6 (raggiungimento dello scopo) sono assorben-
ti, quindi costituiscono un sottoinsieme chiuso. E evidente che essendo positiva
la probabilita di raggiungere questi due stati, la probabilita di rimanere fuo-
ri, cioe di restare tra gli stati 1 e 5, durante n passi tende a zero quando n
tende all'infinito, quindi l'assorbimento e certo. II calcolo della probabilita di
assorbimento nei vari stati e in diverse situazioni si puo ottenere basandosi su
una relazione ricorsiva che coinvolge le probabilita di primo passaggio nello
stato assorbente. Senza entrare nei particolari (per i quali si veda ad es. Kar-
lin (1966), p.72), possiamo fornire i seguenti risultati. Se q e la probabilita
64 4 Catene di Markov

di vincere e p == 1 - q, si comincia con r euro, e si termina il gioco quando


si raggiunge il capitale m, allora la probabilita di rovina (assorbimento nello
stato zero) e la seguente:

r
1--, p==q. (4.11)
m

Se supponiamo che il gioco non abbia un confine superiore, e cioe che 10


scommettitore continui indefinitamente a giocare, la probabilita di rovina si
ottiene prendendo il limite per m ~ 00, e risulta pari a 1 se p 2: q, cioe
q ~ 1/2, e pari a (p/q)T se q > 1/2. Ne concludiamo che anche nel caso di un
gioco equo (q == 1/2) il protrarsi indefinito della scommessa porta alla rovina
certa.

Esempio 4.7 (Passeggiate con barriere semi-rifiettenti). Consideriamo una


semplice catena a tre stati 0,1 e 2, con barriera inferiore in °
e superiore
in 2. La probabilita di passare nello stato superiore e q, quella di passare in
uno stato inferiore e p. Se la catena arriva in uno stato barriera, la discesa (0
salita) viene impedita e la catena rimane ferma nello stato barriera, oppure si
°
muove in direzione opposta. Percio se si e nello stato ci si spostera in 1 con
°
probabilita q, e si rimarra in con probabilita 1 - q; analogamente avviene
con la barriera riflettente superiore. La matrice di transizione e la seguente:

pO]
1-q q I-p-q
p==
[ ° q 1-p P .

Questa catena e irriducibile e aperiodica e quindi ammette distribuzione di


°
equilibrio. Per ottenerla possiamo risolvere il sistema (1- P)1r == che risulta:

q P-p
-q + q -p 0] O]
[1r1rl [0]°
[
° -q P 1r2 °
Tenendo conto del vincolo 1rl + 1r2 + 1r3 == 1 si ottiene facilmente:

p2 pq
1ro == - - - - - 1rl == - - - - -
p2 + q2 + pq p2 + q2 + pq

Notiamo che se p == q cioe la probabilita di muoversi e uguale nelle due


direzioni, i tre stati hanno la stessa probabilita limite pari a 1/3, e cia
indipendentemente dalla probabilita di restare fermi.

Esempio 4.8 (La diga). Le catene di Markov sono state adoperate per sche-
matizzare il comportamento dei bacini artificiali. Lo stato della catena indica
la misura del contenuto del bacino a intervalli fissi (ad esempio un giorno, 0
4.3 Distribuziani di equilibria 65

un mese); tra una misurazione e l'altra si suppone che vi sia un affiusso di


acqua pari al volume j con probabilita qj (j == 0,1,2, ..., m), L qj == 1 e un
deflusso costante pari a l , se la diga non e vuota (altrimenti nessun deflusso).
Illivello massimo e m, e se l'affiusso supera m viene disperso. La matrice delle
probabilita di transizione e del tipo:

0 1 2 3 ... m-1 m
0 qo qo 0 0 0 0
1 ql ql qo 0 0 0
2 q2 q2 ql qo 0 0
3 q3 q3 q2 ql 0 0

m-1 qm-l qm-l qm-2 qm-3 ... ql qo


m qm qm q{ q2 q:n-2 q:n-l
dove si e posta q; == 1 - qo - ql - ... - qm-j-l == qm + qm-l + ... + qm-j·
Anche qui esiste una distribuzione di equilibrio, anche se ricavarla e molto pili
difficile. In questo caso possono essere utilizzate Ie funzioni generatrici delle
probabilita. Definiamo:

L qj zj L
00 00
j
Q (z) == II (z) == JrjZ
j=O j=O

e per semplificare il problema supponiamo che non vi sia limite superiore alla
capacita massima. La relazione di equilibrio Pit == Jr puo essere cost scritta:

(si veda ad esempio Cox e Miller (1965), p. 115) e moltiplicandola per zk e


sommando rispetto a k si ottiene:
1 1
JroQ (z) - -JroQ (z) + -Q (z) II (z) == II (z)
z z
da cui:
II (z) = JroQ (z) (z - 1) . (4.12)
z - Q (z)
Se poniamo:
C(z)= l~Q(z)
1-z
da cui:
1_C(z)=Q(z)-z
1-z
possiamo scrivere:

_ JroQ(z) _ ~ j
II (z) - 1 _ C (z) - JroQ (z) L.. C (z) .
J=O
66 4 Catene di Markov

Ora:
C (1) = lim 1 - Q (z) = Q' (1) = a (affiusso medio)
z-*l- 1- z
e quindi, dato che Q(I) == 2: j qj == 1, si conclude che:

L
00

lim II (z) == Kj < CX) se e solo se a<l


z-*l-
j=O

cioe il sistema eergodico soltanto se l'affiusso medio e minore di 1. La quantita


KO deve essere tale che II (1) == 1 quindi:

. II(z) .
KO == lim - Q
( ) lim (1 - C (z)) == 1 - a . (4.13)
z-*l- Z z-*l-

Fissando Ie caratteristiche delle distribuzioni di probabilita dell'affiusso, e so-


stituendo la relativa funzione generatrice di probabilita nella (4.12), e tenen-
do conto della (4.13), si ottiene la funzione generatrice delle probabilita della
distribuzione di equilibrio.
Supponiamo ad esempio che l'affiusso sia uguale a zero con probabilita p,
e pari a 2 con probabilita q == 1 - p. L'affiusso medio e pari a 2q e quindi si
supporra q < 0.5, percio p > 0.5, per la crgodicita. Poniamo KO == 1 - 2q ==
p - q. La funzione generatrice delle probabilita dell'affiusso e:

e quindi:
_ KO (p+ qz2) (z -1)
II ( z ) - 2.
Z - P - qz

II denominatore ez - p - qz2 == (z - 1) (p - zq) percio:

II(z) =]fO p+qz 2 = ]fo (p+ qz 2) Lz


00 j ()j
fJ..
p 1 - z (q/ p) p j =0 p

q 00 , q
==KO+ZKO-+LKOZJ -
()j + L - z J 00 KO '+2 ( q
q -
)j
P j=2 P j=O P P
q q ' q , 2}
L
J KO J-

j=2 {
00.

== KO + ZKo- + zJ KO ( - ) + -q (-) ==
P P P P

q
== KO + ZKo- + Lz J -
00 'KO ( q
-
)j-1 •
P j=2 P P

In conclusione la distribuzione di equilibria ponendo q/p == r e la seguente:


4.4 Processi non markoviani 67

1-r
Pr {X == O} == (p - q) == -
1+r
1-r
Pr{X=l}=(p-q)qjp= l+rr

Pr{X=k}=P~q(~)k = C~r)rk, k=2,3, ...

L'andamento fondamentale delle probabilita e geometrico rna e alterato nella


probabilita di zero e di 1 (che sono inferiori). Ad esempio se P == 2/3 si ottiene
Pr{X == O} == 1/3, Pr{X == 1} == 1/6 e Pr{X == k} == 1/2 k,k == 2, ....
Si puo ottenere facilmente un risultato in modo analogo (ed e lasciato come
esercizio) quando l'affiusso puo assumere i tre valori 0,1 e 2 con probabilita
Po, PI e (1 - Po - PI), purche naturalmente l'affiusso medio sia inferiore a uno
(e quindi bisogna imporre la condizione Po > 1 - Po - PI).

Una impostazione del tutto simile e utile come schema aleatorio per l'analisi
delle file di attesa, cioc quando si vuole studiare la distribuzione di una risor-
sa limitata e che richiede un certo tempo di espletamento, tra pili richieste
che pervengono in sequenza. Esempio tipico e la richiesta di un determinato
servizio (ad esempio pagamenti 0 riscossioni) a uno sportello da parte di un
insieme di clienti che arrivano in tempi successivi. Consideriamo uno sportello
con un solo punto di servizio, e supponiamo che il tempo necessario a servi-
re un cliente sia deterministico e pari a uno. Invece gli arrivi allo sportello
avvengono indipendentemente l'uno dall'altro, e il numero di arrivi nell'unita
di tempo e una variabile aleatoria. Se consideriamo la grandezza "numero di
clienti in attesa" essa descrive una catena di Markov analoga a quella che
abbiamo preso in considerazione, e i risultati sono analoghi.

4.4 Processi non markoviani

Finora abbiamo esaminato processi in cui valeva la proprieta markoviana, es-


senziale per schematizzare la situazione attraverso una catena. Naturalmente
spesso la proprieta di Markov non e soddisfatta, anzi il valere di questa pro-
prieta va considerato pili un'eccezione che la regola, in quanto anche processi
di struttura molto semplice non la soddisfano come mostrato dall'esempio
seguente.

Esempio 4.9. Consideriamo una collezione di variabili indipendenti con di-


stribuzione normale {et,t == 1,2, ... }, e costruiamo un processo prendendo
semplicemente la differenza tra due valori contigui:

Data la normalita ciascuna X n e dipendente cia en e cia en-I mentre e


indipendente da tutte le altre variabili del processo {et}. Inoltre, poiche
68 4 Catene di Markov

X t - 1 == et-l - et-2 e quindi et-l == X t - 1 + et-2, sostituendo si ottiene una


relazione ricorsiva per il processo {Xt } :

Ne segue che la distribuzione di X; condizionata a X t - 1 == x e uguale a quella


di -x + et - et-2, e quindi non e indipendente da X t - 2 (perche questo non e
indipendente da et-2). Se decidiamo di condizionare anche a X t - 2 , dato che
in modo analogo al precedente si ottiene et-2 == X t - 2 + et-3, ne segue che

e quindi la distribuzione di X; condizionata a X t - 1 == x, X t - 2 == y coincide


con quella di -x - y + et - et-3, che non e indipendente da X t - 3 , e cosl via.
Pertanto questo semplice processo non e markoviano.
Esiste pero, in alcuni casi, la possibilita di riportarsi a una catena di Mar-
kov definendo in modo diverso gli stati, cioe allargando il concetto di stato
fino a includere piu valori consecutivi del processo. Un esempio chiarira meglio
questa possibilita.
Esempio 4.10. Consideriamo a tempi equidistanziati un'apparecchiatura che
puo essere funzionante (stato 1) oppure in avaria (stato 0) supponendo che a
ogni passo la probabilita di passare dal funzionamento all'avaria sia p; se la
macchina e in avaria, il tempo di riparazione e aleatorio e quindi si assume
che la probabilita che venga riparata in tempo per il passo successivo sia (3. II
processo forma quindi una catena con matrice di transizione:

o 1
o 1 - {3 P
1 {3 1- p

Ora, supponiamo invece che il tempo d'intervento sia comunque superiore a un


passo, e che quindi quando l'apparecchiatura va in avaria rcstera sicuramente
in avaria anche al passo successivo, mentre la probabilita che venga riparata
prima del secondo passo resta (3. La proprieta di Markov non e piu valida
poiche:

Pr {X n + 1 == 0 IX n == 0, X n - 1 == I} == 1
Pr {X n + 1 == 0 IX n == 0, X n - 1 == O} == 1 - {3

e quindi la distribuzione di X n + 1 dipende non solo da X n rna anche da X n - 1 .


Proviamo allora a ridefinire il concetto di stato, considerando come stati lc
cop pie di valori assunti dal processo ai passi n e n - 1. Qui otteniamo quattro
stati al passo n:
11 (X n == 1, X n - 1 == 1)
10 (X n == 1, X n - 1 == 0)
4.4 Processi non markoviani 69

01 (X n == 0, Xn- 1 == 1)

00 (X n == 0, X n - 1 == 0)

Con questa schematizzazione, poiche 10 stato contiene informazioni relative


anche ai passi precedenti, si recupera la proprieta markoviana, cioc il processo
definito dai quattro stati precedenti diventa una catena di Markov con matrice
di transizione seguente:

a 1 da ---+ 00 01 10 11
00 1 - j3 1 0 0
01 0 0 p P
10 j3 0 0 0
11 0 0 1-pl-p

L'idea di ampliare 10 spazio degli stati ha una validita generale e puo essere
utilizzata efficacemente se le distribuzioni condizionate dipendono da un nu-
mero finito di valori precedenti. In altri termini, se la probabilita dei valori
assunti da X n dipende dai valori precedenti fino a X n - m , si puo considerare il
processo (multivariato) Yn == (X n , X n - 1 , X n - 2 , ... , X n - m + 1 ) anch'esso discre-
to se X n e discreto (anche se il numero degli stati cresce esponenzialmente
con m). Poiche:

il processo {Yn } descrive una catena di Markov.


Questa tecnica viene usata spesso anche nel caso di processi a parametro
discreto e valori continui, perche permette di descrivere pili facilmente anche
modelli rappresentativi e di sfruttare la proprieta di Markov, e ha portato a un
importante capitolo della modellistica per serie temporali che viene chiamato
dei modelli nello spazio degli stati (state-space models), e verra introdotto
sommariamente nella parte dedicata alla previsione.
5
Processi stazionari

Si illustrano le caratteristiche dei processi aleatori a valori continui e parame-


tro discreto, con particolare riguardo a quelli stazionari, affrontando sia l'ana-
lisi nel dominio temporale sia quella nel dominio frequenziale, e accennando
allo studio delle relazioni tra due processi.

5.1 Introduzione

Consideriamo in questo capitolo i processi aleatori con spazio del parametro


discreto, coincidente per comodita con l'insieme dei numeri naturali, e a valori
continui, cioe costituito da variabili aleatorie che possiedono distribuzioni di
probabilita assolutamente continue. In realta la forma delle distribuzioni di
probabilita non sara l'elemento centrale di interesse (a parte la distinzione se
essa e gaussiana oppure no), mentre I'analisi sara centrata essenzialmente sui
momenti (e principalmente sui momenti secondi).
Siamo nel campo propriamente detto dell'analisi delle serie temporali, e
la classe di processi aleatori a cui si fa costante riferimento e quella dei pro-
cessi stazionari, 0 pili precisamente dei processi stazionari al secondo ordine,
caratterizzati dalle proprieta:

E (Xt ) == J1 costante per ogni t


Cov (X s , Xt) == r (s - t) dipende solo dalla differenza Is - tl .
Per eliminare casi patologici e degeneri e sveltire la trattazione, supporremo
sempre che i momenti di ordine primo e secondo siano finiti.
La motivazione del considerare processi stazionari, dal punto di vista logi-
co, risiede nel fatto che assumiamo una certa omogeneita di comportamento
nel fenomeno che si studia: questa condizione e essenziale per poter sperare
di prevedere il futuro traendo insegnamento dal passato. Rinunciare a ipotiz-
zare che il comportamento futuro di un fenomeno rispecchi Ie caratteristiche
72 5 Processi stazionari

Fig. 5.1. Serie con trend

fondamentali che ha mostrato nel passato rende inutile la conoscenza di que-


st'ultimo e contraddice l'assioma su cui si basa la previsione statistica. E vero
che la ipotesi di stazionarieta (pur debole solo fino al secondo ordine ) impone
al processo una rigidita nel tempo che pochi fenomeni naturali, rna special-
mente socio-economici, manifestano: la media sempre uguale, la variabilita
sempre uguale. Sono esclusi pertanto tutti gli andamenti tendenziali crescenti
o decrescenti (il cosiddetto trend) e anche fenomeni di aumento della varia-
bilita, caratteristiche che invece incontriamo frequentemente. Ma a questo
inconveniente si ovvia frapponendo logicamente tra i dati e il processo alea-
torio una operazione di trasformazione statistica, costruendo cioe delle serie
trasformate che evidenzino le caratteristiche di omogeneita tipiche di un pro-
cesso stazionario. Approfondiremo la questione (non esente da controversie)
nei paragrafi successivi, rna per chiarire quanto affermato e bene anticipare un
semplice esempio. Se abbiamo rilevato una serie che presenta un andamento
crescente regolare come quello della Fig. 5.1, e evidentemente difficile pensarla
come realizzazione di un processo aleatorio a media costante: qui sembra che
ad essere pili 0 meno costante da un istante all'altro sia proprio l'incremento
subito dalla serie. Cia suggerisce di considerare proprio la serie dei dati relativi
agli incrementi tra un dato e il successivo, detta anche serie delle differenze:

Yt == Xt - Xt-l . (5.1 )

Se noi disegniamo il grafico dei dati differenza Yt, riportato nella Fig. 5.2,
vediamo che qui la stabilita e una caratteristica direttamente della media:
quindi una semplice trasformazione dei dati (5.1) ci ha portato a una nuova
serie Yt che si puo pensare senza perplessita come generata da un processo
stazionario. Cercheremo allora di studiare le proprieta del processo stazionario
associato alla Yt invece che alla Xt, purche poi siamo in grado di costruirci
5.1 Introduzione 73
4.t

t.4

.6

-l.t

-3.0
--...-...-_................_--........----------.......
......... t40
-.....--------------...-...-_~
t64 300

Fig. 5.2. Serie della Fig. 5.1 differenziata

strumenti teorici che ci facciano risalire dalle proprieta della Yt a quelle della
Xt . Uno strumento di questo tipo e costituito dalla teoria del filtraggio che
vedremo pili avanti in questo capitolo.
Lo sforzo di far rientrare nell'ambito dei processi stazionari anche fenome-
ni che apparentemente non 10 sono, anche a costo d'approssimazioni, si spiega
con i grossi vantaggi che la stazionarieta comporta sotto il profilo metodolo-
gico. I processi stazionari sono caratterizzati dalla funzione di autocovarianza
(0 autocorrelazione) che e costituita da una successione numerabile di valori, e
questo ne permette una rappresentazione su uno spazio di Hilbert (in termini
irnprecisi rna espressivi una generalizzazione a infinite dirnensioni di uno spa-
zio metrico) e l'estensione di tutta una serie di risultati di natura geometrica.
Di particolare rilievo la possibilita di estendere l'analisi di Fourier ai processi
aleatori stazionari. Si tratta di interpretare il processo come la sovrapposizio-
ne additiva di componenti cicliche sinusoidali dotate di diversa periodicita, e
ciascuna moltiplicata per un coefficiente aleatorio. L' analisi della diversa rile-
vanza delle componenti a seconda della loro periodicita (0 come anche si dice,
della loro frequenza) viene chiamata analisi spettrale. Questo tipo di sviluppi
non e naturalmente indipendente dalle caratteristiche dei momenti secondi,
rna c'e una relazione assai stretta (come vedremo in seguito).
Nello studio dei processi stazionari, si usa individuare una bipartizione in
due campi di interesse, chiamati domini: il dominio dei tempi (0 temporale)
e il dominio delle frequenze (0 frequenziale). Siamo nel dominio temporale
quando si studiano le caratteristiche del processo in quanto successione di va-
riabili nel tempo, e si utilizzano strumenti riconducibili alle autocovarianze;
siamo nel dominio frequenziale quando ci si riferisce alle proprieta delle di-
verse componenti cicliche che compongono il processo e si usano rnetodi tipici
dell'analisi spettrale. Illustreremo separatamente i principali sviluppi relativi
74 5 Processi stazionari

ai due domini nei prossimi due paragrafi, e nel successivo chiariremo i legami
tra Ie principali grandezze caratteristiche dei due domini. Per la comprensione
dell'analisi nel dominio delle frequenze e indispensabile la conoscenza dei fon-
damenti dell'analisi di Fourier (a volte chiamata analisi armonica) che sono
riportati nell'Appendice A.

5.2 Analisi nel dominio temporale

Lo studio nel dominio dei tempi corrisponde all'angolo visuale pili naturale
nell'analisi di un processo stazionario, poiche parte direttamente dai dati e dai
lora momenti. Abbiamo visto come la stazionarieta in senso deb ole al secondo
ordine implichi che la media delle variabili X, sia uguale per ogni t: E (Xt ) ==
u. Quindi J-l costituisce un termine costante e invariante rispetto al parametro.
Per semplificare le formule che deriveremo, sara spesso como do eliminare la
media, supponendo che sia J-l == 0, 0, in alternativa, considerando, invece del
processo Xt, il processo degli scarti dalla media It == X; - u. Le conclusioni
che troveremo relativamente ai momenti centrali valgono evidentemente per
X, come per It, rna spesso l'eliminazione della media u rende gli sviluppi pili
semplici.
II nucleo dell'analisi risiede quindi nei momenti secondi, che vengono
sintetizzati dalla funzione di autocovarianza:

che come abbiamo gia notato, in conseguenza della ipotesi di stazionarieta


dipende solo dalla differenza dei parametri delle due variabili covariate. Come
gia anticipato, per coerenza definitoria indicheremo con ,(0) la varianza del
processo, e le proprieta della operazione di covarianza implicano:

,(h)==,(-h), I, (h)1 <, (0) Vh intero. (5.2)

Analogamente al caso bivariato, si ottiene un indice relativo passando alla


correlazione tra X, e X t + h , e definendo cost la funzione di autocorrelazione
r(h):
, (h)
r (h) = Correl (Xt , X t +h ) = 'Y (0)

che eredita dalla (5.2) le proprieta:

r(h) == r( -h) Ir (h)1 < 1 .


Le funzioni di autocovarianza e autocorrelazione godono di una ulteriore pro-
prieta: sono funzioni definite positive, cioe per ogni naturale n e comunque
si scelgano n naturali diversi tra lora t i, t2, ... , t.; e n numeri reali Cl, C2, ... , Cn
non tutti nulli, si ha:
5.2 Analisi nel dominio temporale 75
n n
LLCiCj1(ti - tj) > O. (5.3)
i=l j=l

La proprieta si dimostra subito notando che la (5.3) non e altro che la varianza
della variabile aleatoria clX (tl) + C2X (t2) + ... + cnX (t n), che e sempre
maggiore di zero (avendo escluso che Ie costanti c; sono tutte nulle). Se vale
solo il ~ invece del maggiore si dice che la funzione e semidefinita positiva. II
nome ci riporta all'analoga proprieta delle matrici, e in realta esiste un motivo
per questa coincidenza. Se consideriamo un tratto finito del processo, ovvero
una variabile aleatoria multipla a n dimensioni formata da elementi contigui
del processo, ad esempio (Xl, X 2 , ... , X n ) , possiamo esaminare la sua matrice
di dispersione. All'incrocio tra riga i e colonna j troveremo la covarianza tra
Xi e X j che si indica quindi con 1(i - j). Percio la matrice e:

1 (0) 1 (1) 1 (2) ···1(n-1)


1 (1) 1 (0) 1 (1) ···1(n-2)
r(n) == 1 (2) 1 (1) 1 (0) ···1(n-3)

1(n-1)1(n-2)1(n-3) ... 1(0)

La matrice T (n) (ovviamente simmetrica come tutte le matrici di dispersione)


ha la caratteristica che l'elemento (i, j), essendo uguale a 1(i - j), dipende
solo dalla differenza in valore assoluto tra indice di riga i e indice di colonna
j. Quindi ogni diagonale e formata da elementi tutti uguali: sulla diagonale
principale compaiono tutti 1(0), sulle prime subordinate inferiore e superiore
tutti gli elementi uguali a 1(1), sulle successive tutti gli elementi pari a 1(2)
e cosi via. Le matrici con queste caratteristiche vengono chiamate matrici di
Toeplitz e hanno delle proprieta molto particolari (che pero non avremo la
possibilita di approfondire: si veda ad esempio Brillinger, 1981). La matrice
r(n), essendo di dispersione, e ovviamente una matrice definita positiva: pro-
prieta che viene espressa proprio dalla (5.3), che rappresenta infatti una forma
quadratica costruita con il vettore (Cl' C2, ..., cn ) e la matrice di dispersione
della variabile multipla n-dimensionale (X h'Xt 2 , ... ,Xt n ) .
Per ogni h > 0 possiamo definire la matrice analoga alla precedente di
dimensione h, che prende il nome di matrice di autocovarianza, e l'analoga
matrice di autocorrelazione:
1 r (1) r (2) ... r(h-1)
r (1) 1 r (1) ... r (h - 2)
R(h) == r (2) r (1) 1 ... r (h - 3)

r (h - 1) r (h - 2) r (h - 3) ... 1

Le matrici r(h) e R(h) sono di Toeplitz per ogni h, quindi sono simmetriche
(rispetto a tutte e due le diagonali) e definite positive, quindi il determinante
e maggiore di zero per ogni h. Inoltre si puo dimostrare che il determinante
76 5 Processi stazionari

1. 00

.50

.oo~ ......, ...- .......

-0.50

-1. 00 ...........-...-......_ ....._ .... .....-


--...-_~ ......_ ......_ ......_ .-...---.l.....
~4 36

Fig. 5.3. Esempio di correlogramma

della matrice di autocorrelazione R( h) e minore 0 uguale a uno, e quello della


matrice di autocovarianza r(h) e minore 0 uguale a ,(O)h. Una ulteriore
importante proprieta delle matrici di questo tipo, che si riferisce allo spettro,
verra discussa nel paragrafo 5.4.

Le caratteristiche dei momenti secondi vengono spesso sintetizzate grafica-


mente attraverso il correlogramma, che e il grafico della funzione di autocorre-
lazione r(h) in funzione di h, disegnato solo per valori positivi dell'argomento
(in quanto e una funzione simmetrica): i punti sono generalmente congiunti
all'asse delle ascisse mediante segmenti verticali, e naturalmente l'intercetta
e r(O) == 1. Un esempio e in Fig. 5.3 dove e riportato il caratteristico an-
damento decrescente verso zero in modulo dell'autocorrelazione (il motivo di
questo andamento verra chiarito meglio in seguito, quando parleremo di ergo-
dicitaj.Uno sguardo al correlogramma permette di rendersi subito conto della
forza dell'associazione lineare tra le variabili del processo, a seconda della lun-
ghezza dei tratti verticali: un processo a variabili incorrelate, caratterizzato
quindi da
l h == O
r(h)= { Oh~O

denota assenza di legami lineari tra le variabili e il suo correlogramma non ha


segmenti verticali, mentre processi con forte autocorrelazione presentano inve-
ce (almeno per qualche h) segmenti molto lunghi. La ascissa h, che denota 10
sfasamento temporale tra le due variabili di cui si misura la correlazione X, e
Xt+h, viene comunemente detto ritardo 0 lag. II correlogramma fornisce infor-
mazioni anche sul modo in cui si esplica la dipendenza lineare: a ogni tipologia
di andamento caratteristico del processo corrisponde uno schema tipico d'an-
damento del correlogramma. Per esempio, se la serie tende a oscillare attorno
5.2 Analisi nel dominio temporale 77

Fig. 5.4. Serie simulate: (a) processo AR(1), </J < 0; (b) processo AR(l), </J > 0; (c)
processo AR(2) pseudo-periodico

"

o.
I
"
·r I 1
I, ,I
J I I , 0

'III'
"

' II'
"

"
" " " " " " " "
(a) (b) (c)

F ig. 5.5. Correlogrammi stimati per le serie di fig. 5.4

a un valore alte rnando a un dato superiore uno inferiore come in Fig. 5.4a ,
le sue autocorrelazioni ai ritardi pari te nderan no a essere positi ve e quelle ai
ritardi dispari negati ve, form ando un anda mento alte rnato del correlogra mma
(Fig. 5.5a) . Se invece la ser ie si presenta con un andamento pili uniforme e
tende a muoversi con oscillazioni pili ampie come in F ig. 5.4b , allora valori
vicini tendera nno a essere concordanti , e quindi le autocorrelazioni dei ritar di
iniziali saranno positi ve e pro nunciate (Fig. 5.5b) ; un altro esempio rip ortato
in Fig. 5.4c e una serie che presenta una tendenza a comportamento oscillante
periodico di periodo T : in tal caso i valori te ndono a ripetersi pressappoco
simili dopo T ist anti , e quindi Ie autocorre lazioni relative a lags multipli di
T sara nno positive, ment re quelle ai ritardi interm edi del tipo kT + T / 2 ten-
deranno a essere negati ve descrivendo un anda mento del t ipo rip ortato nella
Fig. 5.5c.
Vogliamo infine sottolineare che l'an alisi nel domini o tempora le come e
present ata qui (e in realt a anche quella nel dominio delle frequenze) si basa
esclusivamente sulle propriet a dei momenti del secondo ordine del processo.
Quindi, se applichiamo questi st ru ment i a due pro cessi che abbiano la st essa
funzione di autocorre lazione, otterre mo i medesimi risultati , indipend ent emen-
te dalla natura della dip end enza tra le variabili . Cia contribuisce a spiegar e
la rilevanza che viene attribuita ai processi stocastici gaussiani, le cui distr i-
buzioni multiple, cioe, sono norm ali: nei pro cessi gaussiani la dip end enza e
linear e, ed e quindi caratterizzata dalle autocorrelazioni (due variabili nor-
ma li incorre late sono indipendenti ), e inoltre la dist ribuzione di probabili ta
mult ipia di un processo gaussiano e indi vidu at a completament e da lla funzio-
ne di autocovarianza (oltre che ovviamente dalle medie). Si cap isce percio il
78 5 Processi stazionari

motivo per cui, molto spesso, si assume la norrnalita del processo, per otte-
nere risultati che verranno poi considerati approssimativamente validi anche
per processi non gaussiani, almeno per quanto riguarda i momenti secondi,
ovvero I'analisi della dipendenza lineare.

5.3 Analisi nel dominio frequenziale

L' analisi spettrale di un processo stazionario si basa sulla estensione al qua-


dro di riferimento probabilistico dell'analisi di Fourier, sviluppata a partire
dal 18mo secolo per funzioni deterministiche. I concetti fondamentali di que-
sta analisi (insieme ad alcune nozioni basilari di trigonometria) sono riportati
nella Appendice A, e la loro conoscenza costituisce prerequisito indispensa-
bile per la comprensione di quanto verra esposto in questo paragrafo e nei
successivi.
Cominciamo con l'estendere l'analisi di Fourier all'analogo aleatorio di una
funzione periodica, chiamato processo circolare, ottenuto prendendo un tratto
di variabili contigue, per esempio Xl, X 2 , ... , X N da un processo stazionario,
e definendo le successive e precedenti nel modo seguente:

X, == X, mod (N)

dove t mod (N) e il resto della divisione di t per N. In sostanza allo scorrere
del tempo si ripetono ciclicamente le variabili (Xl, X 2 , ... , X N ) . Poiche le va-
riabili dalla 1 alla N provengono da un processo stazionario con media J-L, che
supporremo zero per semplicita, e funzione di autocovarianza ')'(.) abbiamo:

E (Xt ) == 0
Var (X t ) == ')' (0) Vt
Cov (X s , X s + h ) == ')' (h) h == 1,2, ,N - 1
')'(h + kN) == ')' (h) k == 1,2, .

II ragionamento che porta agli sviluppi di Fourier puo essere ripetuto in ma-
niera formalmente analoga applicandolo alle variabili aleatorie, ottenendo, in
corrispondenza con le (A.5) e (A.6), la rappresentazione del processo:

N/2
X t -- '""""'
L-t Z je i 27l"
N
jt (5.4)
j=-N/2

dove le variabili Zj sono definite in funzione lineare del processo:

j == 1, ... , N . (5.5)

Esse hanno media nulla e sono incorrelate, infatti:


5.3 Analisi nel dominio frequenziale 79

Notiamo che per come abbiamo costruito il processo circolare, sia la funzione
r sia l'esponenziale all'ultimo termine sono periodici di periodo N, percio
possiamo sostituire alla somma rispetto a s una somma rispetto ad h == t - s
da 1 aN:

~ t} ~ 'Y (h) exp {i~jh }


N

Cov (Zj, Zk) = ~2 { ; exp { -i (j - k)

== 0, j i= k
per la proprieta di ortogonalita delle esponenziali complesse riportate nell' Ap-
pendice A, mentre:

Anche la funzione di autocovarianza si puo esprimere in funzione delle


caratteristiche delle Zj usando la (5.4):

r (h) == Cov (Xl, X t + h ) ==


~2 ~2 2
L L COV(Zj,Zk)exP{i;[jt-k(t+h)]}=

2t
j=-N/2 k=-N/2

= Var (Zj) exp { -i~jh} + ~ Cov tz; Zk) exp {i~ [(j - k) t - kh]}

= LCT] exp { -i~jh} .


J
(5.6)

Le formule ammettono anche qui una forma reale corrispondente alla (A.3):

x, = L [a j cos (~jt) + bj sin (~jt)]


J

dove le aj e bj sono variabili aleatorie, che permette una facile interpreta-


zione: il processo circolare {Xt } si puo pensare come la combinazione lineare
aleatoria di sinusoidi con frequenza pari a ~ e multipli. Ogni sinusoide viene
moltiplicato per una variabile aleatoria (l'ampiezza) a media nulla e varianza
80 5 Processi stazionari

differente (a; per la frequenza ~ j). Le sinusoidi sono tra loro incorrelate, e
la varianza del processo:
,(O)==La;
j

e data dalla somma delle varianze delle singole componenti cicliche. Ne risulta
una decomposizione della variabilita del processo nel contributo apportato
dalle diverse componenti periodiche che 10 compongono additivamente, resa
possibile dal fatto che esse sono incorrelate.
I risultati per processi non circolari sono generalizzazioni dei precedenti,
paralleli a quelli che portano agli integrali di Fourier. Verranno qui forniti
senza dimostrazioni (che sono piuttosto impegnative) partendo da una par-
ticolare forma che i risultati qui ottenuti assumono se espressi nella forma
consueta della teoria della misura. Poniamo Aj == ~ j e:

F(A) == L a;.
A<Aj

Allora possiamo scrivere Ie (5.4) e (5.5) come integrali di Lebesgue-Stieltjes:

(5.7)

'Y (h) = I: e-i>.fdF (,\) . (5.8)

Poiche F ('if) == L.:aJ == ,(0), la misura F distribuisce la varianza del processo


sull'asse delle frequenze, attribuendo aIle N frequenze Aj la loro parte di a;
spiegazione della varianza; la F e una misura totalmente discreta (a salti),
come anche totalmente discreta e la Z (A), con la differenza che mentre la
(5.8) e un integrale ordinario che definisce una funzione ,(h), la (5.7) e un
ente aleatorio (e chiamato integrale stocastico) ed e da intendersi come una
uguaglianza che assume validita per ogni realizzazione del processo, se le Z (A)
sono calcolate in funzione delle {Xt } .
Si noti che abbiamo adottato la convenzione di definire la misura continua
a destra, quindi F(A)== F(A+) (1).
L' analisi spettrale di un processo stazionario si basa essenzialmente sui
seguenti due teoremi detti di rappresentazione spettrale di un processo stazio-
nario.

Teorema 5.1 (di Cramer e Kolmogorov). Per ogni processo stazionario


{X t } esiste un processo aleatorio continuo {Z (A)} definito per -1r < A < 1r
per cui vale l'uguaglianza in media quadratica:

1 Indichiamo con f(x-) illimite sinistro di una funzione f: lim f(x - E) == f(x-).
ElO
Analogamente con f(x+) si indica illimite destro (per E 1 0).
5.3 Analisi nel dominio frequenziale 81

e inoltre il processo {Z(A)} e a media nulla e a incrementi indipendenti:


E { [Z (AI) - Z (>\2)][Z (A3) - Z (A4)] } = 0 Al ::;:. A2 > A3 ::;:. A4

E IZ (A) - Z (w)1
2
== F (A) - F (w) A> W .

II teorema di rappresentazione spettrale e d'importanza fondamentale per la


teoria dei processi stazionari, ed e stato molto studiato. Priestley (1981), a
cui si rimanda, illustra ben quattro approcci alternativi per la dimostrazione.
II processo {Z (A)} (estensione delle variabili z, precedenti) e a valori
complessi, rna considerando Ie parti reale e immaginaria si puo ottenere una
rappresentazione in termini reali:

x, - J.L = 1 7r

COS »u: (A) + 17r

sin AtdV (A)

e anche i processi {U(A)} e {V(A)} si dimostrano a incrementi indipendenti.


Inoltre le varianze degli incrementi risultano:

E [U (A) - U (w)]2 == E [V (A) - V (W)]2 == 2 [F (A) - F (w)] A>W


dove si e posta F( -1r) == 0, e risulta anche:

Si noti che la (5.9) e un integrale stocastico, cioe una operazione di passaggio


allimite su variabili aleatorie, e quindi la uguaglianza e da intendersi nel senso
che il quadrato della differenza tra primo e secondo membro ha media pari a
zero.
Teorema 5.2 (di Wold, detto anche di Wiener e Kintchine). La Junzio-
ne di autocovarianza r (h) di un processo stazionario pUG essere scritta come

i:
un integrale di Lebesgue-Stieltjes:

'"Y (h) = e-i>.hdF (A) (5.10)

in una misura F(A) con F(-1r) == 0, F(1r) == Var{X t } .


Si puo mostrare che la tesi (5.10) puo essere vista come conseguenza del
teorema di Cramer e Kolmogorov. A tal fine e utile riscrivere lc proprieta di
secondo ordine del processo Z(A) in questa modo, dove dZ(A) sta per Z(A) -
Z (A-):

E {dZ (A) dZ (w)} = dF (A) A==W


==0 A#- w.
82 5 Processi stazionari

Con questa notazione, dalla (5.9) otteniamo facilmente:

"'I (h)

=E i:i:
== E (X t - JJ;) (X t + h - JJ;) ==

exp{iiA-i(i+h)w}dZ(A)dZ(w) = i: e-ih>'dF(A).

Eseguendo 10 stesso tipo di sviluppi sulla rappresentazione del processo


{ X t } in termini reali, si ottiene una analoga rappresentazione reale delle
autocovarianze:
'Y (h) = 217'0 cos(Ah)dF (A) .
Notiamo che il processo Z (A) eredita dalle caratteristiche delle trasformate di
Fourier z, la proprieta:
Z(A)==Z(-A)
e quindi il suo andamento edeterminato essenzialmente solo dai valori positivi
dell'argomento A, per questo la forma reale viene espressa come integrale del
solo intervallo (0, 11"). Infatti si ha:

dF(A) == dF( -A) .

Per 10 stesso motivo, le rappresentazioni (5.9) e (5.10) non cambiano se si


cambia segno all'esponente della funzione esponenziale, cioe se si cambia icon
-i e viceversa (in alcuni testi infatti la rappresentazione dell'autocovarianza
presenta una esponenziale positiva). La varianza del processo aleatorio si puo

i:
dunque scrivere:

'Y (0) = dF (A) = F (1f) - F (-1f)

e per convenzione e semplicita si assume sempre F( -11") == O. La funzione misu-


ra F(A) induce allora una decomposizione della varianza nelle parti attribuibili
a ciascuna componente ciclica di frequenza A.
I teoremi di rappresentazione non comportano condizioni particolari per la
F (A) chiamata misura spettrale 0 spettro (0 funzione di ripartizione spettrale)
che puo essere di natura del tutto generale e quindi composta da una parte
a salti F 1 (A) e una parte assolutamente continua F2 (A) (escludiamo come
usuale che contenga una parte singolare):

Ricordiamo che la parte assolutamente continua F2 (A) ammette una funzione


di densita continua f (A) (detta densiia spettrale) tale che:
5.3 Analisi nel dominio frequenziale 83

5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
o irrrn'TT1TrrTTTTlTTTTTllmrmmmTITTTTTTTTTlrmmmmrmmmmmmnTTTTmmrnmmn I
917 25 33 41495765 73 818997 91725334149576573818997 .Q5 1 9172533 41495765 738189 97

(a) (b) (c)

Fig. 5.6. Misura spettralc: (a) parte a salti ; (b) parte assolutamente continua; (c)
somma delle due parti

mentre la parte a salti F I (A) e costante eccetto un numero finito di punti Aj


(j == 1, ... , k) nei quali ha un incremento pari a F (Aj) - F (Aj-) == Vj:

0 A :::; Al

vI Al < A :::; A2
VI + V2 A2 < A :::; A3
F I (A) ==
VI + v2 + ... + Vi Ai < A < Ai+I

VI + V2 + ... + Vk A> Ak
Un esempio di misura F(A) e delle sue due componenti riportato nella Fig. e
5.6. AIle frequenze Aj nelle quali F(A) ha un salto di ampiezza Vj corrisponde
una componente sinusoidale del tipo U (Aj) cos Aji + V (Aj) sin Aji che ha va-
rianza finita diversa da zero pari a Vj e contribuisce additivamente con questo
termine alIa varianza complessiva del processo. Ai sottointervalli (A', A") in
cui non vi sono salti nella F(A) corrisponde invece un insieme di componenti
sinusoidali di frequenza compresa tra A' e A" il cui contributo individuale alla
varianza del processo e infinitesimo, ma il contributo complessivo e misura-
to da F (A") - F (A'). Percio si puo anche dire, se ~ e un punto di assoluta
continuita della misura spettrale F, con densita pari a f(~), che f (~) d~ e la
parte di varianza del processo spiegata dalle componenti cicliche di frequenza
compresa tra ~ e ~ + d~.
In ogni caso la rappresentazione spettrale (5.g) del processo {X t} 10 de-
scrive come sovrapposizione (somma, integrale) di funzioni sinusoidali aventi
frequenza compresa tra 0 e n, ciascuna moltiplicata per una ampiezza alea-
toria. Le ampiezze relative a frequenze diverse sono incorrelate, e pertanto
la rappresentazione spettrale descrive il processo come "somma" di termini
incorrelati, di modo che la sua varianza e data dalla "somma" delle varianze
dei singoli termini. La difficolta ulteriore e originata dal fatto che i termini
sinusoidali possono avere due tipi di effetti diversi, avendo responsabilita e
peso diversi nello spiegare la variabilita: ci saranno componenti cicliche a va-
rianza finita (diversa da zero) che corrispondono a salti nella misura spettrale,
e ci saranno componenti a varianza infinitesima, per le quali il contributo in-
84 5 Processi stazionari

dividuale a ,(0) e nullo, rna se consideriamo tutte quelle di un intervallo di


frequenze forniscono un contributo non nullo. Possiamo distinguere tre casi a
seconda della natura della misura spettrale.
1. Misura spettrale completamente discreta. Se la misura spettrale si presen-
ta con una forma a gradini, cioe costante eccettuato un numero finito (0
una infinita numerabile) di punti Aj allora il processo puo essere espresso
come una somma di componenti cicliche di frequenza Aj e ampiezza alea-
toria di media nulla e incorrelate tra loro, e puo essere scritto come una
combinazione lineare di sinusoidi:

X, - J-l == L {A j cos (Ajt) + B j sin (Ajt)} .


j

2. Misura spettrale assolutamente continua. La misura spettrale ammette


ovunque derivata uguale alla densita spettrale f (A) e il processo puo essere
scritto come un integrale di Riemann della sinusoide moltiplicata per una
funzione aleatoria:

x, - JL = 1" {A (A) cos (At) + B (A) sin (At)} dA

(vedremo pili avanti una rappresentazione pili esplicita di questi tipi di


processi).
3. Misura spettrale mista con una parte a salti e una parte assolutamente
continua. La rappresentazione pili naturale del processo in questo caso e
di pensarlo come la somma di due processi completamente incorrelati, dei
quali il primo, Vi, ha misura spettrale completamente discreta e costituita
dai soli salti, e il secondo processo, W t , ha misura spettrale assolutamen-
te continua pari ana sola componente assolutamente continua, e quindi
possiede densita spettrale:

con E(Vi Wt+h) == 0 per ogni h, W t ha misura spettrale assolutamente


continua con densita spettrale f (A), e:

Vi == L {A j cos (Ajt) + B, sin (Ajt)} .


j

E facilmente comprensibile come questa doppia natura comporti rilevanti


difficolta di analisi, ed'altra parte i fenomeni che studiamo presentano ra-
ramente un andamento periodico preciso e costante (il che segnalerebbe la
presenza di una componente ciclica a varianza non infinitesima): pertanto si
preferisce prendere come riferimento ideale dei fenomeni che analizzeremo so-
lo processi che hanno una misura spettrale assolutamente continua, priva di
parte a salti. I vantaggi analitici e le possibilita di ulteriori sviluppi, che que-
sta ipotesi, per quanto semplificatrice, comporta, hanno convinto la generalita
5.3 Analisi nel dominio frequenziale 85

degli studiosi del settore ad accettarla, salvo considerare poi con tecniche spe-
cifiche i casi in cui questa ipotesi appaia troppo restrittiva (ne vedremo un
esempio in seguito quando affronteremo il problema della stagionalita).
Assumeremo quindi d'ora in poi, salvo esplicito avviso contrario, che la
misura spettrale F(A) sia assolutamente continua, e che quindi esista la sua
derivata f(A), positiva per ogni A, che chiamiamo densita spettrale. Questa

i:
ipotesi comporta che le rappresentazioni spettrali diventano integrali ordinari:

"((h) = e-i>.h 1 (>') d>' = 217r cos(>'h)1 (>.) d>' (5.11)

x, - J-L == j7r e-i>.t Z (>') d>' =


-7[
r cos(>'h)U (>') d>' + Jor sin(>.t)V (>.) d>'
Jo
(5.12)
e le varianze delle componenti del processo si possono scrivere simbolicamente:
2
E IZ (A)1 == f (A);

DaIle proprieta di simmetria del processo Z (A) discende f (A) == f (- A). 11 gra-
fico della densita spettrale viene quindi in genere disegnato solo per le ascisse
comprese tra 0 e it . Ai valori massimi delle ordinate del grafico (i cosiddetti
picchi) corrispondono Ie frequenze che indicano Ie componenti periodiche pili
rilevanti del processo.
La funzione di densita puo essere espressa in funzione delle autocovarianze
in maniera analoga a come abbiamo espresso, nel caso del processo circolare,
la varianza delle Zj:
1 00
f(A) == -
21r
L ,(s)ei SA . (5.13)
s=-oo

Questa formula puo essere ottenuta direttamente dalla rappresentazione spet-


trale (5.11) rna ricorrendo a strumenti matematici avanzati (2). Percio ci
limiteremo a verificare che essa soddisfa la rappresentazione spettrale. Se mol-
tiplichiamo ambo i membri della (5.13) per exp{ -ihA} ed integriamo rispetto
a A da -1r a 1r otteniamo:

dove si e usata la formula per l'integrale dell'esponenziale riportata nell' Ap-


pendice A.
Anche in questo caso si puo ottenere una espressione in termini reali
ricordando che ,(h) == ,( -h):

2 La sostituzione diretta nella (5.13) della espressione (5.11) per ,(h) da luogo a un
J
integrale del tipo 8 (A - w) f (w) dw dove 8 e la funzione (generalizzata) delta di
Dirac, e quindi l'integrale e pari a f(A).
86 5 Processi stazionari

f(>.) = 2~ {')'(O)+2~')'(h)COS>'h} .

La densita spettrale decompone la varianza del processo ,(0), e non si pre-


sta percio a confronti tra due processi diversi: a questo fine risulta conveniente
ricavare una misura normalizzata, che si ottiene semplicemente dividendo per
,(0): la detisiio. spettrale normalizzata g(A) definita da

g(A) == -1 L00 r(h)e i Ah == -1 {oo


1+2Lr(h)cosAh }
2n 2n
h=-oo h=l

che fornisce immediatamente, dividendo ambo i membri della (5.11) per ,(0),

I:
una rappresentazione spettrale delle autocorrelazioni:

r (h) = g (>.) e-i>..hd>. = 21'' cos(>.h)g (>.)d>. .


La interpretazione della densita spettrale normalizzata g(A) e analoga a quella
non normalizzata, rna poiche g(A) ha integrale pari a uno essa si presta a
confrontare le caratteristiche spettrali di processi diversi.
E il caso di notare che la (5.13) esprime la densita spettrale come una
serie, e che l'esistenza della densita spettrale garantisce la convergenza di tale
serie; in particolare, poiche per A == 0 si ha f (0) == E, (h), la continuita
assoluta della misura spettrale nel punto A == 0 assicura la convergenza del-
la serie delle autocovarianze e quindi la condizione necessaria ,( h) ----t 0 per
h ----t 00. Cia comporta che i processi aleatori a misura spettrale assolutamen-
te continua presentano un'autocorrelazione che tende a zero all'aumentare del
ritardo, quindi in un certo senso la influenza del passato tende a perdersi
all'aumentare della distanza temporale (almeno in termini di dipendenza li-
neare): cia avviene perche non vi sono componenti cicliche con importanza
non infinitesima in termini di spiegazione della variabilita (le componenti ci-
cliche si ripetono indefinitamente in maniera periodica, e quindi comportano
una memoria infinita).
II calcolo della densita spettrale di un processo viene spesso eseguito usan-
do proprio la espressione precedente, a partire dai valori delle autocorrelazio-
ni. Ad esempio, per un processo a variabili incorrelate, per il quale r(O) == 1,
r( h) == 0 per h i- 0, si ottiene:
1 1
9 (A) == - L r (t) e
00
i At
== -
2n
t=-oo 2n

Questo processo ha densita spettrale costante (vale anche ovviamente f(A) ==


,(0)/2n): la costanza della densita spettrale e proprieta caratteristica dei
processi a variabili incorrelate (come si verifica subito andando a sostituire
f(A) == ,(O)/2n nella (5.11)); essi hanno preso il nome di rumore bianco (whi-
te noise) che proviene da una analogia con l'ottica, in quanto la luce bianca e
composta da tutte le frequenze in eguale ammontare.
5.4 Le relazioni tra i due domini 87

5.4 Le relazioni tra i due domini

Tra la funzione di autocovarianza e la funzione di densita spettrale intercor-


rona come abbiamo visto le relazioni:

h == 0,1, ...

00

f (A) = ~ "
21r ~
"1 (h) e
i Ah

h=-oo

e cia comporta che le funzioni ,(.) e f(·) hanno un contenuto informativo


equivalente, 0 pili precisamente che la conoscenza completa dei valori ,(h) per
ogni h permette di ottenere esattamente la f(A) per A E (-1r, 1r), mentre la
conoscenza della intera f(A) per ogni A permette di calcolare tutte le ,(h) per
ogni h. Questa dualita esuscettibile di una ulteriore interpretazione in termini
della matrice di dispersione del processo. Consideriamo la variabile multipla
costituita da N variabili contigue del processo: X == (Xl, X 2 , ... , X N )' e la sua
matrice di autocovarianza di dimensione N gia definita quando si analizzava
il dominio temporale:

, (0) , (1) ... ,(N-1)


, (1) , (0) ... , (N - 2)
r(N) == == ((, (i - j))) .
, (N - 1) , (N - 2) ... , (0)

Essa e una matrice simmetrica e definita positiva, pertanto ha autovalori reali


e maggiori di zero. Verifichiamo che gli autovalori sono approssimativamen-
te proporzionali alla densita spettrale calcolata alle frequenze equispaziate
Aj == ~ i, e l'approssimazione migliora al crescere di N. Pili precisamente, se
indichiamo con aI, a2, ... , aN gli autovalori, con v ,V2, ... , VN gli autovettori
associati (normalizzati), e con Vj (k) il k-mo eleme Ito del vettore Vj, si ha:

Infatti dimostriamo che vale:

(5.14)

Consideriamo l'elemento k-esimo di rVj:

1
(rVjh =L rksVj (s) = IN L"1 (s - k) exp {iAjS} =
s
1
= JNL"1(s-k)ex P{iAj(s-k)}exP{iA jk}.
88 5 Processi stazionari

Ponendo s - k == h, per N grande la sommatoria rispetto ad h e approssima-


tivamente uguale a 27r f(Aj) e quindi:

che dimostra la (5.14).


In sostanza a meno del termine 27r, l'insieme {f(Aj),j == 1, ... ,N} costi-
tuisce l'insieme degli autovalori della matrice r(N), detto anche spettro della
matrice. Notiamo che data l'ortogonalita dei vettori Vj possiamo scrivere:

a:f-b
a==b

Ne segue con facilita una interessante interpretazione geometrica delle rela-


zioni tra i due domini come trasformazione ortogonale di spazi metrici. Infatti
sempre considerando X == (X 1,X2 , ... ,XN )' nello spazio R N , costruiamo la
trasformazione Z == (ZI,Z2, ...,ZN)' attraverso la combinazione lineare con
gli autovettori Vj:

(5.15)

La trasformazione Z == V X e ortogonale perche sono ortogonali i vettori VI,


e definisce nuove variabili aleatorie dette trasformate di Fourier
V2 , ... , V N,
del processo. I loro momenti si ottengono facilmente ricordando le formule di
ortogonalita riportate nell' Appendice A:

j == 1,2, ... ,N

1
L L Cov (Xt, X
N N
Var (Zj) = N s) exp {iAj (t - s)} r:::o 21r f (Aj)
t=1 8=1

1
Cov (Zj, Zk) = N L L Cov (Xt, X s ) exp {iAjt - iAkS} =
t 8

r:::o ~LI'(h)eiAjhLexP{i(Aj-Ak)S}=O j:f-k


h 8

dove nel trasformare le sommatorie si e compiuta una approssimazione valida


per N grande.
In conclusione le trasformate di Fourier (5.15) sono (approssimativamente)
incorrelate per frequenze diverse, e hanno varianza pari alla densita spettrale
(moltiplicata per 27r); rappresentano una trasformazione ortogonale dei dati
che rende le coordinate linearmente indipendenti e incorrelate.
5.4 Le relazioni tra i due domini 89

Osserviamo che in corrispondenza a ogni realizzazione del processo, ciascu-


na trasformata di Fourier si realizza in un numero (complesso) proporzionale
alla somma dei prodotti tra i valori del processo e quelli della componente
ciclica exp{ iAjt}. Quindi la trasformata fornisce una misura di associazione
lineare (concordanza) tra i dati e la componente sinusoidale di frequenza Aj,
il che spiega il legame tra il momento secondo della trasformata e la densita
spettrale alla frequenza Aj. La trasformazione che abbiamo effettuato coinvol-
geva un tratto finito del processo (X1,X2 , ... ,XN ) e portava alle trasformate
di Fourier calcolate sullc sole frequenze multiple di ~, le Aj == ~ j chiamate
anche frequenze di Fourier, che formano N punti equidistanti nel segmento
(0,21r), e quindi if punti equidistanti nell'intervallo (0,1r) sul Quale studiamo
la densita spettrale. La proprieta di avere varianza proporzionale alla densita
spettrale e la incorrelatezza non vale percio esattamente per le trasformate di
frequenza arbitraria A:

(5.16)

rna spesso assumeremo queste proprieta valide approssimativamente per ogni


A, supponendo N sufficientemente grande. Cia permette di svolgere l'analisi
spettrale basandosi completamente sulle trasformate di Fourier, una scelta
compiuta da diversi testi autorevoli (ad esempio Brillinger, 1981).
Ritornando infine alle relazioni tra i due domini, temporale e frequenziale,
possiamo concludere che sono formalmente equivalenti, e i risultati che si
possono ricavare con le analisi in un dominio sono equivalenti a quelli che
si possono ottenere lavorando nell'altro. I motivi che giustificano il portare
avanti 10 studio in ambedue le impostazioni sono essenzialmente due:
1. Anche se gli sviluppi sono tecnicamente equivalenti, quasi sempre sono
differenti Ie interpretazioni che possiamo darne nei due domini, e in uno
dei due risultano pili intuitive e illuminanti; il dominio temporale ha il
vantaggio di riguardare direttamente le singole variabili aleatorie del pro-
cesso ai singoli istanti, mentre in quello frequenziale la rappresentazione
del processo come sovrapposizione di componenti incorrelate permette una
analisi probabilistica pili semplice.
2. Con riferimento alle applicazioni reali, in genere le informazioni che si
possono desumere permettono solo una conoscenza parziale e distorta di
I (.) e di f (.): spesso possiamo basarci solo su stime dei I ( h) per h non
maggiore di un certo ritardo massimo M, e su stime della densita spettrale
in un numero finito di punti, quindi non su tutto l'intervallo (-1r, 1r).
Questa conoscenza parziale fa perdere la corrispondenza biunivoca tra
autocovarianza e spettro, e quindi svolgere l'analisi in ambedue i domini
puo permettere di sfruttare al meglio le informazioni disponibili.
Avvertiamo infine che in alcuni testi prevalentemente orientati al dominio
temporale, per sfruttare alcune proprieta dello spettro esso viene implicita-
mente definito usando le cosiddette junzioni generatrici delle autocovarianze
90 5 Processi stazionari

e autocorrelazioni, che sono formalmente serie di potenze nel campo comples-


so. La funzione generatrice delle autocovarianze G (z) (dove z e un numero
complesso) e definita da:

L
00

G (z) == r (h) zh
h=-oo

e la funzione generatrice delle autocorrelazioni R(z) da:

L
00

R(z) == r(h)zh.
h=-oo

Le funzioni generatrici coincidono con la densita spettrale (assoluta 0 norma-


lizzata) se poniamo z == ei)..:

e da questo legarne discendono le loro proprieta. Inoltre esse risultano uno


strumento comodo per sviluppare l'algebra formale dei modelli lineari, come
sara mostrato in seguito.

5.5 I filtri lineari

Abbiamo pili volte visto come anche nella teoria dei processi aleatori la ca-
pacita di trattare combinazioni lineari di variabili multivariate ci permetta di
ottenere importanti risultati. E naturale percio tentare di sviluppare metodi
analoghi quando si tratta di combinare linearmente tutte le variabili di un
processo. Questa idea porta alla teoria del filtraggio lineare di cui esporremo i
fondamenti. Un filtro lineare applicato a un processo stocastico {Xt } definisce
un nuovo processo {yt} in cui ogni variabile Ys , per ogni istante s intero e ot-
tenuta da una combinazione lineare delle {Xt , t intero}. II caso pili rilevante,
e che analizzeremo, e quello che Ys sia ottenuto come combinazione lineare
dei valori del processo attorno al tempo s, e che i pesi della combinazione
rimangano fissi (il filtro si dice in tal caso invariante nel tempo):

(5.17)

La sommatoria puo essere estesa a valori positivi e negativi di u; nel caso che
coinvolga solo i valori positivi 0 nulli, il filtro si dice fisicamente realizzabile,
poiche il calcolo di yt e possibile in funzione dei soli valori fino al tempo
t, X t - j , j == 0,1,2, .... In caso contrario il filtro e fisicamente irrealizzabile,
perche il calcolo del risultato all'istante t dipende dai valori futuri del processo
{Xt } . Nel caso fisicamente realizzabile, il filtro puo essere pensato come un
sistema, cioe una serie di operazioni complesse viste come un tutto unico, che
5.5 I filtri lineari 91

riceve a scadenze regolari dall'esterno una informazione X, (detta input) e


restituisce nello stesso istante un messaggio yt (detto output):

x, -t IFiltro l-t yt .
II filtro agisce come una scatola nera che conserva memoria delle informa-
zioni ricevute nel passato. La sommatoria nel filtro (5.17) puo essere anche
estesa fino a +00 e -00, rna in tal caso, per assicurarci che i valori di output
siano limitati, imporremo che la serie dei pesi sia assolutamente convergente:

Per semplificare l'esposizione supporremo sempre che i pesi C u siano definiti


per ogni u intero, ponendoli eventualmente uguali a zero, cosl che le sommato-
rie risulteranno sempre da -00 a 00, rna data l'assoluta convergenza potranno
essere scambiate di posta tra loro e con gli integrali. Infine nel caso partico-
lare (rna rilevante) che si verifichi Cu == c- u per ogni u, il filtro viene detto
simmetrico.
Analizzeremo adesso le proprieta del processo {Yi} che chiameremo anche
output del filtro 0, pili spesso, processo filtrato, in relazione alle proprieta del
processo {X t } (detto anche input 0 processo origine del filtro), assumendo che
{Xt} sia stazionario al secondo ordine con media E (X t) == J1x, funzione di
autocovarianza Cov (X t , X t+ h) == 1x (h), e densita spettrale Ix (,,\).
La media di {yt} si ottiene immediatamente:

E (Yt) = /Ly = E (L cuXt-u) = /Lx L C u

ed e quindi costante per ogni t. Per la funzione di autocovarianza dell'output


avremo:

Cov (Yt, Yt+h) = Cov ( ~ ~ cucvXt-uXt+h-V) =


== LLcuCv1x(h+u-v) ==1y(h). (5.18)
u v

Si conclude che anche Cov (yt, yt+h) dipende solo da h e quindi il processo
output {yt} e anch'esso stazionario al secondo ordine. La sua funzione di au-
tocovarianza dipende naturalmente da quell a dell'input, 1x (h) e dai pesi del
filtro {cu } , attraverso una doppia convoluzione; percio la struttura dell'auto-
covarianza di {yt} puo essere anche profondamente diversa da quella di {Xt } .
Ad esempio se {Xt} e rumore bianco con 1x (0) == 0- 2, 1x (h) == 0 per h i- 0, la
funzione di autocovarianza del processo filtrato e (sostituendo nella (5.18)):

2
1y (h) == 0- L CuCu+h h == 0,1,2, ...
u
92 5 Processi stazionari

Se ci poniamo adesso nel dominio frequenziale, l'effetto del filtraggio presenta


caratteristiche di maggiore semplicita, Vediamo infatti di calcolare la densita
spettrale del processo output {It}, che denoteremo con Jy(A):

Jy(A) == -1 "~ ,y(h)eiAh == -1~~~cucvlx(h+u-v)e


"" " iAh .
2K 2K
h h u v

Tutte le sommatorie sono da -00 a 00. Possiamo cambiare indici sostituendo


T== h + u - v ad h, tenendo conto che h == T - U + v:

fy (A) = 2~ L"( (T) e i AT L cue-


i AU
L cve
i AV
=
T U V

== Jx (A) L cue- i AU
== Jx (A) IH (A)1 .
2 (5.19)

La densita spettrale alla frequenza generica A di {It} e data dalla densita


spettrale alla stessa frequenza del processo input {Xt } moltiplicata per il
valore, a quella frequenza, del modulo al quadrato di una funzione pari alla
trasformata di Fourier dei pesi:

chiamata Junzione di trasjerimento oppure junzione di risposta di jrequenza


del filtro. Dunque mentre l'autocovarianza di {It} al ritardo h dipende da
quella che {Xt } presenta a tutti i ritardi, invece la densita spettrale di {yt}
alla frequenza A dipende solo da quella di {X t } alla medesima frequenza:
nel dominio frequenziale il filtraggio non introduce nessuna contaminazione 0
"miscela" .
II motivo di questa maggiore semplicita si comprende se cerchiamo di co-
struire una rappresentazione spettrale del processo filtrato {yt} andando a
sostituire la rappresentazione spettrale di {X t } nella formula del filtro (5.17):

L + L in: (A)

I:
yt = cuXt- u = /1y c« eiA(t-U)dZ
U u -n

i At
= /1y + e H (A) dZ (A) .

Vale ancora la decomposizione additiva in funzione delle frequenze, ma ora


la singola componente ciclica di frequenza A ha la forma e i At H (A) dZ (A).
Poiche H(A) e un numero complesso, separiamone parte immaginaria e reale
e scriviamola sotto forma di modulo e argomento: posta
H(A) == ReH(A) +ilmH(A)
1/ 2
R (A) == IH (A) I == { (Re H (A))2 + (1m H (A))2 } (5.20)

() (A) == arctan {ImH (A) / ReH (A)}


5.5 I filtri lineari 93

, ,

'1
0 ---
. 01
. 0
.. .
(a) (b) (c)

Fig. 5.7. Guadagni dei filtri : (a) passa basso; (b) passa alto; (c) passa banda

possiamo scrivere:

H (,X) = R (,X) cos [8 (,X)] + iR (,X) sin [8 (,X)] = R (,X) exp {i8 (,X) }

I:
e la rappresentazione spettrale divent a:

Y t-J.Ly = exp {i ['xt + 8 ('x )]} R ('x ) dZ ('x ) . (5.21)

La funzione R ('x) = IH('x )1 viene det ta guadagno del filt ro, la funzione 8('x)
viene det ta fase. Ogni compo nent e di fissata frequenza viene dunque modifi-
cat a moltipli cando l'ampiezza per il numero reale R ('x ), e intr oducend o nella
component e ciclica un a fase pari a 8('x). Resta valida la int erpretazione come
sovra pposizione di sinusoidi con ampiezza aleatoria e incorrelate. In sostanza il
filtraggio agisce separatamente su ciascuna componente ciclica , modificandone
la fasat ur a (la collocazione sull'asse temporale) at traverso la funzione di fase
8('x), e modificandon e l'am piezza mediante moltiplicazione per il valore R ('x ):
ne se~ue che la varianza della componente viene moltiplicat a per il quadra to
R (,X) . La varianza della componente di frequenza ,X in {Xd e f x (,X) , e allora
quella della analoga componente sara f y (,X) = R (,X)2 f x (,X) . Abb iamo cioe
ottenuto il risult ato (5.19). Ma l'aver ricavato una rap presentazione spet t rale
per Yi ha evidenziato anche che nell'operazione di filt raggio ciascuna compo-
nente ciclica subisce uno sfasamento sull'asse tempora le, percio i massimi (e i
minimi) delle ciclicita in {Xd risulteranno in {Yi } spostati all'indiet ro di un
ritardo pari a 8('x)/'x .
II filtraggio quindi confonde i punti di svolta, a meno che non sia 8('x) =
0, rna per avere l'annullament o della fase (si veda la (5.20)) la funzione di
trasferimento deve essere reale: cio avviene quando il filtro esimmet rico poiche
in tal caso :
L cue L
00

= Co + 2
iUA
H (,X) = Cu cos (u'x ) .
u= l
P urt ropp o in questo caso i coefficienti con indice u negat ivo non possono
essere t utti nulli. Ne concludiamo che i filtri fisicamente realizzabili com-
portano necessari amente uno sfasament o, perche hann o funzioni di fase non
ident icamente nulle.
II nome di filtro deriva dalla capacita di attenuar e la densita spet trale ad
a!cune frequenze, moltiplicand ola per valori del guadag no vicini a zero , e cioe
94 5 Processi stazionari

filtrare alcune bande di frequenza. Un filtro che abbia una funzione di gua-
dagno del tipo rappresentato in Fig. 5.7a viene chiamato passa basso poiche
preserva la densita spettrale aIle frequenze minori di w (basse frequenze) e an-
nulla il contributo delle frequenze superiori. Per un motivo analogo un filtro
che abbia un guadagno del tipo illustrato in Fig. 5.7b viene chiamato passa
alto, e quello della Fig. 5.7c si chiama passa banda: lascia passare nell'output
soltanto le componenti di frequenza compresa tra ,X e w. Va osservato che gli
andamenti riportati nella Fig. 5.7 sono puramente ipotetici e irraggiungibili,
infatti la funzione di trasferimento e comunque una combinazione lineare di
esponenziali complesse e quindi il guadagno e una funzione continua di ,X che
tende ad avere un andamento oscillante.
La struttura particolarmente semplice dei risultati nel dominio frequenziale
permette di analizzare facilmente, in questo dominio, anche il caso che si
vogliano applicare diversi filtri lineari in sequenza (0 come si dice in cascata).
Consideriamo cioe, oltre al processo {yt} originato da {Xt } con il filtro {cu } :

anche il processo {Zt} ottenuto da {yt} filtrando con pesi {du } :

z, ~ L dvyt-v ~ L L dvcuXt-u-v .
v v u

Se indichiamo con HI (,X) ~ Ecue-i>..u e H 2 (,X) ~ Edve-i>..v le due funzioni di


trasferimento, con R 1(,X), R2('x) e 01(,X), 02('x) i rispettivi guadagni e fasi, si
ricava facilmente che l'applicazione del doppio filtraggio modifica nel passag-
gio da {Xt } a {Zt}, ogni componente ciclica di frequenza ,X moltiplicandone
l'ampiezza per R1('x)R2('x) e sfasandola con una fase pari a 01('x) + 02('x).
Percio la densita spettrale di {Zt} e R 1(,X)2 R 2(,X )2fx('x). In sostanza, nell'ap-
plicare in cascata pili filtri, gli effetti sulle ampiezze si moltiplicano e quelli
sulle fasi si sommano.
Esempio 5.3. Per chiarire meglio gli effetti dei filtri consideriamo un input
deterministico costituito solo dalla combinazione lineare di due sinusoidi:

x, = 5 cos (1ft) + 10 cos { ~ (t - 1)} .


La prima componente ha frequenza 1r, periodo 2 e oscilla tra -5 e +5, l'altra
ha frequenza 1r/ 4, periodo pari a 8, ampiezza 10 e massimo in t~l (si veda
Fig. 5.8a). Consideriamo il filtro:

yt ~ Xt- 2 + X t +2 .

Esso e unfiltro simmetrico con H (,X) ~ e- i 2 >.. + ei 2>.. ~ 2 cos 2'x. Quindi, per
,X ~ 1r, H(1r) ~ 2, e per ,X ~ 1r/4, H(1r/4) ~ 2cos1r/2 ~ 0, la fase e nulla
perchc il filtro e simmetrico. Ne segue che il filtro riproduce esattamente la
prima componente moltiplicata per 2 (Fig. 5.8b).
5.6 Operatori lineari 95

Vediamo adesso un semplice filtro asimmetrico:

Poiche CI ~ V2, C-2 ~ 2 avremo:

H (A) = V2e- i >' + 2ei 2 >' = (V2COSA + 2cos2A) - i (V2sinA - 2sin2A) .


Sostituendo a A il valore 1r e il valore 1r/ 4, abbiamo:

Re { H (1r)} ~ V2 cos 1r + 2 cos 21r ~ 2 - V2


1m {H (1r)} ~ 2 sin 21r - V2 sin 1r ~ 0
Re { H ((1r /4) )} ~ V2 cos(1r/ 4) + 2 cos( 1r/2) ~ 1
1m {H ((1r/ 4))} ~ 2 sin( 1r/2) - V2 sin( 1r/ 4) ~ 1
da cui:
IH (1r)1 ~ 2- V2; IH (i) I ~ V2
o(1r) ~ arctan(O) ~ 0; 0 (1r/ 4) ~ arctan(l) ~ 1r/ 4 .
In sostanza la serie ecostituita dalla somma della prima componente moltipli-
cata per (2 - V2) e la seconda moltiplicata per V2, rna quest'ultima e sfasata
sull'asse temporale di una quantita pari a O(A) / A per A ~ 1r/ 4: 0 (i) / (i) ~ 1
istante. Nella Fig. 5.8c e riportato l'output del filtro.

5.6 Operatori lineari


Ricordiamo che un operatore lineare su uno spazio vettoriale V e una appli-
cazione °:
V ---+ V tale che per ogni coppia di elementi VI, V2 EVe per ogni
°
coppia di numeri reali nl e n2 si abbia (nl VI + n2 V2 ) ~ »,» (VI) + n2 0 (V2 ) .
Alcuni operatori lineari vengono diffusamente usati nell'analisi delle se-
rie temporali perche permettono di conseguire semplificazioni notevoli; in
particolare si usano gli operatori:

ritardo B tale che BXt ~ Xt- I

anticipo F tale che FXt ~ X t +1


differenza \7 tale che \7Xt ~ Xt - Xt - I .

Data la linearita degli operatori, si puo dimostrare che essi soddisfano tutte
le usuali regole dell'algebra, percio si puo operare su di essi come se fossero
variabili matematiche ottenendo risultati che hanno senso. Vediamo alcuni
esempi:
96 5 Processi stazionari

20 , . . - - - - - - - - - - - - - - - - -

10

O-+----+-----I---l~-+-----I----+-fl#~+----K-~--+--~-\----I-~f------+-~-#fI---J,r------l

-10

-20 - ' - - - - - - - - - - - - - - - - - -

(a)
I--campen. per. 2 - - .. 'campen. per. 8 --serie 1
15 - , - - - - - - - - - - - - - - - - - - - - - - - .
10
5
O-+---+----f---lr-----+---+----t----I----f---+--+---+----+----+-+---r---+-----+--f---+---f------t---f---t----f---ll--l

-5
-10
-15 - - & . . - - - - - - - - - - - - - - - - - - - - '

(b) L-
I-filtro 1 1
------=============::::::~ ______l

20 - , - - - - - - - - - - - - - - - - - - - - - - ,

10

O-+----\~~~~rr--+------+-----,~---+--~~~-.f---llIHo----+~--A-fl'--'I...--+-~

-10
-20 .....1.-- ----1

1--10 camp·· .. '2° camp. sfasata --fi~ro21

Fig. 5.8. (a) serie deterministica periodica; (b) output filtro 1; (c) output filtro 2

Se:

allora:

Aneara:
\7 X, ~ X, - X t - 1 ~ (1 - B) X,
5.6 Operatori lineari 97

\7 k X; == (1- B) k X, == Z:: ~(k)


. (-B) k-j X; == ~(k)
Z:: . (-1) k-j X t - k+ j .
j=O J j=O J
Possiamo dare un significato anche agli inversi degli operatori, ponendo
B- 1 == P, di modo che B- 1X, == X t + 1, B- kX, == p kX; == X t + k, e inoltre
B- 1 F == p-1 B == I (l'operatore identita che non modifica il suo operando).
Per l'inverso dell'operatore differenza \7, potremmo invocare formalmente i
risultati per le serie geometriche con ragione in modulo minore di 1:

1 1 2 ~.
\7- == 1 _ B == 1 + B + B + ... == ~ BJ .
j=O

In realta anche se questo sviluppo ha una validita formale le cose non sono
cosl semplici. Consideriamo l'operazione yt == X, - aXt - 1 == (1 - aB) X, e
cerchiamo di risalire dalla yt alla X, sostituendo ripetutamente: otterremo

X, == yt + aXt - 1 == yt + a (yt-1 + aXt - 2 ) == yt + ayt-1 + a2X t - 2 ==


== ... == yt + ayt-1 + a2yt_2 + ... + akyt_k + ak+ 1X t - k- 1 .
L'espressione a destra non contiene solo valori {yt} perche compare il termine
ak+ 1X t-k-1. Se l'influenza di questo termine puo essere resa trascurabile allo-
ra sara possibile esprimere X, in funzione delle {yt} e quindi avremo costruito
l'operatore inverso: rna cia e possibile solo se lal < 1, di modo che a k + 1 --* 0
al crescere di k. Pertanto se \a\ < 1 possiamo scrivere:

L akB k
00

(1 - aB)-l == 1 + aB + a2B 2 + ... == lal < 1.


k=O

In caso contrario, non epossibile esprimere {X t } in funzione lineare delle {yt}


e quindi l'operatore (1 - aB) non ammette inverso per lal ~ 1.
Dati due polinomi nell'operatore ritardo a (B) == ~ auBu, f3 (B) ==
~ f3u B u, se a (B) X, == f3 (B) X, per ogni possibile X, allora au == f3u per
ogni u.
Con la notazione basata sugli operatori un filtro lineare puo essere espresso
nel seguente modo:

dove C(B) e un polinomio (0 una serie di potenze) nell'operatore B, ed e in re-


lazione con la funzione di trasferimento H(A) del filtro poiche vale ovviamente
la:

L'ultima proprieta menzionata sui polinomi nell'operatore assicura che se due


filtri, con 10 stesso input, forniscono 10 stesso processo in output, essi hanno
98 5 Processi stazionari

eguali coefficienti. Pili delicato e il problema dell'esistenza del filtro inverso,


cioe se sia possibile risalire dall'output {yt} all'input {Xt } attraverso ancora
un filtro lineare. Se questo filtro esiste, 10 indicheremo per coerenza con:

X, == C- 1 (B) yt .

Si dimostra che questo filtro esiste se le radici deIl'equazione nel campo com-
plesso C(z) == 0 hanno tutte modulo maggiore di uno (si dice che sono al
di fuori del cerchio unitario). Senza dilungarsi in una dimostrazione rigorosa,
possiamo spiegarci questo risultato nel caso di polinomio di ordine finito, con
radici distinte PI, P2, ..., PP diverse da zero:

C (B) == Co + CI B + ... + cpBP == do (PI - B) (P2 - B) ... (pp - B) ==

= do ( I}Pj) (1 - ~) ( 1 - ~) ... ( 1 - ~)
dove do == (-l)Pc p . Se Ipjl > 1 per ogni j == l, ... ,p, abbiamo visto che si
possono definire gli operatori inversi:

e quindi esiste il polinomio inverso che si ottiene applicandoli in sequenza:

1 ---B
--B
1--1--
1 -'" 1 -
--B
I--
[
do( IIpj )]-1 == C- 1
(B) .
PI P2 Pp

In conclusione, se le radici dell'equazione C(z) == 0 hanno tutte modulo


maggiore di uno, l'operatore C(B) ammette inverso e quindi in una equa-
zione del tipo yt == C(B)Xt si possono "dividere" ambo i membri ottenendo
X, == C- 1 (B) yt. Se C(B) ha grado finito, C- 1 (B) non 10 avra e sara una
serie di potenze.

5.7 I filtri aIle differenze per la depurazione di una


componente ciclica
Nell'ambito dei filtri lineari, quelli che corrispondono all'operatore differenza
assumono una importanza del tutto particolare e una grande rilevanza nei
modelli rappresentativi di serie temporali, tali da giustificare una analisi pili
accurata. II filtro alle differenze k-esime e definito da:

(5.22)

L' effetto caratteristico di questo filtro sta nella sua natura di differenza: yt
registra l'incremento nel passare da un dato a quello che 10 segue di k istanti.
5.7 I filtri alle differenze per la depurazione di una componente ciclica 99

Essendo una differenza (un saldo) non risente di fattori che influenzino nel
medesimo modo i dati che si trovano a distanza temporale k: in altri termi-
ni, il risultato del filtro non risente di componenti periodiche di periodo k
eventualmente presenti in Xt. Infatti ci si puo facilmente convincere che se la
serie X, fosse periodica di periodo k, la serie filtrata yt == X, - X t - k sarebbe
costantemente uguale a zero.
Se il processo si puo pensare come la somma di due componenti: X, ==
Z, + Pi, dove {Zt} e stazionario con misura spettrale assolutamente continua,
e Pi e un polinomio trigonometrico che rappresenta una componente ciclica
di periodo k:

applicando il filtro alle differenze k-esime si ottiene:

in quanto Pt == Pt - k . Percio il processo filtrato ha misura spettrale assoluta-


mente continua, in altri termini ha eliminato il salto nello spettro.
In conclusione l'applicazione di un filtro alle differenze permette di elimi-
nare l'influenza di una singola componente ciclica di periodo noto e fissato.
Questo ne giustifica ad esempio l'uso nella destagionalizzazione, come vedre-
mo nella parte relativa ai modelli rappresentativi. Tuttavia, la rimozione della
ciclicita di periodo k non e il solo effetto indotto dal filtro alle differenze k-
esime: analizziamo la situazione per mezzo della teoria del filtraggio. Possiamo
scrivere:

con Co == 1, Ck == -1, Cj == 0, j i- 0, k
e quindi per le autocovarianze si ha:

(5.23)

L'autocovarianza dell'output e una combinazione lineare (con somma dei pesi


uguale a zero) di quelle dell'input con una risonanza di k ritardi in avanti
e indietro. Anche dalla (5.23) si puo argomentare che se il processo avesse
una forte periodiclta di periodo k allora le 1x(') rimarrebbero pressappoco
uguali sommando (0 sottraendo) al lag un multiplo del periodo, e quindi le
autocovarianze dell'output diventerebbero all'incirca nulle.
La funzione di trasferimento risulta:

H (,\) == Co + Cke-iAk == 1 - e-
i Ak
== (1 - cos'\k) + i sin'\k
e pertanto per il guadagno e la fase si ottiene:

R
2
(,\) == H (,\) 2 == (1 - cos '\k) 2 + sin 2 ,\k == 2 - 2 cos'\k ==
I 1

== 4 sin 2 (,\k/2) (5.24)


100 5 Processi stazionari

-2 -l......- --'
Jt/4 Jt/2 3Jt/4

(a) (b)

Fig. 5.9. Filtro aIle differenze ottave: (a) guadagno; (b) fase

') sin Ak } 2 sin (Ak/2) cos (Ak/2)


() ( /\ == arctan { == arctan - - - -2- - - - -
1 - cos Ak 2 sin (Ak/2)
Ak 1r Ak
== arctan cot - == - - - . (5.25)
2 2 2
L' andamento del guadagno e sinusoidale oscillando tra il valore zero se A e
2;
multiplo di 21r/ k e il valore 4 per frequenze intermedie del tipo ~ + j. La fase
non e mai nulla (poiche il filtro non e simmetrico) ed ha un andamento lineare
rispetto a A. Un esempio e riportato per k == 8 in Fig. 5.9 (da tener presente
che la fase, essendo una arcotangente, e determinata a meno di multipli di 1r).
In conclusione nel processo output saranno attenuate le componenti cicli-
che di frequenza attorno a 21r/ k e alle sue armoniche, corrispondenti ai periodi
k e suoi sottomultipli, mentre viene amplificato l'effetto delle componenti di
frequenze intermedie (fino a raddoppiare l'ampiezza), pertanto oltre agli effet-
ti propri del filtro consistenti nel rimuovere le ciclicita di periodo k, vengono
introdotti effetti "impropri" 0 "spuri" che possono creare nell'output compor-
tamenti ciclici artificiali in corrispondenza alle frequenze intermedie. La fase
e sempre diversa da zero e quindi i punti di svolta delle ciclicita dell'input si
ritroveranno spostati nell'output. E importante notare infine come il guada-
gno si azzeri per A == 0, e abbia quindi valori molto piccoli in corrispondenza
a frequenze molto basse: percio i filtri alle differenze hanno un effetto anche
sulle componenti di periodicita molto grande (di lungo periodo), attenuan-
done fortemente l'importanza. Questa considerazione aiuta a comprendere il
comportamento del tutto particolare del filtro alle differenze k-esime quan-
do si ponga k == 1; in questo caso (poiche la periodicita minima discernibile
in processi a parametro discreto e pari a 2) l'effetto del filtro non e quello
di rimuovere una componente periodica, rna conserva invece l'effetto di al-
leggerimento delle componenti di periodo molto grande. La forma del filtro
e:

ovvero consiste nell'incremento tra un dato e il successivo.


Questo filtro consente in via di principio di rimuovere un trend lineare, cioe
un andamento della media in funzione lineare del tempo. Infatti supponiamo
5.7 I filtri alle differenze per la depurazione di una componente ciclica 101

che E(Xt ) == a+bt, mentre Z; == X, - (a+bt) eun processo stazionario; allora


l'output del filtro e:

yt == X, - X t - 1 == Z, - Zt-l +b
quindi un proeesso aneora stazionario con media costante pari a b. Tuttavia,
anche in questo caso l'effetto del filtro non si limita alla stabilizzazione della
media, rna si estende ad altre caratteristiche. II suo guadagno e la fase si
ottengono dalle formule precedenti ponendo k == 1:

1r A
() (A) == - - - .
2 2
II guadagno e una funzione crescente e al variare di A tra 0 e 1r passa dal
valore 0 a 4 (raggiungendo 1 a 1r /3). In definitiva il filtro alle differenze prime
abbatte tutte le ciclicita con periodo grande, ed esalta queIle con periodicita
piccola, arrivando a raddoppiare l'ampiezza per le frequenze pili vicine a 1r
(corrispondenti a periodi poco superiori a 2).
Per concludere, ricordiamo che l'effetto dell'applicazione di pili filtri in
sequenza e quello di moltiplicare i guadagni e sommare le fasi. A volte i filtri
alle differenze vengono applicati ripetutamente:

(5.26)

II guadagno di questo filtro e la potenza d-esima di quello alle differenze:

percio l'effetto e ancora pili energico poiche per le frequenze per cui R(A)
e inferiore a uno, Rd(A) e ancora pili piccolo, mentre in corrispondenza allc
frequenze per Ie quali R(A) e superiore a uno, Rd(A) e ancora pili grande. La
fase del filtro e d volte quell a originale. Si verifica facilmente che l'applicazione
iterata d volte del filtro alle differenze prime permette di rimuovere un trend
in cui la media sia un polinomio di grado d nel tempo.
Una semplice generalizzazione dei filtri alle differenze, che permette di
controllarne meglio l'energia filtrante, ecostituita dai cosiddetti filtri alle quasi
differenze in cui si sottrae solo una quota a compresa tra 0 e 1, del dato
passato:
yt == X t - aXt-k .
Ripercorrendo quanto abbiamo visto precedentemente, si conclude che questo
filtro ha una funzione di trasferimento pari a:

H (A) == 1 - ae i k A == (1 - a cos Ak) - io. sin Ak


102 5 Processi stazionari

e conseguentemente il guadagno risulta:

R (A)2 == IH (A) 2 == 1 + o? cos2 kA + o? sin 2 kA -


1 2Q cos kA ==
== 1 + Q2 - 2QcoskA
che ha un andamento analogo, con i massimi e minimi posizionati alle stesse
ascisse, del filtro alle differenze (Fig. 5.9a) rna i suoi valori oscillano tra (1-Q)2
e (1+Q)2 invece che tra 0 e 4, e quindi al decrescere di Q si puo diminuire l'ab-
battimento delle componenti periodiche di periodo k, e contemporaneamente
diventa meno pronunciata l'esaltazione che il filtro apporta all'ampiezza delle
componenti di frequenze intermedie. Si noti pero che i filtri alle quasi diffe-
renze non godono, diversamente da quelli alle differenze, della proprieta di
rimuovere completamente componenti cicliche, ne trend nella media.

5.8 Relazioni tra processi stazionari

Considereremo ora l'analisi di pili processi stocastici stazionari definiti sullo


stesso insieme parametrico, per studiarne Ie relazioni nei due domini tempora-
le e frequenziale. Anche in questo caso ci limiteremo a considerare Ie relazioni
di dipendenza lineare tra processi. Cominciamo dallo studio di una coppia
di processi, ovvero da un processo bivariato {Xt , yt}. Le sue caratteristiche
aleatorie sono definite dalle distribuzioni di probabilita congiunte, rna queste
potrebbero non essere stazionarie anche se 10 sana singolarmente Ie distribu-
zioni di {Xt } e que lle di {yt}. Se ci limitiamo a richiedere la stazionarieta
congiunta al secondo ordine, cioe la omogeneita dei momenti secondi, bisogna
verificare che anche i momenti incrociati del tipo Cov{Xs , yt} dipendano solo
da (t - s).
Un processo stocastico bivariato {Xt , yt} si dice stazionario al secondo
ordine se valgono Ie proprieta:

Vt (5.27)

Cov (X t , X t +h) == 1x (h) Cov (yt, yt+h) == 1y (h) Vt,h (5.28)


Cov (Xt , yt+h) == 1xy (h) Vt, h . (5.29)
L'ultima proprieta definisce una funzione di variabile intera, 1xy (h) detta fun-
zione di covarianza incrociata 0 cross- covarianza. E da tenere in considerazio-
ne che, anche se usiamo 10 stesso simbolo, la funzione di cross-covarianza ha
proprieta molto diverse dalle autocovarianze, in quanto prima di tutto non e
una funzione pari:

inoltre non e semidefinita positiva, poiche la forma quadratica costruita sulle


cross-covarianze: EiEjCiCj 1xy (hi - h j) puo avere segno qualunque, e infine
5.8 Relazioni tra processi stazionari 103

non ha massimo per h == 0 poiche puo raggiungere il suo valore massimo in


corrispondenza a un ritardo qualsiasi. Ne segue che ad esempio il grafico della
cross-covarianza va disegnato per ritardi sia positivi sia negativi, e inoltre se
si vogliono confrontare Ie covarianze tra diverse coppie di processi va costruito
un nuovo indice relativo analogo al coefficiente di correlazione. In genere si
definisce la funzione di correlazione incrociata 0 cross- correlazione nel modo
seguente:

- Cov (Xt , yt+h) 1xy (h)


r xy (h) - -----;=======~ (5.30)
JVar (Xt ) Var (yt+h)

La funzione r xy (h) e proporzionale alla 1xy (h) (e quindi non e pari) e in base
alla disuguaglianza di Schwartz si ha Ir xy (h)\ < 1. In questo caso pero rxy (0)
non e pari a uno, rna pari alla correlazione tra Ie variabili contemporanee X;
e yt dei due processi.
L'interpretazione che si puo dare alla funzione di cross-correlazione deriva
dalla sua natura di misura delle relazioni lineari tra le variabili dei due processi
a una determinata distanza temporale. Se non esiste alcuna dipendenza lineare
tra Ie variabili dei due processi, allora sara r xy (h) == 1xy (h) == 0 per ogni h
(anche per h == 0). In caso contrario il grafico dei valori detto anche cross-
correlogramma, ci indichera la concordanza (0 discordanza) tra gli elementi di
un processo e quelli delI'altro: spesso ad esempio si va a cercare qual eil ritardo
che corrisponde alla cross-correlazione di valore assoluto massimo. Se essa e
abbastanza elevata, il ritardo puo essere considerato come una indicazione
dello sfasamento temporale prevalente tra i due processi, ed aiuta a capire
se uno dei due tende ad anticipare il comportamento dell'altro, fattore molto
importante nel campo della previsione.
Lo studio delle relazioni tra i due processi puo essere sviluppato anche
nel dominio delle frequenze poiche esistono rappresentazioni spettrali anche
per processi bivariati. Ricordiamo che Ie rappresentazioni spettrali univariate
dei processi {Xt } e {yt} descrivono ciascuno dei due come sovrapposizione di
componenti cicliche di frequenza compresa tra 0 e 7[, con ampiezze aleatorie
incorrelate tra loro per frequenze diverse:

X, - J1x ==
J e i>..t dZx (.\)

yt - My ==
J ei>..t dZ y (.\)

E{dZx (.\) dZ x (w)} == {oIx ()


.\ d.\

E{ az; (.\) dZ y (w)} == {oIy(.\)d.\


104 5 Processi stazionari

Ma sono incorrelate anche le ampiezze delle componenti di {Xt } con quelle


delle componenti di {yt}? La risposta e affermativa poiche si puo dimostrare
che:
E{dZx (A) (w)} == 0 sz;
Quindi le relazioni lineari tra {Xt } e {yt} si esercitano soltanto tra Ie com-
ponenti di egual frequenza, e la loro covarianza definisce una nuova densita
detta densita spettrale incrociata:

La funzione di densita spettrale incrociata (0 cross-spettrale) f xy (A) pero, ha


valori complessi e si rappresenta separando le parti reale e immaginaria:

fxy (A) == C (A) + is (A) (5.31)

dove C(A) viene chiamata densita cospettrale (ed e pari) mentre S(A) viene
detta densita spettrale di quadratura (ed e dispari). II loro reciproco ruolo si
comprende meglio partendo dalla rappresentazione spettrale in termini reali
dei processi:

x, - /-Lx = J [cos('xt)dUx (,X) + sin('xt)dVx (,X)]

yt - /-Ly = J [cos('xt)dUy (,X) + sin('xt)dVy (,X)] .


Ciascuna componente ciclica di frequenza A (compresa tra 0 e 1r) e costituita
da un termine coseno e un termine seno (che vengana chiarnati in quadra-
tura perche hanno andamento analogo rna sfasato di un angola retto). La
covarianza tra le parti coseno e uguale a quella tra le parti seno:

E{ dUx (A) .u.; (A)} == E{ dVx (A) dVy (A)} == 2c (A)


rnentre la covarianza tra le parti in quadratura, cioe un coseno per un seno e
viceversa, e pari alla densita di quadratura:

E{ au, (A) dVy (A)} == E{ dVx (A) dUy (A)} == 2s (A) .


In corrispondenza a questa rappresentazione spettrale, se ne puo ricavare una

1:
conseguente per le cross-covarianze:

"(xy (h) = ei>.h fxy (,X) d,X = 21" [cos ('xh) c (,X) + sin ('xh) s (,X)] d,X
e per la covarianza tra Ie due variabili X; e yt:

Cov (Xt , yt) = "(xy (0) = 21" c (,X) d,X .

Da questa interpretazione si traggono subito alcune utili conclusioni. Ad


esempio:
5.8 Relazioni tra processi stazionari 105

Se i due processi {Xt} e {yt} sono completamente incorrelati, cioe


lXY(h) == OVh , allora c('x) == s('x) == O.
- Se consideriamo il processo somma S, == X, + yt, la sua componente
di frequenza ,X e ei>..t {dZx (,X) + dZy (,X)} percio la sua densita spettrale
risulta:

!x+y (,\) = E {dZx (,\) + dZ y (,\)} { dZ x (,\) + sz; (,\)} =


== fx('x) + fy('x) + 2c('x) .
- Se yt == X; allora fxy('x) == fx('x) e quindi c('x) == fx('x) e s('x) == O.
In maniera analoga al caso univariato, attraverso una trasformazione in-
versa si possono ottenere le espressioni delle funzioni spettrali in termini delle
covarianze incrociate:

1 'LJ
fxy (,X) == 21r " lXY (h) ei>"h (5.32)
h

e separando parti reali e immaginarie si ottiene anche:

(5.33)

1
L hxy (h) - 'Yxy (-h)} sin,\h .
00

s (,\) = 21f (5.34)


h=l

La difficolta di trattare con funzioni complesse, e la considerazione che la


dipendenza complessiva si esplicita attraverso Ie sole relazioni Iineari tra com-
ponenti di egual frequenza, consiglia di usare una diversa schematizzazione,
in termini di regressione lineare tra componenti di egual frequenza. Fissato '\,
la covarianza tra le ampiezze e fxy('\) , mentre come gia sappiamo le rispettive
varianze sono pari alle densita spettrali univariate f x (,X) e f y (,\); pertanto Ia
correlazione tra le due componenti si calcola facilmente, e il suo quadrato e
detto funzione di coerenza:
2
K (,\) = I!xy (,\) 1
(5.35)
fx (,\) fy (,\) .

Si noti che Kxy('x) == Kyx('x), percio non abbiamo scritto gli indici. La coe-
renza e una funzione pari, a valori compresi tra 0 e 1, e fornisce la correlazione
(al quadrato) tra Ie ampiezze delle componenti di frequenza ,X nei due pro-
cessio Se K('x) == 0 per ogni ,X tra 0 e 1r allora i due processi sono totalmente
incorrelati e lXY (h) == 0 per ogni h. All'altro estremo se K('x) == 1 per ogni
,X vuol dire che c'e una perfetta relazione lineare tra le componenti cicliche di
ogni frequenza nei due processi. Perche cia accada non e necessario che i due
processi abbiano valori uguali 0 proporzionali, rna e sufficiente che l'uno sia
un filtro lineare deIl'altro:
106 5 Processi stazionari

come si puo controllare facilmente: in effetti tutta l'analisi spettrale bivariata


puo essere svolta studiando una regressione lineare dinamica delle {Xt } sulla
¥t, come e illustrato nel prossimo paragrafo.
Dal punto di vista interpretativo, nel dominio frequenziale si esamina il
grafico della funzione di coerenza per individuare quelle ciclicita le cui com-
ponenti hanno la correlazione pili rilevante tra i due processi (cioe le frequenze
,X alle quali K (,X) e pili vicina ad uno). Tra queste, pero si prendono in consi-
derazione solo le frequenze alle quali ambedue i processi abbiano una densita
spettrale di valore rilevante: in tal caso si puo dedurre come le associate com-
ponenti periodiche, di importanza non trascurabile in tutti e due i processi,
siano legate linearmente. Un ulteriore passo consiste nel domandarsi se tali
componenti di egual frequenza nei due processi siano sfasate (in altri termi-
ni, se i loro punti di massimo si realizzano contemporaneamente oppure no);
una risposta e fornita dalla cosiddetta funzione di fase, pari all'argomento del
numero complesso Jxy('x), cioe 'Pxy (,X) == arctan {s (,X) / c (,X)}; essa va inter-
pretata nel modo usuale, cioe 10 sfasamento temporale misurato sull'asse dei
tempi tra le due componenti si valuta pari a 'Pxy (,X) / ,X.
I metodi che abbiamo introdotto per processi bivariati si possono gene-
ralizzare ai processi multivariati. Sia X (t) == {Xl (t) ,X2 (t) , ..., X m (t)}' un
processo stocastico multivariato; esso si dice stazionario al secondo ordine se
ha le medie costanti e tutte Ie covarianze tra variabili sfasate dipendono solo
dal ritardo, cioe:
E{Xj (t)} == Ilj Vt
Cov {Xi (t), X j (t + h)} == "'Iij (h) Vt, h, i,j .
In tal caso, posta Il == (JL1, JL2, ..., JLm)' possiamo definire le matrici di cross-
covarianza:

r (h) == E {[X(t) - JL][X(t + h) - JLJ'} == (("'Iij (h))) (5.36)

che hanno la proprieta r (h) == r (- h)'. Le matrici di cross-covarianza non


sono simmetriche, eccettuata r(O) che e la matrice di dispersione di X(t), e
quindi e anche definita positiva. Si definisce anche la matrice delle densita
spettrali, che ha sulla diagonale principale le densita spettrali dei processi
univariati e agli altri posti Ie densita spettrali incrociate:

J1 (,X) J12 (,X) JIm (,X)


J21 (,X) J2 (,X) J2m (,X)
F (,X) == (5.37)
Im1 (,\) 1m2 (,\) ... 1m (,\)
Percio la matrice F('\) e complessa, rna ha la diagonale reale. Poiche come si
controlla facilmente, lij (,\) == Iji (,\) == Iji (-,\), trasponendo la matrice se ne
ottiene la complessa coniugata: F (,X) == F (,X)', matrici con questa proprieta
5.9 Sistemi lineari bivariati 107

vengono dette Hermitiane. Inoltre F (,X)' == F (-,X). Si dimostra anche che


F('x) e semidefinita positiva per ogni 'x.
Gli elementi di r(h) sono termine a termine, le trasformate di Fourier degli

I:
elementi di F (,X), percio si scrive anche:

r (h) = e-i>.h F p.) dA (5.38)

F(A) = ~ ~
27f L.-t
r(h)ei>'h. (5.39)
h=-oo

Per ottenere I'analogo delle correlazioni incrociate, cioe Ia matrice R(h) che ha
al posta (i,j) l'elemento rij (h) == 1ij (h) / V1ii (0) 1jj (0), si definisce prima
Ia matrice diagonale delle varianze:

111 (0) 0 o
D==
o 122 (0) ... o
o 0 ... 1mm (0)
e quella dei reciproci degli scarti quadratici medi:

1/ V111 (0) 0 0
S == D- 1 / 2 == 0 1/ V122 (0) ... 0

o o ... I/V1mm (0)


con la quale otteniamo:
R(h) == Sr(h)S.
Anche per le matrici di cross-correlazione vale R (h) == R (-h)'.

5.9 Sistemi lineari bivariati


Cost come 10 studio della relazione lineare tra due variabili aleatorie puo essere
impostato in termini di regressione lineare dell'una sull'altra, anche l'anali-
si delle relazioni lineari tra due processi puo essere inquadrata in un modo
concettualmente analogo che potremmo chiamare di regressione dinamica: il
processo {yt} viene pensato come risultato di un filtro Iineare applicato ad
{Xt}, a cui viene sommata una componente di errore, assunta indipendente
da {Xt} e a media nulla:

(5.40)
u

La situazione schematizzata dalla (5.40) viene detta sistema lineare bivariato,


e anche in questo caso si parla di sistemi fisicamente realizzabili se bu == 0 per
108 5 Processi stazionari

valori negativi di u. Le caratteristiche (di primo e secondo ordine) di {yt} sono


e
percio determinate da quelle di {Xt } e dai pesi {bu } che quindi logico siano
legati alle covarianze incrociate. Supponiamo per semplicita che E(Xt ) == 0 e
indichiamo con re(h), fe(h) l'autocovarianza e la densita spettrale del processo
{et}, che e supposto stazionario al secondo ordine (rna non necessariamente
un rumore bianco). Quanto all'indipendenza tra {Xt} ed {et}, ci e sufficiente
assumere che Cov {Xt, et+h} == 0 per ogni h.
Le proprieta del processo {yt} si ottengono facilmente in modo analogo a
quanto abbiamo gia visto per i filtri lineari:

u
(5.41)

"/y (h) = Cov (Yt, Yt+h) = Cov { ~ buXt- u + et, ~ bvXt+h-v + et+h } =
== LLbubvrx(h+u-v)+re(h).
u v
(5.42)
In particolare, se {Xt} ed {et} sono ambedue rumore bianco, rxy (h) ==
bh Var (X t ) . Nel dominio delle frequenze si ottiene invece, usando le (5.41)
e (5.42) e ponendo B (A) == L bue- iuA:

fxy (A) == -1 L rxy (h) eiAh == -1 L L bur x (h - u) eiAh ==


2K 2K
h h u

== B(A)fx(A) (5.43)

1 L L L bubvrx(h+u-v)e iAh
fy(A)==-
2K
+-1 L
2K
re(h)e iAh ==
h u v h

== IB (A) 2 fx (A) + I; (A) .


1 (5.44)
e
Pertanto la funzione di trasferimento B (A) interpretabile come il coefficiente
di regressione della componente di frequenza A di {Xt } sulla omologa com-
ponente di {yt}, e 10 sfasamento e dato dall'argomento del numero complesso
B(A):

arctan {1m B (A) } {1m fxy(A) } { (A) }


ReB (,X) =arctan Refxy('x) =arctan c('x)
S

gia definita come la funzione di fase <.pxy del processo bivariato. Dato che {yt}
ela somma di due processi addendi indipendenti, la densita spettrale di {yt} e
5.9 Sistemi lineari bivariati 109

la somma di due densita spettrali, quella del filtro lineare e quella dell' errore,
come si vede dalla (5.44). Analogamente al coefficiente di determinazione R 2
nella regressione, possiamo definire un coefficiente che misura quanta parte
della varianza di ciascuna componente ciclica di {yt} e da attribuire all'effetto
di {Xt}, e quanta all'errore, rapportando la parte spiegata IB (A)1 fx (A) al
2

totale fy(A), e utilizzando la (5.43) si ha:

IB (A) 1
2
fx (A) Ifxy (A)1
2

fy (A) fx (A) fy (A)

Percio la coerenza e interpretabile anche come misura R 2 nella regressione tra


componenti cicliche di frequenza A. Dalla (5.44) si ottiene anche:

fe (A) == {I - K (A)} fy (A) . (5.45)

Percio se K(A) == 0 la densita spettrale di {yt} alla frequenza A e determinata


completamente dall'errore, mentre se K(A) == 1 la componente di frequenza
A dell'errore ha energia nulla. Se K(A) == 1 per ogni A allora et == 0 con
probabilita uno e quindi {yt} e esattamente un filtro lineare di {Xt } ; all'altro
estremo, se risulta K(A) == 0 per ogni A, 10 spettro di {yt} e determinato
totalmente dall'errore perche fxy(A) == 0 per ogni A e quindi 1xy(h) == 0 per
ogni h.
6
Processi lineari

Questo capitolo illustra i processi stazionari lineari, motivando la introduzione


dei processi autoregressivi a somma mobile, le cui caratteristiche vengono
esaminate in maggior dettaglio.

6.1 La decomposizione di Wold

In questo capitolo esamineremo alcune classi di processi aleatori che per la


lora semplicita costituiscono punti di riferimento obbligati quando si voglia
descrivere e comprendere la struttura della dipendenza tra i diversi valori che
un fenomeno dinamico assume al trascorrere del tempo. Particolarita comune
alle classi che considereremo e che in esse si descrive il processo come output
di un filtro lineare costruito su un altro processo con caratteristiche correlative
pili semplici (tipicamente un rumore bianco).
L'importanza e la generalita di questi tipi di processi si basa su un imp or-
tante risultato, noto come decomposizione di Wold. Questo teorema assicura
che praticamente ogni processo stocastico stazionario pub essere rappresen-
tato come I'output di un filtro lineare il cui input e costituito da variabili
incorrelate (quindi appunto un rumore bianco).
Teorema 6.1 (decomposizione di Wold). Ogni processo stocastico sta-
zionario al secondo ordine con media J1 e misura spettrale F(A) pub essere
decomposto nella somma di due processi aleatori:

(6.1)

dove:
1. lite un processo stazionario con media nulla, misura spettrale assoluta-
mente continua pari alla parte assolutamente continua di F(A); esiste un
processo rumore bianco {et} e una serie di coefficienti {h j , j == 0,1, ...}
con h o == 1 e Eh] < 00 tali eke:
112 6 Processi lineari

L
00

lit == huEt-u . (6.2)


u=o
2. W t eun processo esprimibile come combinazione lineare di sinusoidi aven-
ti frequenze uguali ai punti di salto Aj della misura spettrale F(A), con
ampiezze aleatorie la cui varianza e pari al valore del salto:

W t == L {A j cos (Ajt) + B, sin (Ajt)} . (6.3)


j

Fino ad ora ci siamo sempre occupati di processi che possedevano densita


spettrale, cioe con misura spettrale assolutamente continua: per essi vale di-
rettamente la (6.2), cioe possono direttamente essere pensati come risultato
di un filtro lineare su un rumore bianco. E quest 'ultimo il risultato essen-
zialmente nuovo del teorema: ne forniamo una spiegazione (sostanzialmente
corretta anche se non rigorosa). La densita spettrale f(A) del processo e non
negativa, percio si puo sempre trovare una funzione a valori complessi ¢(A)
tale che f (A) == ¢ (A) che sotto alcune condizioni (1 ) puo essere espansa in
2
I 1

serie di Fourier:
L
00
iu A
¢ (A) == hue- . (6.4)
u=o
Se nella rappresentazione spettrale del processo (5.7) poniamo dV (A) ==

i: i:
dZ (A) / ¢ (A) otteniamo:

x, - J.L = ei>.tdZ (>.) = eit>.¢ (>.) dV (>.)

i:
e sostituendo la (6.4):

x, - J.L = L hu ei(t~u)>'dV (>.) . (6.5)

i:
u

Poniamo:
et = eit>'dV (>.) . (6.6)

II processo {Et} descritto dalla rappresentazione spettrale e un rumore bianco


in quanto:

I:I:
e quindi:

i: i:
Cov (et, et+h) = E ei>.te-iw(t+h)dV (>.) dV (w) =

= e-i>.h E IdV (>')1 =


2
e-i>.hd>. = 0, h f °.
1 E necessario richiedere che l'integrale J:'7r log f (A) d): esista. I processi che non
soddisfano questa proprieta vengono detti singolari 0 deterministici.
6.1 La decomposizione di Wold 113

Pertanto la rappresentazione (6.5) si puo scrivere:

L huEt-u .
00

X; - J-L == (6.7)
u=o
II teorema di decomposizione di Wold e stato ricavato nell'ambito della teoria
della previsione, e in essa assume ulteriori significati come vedremo nel seguito.
Esso collega in qualche modo la stazionarieta (debole) e la Iinearita, poiche
mostra come i processi stazionari si possono pensare come filtri lineari su
un rumore bianco: rna va tenuto presente che questo teorema fornisce una
sola tra le tante possibili rappresentazioni, e non esclude quindi che la natura
delle relazioni tra le variabili del processo sia non lineare, 0 che esista una
rappresentazione di X, mediante l'uso di funzioni non lineari, che sia pili
semplice e meno dispendiosa in termini di parametri della (6.7) che coinvolge
una infinita numerabile di coefficienti h u .
Se indichiamo con a 2 la varianza delle Et, le caratteristiche di {X t } possono
essere espresse in funzione dei pesi h., ricordando le regole dei filtri lineari:

L L huhsE (Et-UEt+T-S) == L huhu+Ta 2


00 00 00

1x (T) == T2::0
u=os=o u=o
e chiamando:
L i;«":
00

H (>..) ==
u=o
la funzione di trasferimento, si ottiene la densita spettrale:
2
f (>..) == IH (>")1 2 ~
2n
.

In sostanza le proprieta di secondo ordine del processo sono completamente


determinate dalla successione dei pesi {h u } 0 equivalentemente dalla sua tra-
sformata H(>..). Per ricavare pili facilmente alcuni risultati e comodo ricorrere
agli operatori di ritardo B, con i quali il processo puo essere scritto:

L huBUEt == H (B) Et
00

X, - J-L ==
u=o
dove si e usato 10 stesso simbolo H della funzione di trasferimento per indicare
la funzione generatrice dei pesi H(B):

L huBu .
00

H (B) ==
u=o
Naturalmente, non tutte Ie possibili scelte dei valori dei pesi {h u } corrispon-
dono a filtri che producono un output limitato e stazionario: bisogna tener
presente che la tesi del teorema di Wold implica:
114 6 Processi lineari

h o == 1

Non e detto inoltre che il filtro possa essere invertito permettendo la espres-
sione del rumore bianco ct in funzione di Xt:

(6.8)

Sappiamo gia che cio epossibile se tutte le radici dell'equazione H(z) == 0 han-
no modulo maggiore di uno. In tal caso il processo si dice invertibile (anche
se pili precisamente dovremmo dire che ammette una rappresentazione inver-
tibile). Poiche H(O) == 1 si ha anche H- 1(O) == 1 e quindi la rappresentazione
invertita (6.8) si esplicita in:

L
00

x, == Co + CjXt - j + ct
j=1

dove Co == H (B)-1 J1 == J1 (1 - Cl - C2 - ... ). Questa decomposizione e utile


nelle previsioni perche descrive X; come somma di due termini, dei quali il
primo e funzione lineare dei dati passati, mentre il secondo e con essi in-
correlato, infatti Cov (X t - s , ct) == 0 per s == 1,2, ... (come si ottiene subito
sostituendovi la (6.7) e ricordando che {Ct} e rumore bianco).
Passeremo adesso a imporre particolari vincoli sulla forma dei pesi {h u } ,
ottenendo classi diverse di processi stocastici che studieremo pili in dettaglio.
II motivo per cui si ricorre a queste restrizioni e fondamentalmente che la
rappresentazione di Wold dipende in linea di principia da un numero infinito
di parametri hI, h 2 , ... , il che ne limita I'applicabilita (in quanto non epossibile
evidentemente stimare un numero infinito di parametri), e quindi cerchiamo
di ricondurci a una schematizzazione che richieda un numero finito di termini.
La scelta pili semplice che si possa compiere e quella di considerare solo
i primi pesi hI, h2 , ... , h q con un fissato q, si suppone cioe che sia h j == 0 per
j > q, in tal caso il processo e descritto da una combinazione lineare finita:

X t == J1 + Ct + h 1 Ct-l + h2Ct - 2 + ... + hqct-q (6.9)


e viene chiamato processo a media mobile di ordine q: X; M A (q). La
denominazione media mobile (M A==moving average), anche se di uso gene-
ralizzato, e alquanto impropria poiche la somma dei pesi della combinazione
lineare (6.9) non e pari a uno, pertanto qui si preferira la qualificazione di
processi a somma mobile.
In alternativa si puo cercare di descrivere con un numero finito di termini
il polinomio inverso:

H (B)-I == 1 - CI B - C2 B 2 - ... - cpBP .


In questo caso, sotto la condizione che il polinomio 1 - CIZ - C2Z2 - ... -
cpzP abbia radici solo con modulo maggiore di uno, il processo puo essere
rappresentato con la equazione seguente:
6.2 Processi puramente autoregressivi 115

dove Co == Jl(l - CI - C2 - ... - cp ) , che costituisce una versione finita della


rappresentazione invertita, ed esprime X; in funzione lineare del suo recente
passato. Questi processi vengono chiamati autoregressivi di ordine p: X, f'..I

AR (p).
Si puo infine pensare che una maggiore efficienza in termini di riduzione
del numero di parametri si consegua usando tutte e due Ie limitazioni simul-
taneamente, e considerando cioe polinomi H(B) che possono essere espressi
come "rapporto" di due polinomi di grado finito:

H (B) == ~ (B)-l e (B)


dove:
e (B) == 1 - OIB - 02B2 - - OqBq
fJ> (B) == 1 - cPIB - cP2 B 2 - - cPpBP
e si e introdotta la simbologia proposta da Box e Jenkins, ormai usata in modo
generalizzato nell'analisi delle serie temporali. Se le radici di ~(z) sono al di
fuori del cerchio unitario, la rappresentazione si puo scrivere:

~ (B) (X t - Jl) == e (B) Et


ovvero:

dove Co == Jl (1 - cPI - ... - cPp). Questi processi vengono detti misti 0 processi
autoregressivi a somma mobile di ordine (p,q): X, ARMA(p,q). f'..I

Passiamo ad esaminare pili nel dettaglio ciascuna classe. Per semplificare


la trattazione considereremo solo gli scarti dalla media, cioe i processi del tipo
Zt == X t - M: nelle loro rappresentazioni autoregressive e a somma mobile
scompare il termine costante Co proporzionale ana media, poiche E(Zt) == O.

6.2 Processi puramente autoregressivi

II processo puramente autoregressivo di ordine p soddisfa l'equazione:

(6.10)

che si puo anche scrivere:

dove come gia detto {Et} e un rumore bianco con E(Et) == 0, E(E;) == 0- 2 .
Porche la (6.10) corrisponda a una rappresentazione di Wold e necessario che
116 6 Processi lineari

il polinomio nell'operatore B sia invertibile, e quindi le sue radici devono essere


est erne al cerchio unitario:

q> (z) == 0 =} Izi > 1 . (6.11)

Questa condizione viene detta generalmente condizione di stazionarietd poiche


la relazione (6.10) nel caso che essa non valga, porterebbe a una espansione
di Zt in funzione lineare degli ct-u non convergente, e quindi con varianza
infinita. Immaginando in alternativa che il processo abbia origine a un tem-
po fissato (diciamo t == 0), Z, puo essere espresso come combinazione lineare
di {cs, s == 0,1, ..., t}, rna la sua varianza cresce in modo illimitato con t se
non vale la condizione di stazionarieta. Se invece la condizione di staziona-
rieta e soddisfatta, Zt ammette una espansione come combinazione lineare
delle Ct di ordine infinito rna convergente, a volte detta anche a media mo-
bile infinita e indicata con MA(oo): Zt == ct + ~lCt-l + ~2Ct-2 + .... La
(6.10) corrisponde all'idea intuitiva che il valore del processo al tempo t puo
essere pensato come la somma di due termini, uno determinato dalla sua sto-
ria passata (cPIZt-l + ... + cPpZt-p) e uno incorrelato con essa (Ct: infatti da
Z; == e, +~lcs-l +~2cs-2 + ... si ottiene subito che la covarianza tra Ct e Zt-j
e nulla per j positivo). Percio un processo AR(p) ha memoria solo di quanto
e successo nei p istanti precedenti, mentre la parte "nuova" di Zt, non legata
al passato, e data da e.: cio spiega perche Ie ct vengono chiamate innovazioni
(0 anche urti 0 residui).
Studiamo ora i momenti secondi. II modo pili diretto e quello di moltipli-
care ambo i membri della relazione (6.10) per Zt-h (h positivo) e prendere la
media:

E (ZtZt-h) == ¢lE (Zt-lZt-h) + ¢2E (Zt-2Zt-h) + ...


+ cPpE (Zt-pZt-h) + E (Zt-hCt)
cioe, ricordando che E(Zt) == 0 e che Zt-h e incorrelato con Ct:

e ovviamente per lags negativi ,(h) == ,( -h). Per la varianza invece si pone
h == 0, e considerando che E (ZtCt) == E {c; + ~lctct-l + ~2ctCt-2 + ...} ==
E (c;) == a 2 :

Questi risultati possono essere espressi agevolmente anche in funzione delle


autocorrelazioni r(h). Dividendo ambo i membri della prima per ,(0) si ha:

(6.12)

Per la seconda si dividono e moltiplicano per ,(0) i termini che contengono


,(.) al secondo membro, e poi si ricava ,(0) al primo membro ottenendo:
6.2 Processi puramente autoregressivi 117

a2
"( (0) = 1 _ <PIT (1) - <P2 T (2) _ ... - <PpT (p) . (6.13)

La formula (6.12) mostra come sussista una relazione lineare tra l'autocor-
relazione e i parametri autoregressivi ePI, eP2' ..., ePp. Essa puo essere usata in
due modi, studiando i parametri ePi in funzione delle autocorrelazioni oppure
le autocorrelazioni in funzione dei parametri. Se considerassimo i parametri
autoregressivi come incognite, scrivendo la (6.12) per h == 1,2, ... ,p avremmo
un sistema lineare di hequazioni, nonomogeneo. In termini matriciali, se
adottiamo la notazione:

eP == (ePI, cP2' ..., cPp) I, r == {r (1) , r (2) , ..., r (p) } I, R == ((r (i - j))
il sistema puo essere scritto:
ReP == r .
Queste equazioni prendono il nome di equazioni di Yule e Walker e risol-
vendole (la soluzione esiste unica poiche la matrice di autocorrelazione R e
definita positiva e ammette inversa) si ottengono i parametri in funzione delle
autocorrelazioni:
(6.14)
Vediamo adesso come la stessa formula (6.12) determina l'andamento del-
l'autocorrelazione in funzione dei ePI' eP2' ..., ePp: essa e un'equazione del tipo
detto aIle differenze finite, di ordine p. La teoria delle equazioni alle differenze
finite costituisce un capitolo dell'analisi matematica sul Quale non scendia-
mo in dettaglio, osservando solo che vi sono molte analogie con Ie equazioni
differenziali lineari. Se z e una radice dell'equazione detta associata:

xP - A. p-l
\f/IX -
A. p- 2
\f/2 X - ... -
A.
\f/p-IX -
A. -
\f/p -
0 (6.15)
allora la forma r(h) == z" risolve la (6.12), poiche sostituendo si ha:

zh == ePl zh- 1 + eP2 zh- 2 + ... + ePpzh- p


che si ottiene dalla equazione associata moltiplicando ambo i membri per zh-p.
Ne concludiamo che la soluzione generale della equazione aIle differenze e:

(6.16)

dove Xl, X2, ... , X p sono le soluzioni dell'equazione associata (6.15), e Ie costanti
aI, a2, ... , a p sono determinate da p condizioni iniziali. Per queste radici vale:

percio la condizione di stazionarieta implica 11/xjl > 1 ovvero IXjl < 1 per
ogni i, il che a sua volta implica che r( h) tende a zero quando h tende
all'infinito.
118 6 Processi lineari

Per la densita spettrale, ricordando che {Xt } e un filtro costruito sul ru-
more bianco {et} il Quale ha densita spettrale pari a 0- 2 / (27r), e la funzione di
trasferimento del filtro e:

otteniamo:
222
f(A) == IH(A)1 2 ~ == 14> (eiA)-ll ~ ==
27r 27r
2
0- 1
(6.17)
27r 11 - ¢leiA- ¢2 ei 2A - ... - ¢peiPAl2 .

L'andamento delle funzioni di autocorrelazione e di densita spettrale puo es-


sere molto vario, e per approfondire 10 studio vediamo pili da vicino i processi
con ordine fissato p, partendo dal pili semplice con p == 1.

Processo autoregressivo del primo ordine. Considerando sempre scarti dalla


media, il processo Zt r-...J AR(I) obbedisce a:

e corrisponde alla forma generale per p == 1, 4>(B) == (1 - ¢B). La condizione


di stazionarieta, che si scrive:

1 - ¢z == 0 =} Izi > 1
implica, come e immediato verificare, I¢I < 1. Qui e facile invertire il
polinomio:

percio la rappresentazione di Wold del processo e:

L
00

z, == ¢uet_u .
u=o
L'autocorrelazione soddisfa l'equazione alle differenze del primo ordine:

r (h) == ¢r (h - 1) h == 1,2, ...

e poiche r(O) == 1 scrivendola per h == 1,2, ... si ottiene r(l) == ¢, r(2)


1r(1) == 12 , r(3) == 1r(2) == 13 e cost via da cui:

h == 0,1,2, ...

e di conseguenza sostituendo nella (6.13):


6.2 Processi puramente autoregressivi 119

o 2 4 6 8 10 12 14 16 18 20 22 24

-1

(a) (b)

Fig. 6.1. Correlogramma teorico: (a) AR(l) con ¢ == 0.8 ; (b) AR(l) con ¢ == -0.8

h == 1,2, ...

mentre per la densita spettrale:


a2 1 a2 1
f(>') = 21f 11- ¢ei A l2 211" 1 + ¢2 - 2¢ cos A .

L'andamento di r(h) e f(A) dipende dal segno di ¢: se ¢ e positivo l'autocor-


relazione ha valori tutti positivi decrescenti esponenzialmente, se ¢ e negativo
invece i valori assoluti sono uguali rna r( h) ha segno alterno, con i lags dispari
caratterizzati da autocorrelazione negativa. La densita spettrale ha un anda-
mento essenzialmente determinato dal COSA al denominatore, che al crescere
di A da 0 a 11" decresce in modo monotono: il coseno e al denominatore rna
ha il segno meno, e quindi se ¢ e positivo conferisce analogo andamento alla
densita spettrale, se invece ¢ e negativo il coefficiente di COSA al denominatore
sara positivo, e la densita spettrale risultera monotona crescente. La situazio-
ne e illustrata nelle figure 6.1 e 6.2. I grafici di una realizzazione finita di un
processo autoregressivo sono riportati nelle figure 5.4a (¢ negativo) e 5.4b (¢
positivo). Quando ¢ > 0 le variabili ritardate son. tutte correlate positiva-
mente, quindi l'andamento tendera a mostrare una cert.a inerzia e oscillazioni
ampie che comportano un addensarsi della densit l spettrale alle frequenze
basse (periodi lunghi). Viceversa, se ¢ < 0 le varial ili contigue sono correlate
negativamente, percio a un dato sopra la media tende a succedere un dato
sotto la media e cosi via: questo produce un andamento a "dente di sega"
con oscillazioni rapidissime (il periodo minimo discernibile e 2) e conseguente
addensarsi della densita spettrale alle frequenze alte.
Ritornando alla relazione dinamica che caratterizza il processo autoregres-
sivo del primo ordine:
Z; == ¢Zt-l + ct
vediamo che il valore al tempo t e determinato da una quota del valore prece-
dente, pili un'altra parte di innovazione, incorrelata con essa. Se supponiamo
che la distribuzione di {ct} sia normale (e cia implica che anche Z; ha distri-
buzione normale), i due termini dell'equazione diventano indipendenti: allora
120 6 Processi lineari

7 7

O· o.
0 , /2 , 0 , /2 ,
(a) (b)

Fig . 6 .2 . Densita spet trale teorica:(a) AR(l) can ¢ = 0.8 ; (b) AR(l) can ¢ = -0.8

la distribuzione di probabilita di Z; dato Zt -I dipend e solo da Et che e indi-


pendente da {Zt - s, S > O} : questa e la proprieta di Markov . Se ne conclud e
che un proc esso autoregressivo del primo ordine gaussiano e markovi ano .
Puo apparire a prima vista strano che, nonostante Zt dipenda solo da Zt - I
e quindi la memori a del processo sia limitata al solo istante precedente , tu t-
tavia la funzion e di autocorrelazione r(h) non si annulla mai , e dunque anch e
due variabili molto dist anti nel tempo rimangono correl at e. Ma cio si spiega
perche esiste una catena di variabili che le collega, in cui ciascuna vari abi le
influenza la successiva: Zt influisce linearmente su Zt+l, questa influisce li-
near ment e su Zt+2, quest 'ultima su Zt+3 e cost via, percio le variazioni di Z;
vengono a influire linearmente anche su Zt +h, per quanta evidentemente la for-
za del legame diminuisce all'aumentare del lag. Infatti usando ripetutamente
la relazion e possiamo scrivere :
h- I
Zt = ¢ Zt-I +Et = ¢ (¢ Zt- 2 + Et-d + Et = ... = ¢hZt_h + I: ¢uEt- u
u=o
che spiega ulteriorment e come mai la correlazione tra Zt e Zt -h e ¢h (infatti
il coefficiente di correlazione e ugua le al coefficient e di regressione perche le
varianze di Zt e Zt-h sono uguali). In sostanza la corr elazione tra Z, e Zt-h
e origin ata dall 'influenza delle variabili int ermedie Zt -I, Z t- 2,...,Z t- h+ l, e il
concetto int uitivo di memoria e legato a una misur a del legame lineare t ra due
variabili depurato dell'influenza esercitata dalle altre intermedie. Tale misura
eadoperata nella regressione lineare e prende il nome di corre lazione parziale.
Nel nostro attuale cont esto si definisce la funzione di autocorrelazione parzial e,
che misura la corre lazione tra Zt e Zt -h a parita delle variabili intercorrenti
Zt -I , Zt -2 ,...,Zt -h+l :
7r (h) = Carrel {Zt , Zt -h IZt- l , Zt -2 , ..., Zt -h+l} h = 2,3 , ...
Per ottenerla, secondo la teoria della regressione lineare, si effettua pri-
ma una regressione di Zt su (Zt -I , Zt -2 , ..., Zt -h+I), poi una regressione
di Zt -h su (Zt -I , Zt -2, ..., Zt-h+d e si calcola la correlazione tra i resi-
dui delle due regressioni. Nel caso del processo AR(l) , e evidente che la
6.2 Processi puramente autoregressivi 121

regressione di Z, su (Zt-l, Zt-2, ..., Zt-h+l) coincide con la relazione au-


toregressiva Zt == cPZt-l + ct, quindi i residui della prima regressione so-
no gli Ct. I residui della seconda regressione invece saranno del tipo TIt ==
e
Zt-h - CI Zt-l - C2 Zt-2 - ... - Ch-l Zt-h+l. Ma poiche ct incorrelato con
tutte le Zt-s, s > 0, abbiamo Cov (ct, TIt) == 0 e di conseguenza per un pro-
cesso AR(l) si ha 1r (h) == 0, h == 2, 3, .... Per completare la definizione del-
la funzione di autocorrelazione parziale si pone coerentemente 1r (0) == 1 e
1r (1) == Carrel {Zt, Zt-l 10} == r (1).
La funzione di autocorrelazione parziale viene usata molto spesso nell'ana-
lisi delle serie temporali perchc caratterizza bene i processi autoregressivi. Per
un processo autoregressivo del primo ordine abbiamo visto che i suoi valori
sono nulli per argomenti maggiori di uno, mentre 1r (1) == r (1) == cP.

Processo autoregressivo del secondo ordine. La relazione ricorsiva e:

ottenuta dalla forma generale per p == 2 e ~ (B) == 1 - cPIB - cP2B2. La


condizione di stazionarieta imp one che le radici dell'equazione:

abbiano modulo maggiore di uno. Le due radici sono:

e possono essere reali oppure complesse coniugate a seconda che L1 == cPi +4cP2
sia positivo 0 negativo. II discriminante e negativo quando cP2 e negativo e
minore di -cPi /4. In corrispondenza a questi valori di cP2, poiche ZI e Z2 sono
complesse coniugate e hanno modulo uguale: IZ l l == Z21 == JZIZ2 == IcP21, la
I

condizione di stazionarieta implica IcP21 < 1. Quindi il processo sara stazionario


con radici complesse se -1 < cP2 < 0 e IcPll < 2 IcP21 (quindi al variare di cP2'
il valore di cPl spazia da -2 a +2). II caso di discriminante non negativo
si ha invece quando cPi ~ 4cP2. Allora le radici ZI e Z2 sono reali, quindi la
parabola x 2 - cPIX - cP2 si annulla nei due punti ZI e Z2, che per la condizione
di stazionaricta devono essere interni all'intervallo (-1,1) (si veda la Fig. 6.3).
Poiche il minimo ha ascissa cPl/2, questo dovra essere compreso tra le radici,
quindi -1 < cPl/2 < 1 ovvero IcPll < 2. Per assicurarci ora che le radici siano
comprese tra -1 e 1 esufficiente richiedere che la parabola abbia valore positivo
sia per x == -1 sia per x == + 1: questi valori risultano 1 + cPl - cP2 e 1 - cPl - cP2'
quindi cP2 - cPl < 1 e cP2 + cPl < 1.
In definitiva i valori dei parametri (cPl' cP2) per i quali il processo soddisfa
la condizione di stazionaricta sono definiti dalle disuguaglianze:
122 6 Processi lineari

-1 z1 o z2

-1

Fig. 6.3. Comportamento della parabola x 2 - cPI X - cP2

-2 -1 o ~1~ 2

Fig. 6.4. Regione di stazionarieta del processo AR(2)

che implicano anche I¢21 < 1. Dal punto di vista geometrico, considerando le
regioni del piano (¢l, ¢2) che corrispondono al soddisfacimento della condi-
zione di stazionarieta si ottiene la Fig. 6.4, nella quale si evidenzia il triangolo
di vertici (-2, -1), (2, -1), (0,1) che e a sua volta suddiviso in due porzioni
dalla parabola ¢i + 4¢2 == 0, la quale separa i casi di radici complesse (al di
sotto) da quelli di radici reali (al di sopra).
La funzione di autocorrelazione soddisfa:

Per determinare le costanti al e a2 prendiamo come condizioni iniziali i primi


due valori r(O) e r(I): poiche dalla (6.12) scritta per h == 1 si ricava r (1) ==
6.2 Processi puramente autoregressivi 123

cPl/ (1 - cP2) mentre naturalmente r(O) == 1, otteniamo:

cPl
--.J,- == r (1) == alZl + a2Z2
1- ,+,2
e risolvendo rispetto ad al e a2 (notando che dall'equazione associata e dalle
relazioni tra radici e coefficienti dell'equazione di secondo grado discende cPl ==
Zl + Z2, cP2 == -ZlZ2), si arriva a:

(6.18)

Questa espressione da luogo ad andamenti molto diversi a seconda dei vari


valori di cPl e cP2 e in particolare il comportamento cambia, anche in questo
caso, a seconda che lc radici siano reali 0 complesse. Se le radici sono reali (cPi +
4cP2 ~ 0) e cPl epositivo si ricava che Zl > 0 , Z2 > 0 e quindi l'autocorrelazione
(6.18) ha valori sempre positivi e decresce verso 10 zero come una combinazione
lineare di esponenziali, mentre se cPl < 0 le radici non hanno 10 stesso segno
e ferma restando la decrescita verso 10 zero, essa puo avere segno alterno.
Nel caso di radici complesse, invece, cioe quando cPi + 4cP2 < 0, poniamo
Zl == pe'": Z2 == pe- i B. Si noti allora che ZlZ2 == p2 == -cP2 (poiche cP2 e
negativo), Zl - Z2 == 2ipsin(), e la (2.90) diventa:

h sin () (h + 1) - p2 sin () (h - 1)
r (h) == P
(1 + p2) sin ()

che puo essere espressa nella forma pili semplice:

r (h) = ph sin (~B + CY)


sm o
dove p == J-cP2, () e l'argomento delle radici e si puo ricavare da Zl + Z2 ==
2p cos () == ¢l, quindi () == arccos { ¢l / (2J -¢2) }, e a e definito da tan a ==
~~p~ tanB e).
La forma dell'autocorrelazione e dunque determinata da un termine espo-
nenziale ph (ricordiamo che Ipl < 1) decrescente, moltiplicata per una funzione
sinusoidale, che risulta in un andamento oscillatorio con ampiezza decrescente
(un esempio e in Fig. 6.5). Se ci fosse solo la componente seno (il che corri-
sponderebbe a mandare p a 1 e quindi ¢2 verso -1) allora l'autocorrelazione

2 Questo risultato si ottiene sviluppando sin B(h + 1) e sin B(h - 1) con la regola
degli angoli somma sin(a + (3) == sin a cos {3 + cos a sin (3, ottenendo:
h
r (h) = ( P2)' () [( 1 - l) sin ()h cos () + (1 + /) cos ()h sin ()]
1+P SIn

Ponendo poi sin a == c( 1 + p2) sin (), cos a == c( 1 - p2) cos B (dove la costante c
e determinata dalla relazione sin 2 + cos 2 == 1, rna scompare nella r(h) essendo
presente sia al numeratore che al denominatore) si ottiene il risultato.
124 6 Processi lineari

-1

Fig. 6.5. Correlogramma teorico di un AR(2) con cPl == 0.75, cP2 == -0.5 (radici
complesse)

assumerebbe valore uno per gli argomenti multipli di 211"/() == T: se questo nu-
mero fosse intero, vorrebbe dire che lc variabili a distanza T avrebbero correla-
zione pari a uno, ci troveremmo quindi di fronte a un andamento esattamente
periodico di periodo T. Nel caso concreto di stazionaricta, invece, I¢21 < 1 e
quindi l'andamento sinusoidale e smorzato dal termine (vi-¢2)h, e quindi la
e
relazione lineare tra le variabili non perfetta, rna tende ad indebolirsi nel
tempo. Anche in questo caso, pero, ci aspettiamo che il comportamento del
processo mostri una tendenza a ripetersi ciclicamente dopo T istanti, anche
se essa e perturbata da altre fonti di variazione casuale: per questo i processi
autoregressivi del secondo ordine vengono detti pseudo-periodici. Un esempio
di un tratto finito di una realizzazione di un processo di questo tipo e riportato
nella Fig. 5.4c dove si vede chiaramente la natura pseudo-ciclica dei dati.
II sistema di equazioni di Yule-Walker e:

e perrnette di esprirnere i pararnetri in funzione delle autocorrelazioni:

(h = r (l){l - r ;2)}
1 - r (1)

II processo autoregressivo del secondo ordine non emarkoviano poiche dipende


dai due dati precedenti, ha cioe memoria due. Consideriamo la autocorrela-
zione parziale Carrel {Zt, Zt-h IZt-l, ..., Zt-h+l}: per h > 2 il residuo della
regressione di Zt su Zt-l, Zt-2, ... , Zt-h+l e Et che e incorrelato con il residuo
della regressione di Zt-h su Zt-l, Zt-2, ... , Zt-h+l (il quale e una combinazio-
ne lineare di Zt-j,j == 1, ...,h). Pertanto 11"(h) == 0 per h > 2. Per h == 2, la
6.2 Processi puramente autoregressivi 125

variabile condizionante e la sola Zt-l, percio possiamo applicare la formula


del coefficiente di correlazione parziale usata nella regressione:

che, identificando X con z; Y con Zt-2, W con Zt-l diventa:

In conclusione:

1f(1) = r(l) =~;


1- ¢2
1f(2) = (h; 1f(h) = 0 h > 2.

Infine, la varianza puo essere scritta:

a2
, (0) == -1---¢-lr-(1-)---¢-2r-(-2)

Passiamo adesso al dominio delle frequenze. La densita spettrale si ottiene


dalla regola generale:

a2 1
27r 11 - ¢l ei >.. - ¢2 ei2>" 12

che puo essere riscritta in termini reali come segue:

La densita spettrale puo essere, a seconda del valore dei parametri ¢l e ¢2,
monotona crescente 0 decrescente oppure avere un massimo (unico) interno, il
che accade quando I¢l (1 - ¢2) / (4¢2) I < 1, e il massimo si raggiunge alla fre-
quenza AQ == arccos {¢l (¢2 - 1) / (4¢2)}. In tal caso c' e un picco nello spettro
alla frequenza AQ, e ci possiamo attendere che il comportamento del processo
evidenzi questa tendenza alla periodicit.a. Questo andamento corrisponde al
caso che abbiamo esaminato sotto il profilo del dominio temporale, in cui le
radici dell'equazione x 2 - ¢lX - cP2 == 0 siano complesse. Tuttavia, come e
osservato da Piccolo (1974) non c'e perfetta coincidenza ne tra Ie condizioni
necessarie perche si verifichi il fenomeno, nc tra Ie frequenze caratteristiche,
a giustificazione ulteriore che si tratta di una pseudo periodicita e per tale
motivo viene percepita in modo diverso dai diversi strumenti che utilizziamo
nei due domini temporale e frequenziale.
126 6 Processi lineari

Processi autoregressivi di ordine superiore. Quando si considerano processi


autoregressivi di ordine p > 2:

la varieta dei lora comportamenti puo essere molto grande, e l'andamento della
r( h) e della f (A) il pili vario, pur rispettando alcune caratteristiche generali. La
funzione di autocorrelazione rispetta comunque la forma (6.16), e quindi puo
risultare da una combinazione lineare di termini esponenzialmente decrescenti
verso 10 zero, con segno costante 0 alterno (corrispondenti a radici reali) e di
termini sinusoidali smorzati verso 10 zero al crescere di h (corrispondenti a
coppie di radici complesse coniugate).
Per la funzione di autocorrelazione parziale, ripercorrendo il ragionamento
svolto prima, ci si rende conto che essa si annulIa per argomenti maggiori di
p, mentre al ritardo p vale cPP (ed e in genere diversa da zero per h < p):

7r (h) == 0 h > P
Si faccia attenzione che la coincidenza tra 7r(') e cP avviene solo per l'ultimo
ritardo, pari all'ordine del modello. II valore effettivo dell'autocorrelazione
parziale potrebbe essere espresso in funzione delle autocorrelazioni ordinarie
in modo piuttosto complicato (ad esempio Box e Jenkins, 1970): si puo di-
mostrare che 7r(h) e pari al rapporto tra due determinanti: 7r(h) == IQhl/IRhl
dove Rh e la matrice di autocorrelazione di dimensione h, con elemento (i, j)
pari a r(i - j), e Qh si ottiene da Rh sostituendo l'ultima colonna col vettore
[r(I),r(2), ... ,r(h)]'. Ma esiste un modo pili semplice per ricavarle. Infatti
la 7r( s) puo essere pensata come il coefficiente di Zt-s nella regressione di
Zt su Zt-l, Zt-2, ..., Zt-s, e per questo motivo sara uguale all'ultimo para-
metro cP nel sistema di Yule-Walker (6.12) scritto per s equazioni (cioe per
i ritardi h == 1,2, ..., s). Se indichiamo come prima con R m la matrice di
autocorrelazione con m righe e colonne, e con:

rm == {r (1), r (2), ..., r (m)}'

cPm == (cPm,l, cPm,2, ..., cPm,m)'


i coefficienti della regressione di Z, su Zt-l, Zt-2, ..., Zt-m sono dati dal
vettore cPm che soddisfa il sistema:

cPm == R~lrm (6.19)

e quindi 7r (m) == cPm,m.


La (6.19) ha per m == 11a soluzione ovvia cPl,l == r(I), e puo essere risolta ite-
rativamente per m crescente attraverso un ingegnoso metoda ideato da Durbin
(1960) che fornisce anche il coefficiente di determinazione di ogni regressione,
che e dato da:
6.2 Processi puramente autoregressivi 127

Le formule di Durbin sono:


m
r (m + 1) - L ¢m,jr (m + 1 - j)
j=l
¢m+1,m+1 ~ ------ m ------- (6.20)
1 - L ¢m,jr (j)
j=l

¢m+1,j ~ ¢m,j - ¢m+1,m+1¢m,m+1-j j ~ 1,2, ... , m (6.21)


e permettono di calcolare i vettori ¢m iterativamente per valori crescenti di
m, a partire da ¢1,1 ~ r(l):

1r (2) = d. = r (2) - r (1)2. 1 - r (2)


tr2,2 ¢2,1 ~ ¢1,1 - ¢2,2¢1,1 ~ r (1) ( )2
1- r ()2
1 ' 1- r 1

e cost via.
II metodo di Durbin e un esempio istruttivo di come l'algebra lineare possa
permettere il raggiungimento di utili risultati. Esso si basa sulla seguente
proprieta delle matrici: se A e una matrice quadrata regolare simmetrica n x n,
eve un vettore n xl, allora:

Questa proprieta puo essere controllata verificando che M M- 1 ~ M- 1 M ~ I.


Ora, posta Tm ~ {r (m), r (m - 1) , ..., r (2), r (I)}' si verifica subito che per
le matrici di autocorrelazione vale:

e quindi:

[R0":- 0]
-1
1
1 - 1- R- 1 R- 1- ]
mrmrmm-mrm
rz]

R rn-l-L 0 + 1- [R
r-,m R-
- 1-
m rm -r~R~l 1

e questa relazione permette di esprimere iterativamente la soluzione delle


equazioni di Yule-Walker per ordini m crescenti. Osserviamo che rm e il vet-
tore dei termini noti delle equazioni di Yule-Walker scritte in ordine inverso,
cioe per m, m -1, ...,2,1. Se poniamo ¢m ~ {¢m,m, ¢m,m-1, ..., ¢m,2,¢m,l}' il
sistema si puo scrivere Rm¢m ~ r m e quindi ¢m ~ R~lrm' Pertanto l'inversa
si puo riscrivere nel modo seguente:

-1 _ R m-1 0 ) 1 ¢m¢m
[- -, -¢m
-:
R m+ 1 - ( 0' 0 + 1-r~¢m -([J'm 1 .
128 6 Processi lineari

Calcoliamo adesso gli elementi del vettore ¢m+ 1 == R~~ 1 r m+ 1 tenendo conto
che r~+ 1 == {r~, r (m + I)}. Se usiamo la stessa decomposizione anche per il
vet tore cPm+ 1 :

otteniamo:
-¢'mrm + r (m + 1)
cPm+l,m+l == - - - - - - - -
1- r;»:
che fornisce la prima formula di Durbin, e:

¢*' == R~lrm + ¢m [¢~rm - r (m + 1)] / (1 - r~¢m) ==


== cPm - cPm+l,m+l¢m
da cui deriva la seconda formula.

6.3 Processi puramente a somma mobile

II processo a somma mobile e generato da un filtro finito costruito su un


rumore bianco:

e quindi e sempre stazionario mentre e invertibile se Ie radici di 8(z) giacciono


al di fuori del cerchio unitario, pertanto Ie condizioni da imporre sui parametri
()j per ottenere l'invertibilita sono Ie medesime che sono richieste ai cPj di un
processo puramente autoregressivo per la stazionarieta. Ritroveremo spesso
analoghe forme di simmetria tra processi AR e M A, per cui si parla di dualiti:
tra i due schemi.
Si possono applicare i risultati del filtraggio lineare ponendo Zt == EuCuEt-u
con Co == 1, Cu == -()u, u == 1,2, ..., q e Cu == 0 altrimenti, e si ottiene:

== a 2 (-()h + ()l()h+l + ()2()h+2 + ... + ()q-h()q) h == 1,2, ... , q


e ,(h) == 0 per Ihl > q. Pertanto l'autocorrelazione di un processo MA(q) si
annulla per ritardi maggiori dell'ordine q (come avviene per l'autocorrelazione
parziale nel processo autoregressivo, altro esempio di dualita). La autocorre-
lazione parziale invece non ha un andamento facilmente descrivibile.

Processo a somma mobile del primo ordine. Soddisfa l'equazione:


6.3 Processi puramente a somma mobile 129

ed e quindi invertibile per I() I < 1. La funzione di autocorrelazione ha diverso


da zero solo il primo coefficiente:
()
r(l) == - - -
I + ()2
che comunque al variare di (), non raggiunge mai valori superiori a 1/2 in
modulo. La densita spettrale risulta:

e quindi ha andamento monotono crescente se () > 0, monotono decrescente se


() < O. Si tratta quindi di una struttura correlativa piuttosto debole, e limitata
a dati contigui.
SuI processo di ordine 1 si puo illustrare facilmente una ulteriore proprieta
della invertibilita, che e valida in generale e giustifica ulteriormente la utilita
di tale condizione: in generale esistono diversi processi con la stessa funzione di
autocorrelazione, rna di essi uno solo e invertibile; percio nell'insieme dei pro-
cessi invertibili c'e corrispondenza biunivoca tra funzione di autocorrelazione
e parametri. Infatti, se preso un qualunque numero p (minore di 1/2 in valore
assoluto), cerchiamo un processo a somma mobile che abbia autocorrelazione
r(l) == p, otteniamo due possibilita, dato che l'equazione in ():
()
- 1 + 02 = P ---+ p02 +0+ P= 0

ha due soluzioni:
-1 ± J1- 4 p2
()1/2 == - - - - - -
2p
ambedue reali perche abbiamo scelto Ipl < 1/2. Tuttavia poiche il prodotto
delle radici dell'equazione di secondo grado ax 2 + bx + c == 0 e c] a, abbiamo
()1()2 == 1 e quindi una sola delle due e minore di uno in modulo, cioo dei due
processi uno solo e invertibile. La forma invertita del processo e:

della forma autoregressiva con ordine infinito e parametri pari aIle potenze
successive di ().
La funzione di autocorrelazione parziale del processo M A(l) ha andamen-
to approssimativamente simile a ()h (si veda ad esempio Box e Jenkins, 1970).

Processo a somma mobile del secondo ordine. II processo soddisfa:


130 6 Processi lineari

e Ie condizioni di invertibilita sono:

Le autocorrelazioni sono nulle per h > 2 e:

Anche in questo caso la r(2) non puo superare 1/2 in modulo, e anche la r(1)
ha un massimo pari a 1/ {2 (J3 - 1)} ~ 0,683 percio anche questi processi
hanno una struttura dinamica lineare non troppo pronunciata. La densita
spettrale:

puo essere monotona crescente 0 decrescente in (0,1f), oppure avere un


massimo e anche un minimo interno.

6.4 Processi misti

I processi che hanno sia la struttura autoregressiva sia quella a somma mobile
vengono chiamati brevemente processi ARMA (dall'unione delle sigle AR e
MA) di ordine (p,q):

Per essi si pone la questione della stazionarieta, che porta a richiedere che le
radici di <p( z) == 0 siano al di fuori del cerchio unitario, e quella della inverti-
bilita, per assicurare la Quale anche le radici di 8(z) == 0 devono avere modulo
maggiore di 1.

Processo misto di ordine (1,1). E il processo pili semplice di questo tipo:

e si richiede che sia I¢I < 1, 181 < 1. Se moltiplichiamo ambo i membri per
Zt-h e prendiamo la media, otteniamo per h == 0,1:

1 (0) == ¢1 (1) + E (ZtEt) - BE (ZtEt-l)

1 (1) == ¢1 (0) + E (Zt-lEt) - BE (Zt-lEt-l)


e dobbiamo prima calcolare i momenti misti, ricordando che E(EtZt-s) == 0
per s > 0 e che le {Et} sono incorrelate:
6.4 Processi misti 131

E (Ztct) == E (cPZt-1 + ct - Oct-I) e, == a


2

E (ZtCt-l) == E (cPZt-1 + ct - OCt-I) Ct-I ==


== ¢E(Zt-ICt-l) - OEC;_I == (¢ - O)a2 .

Ne segue:
r (0) == ¢r (1) + a 2 {I - 0 (¢ - O)}
r (1) == ¢r (0) - Oa 2
e per h maggiore di uno invece i momenti misti sono nulli e ritorna la relazione
autoregressiva:
r(h) == cPr(h-1) h == 2,3, ...
Pertanto la varianza risulta:

e per la funzione di autocorrelazione:

r (1) == (1 - ¢O) (cP - 0) . r (h) == ¢h-I r (1), h == 2,3, ...


1 + 02 - 2¢O '

In sostanza l'autocorrelazione segue un andamento esponenziale smorzato,


determinato dalle potenze del parametro cP (e quindi alternante in segno se
cP < 0) rna innestato su un primo valore che e diverso da cP, e ha segno
uguale alla differenza cP - O. L'andamento dell'autocorrelazione parziale invece
e influenzato principalmente dalla struttura a somma mobile (e non si annulla
mai).
La densita spettrale:

a 2 1 + 02 - 20cosA
21r 1 + ¢2 - 2¢COSA

e monotona su tutto l'intervallo (0,1r), decrescente se ¢ > 0 e crescente se


¢ < O.
Nel caso pili generale di ordine (p, q) qualunque, naturalmente il compor-
tamento del processo diventa ancora pili articolato. Per quanto riguarda le
autocorrelazioni, si puo dire che la forma della equazione di Yule-Walker e
differente da quella autoregressiva solo per h :::; q, quindi l'andamento del-
l'autocorrelazione per ritardi grandi e essenzialmente determinato dalla parte
autoregressiva. Tuttavia e difficile descrivere andamenti tipici delle autocorre-
lazioni 0 della densita spettrale di processi con particolari ordini (p, q), poiche
processi con ordini diversi possono mostrare caratteristiche simili (fermo re-
stando che ovviamente un processo con ordine (Po, qo) appartiene anche a
tutte Ie classi di processi di ordine (p, q) con p 2:: Po e q 2:: qo).
7

Processi di punti

Analizziamo i processi aleatori a valori discreti e parametro continuo, e in


particolare i processi di punti, utilizzati per descrivere il verificarsi nel tempo
di eventi particolari. L' analisi e centrata essenzialmente sul tipo di processo
pili semplice e diffuso, il processo detto di Poisson.

7.1 Caratteristiche generali


Un processo di punti e a parametro continuo, quindi costituito da una infinita
continua di variabili aleatorie che possono pero assumere (almeno nella forma
pili semplice) solo due valori (ad esempio zero e uno) corrispondenti all' as-
senza 0 presenza di un evento. Quindi un processo di punti schematizza una
situazione in cui in ogni istante puo verificarsi 0 meno un evento, situazione
di grande interesse in molti settori (emissione di particelle da parte di una
fonte radioattiva, arrivi clienti a uno sportello, verificarsi di incidenti automo-
bilistici, di terremoti e molti altri problemi). In tutti questi casi si verifica un
numero finito di eventi in ogni intervallo di lunghezza finita, e quindi e pili
como do descrivere il processo in termini degli istanti nei quali si verificano gli
eventi, Ti, oppure degli intervalli di tempo tra un evento e l'altro, Xi; oppure,
ancora, studiando il numero di eventi che si verificano in un dato intervallo di
tempo. In ogni caso, risulta comodo (anche se non indispensabile) fissare un
istante di partenza che indichiamo come tempo 0: t == 0, cost che possiamo
definire:

Ti. == istante in cui si verifica il k-esimo evento, ovvero tempo d'attesa


fino al k-esimo evento
X k == intervallo di tempo tra il verificarsi dell' evento (k - 1)-esimo e il
verificarsi dell' evento k-esimo
N(s, t) == numero di eventi verificatisi nell'intervallo temporale (s, t)
tra i quali intercorrono Ie relazioni:
134 7 Processi di punti

N (0, t) < k {:} T k > t .


Per avere una corrispondenza con il comportamento dei fenomeni reali, ci
aspettiamo che le T k, Xk e N(s, t) abbiamo distribuzioni non degeneri, con
medie e varianze finite: rna per ottenere questo scopo ci dobbiamo assicurare
che il ritmo con cui si verificano gli eventi sia sufficientemente lento in modo
da evitare che in ogni intervallo si realizzi un numero infinito di eventi: si
capisce facilmente, anzi, che la probabilita di un evento in ogni singolo istante
deve essere zero (perche in un intervallo finito c'e una infinita continua di
singoli istanti). II problema si supera con gli strumenti propri del calcolo
infinitesimale: definiamo la densita media degli eventi nell'intervallo (s, t) come
E {N (s, t)} / (t - s) e ne consideriamo il limite quando l'intervallo ha una
ampiezza che va a zero:

== l. E{N(t,t+h)}
h()
t im h .
hlO

Consideriamo solo processi in cui la funzione h(t), detta densitd degli even-
ti 0 intensito: e finita per ogni t. La proprieta di stazionarieta puo essere
definita facendo riferimento alle distribuzioni di probabilita del numero di

°
eventi N su intervalli distinti: si richiede cioe che per ogni n e per ogni n-
pla di coppie (ai, bi , a; ~ bi ) e per ogni h > la distribuzione congiunta di
{N (ai, bi ) , i == 1, ..., n} sia uguale a quella di {N (ai + h, b, + h), i == 1, ..., n}.
Una analisi approfondita si ottiene solo imponendo condizioni semplifica-
trici. La pili comune e che gli intervalli di tempo tra un evento e il succes-
sivo, Xk, siano indipendenti tra di lora e abbiano la medesima distribuzione
di probabilita: si parla in tal caso di processi di rinnovo. Be E(Xk ) == JL,
Var(Xk) == (J2, allora poiche Ti; == Xl + X 2 + ... + Xk risulta E(Tk) == kJL,
V ar(Tk) == k(J2 data l'indipendenza, e inoltre il teorema del limite centrale
assicura che la distribuzione di T k e asintoticamente normale. Per il numero
di eventi in un intervallo si ottiene facilmente:

Pr {N(O, t) == r} == Pr {N (0, t) < r + I} - Pr {N (0, t) < r} ==


== Pr {Tr + l > t} - Pr {Tr > t}
== Pr {Tr < t} - Pr {Tr + l ~ t}
e le probabilita dei T j possono essere calcolate come convoluzione di quelle
delle Xi; Poiche gli eventi si verificano a distanza media JL, possiamo dedurre
che in media, in un intervallo di ampiezza t si verificano t/ JL eventi. Un ri-
sultato pili preciso, rna asintotico, si ricava sfruttando la norrnalita asintotica
delle Tk: N(O, t) e asintoticamente normale con media t/JL e varianza (J2t/JL3.
Infatti posta yt == {N (0, t) - t/ JL} / J (J2t/JL3 e qt == t/ JL+yJ(J2t/JL3 possiamo
scrivere:
7.2 Processi di Poisson 135

Pr {yt < y} == Pr {N (0,t) < qt} == Pr {Tqt > t} ==


== Pr { T qt - qtJ-l > t - qtJ-l} .
a0ii a0ii
Ora al crescere di t e quindi di qt la variabile a cui si riferisce l'ultima pro-
babilita tende alla normale standardizzata mentre il limite dell'argomento
e:
· t - qtJ-l 1· -y
11m - - - == 1m
t-+oo a0ii t-+oo VI + ya/ Jfii == -y .
Quindi se indichiamo con q>(.) la funzione di ripartizione della normale
standardizzata avremo:

lim Pr {yt < y} == 1 - q> (-y) == q> (y) .


t-s-co

II caso pili semplice, rna niente affatto banale, di processo di rinnovo e


quello in cui I'intensita h(t) e costante, e gli eventi si verificano in modo
completamente indipendente l'uno dall'altro, il relativo processo e chiamato
processo di Poisson.

7.2 Processi di Poisson

II processo di Poisson semplice (0 omogeneo) e caratterizzato da una intensita


costante A. Poiche escludiamo che nello stesso istante si possa realizzare pili
di un evento, e d'altra parte la probabilita che si verifichino eventi nell'inter-
vallo (t, t + h) deve andare a zero se h tende a zero, indicando con o(h) un
infinitesimo di ordine superiore a h quando h tende a zero si usa scrivere:

Pr{N(t,t+h) == I} == Ah+o(h) (7.1)


Pr{N(t,t+h) ==O} == l-Ah+o(h) (7.2)
+ h) > I} == o(h) .
Pr{N (t, t (7.3)

Inoltre si assume che, per ogni t e h, la variabile aleatoria N(t, t + h) sia com-
pletamente indipendente dalle variabili del processo relative a istanti fino a
t. Poiche il ritmo del prodursi degli eventi e indipendente dallo scorrere del
tempo, in quanto la densita e costante e non dipende da t, non dipendono
dal tempo neanche le caratteristiche dell'intervallo tra due eventi consecutivi.
Indichiamo con X questa variabile (nel paragrafo precedente era X k ) e cer-
chiamo di calcolarne la distribuzione indicando con to l'istante nel quale si e
verificato l'ultimo evento:

Pr {X > x + h} == Pr {prossimo evento dopo to + x + h} ==


== Pr{ X > x, nessun evento tra to + x e to + x + h} ==
== Pr {X > x, N (to + x, to + x + h) == O} ==
== Pr {X > x} Pr { N (to + x, to + x + h) == 0 IX > x} .
136 7 Processi di punti

Ma le proprieta di indipendenza del processo fanno sl che il numero di eventi


tra to + x e to + x + h sia completamente indipendente daIl'evento (X > x) che
si riferisce aIle variabili relative a istanti fino a to + x, quindi la probabilita
condizionata e uguale a quella non condizionata, e usando lc (7.1 )-(7.2)-(7.3):

Pr {X > x + h} == Pr {X > x} {I - Ah + o( h)} .


Se indichiamo F(x) == Pr{X > x}, prendendo illimite per h tendente a zero
si ha:
d
dx F (x) == - AF (x) .
Questa equazione differenziale puo essere risolta usando come condizione
iniziale F(O) == Pr{X > O} == 1 e da F(x) == e- AX da cui:

Pr {X < x} == 1 - F (x) == 1 - e- Ax .

Concludiamo che l'intervallo tra due eventi consecutivi ha distribuzione espo-


nenziale di parametro A (ricordiamo che la media e 1/ A e la varianza 1/ A2 ) .
Se fissiamo to == 0, cioe assumiamo che si parta con un evento al tempo zero,
allora il tempo di attesa fino al primo evento T 1 e esponenziale. II tempo di
attesa fino al k-esimo evento T k e invece la somma di k variabili esponenziali
indipendenti con 10 stesso parametro A, ed e noto che ha una distribuzione di
tipo gamma con parametri (k, A) e densita:
-AX
k k-l e
(
fx}=>.x (k~l)!

e naturalmente media k/ A e varianza k/ A2 .


Consideriamo adesso il numero di eventi in un intervallo di tempo. Innan-
zitutto con una semplice integrazione per parti si ha:

Percio sfruttando la relazione ricavata nel paragrafo precedente (e tenendo


conto che le Ti. sono assolutamente continue):

(At)r -At
Pr {N (0, t) == r} == Pr {Tr < t} - Pr {Tr + 1 < t} == -,-e .
r.
Ne consegue che la distribuzione di N(O, t) e del tipo di Poisson con parametro
At (media e varianza sono eguali a At). La costanza della intensita media
comporta la stazionarieta, percio il numero di eventi in un intervallo di tempo
qualunque ha una distribuzione di Poisson di parametro pari a A moltiplicato
la lunghezza dell'intervallo. II processo non ha memoria nel senso che il suo
7.2 Processi di Poisson 137

comportamento a ogni istante e completamente indipendente da quanto si


e verificato prima di quell'istante: percio e a maggior ragione un processo
markoviano. Questa sua estrema semplicita (analoga per certi versi a quella
del rumore bianco nei processi stazionari) rappresenta il suo maggior punto di
forza, poiche permette di calcolare facilmente le distribuzioni di probabilita di
tutte Ie variabili in gioco. Essa costituisce pero spesso anche il maggior limite
nell'impiego dei processi di Poisson in alcuni campi applicativi nei quali il
verificarsi degli eventi che interessano e influenzato dalla storia passata del
processo. Cia ha portato a studiare diverse estensioni basate su intensita non
costanti, per le quali rimandiamo a testi pili specializzati.

Esempio 7.1. II processo di Poisson viene impiegato come schema idealizzato


delle chiamate telefoniche in arrivo a un centralino. Fissata l'unita di misura
del tempo (ad esempio minuti), il sistema ecaratterizzato dall'intensita media
A: vuol dire che in un minuto arrivano in media A chiamate al centralino, e
che l'intervallo medio di tempo tra una chiamata e la successiva e 1/ A minu-
ti. Queste informazioni sono utili ad esempio per dimensionare il centralino:
supponiamo che la durata media delle conversazioni sia pari a Mminuti. Una
valutazione approssimativa procede come segue: in un'ora si registrano in me-
dia 60A chiamate che impegnerebbero le linee in totale per 60AM minuti, il
che si puo realizzare (sempre in media) se sono disponibili almeno AM linee
telefoniche. E possibile anche un calcolo pili accurato ponendosi l'obiettivo
che la probabilita di trovare una linea occupata sia al di sotto di una certa
soglia. Questioni di questo tipo sono trattate dalla cosiddetta teoria delle code
(queueing theory).

Esempio 7.2. II processo di Poisson costituisce anche la base della teoria del-
l'affidabilita, che studia il comportamento di componenti soggetti ad avaria.
Supponendo che la probabilita di avaria sia costante nel tempo, il tempo tra-
scorso fino all'avaria e esponenziale; e nell'ipotesi che la riparazione sia istan-
tanea, il numero di avarie in un intervallo di tempo segue una distribuzione
di Poisson. Tuttavia in questo caso e evidente che l'ipotesi di una probabilita
di avaria costante nel tempo e in molte situazioni irrealistica, percio si pre-
feriscono in genere schemi pili complessi in cui essa varia nel tempo. Infatti
10 schema del processo di Poisson prevede che dopo ogni evento si riproduca-
no esattamente le stesse condizioni iniziali: tradotto in termini di affidabilita,
cia corrisponde a ipotizzare che dopo ogni riparazione il componente abbia la
medesima affidabilita di uno nuovo, e quindi non si puo tenere conto in alcun
modo della eventuale usura.

Una immediata generalizzazione, molto utile nella pratica, e l'ammettere che


I'intensita del processo possa essere variabile nel tempo, ferma restando la
completa indipendenza degli eventi: processi di questo tipo vengono anche
detti di Poisson non omogenei. Le caratteristiche delle probabilita (7.1)-(7.2)-
(7.3) diventano le seguenti:
138 7 Processi di punti

Pr {N (t, t + dt) == 1} == A(t)dt + o(dt)


Pr {N (t, t + dt) == O} == 1 - A(t)dt + o(dt)
Pr{N(t,t+dt) > 1} ==o(dt).
Ripercorrendo il ragionamento svolto precedentemente si ricava che il nume-
ro di eventi in un intervallo di tempo (8, t) ha distribuzione di Poisson con
parametro pari a J:
A (u) duo I tempi di attesa tra gli eventi X k rimangono in-
dipendenti, mentre per gli istanti T j ai quali si verificano gli eventi si possono
ricavare facilmente le distribuzioni condizionate. Posto u > t si ha:
P (Tk == u ITk-1 == t) du == Pr {evento in (u, u + du) [ultimo evento in t }
== Pr{nessun evento in (t, u), evento in (u, u + du)}

= exp {- l u
A(x) dx} A(u) du .

Questa osservazione permette di descrivere il processo in termini di probabi-


lita condizionate, e concatenando queste probabilita si puo scrivere l'intera
distribuzione dall'istante iniziale t == 0 fino a qualunque istante finale to. Se
si sono verificati n eventi agli istanti tl, t2, ..., tn, la densita di probabilita
congiunta (in altri termini la verosimiglianza) puo essere calcolata nel modo
seguente:

Pr{T I ==t l, T2 == t2, ...,Tn == tn, Tn+ l > to - tn} ==


== Pr {T I == tl} Pr {T2 == t21 TI == tl} ... Pr {Tn == tnlTn- 1 == tn-I} X

-1:
X Pr {Tn+ 1 > to - tnlTn == tn} ==

= >. (t I ) exp { _l t l

A(x) dx } x(t2) exp {


2

A(x) dx} X ...

X x(t n ) exp { - 1~~ 1 x(x) dx } exp { - 1~D A(x) dx} =


= A (tIP (t2) ... A (t n ) exp { _ltD A (x) dX} .
Ovviamente questo processo non soddisfa la proprieta di stazionarieta neanche
debole, poiche le medie e le varianze del numero di eventi non dipendono solo
dalla lunghezza dell'intervallo considerato rna anche dalla sua localizzazione.

7.3 Cenni sull'analisi nel dominio temporale e


frequenziale
Anche per i processi di punti stazionari e possibile definire funzioni di au-
tocovarianza e densita spettrale, che assumono pero significati diversi ri-
spetto ai processi a parametro discreto. Daremo solo alcuni cenni di questa
impostazione.
7.3 Cenni sull'analisi nel dominio temporale e frequenziale 139

Possiamo descrivere il processo di punti attraverso due formulazioni alter-


native: la successione degli intervalli tra un evento e l'altro, e il numero di
eventi in intervalli di tempo. Nel primo caso sempre supponendo che si parta
da un istante iniziale t == 0 in cui si verifica un evento, Ie attese aleatorie
tra un evento e l'altro: Xl, X 2 , ... possono essere considerate esse stesse un
processo aleatorio a parametro discreto, stazionario, con media J1x e varianza
a;. Possiamo calcolarne la funzione di autocovarianza:

e la corrispondente densita spettrale:

Per il processo di Poisson (come per tutti i processi di rinnovo), la indipen-


denza delle Xi comporta che la funzione di autocovarianza e nulla: 1x (h) == 0,
h i= 0 e quindi la relativa densita spettrale e costante: Ix (A) == a;/27r. Per
processi pili complicati, l'analisi mette in luce Ie relazioni (solo quelle lineari)
tra i tempi di attesa degli eventi: ad esempio un valore positivo di 1x (1) se-
gnala che i tempi di attesa di eventi consecutivi sono correlati positivamente,
e percio a tempi brevi tendono a seguire tempi brevi, spesso questo compor-
tamento corrisponde all'esistenza di occasionali addensamenti di eventi. In
modo simile, la densita spettrale puo mettere in luce tendenze all'andamento
ciclico dei tempi di attesa che si traducono nelI'esistenza di cluster di eventi,
pili 0 meno regolarmente distanziati nel tempo.
Un modo alternativo di studiare le proprieta di secondo ordine e quello di
considerare il processo (a parametro continuo) descritto dal numero di eventi
negli intervalli (t, t + Llt) considerando Llt piccolo, ed esaminandone illimite
per Llt -+ o. Questo quadro di riferimento sembra pili naturale perche pili vici-
no alla logica del capitolo precedente, in cui si mettono a covariare le variabili
del processo X(t): infatti intuitivamente N(t, t + Llt) tende a X(t) quando Llt
tende a zero. Pero qui si incontrano difficolta analitiche maggiori. Useremo
la notazione semplificata LlN (t) == N (t, t + Llt). Poiche in ogni istante si puo
verificare solo un evento oppure nessuno, e la densita degli eventi e costante
per la stazionarieta: h(t) == h, abbiamo a meno di infinitesimi di ordine supe-
riore a Llt che Pr{ LlN(t) == I} == hLlt e Pr{ LlN(t) == O} == 1 - hLlt da cui
E{LlN(t)} == hLlt.
Definiamo la densita di covarianza 1N(S) per s reale maggiore di zero
attraverso:
'YN(S) = lim Cov{.1N(t),.1N(t+s)}.
Llt-tO (Llt) 2
Ora poiche:

E { LlN (t) LlN (t + s)} == Pr {LlN (t) == 1, LlN (t + s) == I} ==


== Pr { LlN (t) == I} Pr { LlN (t + s) == 1 ILlN (t) == I}
140 7 Processi di punti

definendo:

h = lim P {L1N (t + s, t + S + L1t)1 evento in t}


s
L1t~O i1t
avremo:
lim E{L1N(t) L1N(t+ s)} =hh
s
L1t~O (i1t)2
da cui:

_ u E { i1N (t) i1N (t + s)} _ lim E { i1N (t)} E { i1N (t + s) }


rN (s ) - L1}~o (i1t)2 L1t~O (i1t)2
== h (hs - h) .
Nel processo di Poisson, in cui il numero di eventi in un intervallo e indi-
pendente da cia che avviene precedentemente, li; e uguale a h per ogni S, e
quindi rN (s) == 0 per s > 0 e la relativa densita spettrale e costante. In altri
tipi di processi l'autocovarianza segnala quanto I'intensita e legata (linear-
mente) alla storia precedente. Infatti se rN (s) e positiva significa che l'essersi
verificato un evento s istanti prima influisce positivamente sulla densita degli
eventi, 0, in altri termini, troveremo pili spesso eventi a distanza s di quanti ne
troveremmo in un processo di Poisson. Anche in questo caso l'interpretazione
delle proprieta del secondo ordine non e cosl immediata come per i processi a
parametro discreto e in genere una autocovarianza diversa da zero corrispon-
de a processi Ie cui realizzazioni presentano addensamenti di eventi in alcuni
intervalli, e rarefazioni in altri.
Parte III

La statistica dei fenorneni dinarnici


8

Inferenza statistica per processi aleatori

Questo capitolo introduce all'analisi statistica dei fenomeni dinamici, pren-


dendo in considerazione la problematica generale dell'inferenza statistica su
processi aleatori, e le differenze rispetto all'inferenza parametrica per campioni
casuali.

8.1 Differenze rispetto all'inferenza parametrica classica

La parte della metodologia statistica che prende il nome di inferenza statistica


parametrica ha per oggetto il seguente problema:
Sia X una variabile aleatoria con distribuzione Fea (.) appartenente a una
famiglia {Fe (.) , 0 E e}, e supponiamo che siano disponibili N realizzazioni
indipendenti tra loro della X: si vogliono fare affermazioni su 00 . Nei casi pili
frequenti la scelta della famiglia equivale a specificare la forma della distribu-
zione, il parametro 0 corrisponde a un indice della distribuzione (spesso un
momento), l'insieme e e un intervallo, e la natura delle affermazioni e del tipo
seguente:
1. Attribuzione di un valore specifico a 00 (stima puntuale).
2. Formulazione di un intervallo di valori per 00 (intervallo di confidenza).
3. Scelta tra due sottoinsiemi di valori per 00 (test d'ipotesi).
In ognuno di questi casi, per decidere la strategia migliore si cerca prima di
studiare le caratteristiche dell'errore che si commetterebbe, che e (a me no di
casi degeneri) un ente aleatorio: si giudichera ottima la strategia che permette
di conseguire l'errore pili "piccolo" possibile.
Questa impostazione sembra applicabile negli stessi termini anche ai pro-
cessi aleatori, rna qui si presenta una differenza fondamentale: i dati sono
relativi, nella generalita dei casi, a una serie storica, quindi a una parte finita
di una realizzazione del processo: non a pili realizzazioni somiglianti indipen-
denti (come nel caso classico) e nemmeno a una realizzazione completa, rna
solo a una parte di essa. Inoltre Ie variabili che costituiscono la parte finita
144 8 Inferenza statistica per processi aleatori

della realizzazione del processo che noi osserviamo non hanno necessariamen-
te la stessa distribuzione e potrebbero essere state generate da valori di B
diversi. Si comprende percio come nel caso dei processi aleatori la procedura
inferenziale sia pili delicata e soggetta a restrizioni.
Per fissare le idee, supponiamo che sia possibile rilevare i valori assunti
dalle variabili (Xl, X 2 , ... , X N ) di un processo aleatorio a parametro discreto
{ X t } : il minimo che possiamo chiedere e che il valore del parametro oggetto di
inferenza sia uguale nelle distribuzioni che hanno generato tutti gli N dati: se
si compie inferenza sulla media, che X 1,X2 , ... ,XN abbiano la stessa media;
se si vuol fare inferenza sulla varianza, che X 1,X2 , ... ,XN abbiano la stessa
varianza, e cost via. Cia vuol dire che ci dovremo limitare a processi stazio-
nari: noi prenderemo in considerazione processi stazionari al secondo ordine,
e costruiremo inferenze per i momenti primi e secondi, e per 10 spettro. Ri-
solto questo, si presenta pero una complicazione pili seria, che dipende dalla
mancanza di indipendenza: non siamo pili in presenza di un campione casua-
le, poiche lc variabili (Xl, X 2 , ... , X N ) non sono indipendenti: e d'altra parte
sono proprio i legami di dipendenza tra loro che costituiscono l'oggetto prin-
cipale dell'indagine. La mancanza di indipendenza non permette pili il ricorso
ai semplici teoremi asintotici che garantiscono la possibilita di controllare e
contenere l'errore al crescere del numero dei dati: quindi non si estendono
automaticamente al caso dei processi quelle proprieta di consistenza a cui sia-
mo abituati nel caso di campioni casuali, basandosi sulle quali si puo essere
certi che al crescere del numero di informazioni la inferenza permette risulta-
ti pili precisi, e l'errore che commettiamo diventa trascurabile all'aumentare
del numero dei dati a disposizione. Per esemplificare, nella stima della media,
se (X I,X2 , ... ,XN) e un campione casuale, costituito di variabili tutte indi-
pendenti, con la medesima distribuzione la cui media e m e la varianza v,
possiamo considerare 10 stimatore X N == (Xl + X 2 + ... + X N) IN sapendo
che E(XN) == m, Var(X N ) == vlN, percio al crescere del numero dei dati
N, X N ha una distribuzione che degenera sul valore costante m. Ma se lc Xi
non sono indipendenti, la Var(X N) non e pari a v IN, potrebbe addirittura
non essere decrescente al crescere di N: cia significherebbe sostanzialmente
che aumentando il numero di dati la nostra inferenza non diventa pili precisa,
e quindi non sappiamo sfruttare adeguatamente le nuove osservazioni, oppure
addirittura esse non forniscono nuove informazioni su B. II poter contare su
una forma di consistenza e quindi essenziale per poter costruire una inferenza
plausibile, rna mentre nell'inferenza parametrica basata su campionamento
casuale questa proprieta e automaticamente verificata, nel caso dei processi
aleatori dovremo sempre controllare che essa sia soddisfatta. Essa puo valere
quando si considera un certo parametro 0 momento, e non valere per un altro,
e in ogni caso essere soddisfatta da un certo tipo di processo e non da un al-
tro: per questo viene considerata come una proprieta del processo stocastico,
denominata erqodicita, che consideriamo nel prossimo paragrafo.
Le difficolta nell'inferenza per processi aleatori sono tali che in genere
si riescono a raggiungere solo risultati parziali 0 approssimati, muovendosi di
8.2 L'ergodicita 145

solito in due direzioni: si considera il comportamento asintotico degli stimatori


che spesso puo essere ricavato facendo uso di alcune forme di teoremi limite,
oppure si parte dalla assunzione di norrnalita dei dati, e a volte entrambe.

8.2 L'ergodicita

II termine di ergodicita viene usato con significati diversi da scuole diver-


se, poiche rappresenta un tema assai complesso e suscettibile di una trat-
tazione matematica molto approfondita. II problema fondamentale da cui
nasce la nozione di ergodicita deriva dal raffronto tra il comportamento
delle medie di insieme (0 campionarie) e le medie temporali. Consideran-
do il processo stazionario {X t } e la singola variabile X s per s fissato, una
media temporale e la media aritmetica di N variabili contigue del proces-
so: X(N) == (X s + X s + I + ... + X s+ N- I ) IN; una media di insieme e inve-
ce la media effettuata su pili copie indipendenti della medesima variabile
X s : X(N) = (X~1)+X~2)+ ... +X~N))/N dove (X~1),X~2), ... ,X~N)) e
un campione casuale semplice della variabile X; (che naturalmente sarebbe
osservabile solo se potessimo rilevare pili realizzazioni indipendenti della stesso
processo). In generale se X(N) e X(N) hanno la stessa distribuzione il proces-
so viene chiamato ergodico. Ma il termine ergodico viene anche usato, e pili
frequentemente, nel senso che gli abbiamo attribuito precedentemente, che si
riferisce alla proprieta di consistenza di uno stimatore. Pili precisamente, se ()
e un parametro che puo essere espresso come media di una funzione del pro-
cesso () == E{f(Xt ) } , e si considera la media temporale della stessa funzione:
N
eN == L f e ergodico rispetto a () se eN converge
A A

(X t ) IN, allora il processo


t=l
in probabilita a () quando N ----* 00:

J~ Pr { leN - BI < E } = 1 . (8.1)

In sostanza cia significa che la media temporale conserva la proprieta pili


importante della media campionaria, cioe la validita della legge dei grandi
numeri che permette di effettuare inferenze sempre pili precise all'aumentare
delle informazioni.
II caso pili semplice equando si prende f(X t) == Xt: allora il processo si dice
ergodico in media quando (Xl + X 2 + ... + X N )IN converge in probabilita alla
media del processo. Prendendo f(X t) == XtXt+h si parlera invece di crgodicita
in autocovarianza, e cost via. Esamineremo specificamente le condizioni di
ergodiclta nell' ambito della trattazione dell'inferenza sui singoli parametri e
sulle classi di processi aleatori che abbiamo introdotto.
9

Inferenza per processi stazionari

In questo capitola si tratta l' analisi delle serie temporali, cioe le procedure di
inferenza statistica relativa ai parametri rilevanti dei processi stazionari: la
media, la varianza, le autocovarianze e autocorrelazioni, la densita spettrale,
i coefficienti dei processi autoregressivi a somma mobile.

9.1 Introduzione

Passiamo ora a considerare i processi a parametro discreto e valori continui. In


questo caso la necessita di considerare inferenze su parametri che siano rilevan-
ti per tutte le variabili del processo consiglia, come gia osservato, di restringere
il campo ai processi stazionari. Ci limiteremo a richiedere la stazionarieta al
secondo ordine, e l'inferenza avra per oggetto le quantita caratteristiche che
abbiamo studiato nei capitoli precedenti, e che descrivono Ie proprieta del
secondo ordine del processo: la media, le autocovarianze e le autocorrelazio-
ni, nel dominio temporale; e la densita spettrale, nel dominio frequenziale.
Se si tratta di un processo bivariato, prenderemo in considerazione anche lc
covarianze incrociate e le funzioni cross-spettrali.
Schematizziamo il problema come segue. Supponiamo di disporre di una
serie temporale (Xl, X2, ... , X N) generata dal processo {Xt } , cioe Xi e realiz-
zazione della variabile Xi del processo (i == 1,2, ... , N); {Xt} e stazionario
al secondo ordine, con media E(Xt ) == u, funzione d'autocovarianza ,(h) e
densita spettrale f(A). Scelto un parametro di interesse () (che potra essere
la media u, 0 il valore di ,(h) per un h fissato, 0 la densita spettrale f(A) in
corrispondenza a una fissata frequenza), si dovra determinare una funzione
eN == f (X I, X 2, ..., X N) che funga da stimatore, in modo che l'errore com-
messo eN - () sia una variabile aleatoria che soddisfa criteri di ottimalita.
Allora si stima il parametro attribuendogli il valore assunto dallo stimatore
sulla serie osservata cioe {) == f (Xl, X2, ... , X N).
Si capisce subito pero che comunque le affermazioni inferenziali permet-
teranno solo una caratterizzazione limitata, poiche non e certo pensabile di
148 9 Inferenza per processi stazionari

effettuare inferenza su tutti gli infiniti valori di ,(h) per ogni h, oppure su
tutte le ordinate f (A) per A variabile con continuita tra 0 e 1r. Tenuto conto
che i dati a disposizione (Xl, X2, ... , X N) si riferiscono a un intervallo di tem-
po limitato, e ragionevole limitare i valori del ritardo h per i quali si stima
,(h). Nel dominio frequenziale invece, poiche dovremo accontentarci anche in
questo caso di formulare affermazioni su un numero finito di parametri, e ci
interessa in genere l'andamento su tutte Ie possibili frequenze tra 0 e 1r, il mo-
do di procedere pili comune e quello di concentrare la procedura inferenziale
sui valori che la densita spettrale assume in corrispondenza a un insieme finito
di frequenze equispaziate del tipo Aj == 1rj/M (j == 0,1, ... ,M).
Va sottolineato come, anche sotto il profilo dell'inferenza, e necessario pro-
cedere parallelamente nei due domini: infatti se e vero che la ,(h) e la f(A)
sono in corrispondenza biunivoca essendo una coppia di trasformate di Fou-
rier, non e detto che cia valga anche per gli stimatori: in particolare si vedra
come un soddisfacente stimatore delle autocovarianze ha una trasformata di
Fourier che rappresenta un cattivo stimatore della densita spettrale. Pertanto,
per ottenere proprieta soddisfacenti dal punto di vista inferenziale (cioe del-
I'errore che si commette), e necessario costruire indi pendentemente Ie stime
delle autocovarianze e quelle dello spettro (e vedremo come per queste ulti-
me il compito si riveli pili difficile). Nei paragrafi che seguono svilupperemo
separatamente alcuni risultati di inferenza per quanto attiene la media del
processo, Ie autocovarianze e autocorrelazioni, e poi esamineremo il problema
della stima della densita spettrale.

9.2 Stima della media


Nell'inferenza basata su campioni casuali il miglior stimatore della media e
dato dalla media del campione. Nel nostro caso, come gia osservato, avendo
una sola realizzazione, e solo in parte nota, possiamo costruire solo la media
temporale:
X 1+X2+ooo+XN
N=X
N
La media e ovviamente:

percio 10 stimatore e non distorto. Calcoliamo la varianza (che e quindi uguale


all'errore quadratico medio):
9.2 Stima della media 149

Se prendiamo come indice di sommatoria h == t - s al posta di s, il dominio


(1 < t < N, 1 < s < N) si trasforma nei due triangoli (0 < h < N - 1, h + 1 <
t :::; N) e (-1 :::; h :::; - N + 1, 1 :::; t :::; N + h) e la somma si trasforma in:

Ora, ricordando che l'autocovarianza e pari: ,(h) == ,( -h) e prendendo s ==


-h come indice di sommatoria del secondo termine si ottiene infine:

N - l N-l }
Var (X N ) = ~2 { ~ (N - hh(h) + ~ (N - sh(s) =

Ih l )
= N
1
L
N-l (
1- N 'Y (h) . (9.1)
h=-N+l

Possiamo ora esaminare il problema dell'crgodicita. II processo si dice ergo-


dico in media se 10 stimatore X N converge in probabilita a J1 quando N ~ 00.
Poiche:
E (X _ )2
Pr {IXN - III < k} 2: 1 - ~2 11
dalla disuguaglianza di Cebicev, la consistenza e assicurata se E (X N - J1) 2
tende a zero, cioe se tende a zero la varianza (9.1). Cia sarebbe assicurato se
convergesse la serie le cui somme parziali sono

la quale ha 10 stesso comportamento al limite della:


00

L,(h) (9.2)

per il teorema di Cesaro. Percio se la serie (9.2) e convergente si ottiene la


ergodicita:
eondizione suffieiente perche il proeesso sia ergodieo in media e ehe la serie
delle autoeovarianze sia eonvergente.
Tuttavia questa condizione non e necessaria: una condizione necessaria e
sufficiente perche la varianza tenda a zero si ricava facilmente ricorrendo al
dominio frequenziale, usando la rappresentazione spettrale dell'autocovarian-
za:
150 9 Inferenza per processi stazionari

La varianza si riscrive:

dove si e posta :

KN (A) = ~ ~
h=-N+l
(1- ~) e-
i Ah
=

= ~ { 1+ 2~ (1 - ~) cos Ah} =

1 sin 2 (N A/2)
N2 sin 2 (A/2)

chiamata funzione nucleo di Fejer (per il calcolo del risultato si veda l' Appen-
dice A).
Al crescere di N, se A i- 0, sin 2 (A/ 2) i- 0, e KN(A) tende a zero. Viceversa
nel punto A == 0 il limite destro e sinistro di KN(A) coincidono e valgono 1
(ricordando il limite notevole sin y/ y ~ 1 per y ~ 0). Percio per N ~ 00 la
KN(A) si annulla ovunque eccettuato in A == 0 nel Quale vale 1. Ne segue che:

che e nulla se la misura spettrale e continua nell'origine:


condizione necessaria e sufficiente per l' erqodiciia in media e ehe la misura
spettrale sia continua in A == o. Percio tutti i processi che hanno densita
spettrale assolutamente continua f(A) sono ergodici in media. Inoltre, poiche:

L r (h) == 21rf (0)


00

lim N Var (X N) ==
N----+oo
-00

ne ricaviamo un valore approssimato:

Per quanto riguarda la distribuzione di probabilita di X N, essa dipende ov-


viamente da quella del processo: se si assume che il processo egaussiano, allora
X N e combinazione lineare di normali, e quindi ha distribuzione normale. In
alternativa possiamo cercare di applicare un teorema centrale di convergenza
che assicuri la normalita asintotica di X N: esistono molte generalizzazioni del
9.2 Stima della media 151

teorema del limite centrale (che si applica a variabili indipendenti) che sosti-
tuiscono l'indipendenza con condizioni meno restrittive, ad esempio l'ipotesi
che il processo possa essere rappresentato in forma lineare:

dove pero le {Et} sono indipendenti. Possiamo percio ipotizzare nelle applica-
zioni che la media sia asintoticamente normale, il che permette ad esempio la
costruzione di intervalli di confidenza:

-~
XN - ka / 2 VN f (0)
dove k a / 2 e il quantile della normale standardizzata. Anche per quanto ri-
guarda i test delle ipotesi, si puo ricorrere alla teoria di Neyman e Pearson
assumendo la gaussianita del processo rna attribuendo allc conclusioni solo
validita asintotica.
Le maggiori difficolta dell'inferenza su processi aleatori rispetto al caso
del campionamento casuale possono essere esemplificate in questo semplice
caso, notanda che la media della serie non e in genere stimatore di massima
verosimiglianza, nemmeno per processi gaussiani. Infatti se consideriamo la
log verosimiglianza, indicando con Vij == r (i - j) gli elementi della inversa
della matrice di autocovarianza di ordine N si ha:
1
-"2 L 2:)Xi -
N N
log L (Xl, X2, 000' XN IJL) ex: JL) (Xj - JL) Vij
i=l j=l

ed eguagliando la derivata rispetto a Ma zero si ottiene:


N N
L L VijXj
i=l j=l
M== N N
L L Vij
i=l j=l

I pesi Cj == E~l Vij sono tutti uguali solo nel caso di rumore bianco, e solo
in tal caso X N e stimatore di massima verosimiglianza. Tuttavia, al crescere
del numero di osservazioni in modo bilaterale (cioe verso il futuro e verso il
passato), si puo dimostrare che Ie differenze tra i Cj tendono a zero, quindi
potremmo dire che X N e asintoticamente di massima verosimiglianza.
Nonostante queste difficolta, 10 stimatore X N e certamente la forma pili
naturale, ed e adottato senza eccezioni nella letteratura. Esso si giustifica
perche e in sostanza 10 stimatore per analogia, ovvero secondo il metoda dei
momenti ed e 10 stimatore ottimale nel caso di rumore bianco.
152 9 Inferenza per processi stazionari

9.3 Stima delle autocovarianze e delle autocorrelazioni


Passiamo adesso a considerare l'inferenza quando il parametro d'interesse e
una autocovarianza:

compresa la varianza, oppure una autocorrelazione:

== ' (h)
r (h) ,(0) .
Data la parita considereremo solo autocovarianze per h positivo 0 nullo (la
varianza) e autocorrelazioni per h positivo (porremo per comodita 10 stimatore
di r(O) uguale a 1 con probabilita uno).
La simbologia che adotteremo e quella pili comune nella letteratura: indi-
cheremo con i(h) 10 stimatore di ,(h) e con f(h) 10 stimatore di r(h); prefe-
riamo questa notazione poiche e usata molto diffusamente, anche se comporta
una piccola incoerenza con la notazione precedente, in quanto gli stimatori
non sono denotati da lettere maiuscole pur essendo variabili aleatorie.
Per costruire uno stimatore, possiamo anche in questo caso prendere spun-
to dalla situazione nella quale le variabili sono indipendenti (che ci riporta
alla inferenza classica su campioni casuali): rna cia vale solo per la stima della
varianza ,(0), poiche tutti gli altri ,(h) sono nulli in caso d'indipendenza.
Per la varianza sappiamo che nel caso gaussiano, 10 stimatore di massima
verosimiglianza risulta:
N
i (0) = ~ ~ (Xt - X)2 (9.3)
t=l

che adotteremo come stimatore della varianza. Sappiamo gia che questo sti-
matore e distorto nel caso di campione casuale, ci possiamo aspettare che sia
ancora pili seriamente distorto nei processi aleatori, rna tratteremo in seguito
questo aspetto. Per quanto attiene alle autocovarianze, la scelta pili intuitiva
(e di fatto unanimemente accettata) e di calcolare una media temporale del-
l'analogo della covarianza empirica tra due caratteri statistici. Poiche ,(h) e la
covarianza tra due variabili che distano h istanti, noi consideriamo nella serie
storica a disposizione (Xl, X2, ... , X N ), i prodotti degli scarti dalla media delle
osservazioni che distano esattamente h istanti, del tipo (Xj - x) (Xj+h - x),
e ne formiamo la media aritmetica. La stima risultante e realizzazione della
stimatore seguente:
N-h
i(h)=~~(Xj-X)(Xj+h-X), h=0,1,2,... (9.4)
j=l

Notiamo che nella serie i prodotti del tipo (Xj - x) (Xj+h - x) sono soltanto
JV - h, quelli per j == 1,2, ..., N - h perchc per valori maggiori di j coinvolge-
rebbero le osservazioni successive alla XN che non sono note; percio nella (9.4)
9.3 Stima delle autocovarianze e delle autocorrelazioni 153

i termini della sommatoria sono soltanto N - h, cioe sempre meno numerosi


al crescere di h, e la sommatoria non si puo calcolare per h 2:: N. Inoltre la
(9.4) non e una media aritmetica esatta, poiche dividiamo per N una somma
di N - h termini, quindi la somma dei pesi e 1 - hlN e non e 1. E possibile
pensare a una media aritmetica esatta:
1 N
L (Xt -X) (Xt+h -X)
N-h _ _
1* (h) = N _ h = N _ h:Y(h)
t=l
rna questa forma eormai stata abbandonata dalla maggior parte degli analisti,
per i motivi che saranno chiariti tra breve.
Esaminiamo Ie proprieta degli stimatori, iniziando con la distorsione. Qui
il problema e essenzialmente che si deve usare una stima della media per
calcolare gli scarti. Poiche:

(Xt - X) (Xt+h - X) == (Xt - f-L) (X t+h - f-L) + (X - f-L)2 +


- (X t - f-L + X t+h - f-L) (X - f-L)
si ottiene:
N-h N-h
Ni (h) == L (X t - X) (Xt+h - X) == L (X t - f-L) (X t+h - f-L)+
t=l t=l

L'ultimo termine e approssimativamente uguale a -2(N - h)(X - f-L)2 (anche


se nella prima sommatoria non sono considerati gli ultimi h dati, nella seconda
i primi h). Prendendo infine la media e dividendo per N:
N-h N-h - 2
E{:Y (h)} = ~1 (h) - ~E (X - JL) =
N-h N-h
~ ~,(h) - JV221r f (0) .

II secondo termine, pari approssimativamente alla varianza di X, si ritiene


generalmente trascurabile almeno per N grande, percio si assume

Si conclude che i(h) e distorta, e la distorsione e pari a una quota (hIN) del
valore vero, percio e asintoticamente non distorta. I valori stimati dell' auto-
covarianza tenderanno quindi a essere pili piccoli in modulo del valore che si
stima, in altre parole i(h) e distorta verso l'origine.
Si deduce subito che E{,* (h)} ~ ,(h), quindi la versione alternativa
dello stimatore sarebbe approssimativamente non distorta. Allora quali sono
Ie ragioni della preferenza verso i(h)? Fondamentalmente le due seguenti:
154 9 Inferenza per processi stazionari

1. Se valutiamo l'errore quadratico medio dei due stimatori abbiamo:

EQM fY(h)} = E {i' (h) -1' (h)}


2
~ Var{'Hh)} + l' (h)2 ~22
EQM {,* (h)} == E {,* (h) - , (h)}2 ==
2
= Var{ * (h)} = N Vari' (h)} = VarfY(h)}
l' (N _ h)2 l' (1 _ h/N)2
ed e opinione prevalente che l' EQ M {1( h)} tenda ad essere inferiore a
quello dell'altro stimatore, anche se cia non puo essere dimostrato valido
per tutti i processi stazionari (rna vale, come si verifica subito, per il
rumore bianco).
2. E importante che considerando le stime collettivamente per tutti i valori di
h si ottenga una funzione 1(h) che soddisfa le proprieta soddisfatte dalla
funzione di autocovarianza ,(h). La parita e soddisfatta per costruzione
dalla 1(h), la relazione Ii (h) I S; 1 (0) e anche soddisfatta, controlliamo la
definitezza positiva: poiche

L LCiC/Y (i - j) = ~ L L LCiCj (Xt - X) (XHi-j - X) =


i j i j t

~ ~ L LLci (Xs - i- X) Cj (X S-
j- X) =
i j s

= ~ ~ [~Ci (X i-X)r > o.


s-

Si deduce che 1(h) e definita positiva; invece questa proprieta non e


assicurata per la,*
(h).
In conclusione useremo la forma dello stimatore (9.4) calcolando la varian-
za 1(0) e le autocovarianze relative ai ritardi crescenti 1,2, ... , fino al massimo
ritardo, chiamiamolo M, e possiamo poi porre (se c'e necessita di estende-
re formalmente la definizione dello stimatore) 1(h) == 0, h > M. In via di
principio potremmo scegliere M == N - 1, rna quando h e vicino a N gli sti-
matori sono composti da una somma di pochi termini (soltanto N - h), e la
distorsione (circa, (h)h/ N) e elevata, percio si preferisce limitare il valore del
ritardo massimo di stima: se e possibile una indicazione deriva dallo specifico
fenomeno che si studia, per il quale a volte si puo restringere l'interesse a una
gamma limitata di ritardi. Altrimenti sono state proposte varie considerazioni
empiriche, che consigliano di non spingere la stima dell'autocovarianza oltre
ritardi pari a un sottomultiplo del numero dei dati del tipo N /5 0 N /3.
Ma per una valutazione pili approfondita delle proprieta degli stimatori
1(h) dobbiamo studiarne i momenti secondi, verificando anche se e sotto quali
condizioni essi sono consistenti (cioe la ergodicita dei momenti secondi). Tenia-
mo conto che noi costruiamo l'insieme di stimatori {1 (0) ,1 (1) , ... ,1 (M)} cal-
colandoli sugli stessi dati, percio c'e ragione di ritenere che essi siano correlati.
9.3 Stima delle autocovarianze e delle autocorrelazioni 155

Quindi dovremmo calcolare quantita del tipo:

C ov {i (h) , i (k)} == E {[ i (h) - Ei (h)] [i (k) - Ei (k)]} (9.5)

le quali, sostituendo la espressione (9.4) dello stimatore, risultano funzione dei


momenti quarti (e terzi) del processo. Questi momenti si possono calcolare in
funzione dei cumulanti come abbiamo accennato nel secondo capitolo. Ricor-
diamo le formule derivanti dalla (3.1) (che abbiamo poi sviluppato nel caso
della normale ponendo i cumulanti uguali a zero):

E (X IX2X3 ) == cum {Xl, X 2 , X 3 }

E (X IX2X3X4 ) == E (X IX2 ) E (X 3X4 ) + E (X IX3 ) E (X 2X4 ) +


+ E (X IX4 ) E (X 2X3 ) + cum {Xl, X 2 , X 3 , X 4 } (9.6)

dove e da ricordare che si e supposto E(Xi ) == 0 e quindi E(X) == o.


Anche in questo caso, ricaveremo formule approssimate la cui validita e
solo asintotica; per ricavarle, inoltre, supporremo per semplicita che la media
del processo sia nulla. Vediamo dapprima la correlazione tra stimatori della
media e dell'autoeovarianza:

Nel caso della distribuzione gaussiana i cumulanti terzi sono nulli; negli altri
casi inveee per ottenere l'ineorrelazione sara necessario ipotizzare limitazioni
sul eomportamento della serie dei cumulanti, in modo che i termini N 2 e N 3
al denominatore assicurino che la correlazione tende a zero.
Per valutare le covarianze del tipo (9.5) assumiamo aneora per semplicita
ehe la media sia nulla, oppure che sia nota e la sottraiamo direttamente dai
dati, di modo ehe calcoliamo 10 stimatore con la formula:
N-h

i (h) = ~ L XtXt+h
t=l
156 9 Inferenza per processi stazionari

che permette sviluppi pili facili dei quarti momenti. Poiche ci interessa un
risultato asintotico possiamo anche porre E{')t(h)} ~ r(h). Allora:

C ov { ')t (h) , ')t (k)} == E { ')t (h) ')t (k)} - r (h) r (k) .

Sviluppiamo il momento quarto usando la (9.6):

E {i (h)i (k)} = ~2 E { ~ ~ XtXt+hXsXsH } =

1
= N2 L L {E (XtXt+h) E (XsXs+k ) + E (XtXs) E (Xt+hX sH)+
t s

+E (XtXs+k) E (Xt+hX s) + cum (X t, x.,«, X s, X s+k)} ==

= N2
1
L L {"( (h) "((k) + "( (t - s)"( (t - s + h - k) +
t s
1
+ "((t-s-k)"((t-s+h)}+ N2 LLcum(Xt,Xt+h,Xs,XsH)'
t s

Ipotizziamo anche in questo caso che la somma estesa ai cumulanti e divisa


per N 2 tenda a zero quando N -+ 00, allora per N grande otteniamo:

1 N N
C ov { i (h) i (k)} = N2 L L b (t - s)"( (t - s + h - k) +
t=l s=l

+r (t - s - k) r (t - s + h)}
ed effettuando la sostituzione d'indici u == t - s:

1
Cov {i (h), i (k)} ~ N L b (u)"( (u + h - k) + "( (u - k)"( (u + h)}
u
h~0 , k~0 (9.7)

dove la sommatoria rispetto ad u si estende a tutti i valori positivi e negativi.


La formula appena ricavata, nota come formula di Bartlett, vale per ogni h e
k, e permette di calcolare prima di tutto le varianze degli stimatori:

Var{i(h)} ~~L {"((u)2 +"((u-h)"((u+h)} =


u

= ~L{"((u)2+"((u)"((U+2h)}, h=1,2, ...


u

Var{r(O)}~ N~r(u
A 2 ~ )2 .
u

Vediamo che le varianze dipendono dalla serie dei r(u)2 in modo analogo a
come la varianza di X dipendeva dalla serie delle r(u), quindi Ia ergodicita in
9.3 Stima delle autocovarianze e delle autocorrelazioni 157

autocovarianza e assicurata dalla convergenza della serie delle ,( u)2. Pili pre-
cisamente, ricorrendo alla rappresentazione spettrale sotto l'ipotesi di misura
spettrale assolutamente continua (5.11) otteniamo:

VarfY(h)} = ~ L {// ei(>'-I')U!(>")!(p,)d>..dp+


u

+ // ei>.(u~h)e-il'(u+h)! (>..)! (p,) d>"dp, } =

= ~ { / ! (>..)2 d>" + / e-
i2>.h!
(>..)2 d>..} .

Pertanto se la densita spettrale al quadrato e integrabile, la varianza tende a


zero. Una condizione pili precisa per la ergodicita in autocovarianza e allora
la seguente:

Notiamo esplicitamente che questa condizione presuppone la assoluta conti-


nuita della misura spettrale, mentre per I'ergodicita in media era sufficiente
la continuita nell'origine.
Per quanto riguarda la correlazione tra Ie stime, la (9.7) e difficilmente
valutabile in generale, si puo osservare solo che per ritardi molto diversi tra
loro, per cui h - k e grande, e la ,(h) va velocemente a zero al crescere di h,
allora nei prodotti ,( u ),(u + h - k) e ,( u - k),( u + h) almeno un fattore sara
piccolo, e la covarianza sara moderata, mentre tendono a essere pili correlate
tra loro le stime per ritardi consecutivi. Un caso interessante da esaminare e
quello che il processo sia rumore bianco: in tal caso ,(h) == 0 per h # 0 e le
formule si semplificano molto:

Cov{i(h),i(k)} ==0, h#k

VarfY(h)} = 1'~)2, h =I- 0

Var{i'(O)} = 21'~)2 .

Nel caso del rumore bianco, quindi, gli stimatori delle autocovarianze sono
tutti incorrelati, e hanno la medesima variabilita, eccettuato 10 stimatore della
varianza del processo, i(O), la cui varianza e il doppio degli altri.

Esempio 9.1. Per un processo a somma mobile di ordine q, in cui sia ,(h) == 0
per Ihl > q vediamo facilmente che le stime i(h) e i(k) sono incorrelate
se la differenza tra i ritardi e maggiore di q. Nel caso pili semplice q == 1,
posta ,(I) == p,(O), avremo Cov{i(h),i(h+j)} == 0 per j == 2,3, ... mentre
Cov{i(h),i(h+ I)} == 2p,(0)2/N (ricordiamo che Ipl < 1/2).
158 9 Inferenza per processi stazionari

Passiamo ora a considerare la stima delle autocorrelazioni. Lo stimatore


generalmente adoperato e ricavato per analogia dalla definizione r( h) ==
,(h)/,(O):
N-h
A (h) L: (Xt - X) (Xt + h - X)
f ( h) == ~ (0) == t=l N (9.8)
'Y L: (x, - X)2
t=l

La consistenza e assicurata se il processo e ergodico in autocovarianza, perche


il limite del rapporto e uguale al rapporto dei limiti essendo diverso da zero
il limite al denominatore:

lim Pr {I f (h) - r (h) I < E} == 1 .


N-+oo

Tuttavia le altre proprieta sono pili complicate, ad esempio la distorsione e


difficile da calcolare poiche f( h) e un rapporto tra due variabili aleatorie,
in genere correlate. Ci contenteremo percio di risultati asintotici, ottenuti
ricorrendo a uno sviluppo in serie di Taylor:

f (x, y) == f (xo, Yo) + (x - xo) fx (xo) + (y - Yo) fy (Yo) + R 2 .

Prendiamo come funzione f(x, y) == x/y e identifichiamo x con i(h), y con


i(O), Xo con ,(h) e Yo con ,(0). Da:

:: = xo + x - xo _ (y - ;0) xo + R 2
Y Yo Yo Yo

si ricava:

I risultati si ottengono trascurando il resto R 2 che contiene termini di gra-


do superiore a uno nelle differenze i(h) - ,(h) e i(O) - ,(0): poiche queste
differenze tendono a zero al crescere di N, gli sviluppi risultanti si posso-
no interpretare come riferiti alla parte principale dell'infinitesimo f( h) - r( h)
al tendere di N all'infinito. Dalla (9.9) si ha allora E{f(h)} ~ r(h) e per i
momenti del secondo ordine:
9.3 Stima delle autocovarianze e delle autocorrelazioni 159

= ~Cov {1' (h) , l' (k)} - 'Y (h)3 Cov {1' (0) , l' (k)} +
r (0) r (0)
_ r (k) C ov {A (h) A(O)} + 'Y (hh (k) V ar {A (O)}
'Y (0)3 'Y , 'Y 'Y (0)4 'Y

e sostituendo la (9.7):

Cov {f (h), f (k)} ~

=~L {r (u) r (u + h - k) + r (u - k) r (u + h) + 2r (h) r (k) r (u)


2
+
u

- 2r (u) r (h) r (u - k) - 2r (u) r (k) r (u - h)}, h > 0, k > 0


(9.10)

da cui si puo ricavare anche una espressione per la varianza delle stime delle
au tocorrelazioni:

Var{f(h)} ~ ~ L{r(u)2+ r(u-h)r(u+h)+


u

+ 2r(u)2r(h)2 - 4r(u)r(h)r(u - h)} .


Queste espressioni hanno una parte simile alle analoghe riguardanti le
autocovarianze, ma si aggiungono ulteriori termini di grado 3 e 4 nelle auto-
correlazioni. Percio anche in questo caso ci si puo attendere che le stime per
ritardi non molto diversi siano fortemente correlate.
Esempio 9.2. Per un processo nel quale r(h) == 0 per h > q le stime delle
autocorrelazioni sono incorrelate solo se i ritardi considerati sono maggiori di
q e contemporaneamente la loro differenza e maggiore di q. Per il caso q == 1
abbiamo, posta r(l) == p, che Var{r(l)} == (1 - 3p2 + 4p4)/ N , Var{r(h)} ==
(1 + 2p2)/ N , h == 2,3, .... Per le covarianze, per h > 1 si ottiene:

2P/ N S == 1
Cov{f(h),f(h+s)} = ~~r(u)r(u+s)= p2/N s:2 .
{
o s - 3,4, ...

Queste espressioni semplificate si generalizzano facilmente: se r(h) == 0 per


h > q, allora possiamo scrivere:
1
Cov{f(h),f(h+s)} = NLr(u)r(u+s), b >«. s=1,2, ...
u

Var{f(h)} = ~Lr(u)2, h>q.


u

Viceversa, per un processo autoregressivo del primo ordine con r(l) ¢


applicando la formula si ottiene:
160 9 Inferenza per processi stazionari

In particolare Var{f(l)} == (1 - ¢2)/N, quindi la variabilita della stima del-


l'autocorrelazione al ritardo uno, massima nel caso del rumore bianco, dimi-
nuisce all'aumentare di I¢I tendendo a zero per I¢I ~ 1. Ricordiamo pero
che il valore ¢ == ±1 non corrisponde a un processo stazionario, e quindi
l'autocorrelazione (teorica) in questo caso non e definita.

Nel caso del rumore bianco tutto si semplifica: E{f (h)} ~ 0, h i= 0 e


Cov{f(h),f(k)} ~0, h i= k, Var{f(h)} ~ u»,
Per quanto riguarda la distribuzione di probabilita degli stimatori, essa
e praticamente incalcolabile, rna esistono diversi risultati asintotici, che di-
mostrano la validita del teorema centrale di convergenza sotto alcune ipotesi
di regolarita, Uno dei pili utilizzati concerne i processi lineari, come nel ca-
so che abbiamo ricordato per la media aritmetica: supponiamo che valga la
rappresentazione:

L hsEt-s
00

X; - fJ == (9.11 )
s=o
con lc {Et} indipendenti e somiglianti, e inoltre E(Et) < 00, Lu h~ < 00,
L u lui h~ < 00. Allora si puo dimostrare (Anderson, 1971) che per ogni h
positivo la variabile multipla:

IN {i (0) - r (O)}, IN {i (1) - r (1)}, ..., IN {i (h) - r (h)}


converge in distribuzione a una normale multipla con medie nulle e varianze
e covarianze date dalle formule gia ricavate in modo approssimato, e inoltre
converge in distribuzione alla normale anche la variabile:

IN {f (1) - r (1)}, IN {f (2) - r (2)}, ..., IN {f (h) - r (h)} .

Come immediata conseguenza, per un processo composto di variabili in-


dipendenti le ffi {f (h) - r (h)}, h == 1,2, ... sono asintoticamente normali
standardizzate indipendenti.
Questi risultati permettono di calcolare intervalli di confidenza approssi-
mati per i singoli elementi r( h) e r( h), mentre epili difficile calcolare regioni di
confidenza simultanee per tutti i ritardi, poiche Ie stime per ritardi differenti
sono correlate. L'unica eccezione avviene quando questa correlazione viene a
mancare, ovvero nel caso di un processo rumore bianco. In questa situazio-
ne le stime della autocorrelazione sono asintoticamente normali indipendenti
con media zero e varianza liN, quindi se k a / 2 e il quantile della normale
standardizzata possiamo costruire l'intervallo di confidenza:
9.4 St ima delle aut ocorre lazioni par ziali 161

0.5

-0.5

-1

Fig. 9.1. Autocorrelazione t eorica (linea continua ) e stimata (barre) su un a


realizzazione finita di un AR(2 ) pseudo-period ico

che e valido ugualmente per t ut ti i ritardi. Spesso l'ip otesi pr incipale da sot to -
porr e a verifica e che la serie sia completamente incorrelata: r(h ) = 0, Vh # O.
Per controllarla agevolmente nel grafico , si usa tracciare sul correlogramma
du e linee orizzo ntali al di sopra e al di sotto dell'asse delle ascisse, a egua le
distan za ka: /2/ ffi: questa banda viene tracciata dalla maggior pa rte dei soft-
war e per l'an alisi delle serie temporali. Se il processo che ha generato i dati
e un rumore bian co, le singole stime sono ap prossi mativamente normali con
media zero e varianza 1/ N , e quindi assu mono un valore che olt repassa la ban-
da solo con proba bilita a . Di conseguenza, se la serie e stata generata da un
ru more bianco e abbiamo stimato M autocorre lazioni, ci possiamo asp ettare
che approssimativamente solo a.!v! valori ecceda no la ban da di confidenza. Se
invece il processo generatore non e un rumore bianco, avra autocorrelazioni
pronun ciate diverse da zero , e quindi le stime tenderanno ad avvicinarsi a quei
valori, collocandosi con maggiore frequenza all'esterno della banda.
Alcuni software calcolano una banda di frequenza pili precisa usa ndo , inve-
ce che 1/ ffi, 10 scarto quadratico medio dello stimatore ottenuto sostituendo
Ie stime delle autocorre lazioni nella (9.10) (si veda ad esempio la Fig. 5.5 del
capitolo 5).
Un esempio di st ima del correlogramma e riportato nella Fig. 9.1 che
illustra la st ima effett uata su un processo autoregress ivo del secondo ord ine,
la cui autocorrelazione teorica e pure riportata nel grafico.

9.4 Stima delle autocorrelazioni parziali


Abb iamo visto il significato delle autocorrelazioni parziali in termini di regres-
sione: l'auto correlazione parziale al ritardo h, ;r(h), e uguale al coefficiente di
162 9 Inferenza per processi stazionari

Zt-h nella regressione di Zt SU (Zt-l, Zt-2, ... , Zt-h). Pertanto ai fini della
stima si potrebbero eseguire ripetute regressioni sulla serie storica osservata,
aumentando via via l'ordine dei regressori mediante le variabili precedenti,
e assumere come stime i coefficienti di regressione dell'ultimo termine. Esi-
ste tuttavia un metodo computazionalmente pili semplice e rapido (e che da
essenzialmente gli stessi risultati) consistente nello stimare le autocorrelazio-
ni (ordinarie) e sostituirle nelle formule di Durbin (6.20) e (6.21). In questo
modo si possono stimare ricorsivamente i parametri autoregressivi di una au-
toregressione di ordine m per valori di m crescenti, e porre la stima della
autocorrelazione parziale di argomento m uguale alla stima di cPm,m. Se indi-
chiamo con n-( h) le stime da calcolare delle autocorrelazioni parziali, mentre
f (h) sono quelle gia ottenute delle autocorrelazioni ordinarie, si procede COS!:

• (1) Si pone ovviamente n-(O) == 1,n-(1) == f(1)'¢I,1 == f(1).


• (2) Per m == 1 dalle(6.20) si ottiene:

7[''" (2) -- 1 _ f(2) - ¢1,lf(1)


,+,2 2 - - - - " , - - -
, 1 - cPI,lr(1)

e dalla (6.21) si stima l'altro coefficiente ¢2,1 == ¢l,l - ¢2,2¢1,1.


• (3) Avendo stimato i ¢m,j per m == 1 e 2 si puo calcolare la stima di 7['(3)
usando ancora la (6.20) per m == 2:

11-(3) = f(3) ¢2,1 f(2) ¢2,2 f (1)


-A -A

1 - cP2,1 r(1) - ¢2,2r (2)

e si stimano anche i rimanenti coefficienti ¢3,j usando la (6.21) con m == 2.



• (k+ 1) Sulla base delle stime dei coefficienti ¢k,j e delle autocorrelazioni
ordinarie stimate si ottiene ancora dalla (6.20):

La procedura puo essere iterata fino al ritardo massimo di stima, che e


legato a quello adoperato per la stima delle autocorrelazioni ordinarie.
Quanto alle proprieta campionarie degli stimatori delle autocorrelazioni
parziali, la loro forma pili complicata di quelle ordinarie non permette in ge-
nerale di ottenere risultati analoghi. Possiamo pero affermare che, essendo le
n-( h) funzioni continue delle f( h), se il processo e ergodico in autocovarianza
allora anche lc stime delle autocorrelazioni parziali sono consistenti. Un risul-
tato asintotico semplice si ottiene solo se il valore teorico di 7['( h) e uguale a
zero. Pili precisamente, Quenouille (1949) ha dimostrato che per un proces-
so autoregressivo di ordine p le stime fr(h) per h > p sono asintoticamente
normali indipendenti con media zero e varianza 1/N.
9.5 Stima dello spettro 163

Percio possiamo anche in questo caso disegnare il grafico delle stime n- (h) in
funzione di h (detto correlogramma parziale) e considerare bande di confidenza
attorno allo zero di ampiezza k a / 2 / VN, come per Ie autocorrelazioni ordinarie,
poiche, nel caso che il processo sia un rumore bianco, e per N grande, tutte le
n-(h), h == 1,2, ... sono approssimativamente normali indipendenti con media
zero e scarto quadratico medio 1/ J(N).

9.5 Stima dello spettro


Entriamo ora nel campo dell'inferenza per il dominio frequenziale. Come
vedremo qui gli sviluppi si complicano e incontriamo problemi nuovi.
Supporremo che il processo aleatorio {Xt} abbia densita spettrale f(A) di
quadrato integrabile (di modo che e ergodico in autocovarianza) e ci prefigge-
remo 10 scopo di stimare la densita f(A) per A fissato. Due sono Ie strade che
intuitivamente si possono percorrere (apparentemente distinte):
a) Poiche f(A) e la varianza della componente di frequenza A, che e pari alla
media del quadrato dell'ampiezza (in quanto I'ampiezza ha media nulla)
possiamo basarci sui moduli al quadrato delle ampiezze A(A) che possono
essere stimate attraverso le trasformate di Fourier (5.15).
b) Dato che f (A) e la trasformata di Fourier delle autocovarianze, pos-
siamo prima caicolare le stime delle autocovarianze e poi prenderne le
trasformate.
I due metodi conducono sostanzialmente al medesimo stimatore che viene
chiamato periodogramma. Infatti se consideriamo la trasformata di Fourier
caicolata alla frequenza A sui dati:
N
ZN (.\) = ~ I:: (Xt - x) ei>..t
yN t=l

essa e la realizzazione della variabile aleatoria:


N
ZN (.\) = ~ I:: (Xt - X) ei>..t
yN t=l

la cui media e nulla, e la varianza:


E{IZn (.\)1 2 } = ~L L E{ (x, - X) (Xs - X) }ei>..(t-s) =
t s

Y: (1- I~) ~y(h)ei>"h


h=-N+l

dove si e usato uno sviluppo analogo a quello introdotto parlando dell'ergo-


dicit a in media. Pertanto per N ~ oo,EIZN(A)1 tende a 27rf(A), e quin-
2

2
di IZN (A) /27r risulta stimatore asintoticamente non distorto della densita
1

spettrale. Esso prende il nome di periodogramma IN(A):


164 9 Inferenza per processi stazionari
N 2

IN (>') = ~ IZN (>')1 2 = ~ ~ (Xt X)


2w y2wN c:
t=l
- ei>.t

= 2n
1
L
N-l
:Y(h)et>'h
.
= 2n
1 { N
:Y(0)+2L:Y(h)cos>'h
}
(9.12)
h=-N+l h=l

dove i(h) e 10 stimatore dell'autocovarianza (9.4) e si e ancora una volta ese-


guito il cambio di indici h == t - s nelle sommatorie. L'ultima espressione mo-
stra che il periodogramma eesattamente la trasformata di Fourier della funzio-
ne che stima le autocovarianze, estesa ponendo i(h) == 0 per Ihl ~ N: quindi
anche il modo di procedere indicato in b) suggerisce l'uso del periodogramma.
II periodogramma, pur essendo asintoticamente non distorto, presenta un
grave inconveniente che 10 rende inutilizzabile nel caso di processi aleatori, poi-
che non e consistente. Lo possiamo verificare facilmente nel caso pili semplice
in cui il processo {Xt } sia formato di variabili gaussiane indipendenti.
Per facilitare 10 studio prenderemo in considerazione solo le frequenze
di Fourier del tipo Aj == 't
i, (j == 0,1, ... , N/2), considerando solo processi
a media nulla (e quindi non sottrarremo pili X) e separando parti reali e
immaginarie:

dove:
1
A j == - - -
V2wN
L X, cos -.!!.
t=l
N 2
N
jt
, j == 1,2, ... , N /2 .
n, == - - - L x, sin -.!!.jt
1 N 2
V2wN t=l N
Se {Xt} e un rumore bianco gaussiano, le A j e B j sono anch'esse varia-
bili normali a media nulla e ricorrendo aIle formule di ortogonalita esposte
nell' Appendice A si ottiene:

,(0) N
Cov {Aj, A k } == -N ~ cos Njtcos N kt ==
2w 2w {o j i= k
2w {:-r ,(0) / (4w) j == k

l' (0) ~ 2n 2n
C ov { B i- B k} == -N c: sin N jt sin N kt ==
{o ji=k
2w t=l ,(0) / (4w) j==k

, (0) ~ 2w . 2w
Cov{Aj,B k } == 21rNL..--cOS Njtsln Nkt==O.
t=l

In conclusione le A j e B, sono variabili normali completamente indipenden-


ti, con varianza uguale a ,(0)/(41r). Ne segue che anche i periodogrammi
I(Aj), j == 1, ..., N /2 sono indipendenti. Inoltre:
9.5 Stima della spettro 165

ha una distribuzione chi quadrato con due gradi di liberta poiche e somma
dei quadrati di due normali standardizzate indipendenti, si usa anche dire
simbolicamente I (Aj) 'd~) X~. Da questa relazione ricordando che E(X~) ==
r-;»

v, Var(x~) == 2v, discende subito:

E{I (Aj)} = l' (0) = f(A)


211"
Var{I(A')}==
J
(,(0))2 4 = (,(0))2 =f(A)2.
411" 211"

Quando la distribuzione del processo non e gaussiana, questi risultati non


sono validi se non approssimativamente, rna si puo ricorrere anche qui a una
forma di teorema limite centrale per invocare la normalita di A j e B j quando
N ---+ 00, e quindi la distribuzione asintotica chi quadro per il periodogramma.
Questi risultati, che abbiamo ricavato nel caso del rumore bianco, possono
essere estesi almeno asintoticamente ad altre classi di processi, e in particolare
ai processi lineari del tipo (9.11) (anche qui per semplicita supponiamo JL == 0):

L
00

x, == hsEt-s .
s=o

Vediamo come. La trasformata di Fourier diventa:

e per N grande possiamo prendere come nuovo indice di sommatoria u == t - s


che ha un campo di variazione approssimativamente indipendente da s per
cui:
Z (Aj) == _1_ L
EueiAjU L
hseiAjS == z; (Aj) H (Aj)
~ u s

dove H(A) e la funzione di trasferimento del filtro {h s } e Z; e la trasfor-


mata di Fourier di un rumore bianco e quindi ha la distribuzione ricavata
precedentemente. Ne segue:

dove I, (Aj) e il periodogramma del rumore bianco che ha distribuzione chi


quadro con 2 gradi di Iiberta moltiplicato per V ar{ Et} / (411") == (J2 / (411"). Poiche
la densita spettrale del processo e, come abbiamo pili volte visto, pari a f (A) ==
2
(J2 H (Aj) / (211"), concludiamo:
I 1
166 9 Inferenza per processi stazionari

ovvero 21 (Aj )I f (Aj) si distribuisce come un chi quadrato con 2 gradi di liberta,
il che ci permette di calcolare media e varianza:

(9.13)

ricordando sempre che queste formule sono state ricavate sotto alcune ipote-
si, e che comunque la loro validita e approssimativa e asintotica; ricordiamo
inoltre che il risultato concerne solo le frequenze di Fourier del tipo Aj == ~ j,
rna questo e un problema di minore importanza perche al crescere di N esse
sono sempre pili numerose e distribuite in modo equispaziato tra 0 e Jr.
Dagli sviluppi riportati finora dovrebbe apparire evidente come il periodo-
gramma, non essendo consistente, non risolve efficacemente il problema della
stima spettrale. Dovrebbe risultare altresl intuibile il perche della mancata
consistenza: fissata la frequenza, il periodogramma non e una media, rna si
basa su una sola trasformata. In base a questa considerazione, alcuni tentativi
di arriyare a una stima consistente si sono mossi nella direzione di costruire
qualcosa di analogo a medie di periodogrammi. Altri autori hanno sviluppa-
to il problema ponendosi pili dal punto di vista del dominio temporale: il
periodogramma ha la forma di una trasformata di Fourier delle stime delle
autocovarianze (si veda la 9.12):

N-l

IN (>..) = ~
2Jr
'"
~
:y (h) ei Ah
h=-N+l

pertanto si potrebbe pensare che essendo le i( h) consistenti, risulti consisten-


te anche 1N(A): il motivo sostanziale per cui questa proprieta non vale e che
si somma un numero di stime i(h) crescente, pari a 2N - 1: la varianza della
singola i(h) e dell'ordine di liN, rna la varianza della somma non tende a
zero. Questo suggerisce che si potrebbe modificare il modo con cui si som-
mana Ie i(h) limitando gli estremi a numeri minori di N, ed eventualmente
ponderando.
Vedremo come queste due idee apparentemente indipendenti portino a pro-
porre stimatori dalla struttura essenzialmente simile, che costituiscono tutta
una classe di stimatori consistenti della densita spettrale, legati al concetto di
finestra (window) nei due domini. Infatti l'idea che abbiamo esposto, relativa
al dominio temporale, porta a considerare forme del tipo:

<PI (>..) =~
2Jr
L w (h):Y (h) e
i Ah

dove i pesi {w(h)} si annulleranno per valori elevati di h, rna sempre infe-
riori a N. Dal punto di vista frequenziale, invece, pensare a una media del
periodogramma corrisponde a ipotizzare stimatori del tipo:
9.5 Stima dello spettro 167

La funzione {w(h)} viene chiamata finestra d'intervallo, e per rispettare la


dimensione della densita spettrale, e considerato che i(h) == i(-h), dovra
soddisfare le proprieta w(O) == 1, w(h) == w(-h). La funzione W(A) viene
invece chiamata finestra spettrale. Ora, se poniamo:

w (>') = ~ 2: w (h) e- i h A ¢} w (h) = J1I" W (>') eiAhd>'


21r h -7f
(si noti che W(A) e reale perche w(h) e pari) otteniamo facilmente che <PI (A)

i:
e <P2 (A) coincidono:

<P2 (>') = IN (w) W (>' - w) dw =

= ~ J1I" 2: i (h) e iwh 2: w (s) e-i(A-W)sdw =


(21r) -7f h s

= ~ 2:2: i (h) w (s) e- i AS J7f e-iw(s+h)dw


(21r) h s -7f
=~
21r
2: w (h)i (h) e i Ah = <PI (>') .
h

La ricerca dello stimatore si trasforma percio nel problema della costruzio-


ne di una finestra, cioe del valore dei pesi w(h) 0 della funzione W(A), che
assicuri la consistenza. A questo fine dovremo fare in modo non solo che
la varianza dello stimatore tenda a zero, rna anche che la sua media ten-
da al valore vera della densita spettrale. II problema si puo sintetizzare nel
modo seguente: determinare M e {wM(h), h == 1,2, ... , M} tali che, posta
WM(O) == 1, wM(h) == 0 Ihl > M, WM( -h) == wM(h) (h > 0), e

risulti:

lim E
N-+oo
{lw (A)} == f (A), lim Var
N-+oo
{lw (A)} == 0 .
Molte soluzioni sono state proposte da diversi autori, che portano a di-
verse forme di stimatori, ne esamineremo solo alcune. II punto chiave di que-
sta metodologia sta nel considerare il valore M (chiamato anche punto di
troncamento) come funzione di crescente di N: infatti la media di lW(A) e
approssimativamente:
168 9 Inferenza per processi stazionari

e non potra in generale tendere a f(A) se la somma non tiene conto di tutti i
ritardi h, cioe se M non tende all'infinito con N; d'altra parte, poiche JW(A) e
combinazione lineare di 2M + 1 stime delle autocovarianze, e ciascuna di esse
ha varianza dell' ordine 1/N, ci possiamo aspettare che la varianza di (A) Jw
sia dell'ordine di MIN, e noi vogliamo che tenda a zero. Percio e necessario
che M cresca con N, rna che MIN tenda a zero:

per N -+ 00, M -+ 00 e M /N -+ 0.

Questo si puo realizzare facilmente prendendo ad esempio M == effi. Quan-


do parleremo di consistenza degli stimatori con finestra, sara sempre inteso
che al crescere di N il punto di troncamento M soddisfa la proprieta appena
descritta.

A) Una delle prime proposte estata avanzata da Bartlett ne11950. Egli sugge-
risce di suddividere la serie in sottoserie consecutive ciascuna di lunghezza M,
di calcolare il periodogramma su ciascuna di esse, e di prendere la media (arit-
metica semplice) di questi periodogrammi. Non e difficile dimostrare (si veda
ad esempio Priestley, 1981) che questo procedimento porta allo stimatore:

(1 - ~) i (h)
M
./(A) = ~
27r
L M
e
i Ah

h=-M

che e della classe con finestra ponendo:

WM(h)={~-lhl/M Ihl <M


Ihl~M

e la corrispondente finestra spettrale risulta:

== -1 { 1 + 2 ~
2
W (A)
( h) } 1 sin (MA/2)
Z:: 1 - M cos Ah == -M . 2
27r h=l 27r SIn (A/2)

(il risultato e gia stato ottenuto nel paragrafo 9.2, la finestra W(A) ha la
forma di un nucleo di Fejer). Gli andamenti delle finestre sono riportati nella
Fig. 9.2. Come si vede la finestra w(h) ha una forma triangolare, mentre
quella spettrale ha una forma campanulare simmetrica con massimo in zero,
si annulIa in ±27r/ M e in tutti i successivi multipli di 27r/ M. Si deduce quindi
considerando la espressione della stimatore nel dominio frequenziale:
9.5 Stima della spettra 169

0.5

o --fL----------------"-

-M o M
-2Jt/M 2Jt!M

(a) (b)

Fig. 9.2. Finestra di Bartlett: (a) fin. di intervalla; (b) fin. spettrale

I
..,. ,,,
'\ I

I
. ,
.... , \

.,.. ,,
\

..
\
,

..
~
f \

-...... ,.. - ..........


\
..
. -. ... ... 'If " , . - -.
-2Jt/M 0 2Jt/M

Fig. 9.3. Larghezza di banda di una finestra spettrale

che j(A) e una media dei periodogrammi di frequenza attorno a A, che hanno
maggior peso i periodogrammi di frequenza meno diversa da A, e che i pesi
della media sono molto piccoli per frequenze distanti da A pili di 21r/ M. Percio
pili l'area centrale di W(A) e stretta, meno sara distorta j(A). Una misura
dell'ampiezza del lobo centrale di W(A) viene detta "larghezza di banda" della
finestra. Sono state proposte varie definizioni, noi adottiamo la pili semplice
(dovuta a Parzen): la larghezza di banda e pari alla base di un rettangolo che
abbia la stessa area di quella sottesa da W(A), e la stessa altezza nell'origine
(si veda la Fig. 9.3). Poiche l'area di W(·) e:

j~71" W (A) dA = 21r ~


7r 1
WM (h) t
-71" e-iAhdA = WM (0) = 1

la larghezza di banda risulta pari a l/W(O). Per 10 stimatore di Bartlett, poi-


che W(O) == M/(21r), la larghezza di banda e 21r/M.
170 9 Inferenza per processi stazionari

10

0.5

-M M
-0.5
-5

(a) (b)

Fig. 9.4. Finestra del periodogramma troncato: (a) fin. di intervallo; (b) fin.
spettrale

B) Una soluzione ancor pili semplice si otterrebbe troncando nel periodo-


gramma la somma delle autocovarianze a un numero M; il periodogramma
troncato:
M
j (>') = ~
27r
'"
L....J
i (h) ei>.h
h=-M

e uno stimatore con finestra wM(h) data cia:


Ihl<M
Ihl2: M
alla Quale corrisponde la finestra spettrale:

W(>.) = ~ {I +2I=COS>.h} = ~ sin(~ + 1/2)>. = DM (>')


27r h=l 27r SIn >../2

funzione chiamata nucleo di Dirichlet, il cui andamento e illustrato in Fig.


9.4b. Si vede che l'oscillazione avviene su valori positivi e negativi, i punti
in cui W(>..) si annulIa sono i multipli di 7r/ (M + ~). L'esistenza di ordinate
negative comporta il grave inconveniente che le risultanti stime della densita
spettrale per qualche frequenza potrebbero risultare negative.

C) Una idea parallela e quella di prendere invece una media a pesi costanti
del periodogramma sull'asse delle frequenze. Lo stimatore risultante viene
chiamato stimatore di Daniell e fu proposto nel 1946. La finestra spettrale
viene assunta costante nell'intervallo (-7r/ M, 7r/ M): poiche l'integrale e pari
a uno, si avra W(>..) == M/(27r). L'inconveniente principale in questo caso e
che la associata finestra di intervallo risulta:

WM (h) == j1f W (>') ei>.hd>. = M . : ei>.hd>. = sin (nh/M)


-1r 27r -1rIM 7rh/M
e quindi non si annulIa per Ihl > M, cosi che questo stimatore non e calcola-
bile se non approssimativamente. L'andamento e illustrato in Fig. 9.5.
9.5 Stima dello spettro 171

(a) (b)

Fig. 9.5. Finestra di Daniell: (a) fin. di intervallo; (b) fin. spettrale

D) L'idea originale che porta allo stirnatore di Tukey che adesso introdurre-
rno e quella che sovrapponendo pili funzioni del tipo di Dirichlet (Fig. 9.4)
leggerrnente sfasate si puo ottenere un andarnento pili soddisfacente, e una
forma dello stirnatore nel dorninio temporale ancora sernplice. Lo stirnatore di
Tukey ha una finestra spettrale:

W (A) 1 M ( .\ - -7f ) + -D
== -D (.\) + -D
1 M 1 M ( .\ + -7f )
4 M 24M
dove D M (.\) e il nucleo di Dirichlet, cioe la finestra spettrale del periodograrn-
rna troncato. La corrispondente finestra di intervallo si ottiene facilrnente:

e ricordando che:

Ihl <M
Ihl2: M
otteniarno:

WM (h) -- -e
1 ih1r/M + -1 + -e
1 -ih1r/M -_ {~ (1 + cos ~) Ihl <M
424 0 Ihl2: M
Percio i pesi si annullano per h 2: M e hanno un andarnento sinusoidale discen-
dente (si veda la Fig. 9.6) rnentre la finestra spettrale ha un cornportarnento
simile al nucleo di Dirichlet (periodograrnrna troncato) anche se con oscillazio-
ni rneno rnarcate. La larghezza di banda risulta pari a 27f/ M. In realta esistono
172 9 Inferenza per processi stazionari

0.5

o ~---------~

-M M

(a) (b)

Fig. 9.6. Finestra di Tukey-Hanning: (a) fin. di intervallo; (b) fin. spettrale

0.6

-It/M It/M
6 e . - - - - - - - - - - - - - - - ' '-- ---'
(a) (b)

Fig. 9.7. Finestra di Bartlett-Priestley: (a) fin. di intervallo; (b) fin. spettrale

diverse versioni dello stimatore di Tukey, che differiscono per il diverso peso
dato ai tre termini del nucleo di Dirichlet. La scelta (~, ~, ~) corrisponde allo
stimatore detto di Tukey-Hanning, mentre Tukey originariamente suggerl i
pesi (0.23,0.54,0.23) (il relativo stimatore e a volte detto Tukey-Hamming).

E) Tra lc molte altre proposte, consideriamo solo 10 stimatore di Bartlett-


Priestley la cui forma e stata ottenuta con 10 scopo di minimizzare una espres-
sione approssimata dell' errore quadratico medio. La finestra spettrale ha la
forma:
3M{I (MA)2}
W('\) = { 041r - 7f

e come Cl SI puo aspettare essen do troncata corrisponde a una finestra di


intervallo che non si annulla:
2

wM (h) == 3M 2 {sin(1fh/M)
hiM
- (h/M)}
cos 1f .
(1fh) 1f

La forma di queste funzioni e illustrata in Fig. 9.7, la larghezza di banda e


l/W(O) == 41f/(3M).
9.5 Stima dello spettro 173

Esaminiamo ora le proprieta degli stimatori. Per quanto riguarda la


distorsione possiamo scrivere:

E { j (A) } - f (A) = E {I: I (w) W (A - w) dw} - f (A) .

Ora poiche tutte le funzioni coinvolte sono periodiche di periodo 1r, possiamo
cambiare variabile di integrazione ponendo A-W == v senza alterare gli estremi
dell'integrale, e inoltre dato che J W (A) d); == 1 abbiamo:

Poiche E {I (A- v)} ~ f (A- v), adoperando uno sviluppo in serie della densita
spettrale arrestato al secondo ordine:
2
f (A - v) = f (A) - vi' (A) + ~ 1" (A) + R 3
otteniamo:

Ma la finestra spettrale e simmetrica, percio Jv W (v) dv == o. In conclusione


la distorsione approssimata e:

La distorsione dipende dalla derivata seconda di f(A), ed e meno grave se


nell'intorno di A Ia densita spettrale ha minore curvatura; dipende anche dal
momento secondo di W(A), che e una misura di ampiezza della finestra. Per
tutti i tipi di stimatore considerati essa contiene M 0 M 2 al denominatore,
percio la distorsione va a zero se M ~ 00.
Per calcolare la varianza dello stimatore j (A) possiamo sfruttare Ia sua pro-
prieta di essere media di periodogrammi, che sono asintoticamente incorrelati
per frequenze diverse. Per evitare di dover trattare con integrali consideriamo
I'approssimazione:

2 ~2
j(A)=
J I(w)W(A-w)dwc::'; 2: I(wj)W(A-Wj)
j=-N/2

dove Wj == ~ j sono Ic frequenze di Fourier: in realta il membro destro e


una somma di Cauchy caIcolata sulla partizione (Wj, Wj+l) di (-1r, 1r) e quindi
converge all'integrale quando N ~ 00. Per la varianza otteniamo:
174 9 Inferenza per processi stazionari

Ora, per N grande, poiche W(.) e concentrata sullo zero, e quindi W(.\ - Wj)
ha valori trascurabili se Wj i= .\, possiamo sostituire 1(.\) a I(wj) ottenendo:

A } ~ 47r
Var { f(>') ~
2
N2 L..,W(>'-Wj) 2
f(>.) 2 ~ 27r
N f(>') 2 J
W(w) 2 dio .
J

Alternativamente, poiche W(.\) e wM(h) sono trasformate di Fourier, da:

(9.14)

otteniamo una espressione della varianza di j (.\) dal punto di vista del dominio
temporale:
M
1 ~
Var {
I (.\)
A }

~ N I (.\)
2
L.., WM (h)
2
.
h=-M

Per tutti gli stimatori che abbiamo considerato, la quantita (9.14) e pro-
porzionale aM, percio la varianza di j (.\) e proporzionale a M / N, e tende a
zero se M soddisfa le proprieta che abbiamo imposto. Distorsione e varianza
per i diversi stimatori che abbiamo introdotto si possono calcolare particola-
rizzando le espressioni di W M (h) e W (.\), i risultati sono riportati nella tabella
seguente:
Stimatore Distorsione Varianza

Bartlett -it<P(.\) ~tJI(.\)2

Daniell 6~2 I" (.\) 1;J I (.\)2

Tukey-Hanning 4~2 I" (.\) ~~ I (.\)2

Bartlett-Priestley 101r~2 I" (.\) ~~ I (.\) 2

dove <p(.\) e una funzione che non dipende da N ne da M (per i dettagli si


veda Priestley, 1981).
Da queste informazioni si conclude che dal punto di vista della distorsione
10 stimatore di Bartlett e inferiore agli altri poiche essa diminuisce con M
invece che con M 2 , e per quanto riguarda invece la varianza il comportamento
e abbastanza simile perche Ie difIerenze sono limitate a un coefficiente che
9.5 Stima della spettro 175

oscilla tra 2/3 e 6/5. Tuttavia questi non sono i soli criteri sui quali basare
la scelta di uno stimatore. Va infatti tenuto presente che le stime spettrali
sono medie su un intervallo di frequenze, la cui ampiezza puo essere valutata
approssimativamente mediante la larghezza di banda: una larghezza di banda
piccola permette un maggior dettaglio, specie se la densita spettrale da stimare
ha variazioni molto ampie e veloci. La larghezza di banda degli stimatori di
Bartlett, Daniell e Tukey e 27f/ M, quella del Bartlett-Priestley e (4/3)7f / M.
Le caratteristiche dei vari stimatori, come abbiamo visto, non sono dra-
sticamente diverse, mentre i risultati della stima variano molto a seconda del
valore scelto per il punto di troncamento M. II rapporto M / N influisce sulla
varianza, percio per contenere la variabilita si dovrebbe scegliere M piccolo:
pero la distorsione e inversamente proporzionale a M 2 , e quindi per diminuire
la distorsione si dovrebbe prendere M grande. Le due esigenze sono contra-
stanti: la fedclta di uno stimatore e la sua stabilita sono antagoniste (cia e
noto come principio di incertezza di Grenander). II problema si potrebbe risol-
vere se fossimo liberi di scegliere anche il numero di osservazioni N: in questo
caso si potrebbe fissare prima un valore di M che assicuri bassa distorsione, e
poi scegliere N in modo da ottenere una varianza piccola. Tuttavia in genere
non si puo intervenire sul numero di dati a disposizione, e si pone quindi il
problema della scelta del punto di troncamento M in modo da raggiungere
un compromesso tra i due aspetti della variabilita e della distorsione. I valori
adottati per M nelle applicazioni cadono in genere tra N /20 e N /3, un aiuto
alla scelta puo venire dalla ripetizione della procedura di stima con vari valori,
crescenti, di M. Al crescere di M la larghezza di banda diminuisce, e quindi
le stime, inizialmente con andamento piuttosto liscio, vengono man mana a
disegnare i picchi con maggior dettaglio, ma a un ulteriore aumento di M
prende il sopravvento la variabilita campionaria e l'andamento appare sempre
pili erratico. Esaminando i vari grafici si puo valutare qual e il valore di M
che fornisce il miglior compromesso (questo procedimento viene a volte detto
chiusura della finestra).
Infine, per quanto concerne il tipo di distribuzione asintotica seguito dalle
stime spettrali, si puo osservare che esse sono medie di periodogrammi, i quali
sono asintoticamente chi quadro. Pertanto j(,\) puo essere considerata come
combinazione line are di variabili chi quadro (pressappoco indipendenti). Si usa
accettare che la distribuzione di j(,\) sia approssimabile da una della forma
CX~, dove la costante c e i gradi di liberta v sono scelti in modo da preservare
media e varianza:

E (cX~) == cv == f (,\)
da cui
v == 2N/ L wM(h)2 c == f('\)/v .
h

In altre parole, la distribuzione di v j(,\)/ f('\) e approssimativamente un chi


quadro con v gradi di liberta. Cia permette di costruire facilmente intervalli
176 9 Inferenza per processi stazionari

di confidenza per la densita spettrale relativa a una fissata frequenza. Infatti,


se (k 1 , k 2 ) e un intervallo con probabilita (1- 0:) per una variabile chi quadro
con v gradi di liberta (generalmente prenderemo per k1 il quantile a livello
0:/2 e per k 2 il quantile a livello 1 - 0:/2) allora si ha

da cui, invertendo lc diseguaglianze, si ricava l'intervallo di confidenza per la


densita spettrale:
V V
Pr{ k f(>") < f(>") < k f(>..)} ~ 1 - a
A A

2 1

II valore assunto da v (detto numero di gradi di Iiberta equivalente, EDF)


per i diversi stimatori e 3N/M per il Bartlett, 2N/M per il Daniell, (8/3)N/M
per il Tukey-Hanning e 0.25N/ M per il Bartlett-Priestley. Alcuni autori pro-
pongono di scegliere il punto di troncamento in modo da raggiungere un as-
segnato numero di gradi di Iiberta equivalenti giudicato sufficiente, rna nella
letteratura si registrano opinioni divergenti su questa proposta.
Per concludere, ricordiamo che e necessario stimare il comportamento del-
10 spettro su tutto l'intervallo di frequenze (0,7f), e quanto detto sinora ha
riguardato la stima di una singola frequenza A. II procedimento andra ripetu-
to: l'uso generalizzato e quello di stimare su frequenze equispaziate del tipo
Aj == ~j, j == 0,1, ... , p, e naturalmente di calcolare la densita spettrale in
termini reali:

fj == f (Aj) == -
A A 1
27f
{M
i + L
(0) 2 WM
p
7f }
(h) i (h) cos -jh
h=l

Quanto alla scelta di p, cioe del numero di frequenze diverse su cui articolare
la stima, esso puo essere scelto in base alle esigenze di dettaglio: si puo pero
notare che j(A), vista come funzione di A, e la trasformata delle (M + 1)
quantita {i(O),i(l), ...,i(M)} ed e quindi completamente individuata da
M + 1 valori linearmente indipendenti. Per questo solitamente si calcolano le
stime sulle (M + 1) frequenze equispaziate Aj == ; j (j == 0,1, ... , M), cioe si
pone p == M.
Se si hanno fini comparativi, si preferiranno le stime dello spettro norma-
lizzato gj == j(Aj )/i(O).
Esempio 9.3 (Analisi spettrale). Gli esempi che presentiamo sono tutti svolti
su serie di 200 dati, stimando la densita spettrale su 100 frequenze equispaziate
del tipo Aj == 7fj/100 (j == 0,1, ..., 100) e con punti di troncamento pari a 10,
25,55.
II primo esempio riguarda una serie simulata di dati indipendenti (rumore
bianco). La Fig. 9.8 riporta i risultati usando la finestra di Tukey-Hanning
con vari valori di M, ed esemplifica il procedimento di chiusura della fine-
stra: all'aumentare di M aumenta la variabilita e 10 spettro si presenta meno
9.5 Stima dello spettro 177

1-- M=1 0 ..... M=25 - - M=SS]


Fig. 9.8. Analisi spettrale, serie simulata rumore bianco, finestra di Tukey

1-- period. trone. - - Bartlett - - - - -Tukey-Hanning I


Fig. 9.9. Analisi spettrale, serie simulata rumore bianco, varie finestre, M==25

"liscio". Le differenze tra le varie finestre sono esemplificate nella Fig. 9.9
che riporta per la medesima serie i risultati dell'analisi spettrale con il perio-
dogramma troncato e le finestre di Bartlett e Tukey per M :== 25. Come si
vede le ultime due hanno un comportamento abbastanza simile, mentre il pe-
riodogramma troncato presenta oscillazioni pili marcate. La Fig. 9.10 riporta
l'analisi su una serie simulata secondo un processo autoregressivo del primo
ordine con parametro pari a 0.8, e finestra di Bartlett. Lo spettro teorico ha
massimo nell'origine e andamento decrescente, caratteristiche che sono rileva-
te, con differente chiarezza, dalle varie scelte del parametro di troncamento.
178 9 Inferenza per processi stazionari

I-M=10···· ·M=25 -M=55 I

Fig. 9.10. Analisi spettrale, serie simulata AR(l) con ¢ ~ 0.8, finestra di Bartlett

1--M=10 - - - - - M=25 --M=55I

Fig. 9.11. Analisi spettrale della serie della macchie solari, finestra di Tukey

Infine la Fig. 9.11 riporta l'analisi spettrale effettuata su 200 dati delle
rilevazioni del numero annuale di macchie solari. Questa serie e una delle pili
studiate nella letteratura di serie temporali, poiche presenta un andamento
periodico, di ampiezza e periodo irregolari. Tale caratteristica viene indivi-
duata con chiarezza per ogni valore di M, poiche la densita spettrale presenta
ha un massimo marcato. Anche in questo caso vediamo come al crescere ini-
ziale di M il picco si delinea con sempre maggiore nitidezza, rna un aumento
ulteriore di M fa apparire elementi eccessivi di variabilita che si concretizzano
in massimi spurii.
9.6 Inferenza per processi bivariati 179

9.6 Inferenza per processi bivariati

Gli stimatori delle cross-covarianze e cross-spettri si costruiscono secondo la


stessa logica del caso univariato. Per le covarianze incrociate si considera:
N-h

1xy (h) = ~ L (Xt - X) (Yl+h - Y) .


t=l

Seguendo 10 stesso procedimento, e con le stesse ipotesi formulate per Ie


autocovarianze, si ottiene E {1'xy (h)} ~ 'Yxy (h) e, per N grande:

C ov {l' xy (h) , l' xy (k)} ~


1
~ N L bxx (uhyy (u + h - k) + I'xy (u + h hxy (u - k)} .
u

Quindi per l'ergodicita e necessaria anche la convergenza della serie dei qua-
drati delle covarianze incrociate. Per stimare la densita spettrale incrociata,
utilizziamo stimatori analoghi ai precedenti:

AI,"", A i)..h
fxy(A) == - LJ wM(h)'Yxy(h)e
27r
h

e rispettivamente per le parti reale e immaginaria:

C(A) = 2~ {1x y (0) + f


h=l
WM (h) [1xy (h) + 1xy (-h)] cosAh}

s (,X) = ~ ~ WM
27r c:
(h) h xy (h) - 1xy (- h)} sin'xh .
h=l

Si possono stimare anche il guadagno e la fase:

<p (A) = arctan


A {S(A)}
C(A) .

Usando sempre uno sviluppo in serie arrestato, come abbiamo fatto per le
autocorrelazioni, si ottiene che 6 (A) e cjJ( A) sono asintoticamente non distorte
e che:

dove c e una costante che dipende dal tipo di finestra usata, e K(A) e la
coerenza. Cia mostra che in corrispondenza a frequenze per le quali la coerenza
180 9 Inferenza per processi stazionari

e molto piccola, Io stime delle quantita spettrali incrociate possono essere poco
affidabili, dato che la varianza e molto grande. Per la stessa coerenza si puo
considerare 10 stimatore:

che si dimostra essere asintoticamente non distorto con varianza, per N


grande:
Var {k (A)} ~ 2~CK (A){l - K (A)} .

Nella stima cross-spettrale viene usata spesso una tecnica conosciuta come
allineamento, che ha 10 scopo di diminuire la distorsione. La motivazione risie-
de nel fatto che la funzione di cross-covarianza rxy(h) non ha necessariamente
i1 massimo in h == 0 come l'autocovarianza, rna puo averlo a un qualunque
ritardo ko; allora nella stima lxy i valori massimi della finestra W M (h) (che
si hanno per h vicino a zero) non vengono moltiplicati per i termini maggiori
(e quindi pili informativi) di ixy(h), cosa che invece si ottiene con la funzione
seguente "allineata":

Si puo ritenere quindi che fXY*(A) sia meno distorto: rna f;y(A) puo essere
pensato come uno stimatore di:

;7f I: "(xy (h + ko ) ei>.h = fxy (A) e-i>'k o


h

pertanto si ricostruisce una stima dello spettro incrociato se si calcola f: (A)


y
e la si moltiplica per ei Ak o . Arriveremo cosl allo stimatore allineato:

II nome "allineamento" deriva dalla osservazione che il risultato si ottiene cal-


colando una stima nel modo usuale su una serie doppia in cui una componente
e sfasata temporalmente rispetto all'altra, in modo da renderle il pili correlate
possibile (al ritardo zero).
La tecnica dell'allineamento e valutata in modo diverso dai diversi autori,
una delle critiche pili frequenti e che la determinazione dell'intero k o per il
Quale rxy(ko) == max e lasciata alla stima, e quindi soggetta ad errore: percio
l'uso dell'allineamento non e consigliato da tutti gli studiosi; la maggior parte
dei software del settore 10 prevede come possibile opzione.
9.7 Stima dei parametri per processi ARMA 181

9.7 Stima dei parametri per processi ARMA

Ricorrendo alla rappresentazione di Wold, le caratteristiche di secondo ordine


del processo possono essere sintetizzate nella successione di pesi {h o, hI, ...}
della decomposizione (6.7), e quindi l'inferenza potrebbe essere basata invece
che sul correlogramma e sullo spettro, sulle stime dei parametri h j : cia pero
non comporta grossi vantaggi poiche il numero di quantita diverse resta in-
finito. Se invece si considerano processi di tipo ARMA, la questione cambia
completamente aspetto, poiche in alternativa a uri'infinita numerabile (corre-
logramma) 0 continua (densita spettrale) di incognite ci troviamo di fronte
a un numero finito di parametri {¢I"",¢p,()l, ...,Oq} che racchiudono in se
l'intero insieme delle caratteristiche di secondo ordine del processo. In que-
sto caso risulta spesso conveniente concentrare l'attenzione sugli stimatori dei
parametri autoregressivi e a somma mobile.
Riprendiamo l'espressione di un processo ARMA(p, q) in funzione dei
parametri:

Abbiamo usato la forma per processi a media nulla, in alternativa si calco-


lera la media aritmetica della serie e la si sottrarra ai dati. Vediamo che la
linearita nei parametri suggerisce una immediata rassomiglianza con la teoria
della regressione, e quindi possiamo sperare di estendere i risultati relativi
al modello lineare, almeno nel caso dei ¢j che sono moltiplicati per quan-
tita note; pili difficile si presenta la stima dei OJ i cui coefficienti Et-j sono
quantita non osservate direttamente. Supponiamo come sempre di disporre di
una serie storica (Xl, X2, ... , X N) realizzazione del tratto finito (X I, X 2, ..., X N)
del processo, e costruiremo dunque stimatori dei parametri intesi come fun-
zione delle variabili aleatorie (Xl, X 2, ... , X N ). Formuleremo inoltre, per ovvi
motivi, l'ipotesi che il processo sia stazionario e invertibile.
II problema della stima dei parametri dei processi ARMA e stato molto
studiato in letteratura, affrontandolo generalmente col metodo della massima
verosimiglianza 0 con quello dei minimi quadrati. In pratica si cerca di adatta-
re i risultati della teoria della regressione lineare, utilizzando gli stimatori dei
minimi quadrati, cioe quei valori che, sostituiti nei parametri, rendono minima
la somma dei quadrati dei residui di regressione. Nel caso che i dati siano di-
stribuiti normalmente, questi stimatori risultano di massima verosimiglianza.
Le difficolta principali che si incontrano nell'estendere la teoria della regres-
sione risiedono nel fatto che Ie equazioni (9.15) coinvolgono valori passati, e
quindi se scritte per (Zl, Z2, ... , Z N) dipendono anche da valori non osservati:
una delle soluzioni pili semplici e quella di ipotizzare come noti un certo nu-
mero di valori precedenti all'inizio della rilevazione, oppure di utilizzare come
valori iniziali per la stima le prime osservazioni (stime dette condizionate);
un'alternativa e cercare di ricostruire le osservazioni precedenti alla rilevazio-
ne in funzione di quelle note (can una specie di previsione all'indietro, detta
182 9 Inferenza per processi stazionari

back-forecasting). Noi descriveremo soltanto Ie generalita del metodo condi-


zionale, rimandando per approfondimenti al classico testo di Box e Jenkins
(1970) 0 alIa letteratura successiva.
Iniziamo con l'osservare che la (9.15) puo essere riscritta per i dati come:

(9.16)

Per risolvere l'indeterminazione relativa ai dati non osservati precedenti al


primo istante di rilevazione, possiamo adottare l'approssimazione di assumere
i valori incogniti relativi al passato pari alla propria media, e quindi porre:

co == C-l == ... == C-q == 0 , Zo == Z-l == ... == z_p == 0.

Con questa convenzione, per mezzo della (9.16) possiamo calcolare iterati-
vamente gli urti Cl, C2, ... , CN in funzione dei parametri {¢j , OJ} e dei dati
(Zl' Z2, ... , ZN). Viceversa, l'equazione del modello (9.15), insieme con questa
approssimazione, permette di calcolare iterativamente le (Zl' Z2, , Z N) in
funzione delle (c1 , C2, ... , C N): ne segue che la relazione (c1 , C2, , C N) +------+
(Zl' Z2, ... , Z N) e biunivoca. Si puo inoltre controllare direttamente che 10 J a-
cobiano di questa trasformazione e unitario, il che comporta l'uguaglianza tra
la verosimiglianza delle Z e quella delle c. Dunque 10 stimatore di massima ve-
rosimiglianza si puo basare sulla massimizzazione della verosimiglianza delle
c, che hanno il vantaggio di essere incorrelate. Se poi aggiungiamo l'ipotesi di
norrnalita, esse sono anche indipendenti e la verosimiglianza si scrive:

L (Zl' ... , ZN 11>,0) == L (cl' ... , cN 11>,0) == (21ra 2)-lf exp { - 2a12 ~
~ Ct
2 (1),0) }

dove abbiamo sottolineato la dipendenza degli urti, calcolati secondo la (9.16),


dai parametri scrivendo ct (¢, 0). La massimizzazione si ottiene evidentemente
in corrispondenza del minimo della somma dei quadrati degli errori:
N

S (¢, 0) == L c; (¢, 0) (9.17)


t=l

tuttavia questa minimizzazione non puo avvenire facilmente per via analitica
perche S(¢, 0) e una funzione non lineare di (¢, 0) (per rendersene conto basta
usare la (9.16) per costruire iterativamente Cl, C2, ... : si vedra che a ogni istan-
te successivo il grado complessivo di ct in (¢, 0) aumenta di uno). Per questo
motivo e necessario ricorrere a metodi di ottimizzazione numerica. Questo
aspetto ha rappresentato per molti anni un punto debole, rna i progressi pili
recenti nelle capacita di calcolo degli elaboratori e nell'analisi numerica per-
mettono di affermare che oggi la minimizzazione della (9.17) non rappresenta
pili un problema, anche se in alcuni casi vi possono essere pili minimi locali,
e va comunque tenuto presente che i valori dei parametri risultanti devono
soddisfare le condizioni di stazionarieta e invertibilita.
9.7 Stima dei parametri per processi ARMA 183

La stima della varianza degli urti puo essere basata su quella osservata dei
residui, corrispondente al minimo raggiunto dalla somma (9.17):

che risulta di massima verosimiglianza nel caso gaussiano. Come avviene nel-
la regressione multipla, anche in questo caso 10 stimatore di massima ve-
rosimiglianza non e corretto, perche si puo dimostrare che E {S (¢, O)} ==
(N - p - q)(J2, quindi per ottenere la non distorsione bisogna dividere per
N - p - q invece che per N.
L'uso del metodo di massima verosimiglianza comporta come sappiamo no-
tevoli proprieta, che assicurano la consistenza degli stimatori e la loro efficienza
asintotica. Inoltre la variabilita puo essere valutata approssimativamente at-
traverso l'informazione di Fisher. Naturalmente il metodo si basa sulla ipotesi
di normalita dei dati: tuttavia anche senza questa ipotesi la minimizzazione
della somma dei quadrati (9.17) assume il significato dello scegliere i valori dei
parametri che rendono minima la somma dei quadrati degli scostamenti tra da-
to Zt e spiegazione che se ne fornisce: cPl Zt-l +... +cPpZt-p +()l Et-l +...+()qEt-q.
Pertanto corrisponde al metodo dei minimi quadrati.
La totalita dei software statistici di serie temporali e in grado di applica-
re questa procedura, e quasi tutti permettono in alternativa di usare anche
metodi non condizionali, 0 altre tecniche tra le molte proposte in letteratu-
ra: i risultati in genere non sono sostanzialmente differenti, almeno quando il
numero di dati non e molto piccolo. E comunque pratica comune assicurarsi
la disponibilita di almeno una cinquantina di dati per stimare anche i pili
semplici modelli.
II problema della stima si semplifica molto nel caso di processi autoregres-
sivi puri: infatti la somma dei quadrati dei residui diventa:

Se ci limitiamo a sommare sugli istanti da p + 1 a v, abbiamo quantita note


e lineari nei parametri e la minimizzazione puo avv nire facilmente derivando
e uguagliando a zero le derivate. Le equazioni nom.ali risultano:

cPl ( ~ Zt-jZt-l) + cP2 (~Zt-jZt-2) + ... + cPP ( ~ Zt-jZt- p )


== L
t
ZtZt-j j == 1, ..., p

dove le sommatorie per t vanno da p + 1 aN. I coefficienti sono codevianze


calcolate su intervalli leggermente variabili: se ignoriamo queste differenze, e
dividiamo per N, otteniamo:
184 9 Inferenza per processi stazionari

dove:
N 1
2:: 2::
N
"(* (h) = ~ ZtZt-h 'Yj (h) = N Zt-jZt-j-h
t=p+l t=p+l

sono due stimatori delle autocovarianze, leggermente diversi tra loro e leg-
germente diversi da i(·). La (9.18) ha una rassomiglianza immediata con Ie
equazioni di Yule-Walker, che sono in realta uguali se scritte per i valori teo-
rici dell'autocovarianza (0 l'autocorrelazione). Cia permette di adoperare le
equazioni di Yule e Walker per la stima dei parametri autoregressivi:

dove f e il vettore delle autocorrelazioni stimate, e P la matrice di autocorre-


lazioni stimate. La differenza con il metodo dei minimi quadrati (e quindi di
massima verosimiglianza condizionata gaussiana) risiede solo nell'adoperare
le stime correnti:
1 N
i (h) = N 2:: ZtZt-h
t=h+l

invece delle ,*(j) e 1j(h).


Come si puo ben comprendere, la stima dei parametri per processi pura-
mente autoregressivi e stata sviluppata prima di quella dei processi ARMA,
e la linearita permette di raggiungere risultati pili semplici: un risultato fon-
damentale dovuto a Mann e Wald (1943) e che per un processo AR(p) se le
Et sono indipendenti allora la distribuzione asintotica di:

e normale con media nulla e matrice di dispersione data da a 2 r;' dove


(rp)ij == ,(i - j) i,j == 1, ... ,p. Percio se indichiamo con ¢ == (¢l' ¢2' ..., ¢p)'
il vettore delle stime, per N grande si ha:

Per i modelli puramente a somma mobile, si arriva a un risultato ana-


logo partendo dalle proprieta degli stimatori di massima verosimiglianza
e approssimando l'informazione di Fisher: per un processo MA(q), posta
B== (B 1 , B2 , ... , Bq)' si ottiene:

E(B) ~ ()

mentre per i processi misti le espressioni delle varianze e covarianze tra lc stime
assumono espressioni pili complicate. Per costruire intervalli (0 anche regio-
ni) di confidenza si ammette l'approssimazione con la distribuzione normale,
univariata 0 multipla.
9.7 Stima dei parametri per processi ARMA 185

Gli intervalli di confidenza per i singoli parametri possono essere costruiti


usando stime dei loro scarti quadratici medi (calcolate sostituendo ai parame-
tri le loro stime) e ricorrendo ai quantili della distribuzione t di Student con
N - p - q gradi di liberta,
Esempio 9.4. Per un processo AR(1) il parametro coincide con l'autocorrela-
zione al ritardo 1, pertanto ci si puo aspettare che anche le stime coincidano,
e in effetti la regola dei minimi quadrati da:
N
L Zt Zt-l
¢1 == _t=_~ _ _ ~ f (1)
L Z;_1
t=2

percio per N grande:

Risultati analoghi valgono per un processo M A(1) nella stima del parametro
(). Questa stima pero non e esprimibile facilmente, in termini compatti, poi-
che proviene dalla minimizzazione numerica di Ec; (()) dove, come si ottiene
facilmente:
t t-l t-2

Et (()) == L Zj + (J L Zj + (J2 L Zj + ... + e':' ZI .


j=1 j=1 j=1

Lo stimatore () soddisfa approssimativamente:

Per i processi misti e di ordine superiore le espressioni si complicano. A titolo


di esempio per un processo autoregressivo del secondo ordine si ottiene (Box
e Jenkins, 1970, Appendice A.7.5):

con la conclusione, forse inaspettata, che la variabilita degli stimatori dei due
parametri e uguale e dipende solo da ¢2, e la covarianza tra i due stimatori
ha segno opposto a ¢1.
10

I rnodelli rappresentativi

Questo capitolo e dedicato alla costruzione di modelli rappresentativi. Dopo


aver motivato l'utilita dei modelli rappresentativi ai fini della previsione, si
illustra la metodologia di costruzione dei modelli della classe ARIMA. Vengono
illustrati, in ordine crescente di complessita, modelli per fenomeni stazionari,
non stazionari, con stagionalita, e infine modelli dinamici per le relazioni tra
due processi.

10.1 Introduzione

II termine modello statistico e largamente usato, non solo in statistica rna in


una ampia varieta di settori della scienza, per indicare un insieme di ipotesi,
generalmente espresse in termini quantitativi, volte a spiegare e riprodurre
alcuni aspetti del comportamento del fenomeno studiato. Nell'ambito dell'a-
nalisi delle serie temporali, un modello e costituito da una 0 pili equazioni che
legano i valori contemporanei 0 ritardati di uno 0 pili processi, alcuni di essi
anche non osservabili, con l'obiettivo di descrivere l'andamento nel tempo dei
fenomeni considerati. Un esempio di modello e dato dall'equazione:

(10.1)

che coinvolge il processo aleatorio che genera la serie rilevata, {Xt } , un pro-
cesso non osservabile {Et} che si suppone avere una struttura semplice, spesso
supposto un rumore bianco, e una funzione i cui argomenti comprendono un
certo numero di valori precedenti dei due processi. La struttura di r..p e di {Et}
determina il comportamento del processo {X t } in maniera completa, e quin-
di permette di studiarne l'evoluzione in modo pili dettagliato di quanto sia
possibile basandosi soltanto su autocorrelazioni e spettro.
II tema dei modelli statistici per serie temporali e estremamente vasto e la
letteratura sull'argomento ha un'estensione considerevole, qui verranno svolte
188 10 I modelli rappresentativi

solo alcune considerazioni. E necessario innanzitutto spiegare il termine rap-


presentativi associato ai modelli: esso viene usato in contrapposizione a inter-
pretativi e contraddistingue l'assenza di ipotesi esplicite sui legami di causalita
tra fenomeni, 0 di altri vincoli legati a conoscenze a priori 0 teorie proprie di
scienze sostantive. In altre parole, se il modello ha il compito di schematizzare
in termini matematico-probabilistici le caratteristiche note (0 supposte tali)
del fenomeno che si studia, si parla di modello interpretativo. Esempi rile-
vanti sono i modelli econometrici che spiegano un aggregato macroeconomico
in funzione dei valori contemporanei 0 ritardati di altri aggregati; 0 ancora i
modelli classici di decomposizione, in cui la serie e essenzialmente determinata
dalla sovrapposizione di componenti deterministiche che riproducono il trend
e le variazioni stagionali, da cui i dati effettivi si discostano per cause acciden-
tali e non sistematiche, a cui viene attribuita natura stocastica. Particolare
importanza hanno assunto nelI'ambito degli studi economici i cosiddetti mo-
delli strutturali (Harvey, 1990) che rappresentano una evoluzione di questo
schema.
Un modello rappresentativo e invece costruito a partire dai soli dati, cer-
cando di ridurre al minimo le ipotesi formulate sul comportamento del feno-
meno e quindi partendo da una classe sufficientemente flessibile di possibili
modelIi, e scegliendo quello che assicura, secondo criteri da precisare, la miglior
rappresentazione della serie, nel senso che ne riproduce meglio l'andamento
nel tempo.
Va detto subito che, come si comprende facilmente, la distinzione tra mo-
delli interpretativi e rappresentativi e solo una semplificazione concettuale,
poichc nella costruzione di un modello si incorporano sempre ipotesi a prio-
ri, e d'altra parte anche la scelta dello schema interpretativo pili vincolante
determina solo una classe di modelli, all'interno della Quale si cerca il pili
rappresentativo. Inoltre e ovvio che qualunque modello interpretativo puo
essere considerato come un elemento di un insieme di modelli rappresentati-
vi, all'interno dei quali esso viene scelto adottando non un criterio di buon
adattamento alla realta, rna di conformita alle ipotesi preliminari 0 alla teoria.
Ci occuperemo qui solo di modelli rappresentativi, limitandoci a cons ide-
rare la classe determinata da funzioni cp lineari e processo non osservabile a
variabili incorrelate: in questo caso l'equazione (10.1) che definisce il model-
10 diventa uguale alla relazione soddisfatta da un processo autoregressivo a
somma mobile:
p q

x, == L cPjX t- j + ct - L ()jCt-j . (10.2)


j=l j=l

Per questo motivo si parla di modelli ARMA, anche se questo puo generare
confusione tra il concetto di modello e quello di processo.
Si potrebbe obiettare che e ragionevole attendersi da un modello interpre-
tativo risposte pili precise di un modello rappresentativo, poiche esso sfrutta
ipotesi pili precise; si puo peraltro ribattere che proprio questa caratteristica
rende il modello interpretativo pili vulnerabile a errori nelle ipotesi iniziali.
10.1 Introduzione 189

E esperienza comune e ormai consolidata, che specie dal punto di vista della
previsione i modelli rappresentativi della classe ARMA forniscono risultati
equivalenti e spesso migliori di pili approfonditi modelli interpretativi, poiche
sono i dati stessi a trasmettere nel modello, se correttamente costruito, lc loro
caratteristiche strutturali e dinamiche. Cia spiega anche il crescente interesse
e consenso che la modellistica di tipo ARMA si e progressivamente guada-
gnata nel corso dell'ultimo quarto di secolo.
L'assunzione principale per la costruzione di un modello ARMA consiste
nell'ammettere che la serie temporale analizzata rappresenti una realizzazio-
ne finita di un processo aleatorio stazionario al secondo ordine, con misura
spettrale assolutamente continua. Vedremo poi come la metodologia sia stata
ampliata per comprendere anche i casi in cui queste ipotesi possono essere ri-
tenute poco sostenibili, in quanto la serie presenta un trend non trascurabile,
o forti variazioni stagionali (si parlera allora di modelli integrati 0 ARIM A,
e di modelli stagionali e/ 0 moltiplicativi).
I modelli ARMA ammettono anche una interpretazione in termini di di-
stribuzioni condizionate. Se le {e.} sono normali, esse sono anche indipendenti
e quindi Et non dipende da X t - 1 , X t - 2 , .... Percio prendendo la media con-
dizionata ai valori assunti dal processo fino al tempo t - 1, dalla (10.2) si
ha:
p q

E(Xt IXt - 1 , X t- 2 , ... ) == L cPjXt- j - L ()jEt-j


j=1 j=1

in quanto la media condizionata di Et, data l'indipendenza,e uguale alIa media


non condizionata E(ct) == O. Per la varianza condizionata si ha invece:

Var(XtIXt~l, Xt~2,' .. ) = E {[Xt - E(XtIXt- 1 , X t-2, . . .)]2}


== E (c;) == a2 .

Quindi il processo che segue la (10.2) ha media condizionata espressa dalla


combinazione lineare di dati e urti precedenti con parametri cP e (), e varianza
condizionata costante pari a (J2 .
Nel resto del capitolo sara descritta a grandi linee la metodologia di co-
struzione dei modelli ARMA (e loro estensioni) secondo l'impostazione messa
a punto da Box e Jenkins (1970), che e stata sviluppata e approfondita negli
anni successivi da molti altri ricercatori, e si e dimostrata utile ed efficace per
l'analisi di fenomeni dinamici in molti campi delle scienze sia umane sia na-
turali. Nella parte relativa alla previsione puntuale considereremo anche altri
tipi di modelli che si basano su assunzioni pili precise 0 restrittive.
Costruire un modello rappresentativo, secondo la metodologia di Box e
Jenkins, significa scegliere quell'elemento della classe dei processi autoregres-
sivi a somma mobile (10.2) stazionari e invertibili, al Quale i dati meglio si
conformano, secondo un criterio di verosimiglianza. La scelta avviene in due
fasi:
1. Scelta del valore degli ordini p e q (identijicazione).
190 10 I modelli rappresentativi

2. Scelta del valore dei parametri cP1' ..., cPP' 01, ..., 0q e a 2 (stima dei parame-
tri).
La prima fase, come vedremo, presenta i problemi concettuali pili complessi,
rna fissati p e q il processo e determinato e la seconda fase puo avvenire con
il metodo della massima verosimiglianza illustrato nel paragrafo 9.7.
Una volta costruito il modello, con la determinazione di p, q e delle sti-
me ¢1' ..., ¢P' 01,..., Oq, Box e Jenkins consigliano di verificarne l'adattamento
calcolando una stima dei residui in funzione dei dati (Xl, X2, ... , XN):
P q

Et == Xt - L ¢jXt-j + L OjEt-j t == P + 1, ..., N


j=l j=l

Se il modello fosse corretto e stimato precisamentesenza alcun errore, ovvero


nell'ipotesi che i dati provenissero effettivarnente da un processo aleatorio di
quel tipo e con quei valori dei parametri, allora le Et sarebbero realizzazioni di
un rumore bianco, quindi dovrebbero conformarsi alla ipotesi di avere media
nulla, varianza costante e di essere incorrelate tra loro, ipotesi che possono
essere verificate attraverso test statistici. Queste operazioni costituiscono la
fase chiamata di verifica del modello (diagnostic checking nella terminologia
di Box e Jenkins) che si conclude con l'accettazione del modello oppure con il
suo rifiuto. In quest'ultimo caso, l'analisi dei residui aiuta a comprendere quali
sono lc caratteristiche dei dati che non si riescono a spiegare e potra suggerire
modelli alternativi: percio si ripete la fase di identificazione tenendo conto
di questi risultati (il che portera spesso, rna non sempre, ad incrementare la
scelta di p e q), e poi la stima dei parametri e la verifica. Si viene cost a
concretizzare una procedura iterativa di affinamento successivo del modello,
fino a determinarne uno statisticamente accettabile.Esamineremo adesso pili
approfonditamente ciascuna fase.

10.2 Identificazione del modello

Con il termine identificazione si intende, nell'ambito della procedura di co-


struzione di modelli ARMA secondo l'impostazione di Box e Jenkins, la scelta
del valore da attribuire all'ordine autoregressivo p e all'ordine della somma
mobile q.
Nel corso degli anni si sono andate delineando tra gli analisti di serie sto-
riche due diverse linee di pensiero nei confronti della costruzione dei modelli
rappresentativi, e anche se questa distinzione non viene evidenziata frequen-
temente dai testi pili importanti, essa ha conseguenze sul modo di procedere
e sulle tecniche usate per la identificazione:
a) Identificazione come "scoperta". Dall'assunzione base che Ia serie sia una
realizzazione finita di un preciso processo ARMA deriva che esiste uno
e un solo modello esatto, e quindi la modellistica ARMA ha 10 scopo di
10.2 Identificaziane del modello 191

ricostruirlo, e la identificazione ha l'obiettivo di scoprire quali sono gli


ordini p e q del processo che ha generato la serie.
b) Identificazione come "approssimazione". La costruzione del modello e vi-
sta come un problema di scelta, nella classe dei modelli possibili (la classe
ARMA a ordine finito), di quell'elemento che assicura la migliore spiega-
zione della serie osservata. Percio e necessario prima di tutto fissare un
criterio attraverso il quale si giudica quanto il modello rappresenta i da-
ti: sulla base di questo criterio si andra a cercare nella classe dei modelli
quello che ne fornisce il valore ottimo. In questa ottica la identificazione
diventa un problema di massimizzazione (0 minimizzazione) su uno spa-
zio discreto, e il modello prescelto risulta la migliore approssimazione alla
serie secondo un criterio esplicito.
Si e detto che tra gli analisti non c'c una contrapposizione netta delle due
impostazioni, e anche in letteratura questa distinzione non e frequentemen-
te delineata con chiarezza. Agli inizi della modellistica contemporanea, tra
le due guerre mondiali, la impostazione prevalente era nettamente quella per
approssimazione. Dopo la seconda guerra mondiale, con i risultati di Wold sul-
la rappresentazione dei processi stazionari, sembra prevalere la impostazione
della identificazione come scoperta, che e implicitamente abbracciata da Box
e Jenkins. Negli anni successivi e stata via via rivalutata la impostazione per
approssimazione, che a oggi e accettata in modo prevalente. La ragione di cia
risiede essenzialmente nello sviluppo dell'analisi numerica e dell'informatica,
che permette di risolvere in maniera esauriente il problema della scelta passan-
do in rassegna virtualmente tutti i possibili modelli, valutandoli secondo un
assegnato criterio quantitativo e scegliendo il migliore. A questo punto anche
la impostazione basata sulla "scoperta" diventa un caso particolare di quella
per approssimazione, caratterizzata da un criterio binario che assume valore
Iogico "falso" su tutti i modelli tranne uno, su cui assume valore "vero". Inol-
tre la possibilita di scegliere esplicitamente un criterio permette di finalizzare
la costruzione del modello agli scopi per cui 10 si vuole utilizzare, poiche non
si puo escludere che, ad esempio, il modello che fornisce previsioni migliori sia
diverso da quello che permette la migliore ricostruzione di dati mancanti 0 da
quello che meglio descrive le variazioni stagionali. Bisogna pero riconoscere
che questa possibilita di far dipendere la scelta del modello dagli scopi che ci
si prefiggono e ancora poco sviluppata in letteratura.
II modo di procedere fondamentale nella identificazione come scoperta con-
siste nel confronto tra andamento teorico nel modello, e andamento empirico
stimato sui dati, di alcune funzioni che caratterizzano la dinamica: prima
di tutte le autocorrelazioni e le autocorrelazioni parziali. Si stimano per-
cia Ie autocorrelazioni ordinarie e parziali, e si analizza il correlogramma,
comparandolo con le proprieta caratteristiche dei processi ARMA:
1. Un processo M A(q) ha autocorrelazione ordinaria nulla per ritardi supe-
riori a q.
192 10 I modelli rappresentativi

2. Un processo AR(p) ha autocorrelazione parziale nulla per ritardi superiori


ap;
3. un processo AR(l) ha autocorrelazione ordinaria di forma esponenziale ne-
gativa, un AR(2) pseudo-periodico ha un andamento periodico smorzato
dell' au tocorrelazione ordinaria.
4. Un processo ARMA(p, q) ha un comportamento dell'autocorrelazione
analogo a quello dell' AR(p) eccettuati i primi q ritardi.
5. L'andamento dell'autocorrelazione di un autoregressivo corrisponde a
quello dell'autocorrelazione parziale di una somma mobile dello stesso
ordine e viceversa.
II correlogramma stimato, ordinario e parziale, deve percio suggerire la scelta
di p e q. II problema sorge proprio perche non si conoscono i valori effettivi
delle correlazioni, rna solo le loro stime, che forniscono informazioni imprecise,
e possibilmente distorte (poiche il numero di dati e finito) e possono rendere
assai problematico e incerto associare a ogni correlogramma un andamento
tipico proprio di un particolare ordine (p, q). L'incertezza si puo valutare alla
luce di misure come gli scarti quadratici medi delle stime i( h) e ir(h), rna an-
ch'essi dipendono dai valori veri delle r(.) e 11"(.), e quindi vanno stimati con
il pericolo di sottovalutarli (0 sopravvalutarli) gravemente. Pur prescinden-
do da questo problema, potremmo costruire intervalli di confidenza per tutte
le stime riportate nel correlogramma e valutare Quale andamento teorico si
adatta meglio. Questo procedimento risulta abbastanza percorribile nel caso
di processi AR e MA puri, poiche in tal caso una delle due funzioni (ordinaria
o parziale) si annulIa da un certo punto in poi, e si puo giudicare se un'auto-
correlazione stimata e significativamente diversa da zero confrontandola con
il valore k a / 2 / ViV. Pertanto al primo esame del grafico si va a verificare qual
e il ritardo minimo a partire dal Quale le correlazioni stimate si mantengono
all'interno della banda di confidenza tracciata attorno all'asse delle ascisse. Se
si considera l'autocorrelazione ordinaria, questo ritardo da un'idea dell'ordine
q sufficiente perche un modello MA puro possa riprodurre bene l'andamento,
mentre se si guarda il correlogramma parziale, il ritardo minimo oltre il Quale
si perde la significativita indica l'ordine p sufficiente per un modello AR pu-
roo Generalmente si sceglie il pili piccolo dei due. Un esame pili approfondito
potra suggerire come alternativa modelli misti, di ordine complessivamente
inferiore.
Esistono molte altre tecniche di identificazione del modello basate sul prin-
cipio della scoperta, legate a varie funzioni il cui comportamento su processi
ARMA e determinato dall'ordine. Le pili usate sono funzione del lag e hanno
la particolarita di assumere valore nullo in corrispondenza all'ordine (e qua-
si sempre anche per ritardi superiori). Percio la tecnica si basa sulla stima
di queste funzioni e sulla valutazione della loro significativita. Rientrano in
questa logica: l'uso delle autocorrelazioni inverse, l'autocorrelazione estesa, il
corner method e altri per i quali si rimanda alla letteratura (per esempio Box,
Jenkins e Reinsel, 1994).
10.2 Identificazione del modello 193

Va sempre tenuto presente che l'incertezza legata al fatto che le quantita


rilevanti sono solo stimate, non permette una messa a fuoco precisa e univoca
dell'ordine (p, q), rna per ogni serie analizzata si arriva in genere a un venta-
glio di modelli - cioe di coppie (p, q) - tutti egualmente plausibili alla luce
dei dati. Tra di essi si sceglie basandosi sul principio della parsimonia, cioe
preferendo il modello che ha il minor numero di parametri, poiche esso presen-
tera minor difficolta nella fase di stima, e in genere si presta a una pili facile
interpretazione ed e pili agevole controllarne caratteristiche e andamenti. Cia
naturalmente avviene come prima scelta, salvo ritornare ad adottare modelli
pili articolati nel caso che la successiva fase di verifica dovesse segnalare una
inadeguatezza del modello pili semplice, come vedremo nel seguito.
Passiamo adesso a sviluppare l'impostazione che vede la identificazione
come una approssimazione. E necessario prima delimitare esattamente l'in-
sieme delle soluzioni possibili - il che viene fatto in genere specificando un
ordine massimo plausibile sia per la struttura autoregressiva, P, sia per quella
a somma mobile, Q - e un criterio di scelta consistente in una funzione dei
dati e dell'ordine: C(p, qIXI,X2, .. " XN), che, secondo l'uso generalizzato in
letteratura, assume il significato di perdita, ed andra quindi minimizzato. La
identificazione si pone quindi come un problema di minimo:
minC(p,qlxl,X2, ... ,XN) ,(p,q) E [O,P] x [O,Q]. (10.3)
Notiamo come questa impostazione e passibile di immediate generalizza-
zioni dell'insieme delle soluzioni possibili, ad esempio quella in cui si specifica
anche che alcuni parametri sono vincolati a zero, per cui il modello e deter-
minato dall'elenco dei ritardi ai quali compare un parametro autoregressivo
o a somma mobile: in pratica, invece che da (p, q), il modello e caratterizzato
<
dal vettore (hI, h 2 , ... , h p, k l , k 2 , ... , kq) con 1 hI < h 2 < ... < h p P, <
1 < k 1 < k 2 < ... < kq < Q e ha la forma:

Zt == ¢IZt-h 1 + ¢2 Zt-h + ... + ¢pZt-h + ct -


2 p ()ICt-k 1 - •.• - ()qct-k q

e si parla in questo caso di modelli subset.


Una volta fissata la parametrizzazione del modello, e noi adotteremo la
pili semplice (10.2), le varie procedure differiscono per la scelta della funzione
da minimizzare C (p, qlxl, X2, ... , XN ): queste funzioni vengono direttamente
chiamate con il nome di criteri, a volte anche criteri automatici per sotto-
lineare che la scelta e basata su una procedura analitica invece che basar-
si sulla sensibilita e sull'esperienza della statistico come nella impostazione
precedente.
La tecnica dei criteri di identificazione e legata indissolubilmente al nome
di H. Akaike, che ha introdotto i criteri FPE (1969) e AIC (pubblicato a livello
internazionale nel 1974 anche se ideato qualche anna prima).
II criterio FPE (final prediction error) si applica alla costruzione di modelli
autoregressivi puri, e parte dal considerare come criterio da minimizzare la
varianza residua del processo. Essa dipende dai parametri cPj che vanno sti-
mati, e quindi si crea un circolo vizioso. L'idea che riesce a superarlo e quella
194 10 I modelli rappresentativi

di immaginare di avere due realizzazioni indipendenti, di lunghezza N, dello


stesso processo autoregressivo di ordine p, (Xl, X2,.··, XN) e (YI' Y2,···, YN).
Usiamo la prima per stimare i parametri ottenendo i ¢j (x), j == 1, ... , p, e
con questi parametri calcoliamo i residui sui dati {Yt}, e la varianza residua.
La varianza residua teorica risulta:

= Ey (rt - LcPjrt-j f + LLEx{[¢j(X) - cPj][¢k(X) - cPk]h(j - k)


j k

= a
2
+ E { (¢ - cP)' rp ( ¢ - cP) }

dove si e usata l'indipendenza tra (XI, ... ,XN ) e (YI, ... ,YN ) e si sono in-
dicati in forma vettoriale i parametri e le autocovarianze. Ricordando (para-
grafo 9.7) che il vettore ¢ e, per N grande, normale con media ¢ e varianza
-ka2r p- l , la forma quadratica risulta (a2/1V) volte un chi quadro con p gradi
di liberta, e la sua media e quindi pari a a 2 pl N. Pertanto il risultato fina-
le e a 2 (1 + piN). A questo punto, per il calcolo effettivo dobbiamo stimare
a 2 , e preferiamo 10 stimatore corretto N (;2 I (N - p), dove (;2 e 10 stimatore di
massima verosimiglianza. Akaike propone di calcolare queste quantita sui dati
dell'unica serie a disposizione per differenti valori dell'ordine, stimando a 2 con
la varianza residua osservata dopo aver adattato un modello autoregressivo di
quell'ordine:
(10.4)

dove

e i ¢j (j == 1, ... , h) sono stimati con il metodo dei minimi quadrati. Se


i dati provengono da un processo autoregressivo di ordine p, calcolando la
(10.4) per valori crescenti, da 0 fino a p, otterremo valori decrescenti, poiche
l'adattamento e sempre migliore, mentre al crescere di h oltre p la varianza
residua non risentira di grosse riduzioni (in quanto abbiamo gia spiegato tutta
la dinamica lineare presente nei dati), mentre il termine (N +h)/(N -h) cresce
e quindi 10 FPE tendera ad aumentare. Pertanto si cerchera quel valore di h in
corrispondenza al quale FPE(h) raggiunge il suo valore minima. II nome FPE
sta per Final Prediction Error perche la varianza residua puo essere anche
considerata (come vedremo) come errore quadratico medio di previsione, e
l'aggettivo "finale" si riferisce alla ipotesi delle due realizzazioni indipendenti.
10.2 ldentificazione del modello 195

I- - - parametri ---o----Iog.verosim. -Ale I

Fig. 10.1. Andamento del criterio Ale in funzione del numero di parametri

II criterio AIC (Asymptotic Information Criterion) estato introdotto in un


contesto pili generale di adattamento di modelli statistici, e ha visto applica-
zioni in molti campi, non soltanto relativi alle serie temporali. Esso deriva da
considerazioni legate alla teoria dell'informazione, rna puo essere interpretato
come un procedimento simile al FPE, basato sulle due realizzazioni, nel Quale
il criterio di ottimalita e la massimizzazione della verosimiglianza, 0 equiva-
lentemente la minimizzazione di una funzione pari a -2 volte illogaritmo della
verosimiglianza. Lo sviluppo analitico (si veda Brockwell e Davis, 1987) porta
a una quantita che si ottiene sottraendo dal numero dei parametri il logarit-
mo della verosimiglianza massimizzata. In questo modo, adottando modelli
di ordine crescente, sia il numero di parametri sia la massima verosimiglianza
aumentano, descrivendo una situazione schematizzata nella Fig. 10.1 in cui il
criterio mostra un minimo definito e permette la identificazione. Se indichia-
mo con L (x I¢1, ... , ¢P'() 1, ... , ()q) la verosimiglianza dei dati sotto l' ipotesi
che essi provengano da un processo ARMA(p, q), e con

L,,q == (¢,B)EA
max L(xl¢, ())

la verosimiglianza massimizzata, dove A e la regione ammissibile di staziona-


rieta e invertibilita, il criterio AIC si puo scrivere nel nostro caso:

AIC(p, q) == -2 loge Lp,q + 2(p + q)


e si parla a volte di verosimiglianza penalizzata.
Sorge il problema di calcolare la verosimiglianza, per la quale si ammette
l'approssimazione con la distribuzione normale. Allora, come abbiamo visto
nel paragrafo 9.7, si puo scrivere:

L(xlq" B) = (27r(T2)-N/2 exp { - 2~2 S(q,Ji)} .


196 10 I modelli rappresentativi

Massimizzando rispetto a (¢, ()) e a 2 si ottiene &2 == S (¢, B)/ N, da cui L ==


(21r&2)-N/2 exp{ -N/2}, cosl che logL == -(N/2) log(&2) + N/2. Pertanto,
trascurando la costante additiva N /2 e sostituendo:

AlC(p, q) == N log{&2 (p, q)} + 2(p + q) (10.5)

dove si e scritto &2 (p, q) per sottolineare che e la varianza residua calcolata
dopo aver adattato un modello ARMA(p, q).
I due criteri FPE e AlC pur essendo ricavati secondo logiche diverse, sono
approssimativamente equivalenti per N grande, quando si sceglie tra modelli
autoregressivi. lnfatti usando l'approssimazione log(l + x) ~ x (valida per x
piccolo) possiamo scrivere:

logFPE(h) = logo-h + log (~ ~ ~)

= log o-h + log ( 1 + ~ ) - log ( 1 - ~)


~ logo-h + 2h/N = ~AIC(h)
pertanto i due criteri raggiungono il minimo in corrispondenza allo stesso
ordine.
Come si puo notare, la scelta di FPE 0 AlC come criterio C(p, qlx) da
minimizzare comporta la stima completa, per ogni possibile coppia (p, q), dei
e
parametri sia autoregressivi sia a somma mobile, quindi comprensibile che
1'uso di questi criteri si sia diffuso solo dopo che i metodi numerici di stima
sono diventati sufficientemente affidabili e veloci, e la disponibilita di potenza
di calcolo rilevante si e generalizzata.
Dalla fine degli anni 70 sono state proposte in letteratura innumerevoli
variazioni e generalizzazioni, e molti sono stati anche i tentativi di sistemare
la materia e di organizzarla in un quadro unitario. Accenniamo brevemente
solo alla recente, elegante impostazione di Taniguchi e Kakizawa (2000). Essi
considerano una funzione (generica) g che caratterizza il processo (potrebbe
essere la funzione di autocorrelazione 0 la densita spettrale, 0 la successione
dei pesi hj nella rappresentazione (6.7) di Wold). Consideriamo una classe di
modelli parametrici {Me, () E e c Rm} dipendenti da m parametri scalari, e
sia fe la forma assunta da g in corrispondenza al modello Me. Per esempio se
g e la funzione di autocorrelazione e la classe di modelli e quella degli autore-
e
gressivi puri stazionari con a 2 == 1, allora () == (¢1, ... , ¢m), e la regione di
stazionarieta dei parametri e fe e la funzione di autocorrelazione teorica di un
processo autoregressivo con parametri dati da (). L'aderenza del modello Me
al processo viene giudicata attraverso il valore di una misura di discrepanza
D(g, fe) che assume un unico minimo se g coincide con fee L'obiettivo e di de-
terminare la scelta parametrica che minimizza la discrepanza, cioe l'elemento
()o di e tale che
D(g,fe o ) == minD(g,fe).
eE8
10.2 Identificazione del modello 197

eo
II valore rappresenta la scelta ottima. Tuttavia, sulla base della realizzazione
finita osservabile (Xl, X2,"" XN) noi non abbiamo la conoscenza completa di
g, che puo essere pero stimata attraverso uno stimatore gN. Allora dovremo
cercare il parametro che realizza la minima discrepanza da gN, cioe quel valore
ON per il quale
D(gN,fe )==minD(gN,fe).
N eE8

In questo modo la scelta di ON dipende dai dati, si viene quindi a descrivere


uno stimatore ON(XI , ... ,XN). Per misurare l' adattamento del modello pos-
siamo considerare la discrepanza media E{D(g,feN)}, dove la media e presa
rispetto a (X I, ... , X N ). II criterio da rendere minimo (al variare del numero
dei parametri m) e quindi la discrepanza media E{D(g, feN)}' che pero natu-
ralmente va stimata. Particolarizzando la scelta della funzione g, della discre-
panza D(·,·) e del modo di stimare la media, Taniguchi e Kakizawa ottengono
criteri equivalenti al FPE, al AIC e a molti altri. Ad esempio il criterio AIC
si ottiene se si assume che il processo sia un ARMA(p, q) gaussiano, si prende
come funzione 9 la densita spettrale, () == (cPI' cP2' ... , cPP' ()l, ()2, ... , ()q- (J'2),
per fe la densita spettrale del modello:

f (A) == ~
11 - () Ie iA -
2
-
()
qe
i qAI 2

e 21r 11 - cPI e i A - - cPpeiPA 1


2

e come stimatore di 9 il periodogramma:

'" (') 21r1"


N 2
i At
gN /\ L.-t
== N Xte
t=l

e infine come misura di discrepanza:

D(g,f(}) =
-7r
J {logf(}(,\)+ ;(}~'~\}d'\.
Questa breve descrizione mette in luce un altro importante aspetto della
procedura di identificazione: il valore del criterio C(p, qlx) da rendere minimo
dipende in genere da quantita proprie del processo che genera i dati e quindi
ignote. Per questo in realta cio che rendiamo minima e una stima del valore
del criterio e la bonta del procedimento e condizionata dalle proprieta degli
stimatori usati: in particolare e difficile assicurare la consistenza, cioe far sl
che quando N tende all'infinito l'ordine scelto converga in probabilita al valore
che minimizza il valore teorico del criterio. Da questo punto di vista diverse
critiche sono state rivolte al criterio AIC, mostrando che in molti casi l'ordine
scelto e superiore a quello che assicura il minimo (si parla di overfitting 0
sovra-parametrizzazione) .
Sono stati allora proposti alcuni criteri che assicurano la consistenza se
applicati su processi ARMA(p, q) gaussiani. I pili usati sono il criterio di Sch-
warz (1978) e il criterio di Hannan e Quinn (1979). II criterio di Schwarz e
198 10 I modelli rappresentativi

fornito da:
SCH(p, q) == N log &2(p, q) + (p + q) log N (10.6)
e sostituisce il termine 10gN, crescente con N, al fattore 2 dell'AIC: esso e una
modifica semplificata, rna sostanzialmente equivalente, di un criterio proposto
precedentemente da Akaike e suscettibile di interpretazione in termini baye-
siani, detto BIC (Bayesian Information Criterion, Akaike, 1979). II criterio di
Hannan e Quinn e invece:

HQ(p, q) == log &2 (p, q) + (p + q)2c(10g log N) / N (10.7)

dove C > 1. II criterio e motivato dalla proprieta di consistenza forte dello


stimatore dell'ordine ottenuto con il minimo HQ. Questo risultato rientra in
una serie di studi sui criteri di identificazione svolti da Hannan (in realta per
processi multivariati) che ha dimostrato risultati del tipo seguente:
se il processo generatore dei dati e un ARMA(p, q), e CN e una successione che
tende a pili infinito quando N ---+ 00, allora 10 stimatore dell'ordine ottenuto
minimizzando il criterio log &2 + (p + q)CN/ N e consistente.
Questo risultato mostra la consistenza del criterio di Schwarz che si ottie-
ne ponendo CN == 10gN, mentre evidentemente non vale per il criterio AIC
che rientra nella forma di Hannan solo ponendo CN == 2. Hannan ha anche
dimostrato che se
· In
1im . f{ CN } >1
N -too 2 log log N
e
allora 10 stimatore fortemente consistente, e questo spiega la struttura del
criteria di Hannan e Quinn.
Sono stati proposti molti altri criteri in letteratura, sui quali non ci soffer-
meremo, che si rifanno sostanzialmente alla forma di verosimiglianza gaussiana
penalizzata e quindi sono del tipo N log &2 (p, q) + (p + q)1f N, e contrastano
la componente crescente in funzione del numero dei parametri, generalmente
lineare, con una componente decrescente legata alla varianza residua. Rientra
in questo schema anche una procedura per la scelta dell'ordine di un model-
10 autoregressivo puro, basata sulla varianza residua, che ha costituito uno
dei primi metodi usati per la scelta dell'ordine, facilmente applicabile poiche
legato alla stima ricorsiva dei parametri autoregressivi con il metodo di Dur-
bin che ci e servito per stimare Ie autocorrelazioni parziali (paragrafo 9.4).
Esso permette, sulla base delle stime delle autocorrelazioni, di stimare i pa-
rametri di un modello autoregressivo di or dine m in maniera ricorsiva, con m
crescente:
m
+ 1) - E cPm,jf(m + 1 - j)
A

f(m
j=l
<Pm+1,m+1 == - - - - - - -------
A

m
1 - E <Pm,jr(j)
A

j=l

¢m+1,j == ¢m,j - ¢m+1,m+1¢m,m+1-j, j == 1,2, ... , m


10.2 Identificazione del modena 199

mentre per la stima della varianza residua si puo ottenere:

Al crescere dell'ordine la varianza residua inizialmente decresce sensibilmente,


rna una volta raggiunto l'ordine "vero" la diminuzione ulteriore etrascurabile,
poiche non e pili dovuta a un aumento della capacita esplicativa del modello.
Percio nell'adattare modelli di ordine crescente ci si fermer a quando il passag-
gio all'ordine immediatamente superiore non garantisce pili una diminuzione
apprezzabile della variabilita residua. Si sceglie cioe il primo valore (ovvero il
pili piccolo perche la procedura iterativa e crescente) p per il quale

ovvero I¢P+l,p+ll < VE· Si verifica facilmente che questo modo di pro-
cedere equivale ana minimizzazione del criterio N log a; + P7rN ponendo
7rN == N log{1/ (1 - E) }. Infatti nel passare dan'ordine p all' ordine p + 1 questo
criterio C(p) cresce 0 decresce a seconda che

C(p + 1) - C(p) == N log a;+l - Nloga; + 7rN == Nlog (ah _1_)


1
O"p 1- E
2: 0
<

che equivale a

Si puo anche verificare che questa procedura equivale approssimativamente a


usare il criterio FPE se E == 2/(N + 1).
Dal punto di vista pratico, ai fini della costruzione effettiva di un modello
sulla base di una serie temporale osservata, la scelta tra i molti criteri non si
presenta facile: i risultati teorici di Hannan invitano a scegliere un peso 7rN
crescente con N, rna cia e rilevante solo nella pratica ripetuta di costruzione di
modelli su serie con numerosita differente, e non aiuta nella scelta dell'ordine
per un singolo caso. II valore 7rN == 2 corrisponde al criterio di Akaike, e
supera ampiamente il log log N (scelta che assicura la consistenza forte) per
serie fino a 1000 osservazioni; tuttavia e dimostrato che in molti casi tende
a suggerire ordini troppo elevati. Di conseguenza e consigliabile esaminare il
comportamento del criterio per valori del peso 7rN anche leggermente superiori,
aumentandolo fino a 3 0 4 0 fino a log N se e superiore, valutando la stabilita
dell'ordine risultante. Se questo cambia al variare di 7rN, un modo di procedere
omogeneo allo spirito della metodologia di Box e Jenkins equello di adottare il
modello pili parsimonioso (col minor numero di parametri) lasciando poi alla
fase di verifica dell'adattamento il compito di suggerire la eventuale necessita
di ampliare gli ordini.
200 10 I modelli rappresentativi

Un'ultima considerazione di importanza pratica non trascurabile riguar-


da l'insieme di valori ammissibili per l'ordine (p, q), e in particolare i valori
massimi plausibili P e Q nella (10.3). Se si considerano ordini molto grandi in
rapporto alIa numerosita N della serie, si raggiunge una situazione in cui l'in-
sieme degli N dati viene spiegato in funzione di quasi altrettanti parametri,
e questo comporta (per Ie proprieta stesse dei minimi quadrati) una varianza
residua vicina a zero; poiche nel criterio di identificazione compare illogarit-
mo della varianza residua ( e log z tende a -00 se z tende a zero), il termine
log fJ2 tende rapidamente ad assumere valori negativi molto grandi in modulo,
trascinando il criterio verso meno infinito indipendentemente dalla grandezza
di p e q. Di conseguenza accade che, se P e Q sono molto grandi, l'andamento
osservato e diverso da quello della Fig. 10.1: il criterio presenta un minimo
assoluto in corrispondenza dell'ordine (P, Q) e un minimo interno solo relati-
vo. Per questo motivo si raccomanda spesso, nell'uso dei criteri automatici, di
fermarsi al "primo minimo" al crescere dell'ordine, cioe di selezionare i valori
di (p,q) corrispondenti al minimo interno.
Esempio 10.1. Consideriamo la serie delle macchie solari di cui abbiamo gia
svolto l'analisi spettrale nell'esempio 9.3. Abbiamo considerato solo 100 dati,
e abbiamo adattato modelli autoregressivi puri con ordine crescente. I risultati
riportati nella tabella seguente elencano per ogni ordine la varianza residua
stimata e il valore dei criteri FPE, AlC, Schwarz e Hannan-Quinn (con c ==
1.5); in corrispondenza all'ordine zero e riportata la varianza della serie.

ordine yare res. FPE AlC SCH H-Q


o 1300 1300 717 717 717
1 444 453 611 614 615
2 245 255 554 559 562
3 247 262 556 564 569
4 247 267 558 569 575
5 249 275 561 575 582
6 245 277 562 578 587
7 217 249 552 570 580
8 213 250 553 573 585

20 169 253 553 605 635

48 26 74 421 546 545

Tutti i criteri presentano un minimo relativo in corrispondenza all'ordine p == 2


e poi cresco no all'aumentare dell'ordine, anche se non in modo monotono.
Pertanto i criteri indicano univocamente la scelta di un modello AR(2). Per
illustrare il comportamento limite dei criteri, abbiamo riportato i valori stimati
per ordini elevati p == 20 e p == 48, che risultano generalmente inferiori ai
minimi relativi ottenuti per p == 2; al di la dell'ordine 48 la varianza residua
diventa praticamente nulla.
10.3 Stima dei parametri e verifica del modello 201

10.3 Stima dei parametri e verifica del modello

Una volta deciso l'ordine (p, q), la stima dei parametri cPl' cP2' ... , cPP' ()1,
()2, ... , ()q, (J2 viene effettuata con i metodi di stima che abbiamo illustrato
nel paragrafo 9.7, assumendo che la serie sia una realizzazione finita di un
processo ARMA(p, q).
Ricordiamo che abbiamo sempre considerato processi a media nulla, e quin-
di il modello e stato costruito per gli scarti dalla media. In alternativa si puo
considerare il processo non depurato dalla media J-L, che segue il modello

dove c == J-L(1- cPl - cP2 - ... - cPp)· La costante c puo essere stimata sostituendo
le stime dei parametri autoregressivi e la media osservata x:

rna gran parte dei software ne prevedono la stima congiunta simultaneamente


con gli altri parametri.
Durante la procedura di stima, per ogni parametro viene stimato anche il
relativo scarto quadratico medio. I valori standardizzati ¢j/a(¢j) e OJ/a(Oj),
confrontati in valore assoluto con i quantili della distribuzione t di Student a
(N - p - q) gradi di liberta, forniscono una idea di quali stime dei parametri
siano significativamente diversi da zero. Nel caso che ve ne siano alcune non
significative, diversi software permettono di ripetere la stima vincolando i
corrispondenti parametri a zero, e diminuendo cost il numero dei parametri.
Puo inoltre accadere nel caso di modelli misti che gli operatori AR e MA
stimati presentino un fattore in comune, cioe che posto:

si abbia
<I>(B) == C(B)ep* (B) 8(B) == C(B)8* (B)
dove C(B) ha grado inferiore 0 uguale al min(p, q). Allora il modello stimato
e equivalente al seguente:
ep* (B)Xt == 8* (B)ct

il Quale ha ordine inferiore e va quindi preferito per la maggiore parsimonia.


Percio esempre opportuno, dopo la stima, fattorizzare i polinomi <P(B) e 8(B)
e controllare che non vi siano fattori in comune (anche approssimativamente,
alla luce della variabilita delle stime), e in caso affermativo semplificare il
modello.
Esempio 10.2. Sia stato costruito e stimato un modello ARMA(2,1) con pa-
rametri stimati ¢1 == 1.28, ¢2 == -0.32, 01 == 0.39. II polinomio autore-
gressivo <I>(B) == 1 - 1.28B + 0.32B2 ha radici (risolvendo l'equazione di
202 10 I modelli rappresentativi

secondo grado) pari a circa 2.92 e 1.0S, e si puo scrivere quindi &(B)
(1 - BI2.92)(1 - Bl1.0S) ~ (1 - 0.35B)(1 - 0.93B) mentre il polinomio MA
e 8(B) == (1 - 0.39B). Poiche 10 scarto quadratico medio stimato per 01 e
V(1- {}i)/N C:::'. 0.92/VN, se la serie e lunga per esempio N = 120 dati si ot-
tiene 8"(0 1 ) ~ O.OS, quindi (1- 0.39B) e (1- 0.35B) possono essere considerati
equivalenti e semplificando si ottiene il nuovo modello (1-0.93B)X t == Et che e
un AR(l) di struttura parametrica pili semplice pur offrendo sostanzialmente
la stessa spiegazione dei dati.
Vengono anche calcolati i residui osservati Et ottenuti iterativamente con la
formula:
p q

Et == Xt - L ¢jXt-j - C+ L OjEt-j . (10.S)


j=l j=l

Tutti i metodi di stima garantiscono che la somma dei residui e zero (a un


grado di approssimazione dipendente anche dall'elaboratore, rna comunque
sufficiente ai fini pratici), e la somma dei quadrati viene usata per stimare la
varianza residua (generalmente la versione non distorta):

---2 _ 1 ~ ---2
(J - N ~Et .
- P- q t

La varianza residua viene confrontata con la varianza della serie attraver-


so un indice mutuato dall'analisi di regressione denominato coefficiente di
determinazione R 2 :
R2 == 1 - 8"2 /1(0) .
II valore di R2 varia tra 0 e 1 e misura la parte di variabilita "spiegata" dal
modello. Nella sua interpretazione si deve tener presente che il valore ottenuto
e una stima del quoziente teorico R 2 , e inoltre che esso si riferisce al modello
che abbiamo scelto, percio su R2 possono influire due tipi di distorsione:
1. II rapporto 8"2/1(0) potrebbe essere una stima distorta di (J2/,(0).
2. II modello che abbiamo scelto (cioe l'ordine che abbiamo identificato) po-
trebbe non essere ottimale, e quindi il (J2 che andiamo a stimare potrebbe
non essere quello minimo raggiungibile all'interno della classe ARMA.
Queste considerazioni suggeriscono di valutare con cautela le stime del coef-
ficiente di determinazione; d'altra parte sarebbe sbagliato concludere che un
R2 piccolo e segno di errata costruzione del modello, poiche la serie puo esse-
re stata generata da un processo ARMA caratterizzato da un valore teorico
piccolo di R 2 == 1 - (J2 I, (0); in tal caso se la identificazione e corretta e la
stima poco distorta, il valore di R2 non puo essere che piccolo. Ad esempio
per un AR(l) il coefficiente R 2 e uguale a ¢2: se abbiamo una serie generata
da un AR(l) con parametro ad esempio ¢ == 0.5, risulta R 2 == 0.25 e an-
che un modello correttamente identificato non potra avere un coefficiente di
determinazione maggiore.
10.3 Stima dei parametri e verifica del modello 203

In conclusione, un R2 modesto puo significare sia che la procedura non


e stata compiuta correttamente, sia che la serie proviene da un processo con
struttura lineare dinamica poco pronunciata: per discernere queste due alter-
native si deve effettuare una verifica di conformita del modello, argomento che
passiamo adesso a trattare.
Le operazioni volte a controllare la bonta del modello si rivolgono essen-
zialmente ai residui osservati (10.8) con 10 scopo di verificare se essi soddisfano
Ie ipotesi alla base del modello stesso, e fondamentalmente quella di incorre-
lazione. Ricordando infatti la interpretazione del modello come filtro lineare ,
si vede che l'effetto delle strutture autoregressiva e a somma mobile e quello
di introdurre una dipendenza lineare dinamica nei dati, e se questa forma
di dipendenza non e pili presente nei residui, si puo pensareche il modello
ipotizzato sia corretto; viceversa, se nei residui si ravvisa ancora dipendenza
lineare, cia significa che essa non e stata spiegata esaurientemente dalle parti
autoregressiva e a somma mobile costruite: in tal caso ci porremo anche il
compito di trovare modelli pili accurati.
II controllo statistico della incorrelazione (0 come si usa anche dire della
bianchezza) dei residui si puo condurre in ambedue i domini, temporale e
frequenziale (anche se i metodi pili correnti appartengono al primo) e si basa
sulle stime delle autocorrelazioni e del periodogramma dei residui osservati Et:

fc(h) == LEtEt+h/LE;
t t
2

I (.\) == _1_ ~ E e i At
c 21rN ~ t
t

e
II modo di procedere pili usato quello di costruire test statistici in cui l'ipotesi
nulla stabilisca che i residui provengono effettivamente da variabili incorrela-
te, cia che viene assimilato alla correttezza del modello costruito. Percio se
l'ipotesi non viene rifiutata dal test, il modello e accettato come sufficiente-
mente rappresentativo della serie. Questo tipo di problematica (i cosiddetti
test di bianchezza) estata sviluppata inizialmente in modo indipendente dalla
costruzione dei modelli rappresentativi, e i risultati possono essere applicati
direttamente ai residui osservati, tenendo conto pero che il modo con cui essi
sono stati calcolati (10.8) fa s) che esistano vincoli che legano i loro valori.
Nel dominio temporale il risultato fondamentale al Quale ci possiamo ri-
ferire e la normalita asintotica delle stime delle autocorrelazioni del rumore
bianco: se f == {f(1), f(2), ... ,f(M)}', allora VHf tende a una normale multi-
pla a M dimensioni standardizzata (con medie nulle e matrice di dispersione
idcntita). Pertanto possiamo costruire una distanza complessiva del vettore
dall'origine calcolandone la somma dei quadrati, che diventa una variabile chi
quadrato se la standardizziamo moltiplicandola per N:
204 10 I modelli rappresentativi

Poiche ogni allontanamento dalla "bianchezza" comporta che almeno qualche


autocorrelazione teorica sia diversa da zero, ci aspettiamo che la statistica QM
tenda ad avere valori pili grandi se il processo non e bianco, e quindi un test
di bianchezza si puo basare sulla regione di rifiuto QM > X~,(l-a) (quantile a
livello 1-0: della variabile chi quadro con M gradi di liberta.). Questo modo di
procedere puo essere esteso ai residui, rna il fatto di averli calcolati dopo aver
stimato i parametri comporta che il vettore rE: == {rE:(l),rE:(2), ... ,rE:(M)}',
sotto l'ipotesi che il modello sia corretto, si distribuisca in maniera asintotica-
mente normale con media nulla, rna matrice di dispersione con rango M -p-q.
Ne risulta che la statistica QM si distribuisce sotto l'ipotesi nulla come un chi
quadrato con M - p - q gradi di Iiberta (Box e Pierce, 1970). Si ottiene cost
il test di Box e Pierce detto portmanteau (baule, valigia):

e C a e il quantile a livello (1- 0:) della distribuzione chi quadrato con M - p - q


gradi di liberta. Le approssimazioni adottate, pero, fanno sl che per N finito
spesso il test abbia una significativita empirica (frequenza di rifiuto dell'ipotesi
nulla quando e vera) inferiore al valore nominale 0:, e questo ha portato a
considerare una maggiore precisione nel valutare la varianza degli stimatori
delle autocorrelazioni. Se si usa la formula

Var{rE:(h)} == (N - h)/{N(N + 2)}

si ottiene cosi una versione diversa del test, proposta da Ljung e Box (1978):
M
QM== N(N + 2) L rE:(h)2 /(N - h) (10.9)
h=l

che e pili usata della precedente. Anche in questo caso il modello viene accet-
tato se il valore calcolato della (10.9) non supera il quantile del chi quadrato
con M - p - q gradi di liberta. Meno chiaro e meno trattato in letteratura
e il problema di come scegliere il valore di M, cioe quante autocorrelazioni
"mettere in valigia" (fermo restando che il loro numero deve essere considere-
volmente superiore a p+q), poiche la potenza del test sotto ipotesi alternative
dipende dalla forma di queste: in genere si puo dire che se applicato a un pro-
cesso che abbia autocorrelazioni diverse da zero fino al ritardo k, e poi nulle,
la potenza del test aumenta al crescere di M fino a k, e poi tende a diminuire
per valori superiori. Percio il valore di M va scelto superiore a tutti i ritardi in
corrispondenza dei quali si sospetta che ci sia autocorrelazione, rna non troppo
elevato. Ad esempio, la pratica per dati mensili che possono essere soggetti
a stagionalita suggerisce di scegliere per M un valore di almeno 12, spesso
viene scelto 24; in dati trimestrali con la eventuale presenza di cicli economici
congiunturali (solitamente con periodi fino a sette-otto anni) si sccglicra un
M tra 20 e 30, e cost via, compatibilmente con la numerosita della serie.
10.3 Stima dei parametri e verifica del modello 205

II test di Ljung e Box e molto diffuso e praticamente tutti i software per la


costruzione di modelli ARMA ne forniscono il risultato. Sono stati proposti in
letteratura molti altri test, i quali in genere hanno potenza superiore a quello
di Ljung e Box, rna hanno una distribuzione di probabilita sotto l'ipotesi nulla
pili complicata 0 difficilmente tabulabile. Citeremo soltanto quelli basati sulla
differenza tra autocorrelazioni ordinarie e parziali (Pukkila, 1984; Baragona e
Battaglia, 2000a). Be il processo e rumore bianco allora r(h) == 7f(h) (== 0) per
ogni h, mentre per tutti i processi non bianchi Ie funzioni di autocorrelazione
ordinaria e parziale differiscono almeno per qualche ritardo: questo suggerisce
di usare le stime delle differenze, f( h) - ir( h), per costruire una somma dei
quadrati simile al test portmanteau. II vantaggio e che sotto l'ipotesi nulla
la varianza di f (h) - ir (h) e dell' ordine di 1I N 2 , mentre quella di f (h) e di
ordine II N, percio le differenze sono molto pili sensibili all'allontanamento
dalla bianchezza. L'inconveniente e invece nel fatto che N{f(h) - ir(h)} non
ha una distribuzione asintoticamente normale (tende invece alla differenza tra
due chi quadro indipendenti) e quindi il calcolo dei valori critici del test e
pili difficile. Da segnalare infine il recente test proposto da Peiia e Rodriguez
(2002) basato sul determinante della matrice di autocorrelazione stimata dei
residui, che ha dimostrato buone proprieta di potenza.
Nell'ambito del dominio frequenziale, il controllo della bianchezza dei re-
sidui consiste nel verificare l'ipotesi che la densita spettrale possa essere con-
siderata costante. II problema puo essere posta in termini di confronto tra la
distribuzione spettrale normalizzata teorica G(A), ad andamento lineare tra

i: i:
-7f e 7f, e quella empirica basata sul periodogramma:

G(A) = I(w)rlliJ / I(w)dw .

Si puo dimostrare che, essendo 10 stimatore G(A) una media di periodogrammi,


risulta consistente e quindi non c' e bisogno di ricorrere agli stimatori con
finestra. Per il test di uguaglianza tra distribuzione teorica ed empirica si
ricorre ai risultati di Kolmogorov e Smirnov sul confronto tra distribuzioni
di probabilita, che possono essere estesi anche al caso presente. In pratica
approssimeremo l'integrale con una sommatoria, calcolando il periodogramma
dei residui alle frequenze di Fourier Aj == 27fj IN (per Ij < m == IN 12l):
1

I j == ~
1
v 27fN
L E ex p(i27fj t IN )
t
t

e la stima dello spettro normalizzato cumulato:

k == -m + 1, ... , m

mentre la misura spettrale teorica per il rumore bianco e naturalmente


G(Ak) == (k + m)IN. Ricordiamo che asintoticamente lc I j sono chi quadrati
206 10 I modelli rappresentativi

I Rifiutare Ho

0.5

O~_"":'-_-------------------'

Fig. 10.2. Misura spettrale teorica e stimata e test di bianchezza

indipendenti, cost si possono applicare i risultati di Kolmogorov e Smirnov:

dove TIn sono i quantili tabulati, per esempio TIn ~ 1.36 per ex == 0.05. Accet-
teremo l'ipotesi quindi se la distanza tra G e G si mantiene sempre entro i
limiti della disuguaglianza, cioe se

altrimenti rifiuteremo l'ipotesi nulla. II test ha anche una immediata rap-


presentazione grafica: sul rettangolo (-1T, 1T) X (0,1) si traccia la diagonale
vi
ascendente e due linee a distanza ±Tla 2/ N, e poi si disegna la spezzata a
gradini che congiunge i punti {Ak' G(Ak)}' Se la spezzata in qualche punto
esce fuori dalla banda centrale si rifiuta l'ipotesi di rumore bianco (si veda
la Fig. 10.2). Va tenuto presente tuttavia che gli urti su cui viene calcola-
to il periodogramma sono ottenuti in base alle stime dei parametri ¢ e (), e
quindi anche sotto l'ipotesi nulla la distorsione delle stime dei parametri puo
introdurre autocorrelazione spuria nelle Et, provocando valori pili elevati delle
differenze G(Ak) - G(Ak) e di conseguenza una maggiore ampiezza empirica
del test rispetto allivello nominale, pertanto i risultati vanno sempre giudicati
con cautela (considerazione peraltro valida anche per le procedure nel dominio
temporale).
In conclusione, se si eportati ad accettare l'ipotesi che i residui provengano
da un processo rumore bianco, si considerera il modello accettabile; in caso
10.4 Modelli per serie non stazionarie in media 207

contrario, un esame dei residui puo suggerire modelli alternativi. In linea di


principio, se la serie {Et} non egiudicata bianca, si puo ipotizzare che essa sia
rappresentabile come processo lineare, e che possa essere ben approssimata
da un modello ARMA di ordine autoregressivo Q e a somma mobile (3:

dove {Ut} e un rumore bianco. Riportando questo risultato sui dati, poiche
&(B)Xt == 8(B)ct
moltiplicando ambo i membri per M(B) si ottiene:

M(B)&(B)Xt == 8(B)N(B)Ut
che descrive il processo osservato {X t } come un processo autoregressivo a
somma mobile di ordine (p + Q, q + (3), e quindi suggerisce una modifica all'i-
dentificazione volta a incrementare gli ordini. In pratica l'autocorrelazione dei
residui puo suggerire un andamento generale di tipo autoregressivo puro (e
allora si aumenta l'ordine della struttura autoregressiva) oppure la significati-
vita dei valori relativi soltanto a uno 0 pili ritardi (e in tal caso si incrementa
l'ordine della parte a somma mobile). Sulla scorta di queste informazioni si
ripete il ciclo di costruzione del modello, articolato nelle fasi di identificazione,
stima e verifica.
Va sottolineato infine che se ci si affida a criteri di adattamento com-
plessivo, come il test di Ljung e Box 0 quello di bianchezza dello spettro,
si potranno generalmente trovare pili modelli, anche di ordine diverso, che
si adattano ugualmente bene alla stessa serie: tra di essi ce ne puo essere
uno che spiega meglio I'andamento delle frequenze basse e uno che riproduce
meglio quelle alte, oppure un modello che ha autocorrelazioni residue molto
piccole per certi ritardi, e un altro che Ie ha piccole se si guardano ritardi
diversi. La scelta tra questi, se sono di ordini differenti, e guidata in genere
dalla parsimonia: scegliere quello con minor numero di parametri. Se cia non
e sufficiente, puo capitare che determinate frequenze, 0 determinati ritardi,
abbiano una importanza 0 un significato particolare, e allora si privilegia la
bonta di rappresentazione riferita a quegIi elementi specifici. Tuttavia nella
gran parte delle applicazioni cia non accade, ed e necessario essere disposti ad
ammettere l'esistenza di una molteplicita di modelli il cui adattamento com-
plessivo e di qualita equivalente, e le cui differenze sono difficili da discernere.
In ultima analisi, la scelta tra pili modelli equivalenti puo esser affidata al
valore di un criterio automatico (FPE, AIC, BIC, ...), adottando ovviamente
il modello che presenta il valore minimo.

10.4 Modelli per serie non stazionarie in media


Si incontrano frequentemente serie le cui caratteristiche appaiono in contrasto
con Ie ipotesi fondamentali di base che abbiamo assunto. I fattori principali
208 10 I modelli rappresentativi

che fanno sorgere queste preoccupazioni, e che si riscontrano molto spesso


specie nelle serie economiche, sono il trend e la stagionalita.
Una serie presenta un trend quando i suoi dati tendono ad assumere va-
lori crescenti, 0 decrescenti, al trascorrere del tempo, in modo tale che se ne
considerassimo il grafico ordinato per il verso opposto delle ascisse (cioe con il
tempo che scorre verso sinistra invece che verso destra) si ravviserebbe un an-
damento completamente diverso. A volte anche Ie oscillazioni dei valori della
serie tendono a diventare pili ampie al trascorrere del tempo (si parla di trend
in varianza). Queste caratteristiche portano a ritenere che per il processo che
genera i dati non valga l'ipotesi di costanza della media e/o della varianza, e
in tal caso non si possono definire autocorrelazioni e spettro.
II dibattito sul problema della stazionarieta ha impegnato per anni i ri-
cercatori dividendoli tra coloro che negavano validita ai metodi dell' analisi
moderna delle serie temporali in questa situazione, e coloro che proponevano
metodi per trattare adeguatamente e preliminarmente il trend, in modo da
poter poi impiegare i metodi propri dei processi stazionari. Dal punto di vista
logico, la dicotomia puo essere ricomposta osservando, con Kendall, che sulla
base di un numero finito di dati N, non e possibile stabilire se essi provengono
da un processo stazionario oppure no: infatti la tendenza crescente 0 decre-
scente, che si manifesta nel finito sugli N dati, potrebbe essere originata da
una componente ciclica di ampiezza rilevante e periodo superiore a N istanti.
Percio il quadro di riferimento che abbiamo costruito nei capitoli precedenti
si presta ad analizzare anche serie con trend, pur se in tale ambito dovremo
sviluppare metodi specifici per trattare questa caratteristica che in genere ha
rilevanza macroscopica e introdurrebbe distorsioni molto pesanti nelle stime.
Infatti, se adoperiamo direttamente su serie con trend i metodi di stima che
abbiamo costruito finora, vedremo che la densita spettrale stimata presen-
ta un picco elevatissimo alla frequenza zero e densita trascurabile alle altre
frequenze, mentre il correlogramma ci fornisce tutte stime positive e molto
elevate a qualunque ritardo; in sostanza un quadro scarsamente informativo.
Ai fini del trend si possono riconoscere, come accennato nel Cap. 2, due
impostazioni:
• Stima del trend mediante una funzione deterministica del tempo.
• Filtraggio della serie per rimuovere il trend.
Nel primo caso viene scelta una funzione di t, generalmente lineare oppure
polinomiale (0 anche di forma pili complicata, ad esempio esponenziale 0 10-
gistica) e viene adattata alla serie stimandone i coefficienti con il metodo dei
minimi quadrati, che sotto condizioni piuttosto deboli risulta efficiente (si ve-
da ad esempio Hannan, 1960). I residui di questo adattamento costituiscono
la serie stazionaria che viene ulteriormente analizzata con i metodi consueti.
Nella impostazione alternativa, invece, si sottopone la serie a filtraggio in
modo che la serie output non presenti pili la tendenza in media. I filtri usati
sono del tipo alle differenze prime yt == X; - X t - 1 , eventualmente applicati
ripetutamente. Come abbiamo visto nella parte dedicata al filtraggio, questo
10.4 Modelli per serie non stazionarie in media 209

procedimento e in grado di rimuovere una componente deterministica polino-


miale nel tempo, rna puo essere utile anche quando la evoluzione tendenziale
della serie e meno precisa e netta.
II procedimento basato sul filtraggio, per la non necessita di ipotesi a priori
e per la sua struttura lineare, e il pili omogeneo alla impostazione di Box e
Jenkins e li ha portati a suggerire la costruzione di modelli ARMA sui dati
preventivamente filtrati alle differenze yt == (1- B)d X t , considerando strutture
autoregressive a somma mobile applicate alla {yt} e quindi del tipo:

<P(B)(l - B)d X, == C + 8(B)ct . (10.10)

La (10.10) viene chiamata modello autoregressivo a somma mobile integrato


di ordine (p, d, q) per {Xt } , e la relativa classe di modelli viene indicata con
ARIMA(p, d, q). La sigla stessa fa comprendere che l'ordine di differenziazio-
ne d viene considerato, al pari di p e q, come un valore da identificare. La
sua scelta ricade quindi nella fase di identificazione; se si adotta il principio
di approssimazione puo essere incorporata nella procedura basata su criteri
automatici senza alcuna modifica. Se invece si adotta il principio della sco-
perta, la decisione sul valore di d viene effettuata come primo passo, prima
di quella relativa ape q: si considerano i grafici delle serie output risultanti
dall'applicazione di varie possibilita (in genere d == 0, 1 oppure 2, quasi mai
superiori) e si esaminano anche la varianza e il correlogramma, optando per
quel valore di d a cui corrisponde la serie pili stabile, la varianza pili piccola e
il correlogramma con valori meno significativi nel complesso. Una volta scelto
l'ordine di differenziazione d, sulla serie filtrata si pro cede alla identificazione
di p e q esattamente nel modo visto precedentemente. La stima dei parametri
viene effettuata sui dati filtrati Yt == (1- B)d Xt, e la fase di verifica non subisce
alcuna modificazione.
Dal punto di vista matematico il modello ARIMA(p, d, q) riportato in
(10.10) non e qualitativamente diverso da un ARMA, rna ha la particolarita
che il polinomio di ritardo applicato ai dati, cioe q>( B) (1- B)d, ha grado p + d
ed esattamente d radici coincidenti e uguali a uno (le radici di (1 - z)d == 0),
mentre le altre hanno modulo maggiore di uno (per questo si parla anche di
radici unitarie).
La qualificazione di integrati deriva a questi modelli dalla considerazione
seguente. Se Yt == (1 - B)xt, la serie si puo esprimere in funzione dei dati sta-
zionari attraverso la espressione formalmente inversa: x, == Yt+Yt-l +Yt-2+· ..
che analogamente, per processi in tempo continuo, diventa un integrale (come
la differenziazione va a corrispondere a una derivata). Da qualche tempo e
invalso l'uso, specie in econometria, di chiamare integrate le serie non stazio-
narie che si prestano a essere depurate del trend mediante differenziazione, e
pili precisamente si indica con la simbologia X, I(d) un processo che, una
r-;»

volta filtrato d volte, risulta stazionario (in senso debole).


In realta Box e Jenkins propongono l'uso delle differenze in un insieme pili
vasto di situazioni, oltre che quello di serie con trend: infatti essi osservano che
i modelli ARIMA sono indipendenti dal livello "locale" della serie, in quanto
210 10 I modelli rappresentativi

Fig. 10.3. Serie C di Box e Jenkins (1970)

<1?(B)(l - B)d(Xt + k) == <1?(B) (1 - B)dX, per ogni k

quindi essi sono adatti per processi che mostrano variazioni di natura omo-
genea innestate su un livello variabile lentamente, che puo non seguire un
andamento tendenziale preciso e netto, come abbiamo supposto prima, rna
anche un andamento di tipo qualunque, con variazioni di diversa durata e
verso, e anche di natura stocastica e non deterministica. In tal caso l'incre-
mento tra un dato e l'altro non tendera ad assumere un segno no un valore
preciso, e nel modello (10.10) il termine costante c non viene inserito (cioe vie-
ne assunto nullo). In questo caso si parla di modelli per trend stocastico: essi
possono risultare utili per serie che presentino variazioni non monotone lente,
rna di grande importanza, nellivello medio. Tale caratteristica sarebbe meglio
studiata considerandola come componente di lungo periodo, corrispondente
quindi a una elevata densita spettrale aIle bassissime frequenze, rna spesso la
numerosita insufficiente dei dati non permette una inferenza sufficientemente
precisa su queste componenti, e quindi si preferisce ricorrere a un modello
ARIMA. Va notato che il modello (10.10) con c == 0 e sostanzialmente indi-
pendente dalle variazioni lente dellivello medio, e quindi aiuta a spiegare solo
il comportamento di periodo medio e breve: si parla percio di trend stocastico
nel senso di "non sistematico" ovvero imprevedibile sulla base del modello.
In questo caso (c == 0) la media delle differenze e nulla e quindi il livello non
mostra tendenza crescente 0 decrescente. Se invece la serie ha un trend pro-
nunciato, per rappresentarla sara necessario considerare anche la costante c
tra i parametri da stimare.
Esempio 10.3. La serie indicata come Serie C in Box e Jenkins (1970) riporta
la temperatura rilevata ogni minuto in un processo chimico, ha 226 osserva-
zioni e il grafico e riportato nella Fig. 10.3. Box e Jenkins identificano due
10.4 Modelli per serie non stazionarie in media 211

modelli alternativi: un ARIMA(1,1,0) oppure un ARIMA(0,2,2): la differen-


ziazione (una 0 due volte) e necessaria per eliminare l'andamento di fondo,
ben visibile, rna non assimilabile a un trend crescente ne decrescente. Infatti i
modelli adattati non presentano la costante. E chiaro che questo andamento
potrebbe essere interpretato come componente pseudo-periodica di periodo
corrispondente a diverse decine di minuti, e si potrebbe tentare di adattare
un processo pseudo-periodico AR(2). Se si segue questa strada le stime di
massima verosimiglianza risultano ¢1 == 1.79 e ¢2 == -0.815 e la conseguente
stima dello pseudo-periodo e:

Tuttavia l'arcocoseno ha valori prossimi a zero, e una variazione anche piccola


delle stime dei parametri produce drastici cambiamenti nella stima del perio-
do. Dai paragrafi precedenti si ha che gli scarti quadratici medi stimati sono
o-(¢l) = o-(¢2) = J(l - ¢~)/N ~ 0.038. Una variazione di solo un centesimo
in pili 0 in meno nella stima di ¢1, ferma restando ¢2, porta a stimare 10
pseudo-periodo con valori tra circa 47 e infinito. In sostanza in questi casi
la stima e largamente inaffidabile e puo essere opportuno ricorrere ai modelli
integrati.

Nell'ambito dell'Econometria, quando si usano i modelli lineari anche a fini


interpretativi, riceve uno speciale interesse il problema delle radici unitarie.
Anche se 10 stesso operatore alle differenze e efficace sia per un processo con
trend deterministico lineare del tipo X, == a + bt + Zt, sia per un processo
con trend stocastico del tipo (1 - B)Xt == C + ct, e quindi su entrambi si puo
costruire un modello ARIMA, tuttavia l'interpretazione che si puo dare dei due
tipi di processi e delle loro caratteristiche e molto diversa. II processo a trend
deterministico rappresenta una oscillazione aleatoria (Zt) con caratteristiche
stazionarie attorno a una funzione deterministica (a + bt). Al contrario, per
il processo generatore di una serie integrata, (1 - B)Xt == C + Ut, dove {Ut}
e stazionario (rna non necessariamente rumore bianco) si puo scrivere X, ==
X t - 1 + Ut + c, e iterando:
t
x, == X o + ct + L Uj
j=1

percio anch'esso rappresenta una oscillazione aleatoria attorno a una retta


deterministica (X o + ct) rna il termine aleatorio e (U1 + U2 + ... + Ut) e quindi
ha varianza indefinitamente crescente nel tempo. Inoltre, se si considerano le Ut
come innovazioni del processo, e si scrive il processo in forma di media mobile
(finita 0 infinita), si vede che nel caso di trend deterministico il coefficiente di
ct in X t + h tende a zero al crescere di h, mentre nel caso di trend stocastico il
coefficiente di Ut in X t + h e sempre uguale a uno qualunque sia h (si dice anche
che nel primo caso gli shock sono transitori, nel secondo sono permanenti) ,
212 10 I modelli rappresentativi

Fig. 10.4. Realizzazione di un processo con trend deterministico e di uno con trend
stocastico (linea piu marcata)

il che corrisponde a proprieta differenti del fenomeno. Un esempio dei due


andamenti differenti e riportato nella Fig. 10.4.
Per questo motivo il problema di distinguere se una serie proviene da un
processo con radici unitarie ha suscitato molto interesse in letteratura e sono
stati proposti svariati test statistici. Essi si distinguono essenzialmente per la
scelta dell'ipotesi privilegiata (ipotesi nulla).
Test per l'ipotesi nulla di radice unitaria. II test pili diffuso e semplice e quello
di Dickey e Fuller (1979) che prende in considerazione un modello AR(1) e 10
stimatore del parametro:

L'ipotesi nulla diventa allora: Hi, : ¢ == 1 e sotto H o il processo e descritto


dalla equazione X, == X t - 1 + ct, cioe un ARIMA(0,1,0). Sotto l'ipotesi Hi,
la distribuzione dello stimatore ¢ (si ricordi che ha valori minori di uno) e
diversa da quella che ha nel caso stazionario (asintoticamente normale con
media ¢ e varianza (1- ¢2)jN ), e in particolare si avvicina al valore uno con
velocita maggiore rispetto al caso stazionario, di ordine N invece che V"N.
Dickey e Fuller hanno dimostrato che la variabile N (¢ - 1) ha, sotto l'ipotesi
nulla che il processo sia un ARIMA(0,1,0), una distribuzione non degenere
rna non gaussiana, di cui hanno tabulato i quantili. Pertanto il test consiste
nello stimare ¢, calcolare la statistica N (¢ - 1) e rifiutare l'ipotesi nulla di
radice unitaria se il valore ottenuto e piccolo, inferiore al quantile tabulato
(ad esempio il valore al 5 per cento e pari a -1.94).
II test e stato esteso al caso pili generale di processo autoregressivo di ordine
p > 1 : fJJ(B)Xt == Ct; qui l'ipotesi nulla di radice unitaria e descritta da Hi; :
10.4 Modelli per serie non stazionarie in media 213

4)(1) == O. Se vale H o, allora4)(B) == (l-B)C(B), dove C(B) ha radici fuori del


cerchio unitario, e quindi il processo soddisfa l'equazione C(B)(l- B)Xt == Et
ovvero:
X, - X t - 1 == LCj(Xt - j - X t - j- 1 ) + Et
j

e anche la seguente ponendo p == 1:


p

X, - X t - 1 == (p - 1)Xt - 1 + L Cj(X t- j - X t - j- 1 ) + Et .
j=l

II test consiste nello stimare sui dati quest 'ultima equazione e nel verifica-
re l'ipotesi nulla Hi, : p == 1. In realta si puo dimostrare che effettivamente
p == 1 - 4)(1). La distribuzione sotto l'ipotesi nulla e la stessa del caso prece-
dente (p == 1) e il test viene chiamato ADF (augmented Dickey Fuller) .
Se la serie pero mostra un trend evidente, e necessario inserire la costante nel-
la equazione autoregressiva, e in tal caso la distribuzione sotto l'ipotesi nulla
e diversa, e il quantile da usare cambia (rna anche questi ultimi sono stati
tabulati). II test e stato esteso anche a modelli con la parte a somma mobi-
le (Said and Dickey, 1985). Esistono poi vari altri test per le radici unitarie
(molto diffuso ad esempio e il test di Phillips e Perron). Per approfondimenti
e per le tavole dei quantili si rimanda per esempio a Hamilton (1994).
Test per l'ipotesi nulla di stazumarieto: La scelta di attribuire il ruolo di
privilegiata all'ipotesi di radice unitaria deriva dalla particolarita della distri-
buzione del parametro autoregressivo sotto questa ipotesi, rna e stata spesso
criticata poiche contraria alla pratica corrente in inferenza di accettare l'i-
potesi pili semplice e conveniente ai fini dell'analisi (quindi in questo caso la
stazionarieta) a meno che i dati non la confutino in maniera evidente. Per
questo, sono stati proposti anche test in cui l'esistenza di radici unitarie as-
sume il ruolo di ipotesi alternativa. Uno dei pili noti e il test di Kwiatkowski,
Phillips, Schmidt e Shin (1992) (spesso chiamato test KPSS) . Si assume che
il processo X, soddisfi Ie seguenti equazioni:

X; == a t + ri + Et
rt == rt-l + u, (10.11)

dove a e una costante, {Ut} e un rumore bianco con varianza e {Et} e un a;,
processo stazionario a media nulla rna non necessariamente bianco. Fissato un
valore iniziale ro, il processo segue un trend lineare definito dalla retta "n + a t
perturbato da oscillazioni aleatorie pari, al tempo t, a Et + (Ul + U2 + ... + Ut),
e quindi si comporta come un processo a radici unitarie a meno che le Uj non
siano tutte nulle, il che corrisponderebbe a a;
== O. Percio l'ipotesi nulla di
radici non unitarie, ovvero di stazionarieta puo essere sintetizzata da Hi; :
a; a;
== 0, mentre l'alternativa HI : > 0 implica un comportamento da radici
unitarie. La statistica proposta e uno stimatore di a;,
esso si ottiene stimando
il modello (10.11) e calcolandone i residui stimati tt. Posto:
214 10 I modelli rappresentativi

la stima di a; viene data da:

e la sua distribuzione sotto l'ipotesi nulla e stata ricavata dagli autori: e una
distribuzione non standard di cui sono stati calcolati i quantili. L'ipotesi di
stazionarieta si rifiuta ovviamente (e si conclude per Ie radici unitarie) se la
statistica a;e maggiore del quantile al livello di confidenza scelto.

10.5 Modelli per serie non stazionarie in varianza e ad


eteroschedasticita condizionata

Infine, si possono incontrare serie le cui oscillazioni tendono a crescere nel


tempo, inducendo a sospettare che la varianza sia crescente. Un semplice mo-
dello di questa situazione si ha considerando il processo X; == c( t) Zt dove {Zt}
e stazionario, e c(t) una funzione non aleatoria crescente del tempo: infatti
Var{Xt } == C(t)2,z(O). In questa situazione un rimedio semplice ed efficace
consiste nel prendere i logaritmi dei dati. II processo yt == 10g(Xt ) infatti, ha
media non costante E(yt) == E{log(Xt ) } == logc(t) + E{log(Zt)} rna varianza
costante V ar{yt} == V ar{log( Zt) l
Un procedimento pili flessibile che generalizza l'applicazione dellogaritmo
e la classe di trasformazioni di potenza detta di Box e Cox (Box e Cox, 1964):
yt(a) == {~{Xf - 1} a#O
10g(Xt ) a==O

che al variare di a descrive Ie trasformazioni di potenza, inversa e logaritmica


(come limite per a tendente a zero). Naturalmente cio apre il problema di
scegliere il valore dell'esponente a. Assumendo la normalita dei dati e la loro
indipendenza si puo dimostrare che la log-verosimiglianza rispetto ad a si puo
scrivere:
N
logL(a) = -2Iogs2(a) + (a - 1) LlogXt
t

dove 8 ( a) e la varianza stimata dei valori trasformati, percio una stima di


2

massima verosimiglianza di a si potrebbe ottenere massimizzando L(a) at-


traverso metodi numerici iterativi. Tuttavia generalmente i dati di una serie
storica non sono indipendenti e quindi la verosimiglianza scritta e solo una
approssimazione. Una procedura pili semplice e prudente consiste invece nel
valutare l' andamento della serie e dei correlogrammi per alcuni valori tipici
10.5 Modelli per serie eteroschedastiche 215

(ad esempio 0.5, 0, -0.5, -1) e scegliere quello che garantisce il comportamen-
to pili stabilizzato e la varianza pili piccola. E da tenere sempre presente
che ogni trasformazione modifica la interpretazione dei dati: questi, in alcu-
ni casi, una volta trasformati possono assumere un significato difficilmente
percepibile. II problema e meno rilevante per la trasformazione logaritmica
che spesso e facilmente interpretabile: ad esempio agire, come spesso si fa,
con il logaritmo e poi le differenze prime, porta alla trasformazione Yt ==
log(Xt) - 109(Xt-l) == log(Xt/Xt-l), che e spiegabile in termini di rapporto:
se poi la variazione Xt - Xt-l e piccola rispetto al livello Xt, sfruttando la
approssimazione log(1 + z) ~ z si ha:

Xt - Xt-l
Yt == log(Xt/Xt-l) == log (1 + _Xt_-_Xt_-_l)
Xt-l Xt-l
ovvero Yt rappresenta approssimativamente la variazione relativa rispetto alla
osservazione precedente. Quando invece la trasformazione di Box e Cox usa
coefficienti diversi da zero, il significato dei dati trasformati puo porre seri
problemi interpretativi. D'altra parte e di tutta evidenza come Ie autocorrela-
zioni dei dati trasformati non abbiano una relazione precisamente esprimibile
e controllabile con le autocorrelazioni dei dati originali, e una trasformazione
puo distorcere in maniera irrimediabile la struttura di dipendenza dinamica
del fenomeno rilevato.
Se ne conclude che le trasformazioni di potenza nell'ambito delle serie
temporali andrebbero adottate con estrema cautela e possibilmente evitate,
cercando sempre di comparare i benefici che ne possono derivare quanto a
stabilizzazione della varianza, con le distorsioni incontrollabili introdotte nel-
la struttura autocorrelativa.

Negli ultimi venti anni e stata studiata una forma specifica di instabilita
in varianza, che si nota in particolare nei fenomeni relativi al mercato finan-
ziario. Se esaminiamo la serie dei rendimenti di un titolo (si chiama serie dei
rendimenti la serie delle differenze prime dei logari mi dei valori di un titolo)
si osserva spesso un comportamento caratterizzato da media costante rna al-
ternarsi di periodi con varianza moderata e altri cor varianza elevata (si parla
di volatility clustering, si veda la Fig. 10.5). In tal caso, anche se il processo
puo considerarsi globalmente stazionario, e importaite cercare di costruire un
modello che rappresenti questi mutamenti nelle caratteristiche della variabi-
lita, Inoltre spesso i dati di questo tipo presentano distribuzione non normale,
poiche sono pili frequenti della normale i dati molto elevati in valore assoluto
e i dati molto vicini a zero (distribuzioni leptocurtiche, a volte dette a co-
de pesanti); generalmente queste serie hanno autocorrelazioni vicine a zero, e
quindi struttura lineare molto debole, rna cio non implica l'indipendenza dei
dati (poiche non hanno distribuzione gaussiana).
Sono stati proposti modelli rappresentativi particolarmente studiati per
questo tipo di fenomeni, che vengono chiamati a eteroschedasticiia condizio-
nata e sono stati introdotti per primo da Engle nel 1982; essi sono indicati
216 10 I modelli rappresentativi

-1

-2

-3

Fig. 10.5. Esempio di serie dei rendimenti di un titolo

con la sigla ARCH (autoregressive conditional heteroscedastic) . Tali model-


li si applicano a serie con dati non normali e autocorrelazione trascurabile;
se invece la serie mostra una struttura dinamica lineare non trascurabile, si
puo prima costruire un modello ARMA e poi adattare sui residui un modello
ARCH.
L'idea fondamentale del modello ARCH e che la varianza a un certo istan-
te t sia influenzata dai dati relativi agli istanti precedenti, e quindi si puo
rappresentare l'andamento della varianza a un certo istante condizionatamen-
te ai valori assunti dal processo ai tempi precedenti. Quindi, contrariamente
ai modelli ARMA che hanno varianza condizionata costante e pari a (J2, qui
assumiamo che la varianza condizionata possa cambiare, e cerchiamo di rap-
presentarne l'andamento in funzione dei dati precedenti.
Consideriamo, dunque, un processo aleatorio {Yi} a media nulla: E(Yi) == 0 e
varianza E(~2) == ,(0), e indichiamo con

ht == E{Y?lrt-l, rt-2' ... }


la sua varianza condizionata alla storia precedente del processo. La forma pili
semplice per rappresentare la dipendenza di ht dai dati precedenti e quella
lineare. Nel modello ARCH si assume che la varianza condizionata dipen-
da linearmente dai quadrati delle osservazioni precedenti (considerati come
misura, in prima approssimazione, della variabilita mostrata dal processo):

(10.12)

Possiamo riferirci direttamente alla distribuzione condizionata di Yi dati


Yi-l, Yi-2, .... La (10.12) ne rappresenta la varianza, ed e naturale assumere
anche la media nulla: E{YiIYi-l, rt-2' ... } == o. Nel modello ARCH si assu-
me in aggiunta che questa distribuzione condizionata sia gaussiana per cui
10.5 Modelli per serie eteroschedastiche 217

possiamo scrivere, se {ct} indica un processo formato da variabili normali


standardizzate indipendenti:

(10.13)

Le equazioni (10.12) e (10.13) definiscono il modello ARCH(p) , di ordine p.


II processo {It} descritto da questo modello ha media nulla, e la sua va-
rianza (non condizionata) ,(0) si puo ricavare prendendo la media rispetto a
It-1, It-2, ... di ambo i membri della (10.12):

,(0) == E{~2} == E{h t } == 00+ olE(~~l) + ... + opE(~~p)


== 00 + 01,(0) + ... + Op,(O)
da cui
,(0) == 00 .
1- 01 - 02 - ... - op
Sui valori dei parametri si pongono le condizioni 0i > 0 (i == 0,1, ... ,p) per
assicurare la positivita delle varianze condizionate, e 01 + ... + Op < 1 per la
positivita della varianza non condizionata.
Si verifica inoltre che la distribuzione di probabilita di It presenta carat-
teristiche leptocurtiche, poiche la sua curtosi e maggiore di 3. Lo possiamo
controllare facilmente almeno nel caso del pili semplice modello di ordine
p == 1: ht == 00 + 01 ~~ 1. Intanto per il momento quarto si ha:

poiche ht e indipendente da et (dipende solo da E t -1 , et - 2, ... ) e inoltre dato


che le ct sono normali standardizzate, E(ci) == 3E(c;) == 3. Inoltre

E(~4) == 3E(h;) == 3E (00 + 01~~1)2


== 3 {06 + 20001E(~~1) + oi E(~~l)}
e data la stazionarieta E(~4) == E(~~l)' da cui

Ricordando che ,(0) == 00/(1 - 01) e sostituendo si ottiene:

Ne consegue che questo modello si presta effettivamente a rappresentare serie


che presentano caratteristiche di non norrnalita a code pesanti.
Naturalmente si pone il problema di identificare il modello ARCH(p) (scel-
ta di p) e di stimare i parametri OJ, per questo scopo la via pili semplice e
218 10 I modelli rappresentativi

di considerare i dati al quadrato {y;} e di usare la metodologia che abbiamo


visto prima, per costruire su quei dati un modello autoregressivo. Infatti, se
poniamo ~2 == ht + Ut la (10.12) si puo scrivere:
P

~2 == ao + Laj~~j +Ut
j=1

ne consegue che le {~2} seguono un modello autoregressivo di ordine p.


Una importante estensione di questi modelli (proposta da Bollerslev nel
1986) e costituita dalla introduzione nell'equazione che definisce la varianza
condizionata (10.12) di ulteriori termini autoregressivi:
p q

i; == Laj~~j + L(3jht - j .
j=1 j=1

I relativi modelli sono chiamati GARCH(p, q) (ARCH generalizzati) e per-


mettono una maggiore parsimonia. Si puo dimostrare che essi implicano che i
quadrati dei dati seguano un modello ARMA(p,q).
Anche i modelli ARCH e GARCH vengono impiegati a fini previsivi, sfrut-
tando la metodologia per lc previsioni locali dei modelli ARMA che verra il-
lustrata nel prossimo capitolo. Va tenuto presente pero che lc previsioni non
riguarderanno i valori futuri della serie, rna la loro variabilita, la cui previsio-
ne e di speciale interesse nello studio dei mercati finanziari (e che in questo
ambito e definita pili frequentemente con il termine volatilita).

10.6 Modelli per serie stagionali

Passiamo ora ad esaminare il tema della stagionalita, Le variazioni stagionali


costituiscono un problema nella modellistica e nell'analisi delle serie temporali
in generale poiche la loro rilevanza nel determinare l'andamento della serie e
in genere preponderante, il che porta a ritenere che le ciclicita di natura sta-
gionale apportino un contributo non infinitesimo alla varianza, facendo cadere
l'ipotesi di misura spettrale assolutamente continua, sulla quale e basata la
maggior parte della metodologia relativa all'inferenza. Abbiamo pero il gros-
so vantaggio di poter delimitare esattamente le frequenze interessate, ovvero
quella corrispondente al periodo pari un anna e le sue armoniche. Gli effetti
prodotti su una serie dai fattori stagionali possono rivestire interesse di per
se stessi, oppure ci si puo prefiggere 10 scopo di depurare la serie dalla loro
influenza (serie destagionalizzate).
Anche nello studio della stagionalita convivono due impostazioni:
• Stima dei fattori stagionali mediante una funzione deterministica del
tempo.
• Filtraggio della serie per eliminare Ie variazioni stagionali.
10.6 Modelli per serie stagionali 219

Poiche il periodo stagionale espresso in unita del parametro temporale e


diverso a seconda della cadenza di rilevazione dei dati, e necessario specificare
quest'ultima prima di poter procedere negli sviluppi. Supporremo di avere a
disposizione dati mensili, quindi il periodo fondamentale e dato da 12 unita
di tempo. Le modifiche da introdurre in quanto segue per adattarlo a cadenze
di rilevazione diverse sono in genere ovvie.
Se si vuole adattare una funzione deterministica del tempo alle variazioni
stagionali, la scelta pili ovvia cade sul polinomio trigonometrico

che permette, come sappiamo dall'analisi di Fourier (Appendice A), di ri-


produrre qualunque andamento periodico di periodo 12. I coefficienti aj e bj
vengono stimati sulla serie mediante il metodo dei minimi quadrati, che an-
che in questo caso sotto alcune condizioni fornisce stimatori sostanzialmente
efficienti (Hannan, 1960). Se la lunghezza N della serie e multipla di 12 e
N == 12a, scrivendo t == 12i + j (al variare di i tra 0 e a - 1 e di j tra 1 e 12
l'indice t assume tutti i valori tra 1 e N) e usando le formule di ortogonalita
riportate in Appendice si ottiene facilmente

2 2 a-I 12
aj = N I:XtCOS(Ajt) = N I:I:X12i+kCOs[ij(12i+k)]
t 1,=0 k=1

1 12 7r
="6 I:SkCOS(6jk)
k=1
1 12
bj ="6 LSkSin(ijk)
k=1

dove
1 a-I
Sk == -a I: Xl2i+k
i=O

e la media dei dati relativi al mese k-mo (k == 1,2, ... ,12). Sostituendo si
ottiene:
12 6
St = ~ ~ Sk ~ {COs( ~ jk) COs( ~jt) + sin( ~ jk) sin( ~ jt)}
6L..." L..." 6 6 6 6
k=1 j=1

e ponendo ancora t == 12i + j si ha infine (ricordando I'ortogonalita):

a-I
A

Sl2i+j == _

Sj == -a1 '""""
Z:: Xl2i+j
i=O
220 10 I modelli rappresentativi

Pcrcio concludiamo che con questo metoda la componente stagionale di cia-


scun mese e pari alIa media dei dati relativi al medesimo mese nei vari anni:
procedimento che a prima vista sarebbe sembrato naturale, rna ingenuo e sem-
plicistico. In realta questo metodo presuppone implicitamente che gli effetti
stagionali rimangano costanti negli anni, caratteristica che risulta raramente
confermata dall'esperienza empirica.
Sono stati proposti innumerevoli altri metodi per la determinazione dei
fattori stagionali, basati su funzioni pili complicate.
Negli ultimi anni, poi, e stata sviluppata una nuova impostazione che con-
sidera Ie variazioni stagionali stesse come un processo aleatorio, che va a som-
marsi a queIlo generatore dei dati: poiche si rileva solo la risultante della som-
ma, ci si pone il problema, meritevole di un'approfondita analisi dal punto
di vista probabilistico e statistico, di distinguere tra le due componenti, iden-
tificando per ciascuna di esse un appropriato modello della classe ARIMA.
Questo metoda verra illustrato brevemente alla fine del presente paragrafo.
L'altra possibilita (peraltro non e in rcalta una impostazione totalmente
alternativa) e ricorrere a filtri che depurino la serie dalle componenti stagio-
nali: le classi dei filtri pili frequentemente adoperati sono quell a dei filtri alle
differenze e queIla delle medie mobili. Nel primo caso si sottrae a ciascun da-
to queIlo che si trova nella stessa posizione stagionale dell'anno precedente,
nel secondo caso si sostituisce a ciascun dato una media locale (cioe di valori
contigui nel tempo e centrati suI dato) di ampiezza un anno; in entrambe le
situazioni il risultato (incremento tra mesi omologhi, oppure media annuale)
non dovrebbe pili risentire dei fattori stagionali. Continuando a occuparci di
dati mensili, il filtro aIle differenze che si usa e quello alle differenze dodice-
sime che abbiamo visto nel paragrafo 5.7: esso puo essere incorporato senza
problemi in un modello autoregressivo a somma mobile, aggiungendo un fat-
tore moltiplicativo del tipo (1 - B 12 ) nel polinomio autoregressivo, che anche
in questo caso viene ad avere radici sul cerchio unitario: infatti Ie radici di
(1- Z12) sono uguali a cos(1rk/6) +i sin(1rk/6), k == 1, ... ,12, quindi +1, -1 e
Ie altre complesse (per approfondimenti si rimanda a Abraham e Box, 1978).
Box e Jenkins hanno proposto una metodologia pili articolata che porta
ai cosiddetti modelli stagionali moltiplicativi. La logica da cui essi partono
e queIla di considerare le serie costituite dai dati relativi allo stesso mese di
anni successivi e di costruire per queste modelli rappresentativi. Per esempio
supponiamo che la prima osservazione si riferisca a gennaio e consideriamo la
serie Yt == X12t+l che al variare di t descrive i dati di gennaio dei vari anni. Su
di essa possiamo costruire un modello ARIMA:

Ritornando ai dati originali e ponendo Ut == V12t+ 1, e indicando s == 12t + 1,


ogni operatore B sulla Y ha l'effetto di ritardare di 12 istanti la X e la v;
percio si ottiene:
10.6 Modelli per serie stagionali 221

ovvero, in forma compatta, indicando con c1J* e 8* i polinomi relativi ai


parametri c1Jj e 8 j rispettivamente:

Si puo ragionevolmente pensare che questo stesso modello sia valido anche
per le serie dei dati di febbraio, di marzo e di tutti gli altri mesi, per cui si
assume valido il modello per ogni S, cioe per ogni mese. Tuttavia la serie {vs}
ha il ruolo di rumore bianco se ne consideriamo le osservazioni a distanza 12
e multipla, rna puo essere correlata per ritardi inferiori, poiche in tal caso
risente dei legami infra-annuali. Percio si puo pensare di costruire per la serie
{v s } un modello ARIMA usuale:
(1 - cPIB - ... - cP pBP)(1 - B)d vs == (1 - (jIB - ... - (jqBq)E s

dove adesso {E s} e realizzazione di un processo a elementi completamente


incorrelati: scriviamo anche:

Le due strutture possono essere combinate moltiplicando ambo i membri della


prima per c1J(B)(1 - B)d:

c1J(B)(1 - B)dc1J*(B I2)(1 - B 12)DX s == c1J(B)(1 - B)d8*(B 12)vs


== 8* (B 12)1J(B)(1 - B)d vs
== 8* (B 12)8(B)E s .

Si ottiene cOSI ancora un modello della classe ARIMA, che e costruito mol-
tiplicando tra loro due strutture, l'una di ordine (p, d, q) che agisce sui dati
ritardati in maniera ordinaria, e l'altra di ordine (P, D, Q) che agisce sui dati
mediante ritardi annuali:

II modello e detto moltiplicativo stagionale ed e anche spesso indicato con la


sigla ARIMA(p, d, q) x (P, D, Q)12.
E evidente che la struttura generale dei modelli moltiplicativi e molto
articolata, e in realta ci si limita a considerare modelli con gli ordini pili pic-
coli, e specie per P, D, Q raramente si accettano valori diversi da 0 e 1. La
identificazione e difficile, e in genere si comincia prima a decidere I'ordine D
valutando nei vari casi l'andamento della serie, la sua varianza, Ie sue autocor-
relazioni. E buona norma, comunemente seguita nelle applicazioni, valutare
simultaneamente gli effetti delle differenziazioni stagionale e non stagionale,
esaminando le caratteristiche delle serie che si ottengono dalla differenziazio-
ne (1 - B)d(1 - B 12)D per un ventaglio di coppie (d, D), e scegliendo quella
che presenta la varianza pili piccola e il correlogramma con valori complessi-
vamente meno distanti dallo zero. Empiricamente si e trovato che spesso la
222 10 I modelli rappresentativi

differenziazione dodicesima puo rendere non necessarie le differenze prime, e


che molto raramente e opportuno scegliere un D maggiore di uno. Per quanto
riguarda invece P e Q, un caso molto frequente e che sia necessario solo un
termine nella somma mobile (P == 0, Q == 1): il fattore (1- 8B 12 ) bilancia una
eventuale eccessiva energia del filtraggio alle differenze dodicesime che, come
osservato precedentemente, puo indurre stime di r(12) negative nell'output.
Se si adotta la logica di identificazione come approssimazione, si devono
applicare i criteri automatici e quindi calcolare una misura per ogni possi-
bile combinazione di (p, d, q, P, D, Q). Inoltre, poiche il numero di parametri
cresce, e plausibile che non tutti contribuiscano in modo decisivo alla spie-
gazione della dinamica, percio potrebbe essere consigliabile esaminare anche
modelli subset nei quali i parametri relativi a qualche ritardo sono vincolati
a zero. La scelta dei ritardi da scartare potrebbe essere inserita nella iden-
tificazione del modello, che comprenderebbe la specificazione, oltre che degli
ordini (p, d, q, P, D, Q), anche dei lags ai quali nel modello compaiono para-
metri. Si capisce come, specie in questo ultimo caso, 10 spazio delle possibili
soluzioni per la identificazione diventa rapidamente molto grande, e per ogni
modello da valutare e necessario stimare i parametri e la varianza residua.
D'altra parte i metodi di ottimizzazione analitica non sono applicabili (non ci
sono derivate da annullare perche il dominio e discreto) e l'unico metodo per
arrivare all'ottimo sembra quello di verificare tutte le possibilita, il che puo
comportare un dispendio computazionale troppo elevato. Per questo motivo
negli anni pili recenti e stato proposto l'uso di metodi meta-euristici, che sono
particolari algoritmi (in genere ispirati da analogie con la natura) specifica-
mente studiati per risolvere problemi complicati (0 pili precisamente quelli in
cui, per determinare l'ottimo, non si conosce alcun metodo oltre che verificare
sequenzialmente tutte Ie possibilita). II problema della identificazione e stato
affrontato con algoritmi genetici e simulated annealing (si veda ad esempio
Gaetan, 2000, e Baragona e Battaglia, 2000). I risultati sembrano prometten-
ti rna l'uso di questi metodi necessita di una attenta fase di taratura degli
algoritmi che altrimenti rimangono frequentemente "intrappolati" in ottimi
relativi.

Esempio 10.4 (Modello airline). Un semplice modello, adoperato da Box e


Jenkins per rappresentare il numero di passeggeri delle linee aeree interna-
zionali (e per questo sovente detto modello airline) comprende Ie differenze
prime e dodicesime applicate una volta sola, e fattori del tipo a somma mobile
del primo ordine e si indica percio con ARIMA(O, 1, 1) x (0,1,1)12:
(1 - B)(l - B 12)Xt == (1 - BB)(l - 8B 12 ) Ct .

Scritto in forma esplicita il modello e:


X t == X t - 1 - Xt- 12 + X t - 13 + e, - ect-1 - 8ct-12 + eect-13
e quindi la parte a somma mobile ha ordine complessivo 13. Se consideriamo
i dati differenziati Z, == (1 - B)(l - B 12)Xt , la struttura autocorrelativa e
10.6 Modelli per serie stagionali 223

molto semplice perche si ottiene facilmente:

IZ (0) == (1 + ( 2 )(1 + (2)a 2


IZ (1) == -0(1 + (2)a 2
Iz(11) == 08a 2
IZ (12)== -8(1 + (2)a 2
Iz(13) == 08a 2 .

Sono diverse da zero solo lc autocorrelazioni ai ritardi 1, 11, 12 e 13. L'auto-


correlazione al ritardo uno: T z (1) == -0/(1 + ( 2 ) ha 10 stesso valore di quella
di un modello non stagionale, e cosi pure quella al ritardo 12 dipende nello
stesso modo dal parametro stagionale 8: T z (12) == -8/(1 + (2). Le altre
autocorrelazioni T z (11) e T z (13) sono uguali tra loro e uguali al prodotto tra
T z (1) e T z (12).

II modello e invertibile se 101 < 1 e 181 < 1. Spesso questo modello e adeguato
per rappresentare fenomeni che hanno un trend pronunciato e una st.agionalita
rilevante, rna ambedue con caratteristiche non nette ne precise nc costanti nel
tempo. Cio comporta in genere che una volta effettuata la differenziazione, le
autocorrelazioni ai ritardi 1 e 12, molto elevate se stimate sui dati originali,
presentano sui dati differenziati stime negative. Di conseguenza le strutture a
somma mobile tendono a spiegare questo andamento, e i valori stimati per i
parametri 0 e 8 sono generalmente positivi.

Un differente tipo di filtri utile per la rimozione delle stagionalita e quello


delle medie mobili, con il Quale a ogni dato si sostituisce la media su un
intervallo circostante:
1 k

Yt = 2k + 1 L
Xt-j .
j=-k

Se la lunghezza dell'intervallo e pari alla durata del cicIo stagionale, si puo


ragionevolmente supporre che, poiche nella serie output tutti i dati sono medie
che risentono in egual misura dei fattori stagionali, questi non abbiano pili
effetti differenziali, e quindi non introducano pili variazioni nella serie.
Nel caso di serie mensili, la periodicita della stagionalita e 12, numero
pari che non permette di applicare direttamente la formula precedente, che
e valida solo per un intervallo di lunghezza dispari 2k + 1. II problema viene
generalmente risolto calcolando Ie medie mobili di ampiezza 12 in cui il centro
dell'intervallo cade immediatamente prima 0 immediatamente dopo il dato
considerato, e prendendone la semisomma:

(_) 1( 1
+ Xt-5 + ... + Xt+5 )
(+) _
Yt == 12 Xt-6 Yt - 12 (Xt-5 + Xt-4 + ... + Xt+6)
224 10 I modelli rappresentativi

_ 1 ((_) (+)) _ 1 1 ~ 1
Yt - 2" Yt + Yt - 24 Xt-6 + 12 ~ Xt-j + 24 Xt+6 .
j=-5

II filtro risultante viene detto a media mobile centrato ed e in realta un filtro


simmetrico che coinvolge 13 termini: notiamo pero che Xt-6 e Xt+6 si riferisco-
no al medesimo mese (di due anni consecutivi) e cosl nel risultato ogni mese
conta per un dodicesimo.
Esaminiamo la funzione di trasferimento:

H(>..) = ~ Cu exp(-iu>") = 11 { 1 + cos(6)..)


2
+2 t, cosU>") }

= 11
2
{ 1+2 t, cos(j>..) - COS(6)..)} .

Ricordando (si veda I' Appendice A) che

~ (.) sin (6 + ~) A [sin (6 A) cos ( ~ A) + cos (6 A) sin ( ~ A) ]


1 + 2 ~ cos J A == . 1 == . 1
j=l sin] 2 A) sin] 2 A)

_ sin( 6A) cos( ~ A) ()


- . (1)
SIn 2A
+ cos 6A

si ottiene:
H(>..) = ~ sin(6'x) cos(A/2) .
12 sin(A/2)
La funzione di trasferimento (reale perche il filtro e simmetrico) ha un anda-
mento sinusoidale (determinato da sin 6A) smorzato dal termine cotang(A/2)
che decresce al crescere di A, rappresentato nella Fig. 10.6. II guadagno
si annulIa in corrispondenza delle frequenze stagionali del tipo 1rj/6 (j ==
1,2, ... ,6) rna assume valori apprezzabili solo in corrispondenza aIle frequen-
ze piccole (quindi ciclicita di periodo maggiore di un anno). Di conseguenza
la serie filtrata risentira delle ciclicita ad andamento pluriennale, rna sara
poco influenzata dalle oscillazioni di frequenza inferiore: cia corrisponde alIa
considerazione empirica che l'applicazione delle medie mobili ha l'effetto di
"lisciare" la serie. Questa caratteristica costituisce da un certo punto di vista
un vantaggio desiderabile, se si vogliono mettere pili in luce gli andamenti di
fondo alleggerendo simultaneamente sia Ie stagionalita sia tutte lc componenti
di periodo infra-annuale, rna rende d'altra parte lc medie mobili uno strumen-
to di destagionalizzazione molto particolare, poiche l'effetto sui dati va ben
oltre quello di agire sulla componente stagionale. Le medie mobili hanno pero
l'indubbio vantaggio della fase nulla (contrariamente aIle differenze dodicesi-
me) e pertanto non alterano i punti di svolta di eventuali cicli importanti non
stagionali presenti nella serie.
10.6 Modelli per serie stagionali 225

Fig. 10.6. Funzione di trasferimento del filtro a media mobile a 12 termini centrata

II metoda delle medie mobili non e omogeneo alla impostazione ARIMA e


non viene usato nella costruzione di modelli rappresentativi di tale classe.
L' applicazione delle medie mobili ha tuttavia costituito (come accennato
nel Cap. 2) la base di complessi metodi di depurazione delle stagionalita stu-
diati inizialmente dal Bureau of Census degli Stati Uniti e che percio hanno
preso il nome di metodi Census. Anch'essi possono essere interpretati come
modellistica, poiche forniscono una decomposizione della serie in componen-
ti contemporanee: serie == (cicIo-trend) + stagionalita + accidentalita, nella
stesso modo di un modello statico (classico) di decomposizione. La prima ver-
sione di questo metoda venne sviluppata al Bureau of Census nel 1955, la
seconda (Census II) nel 1957. Varie versioni con modifiche, ampliamenti, cor-
rezioni si sono succedute nel corso degli anni, e nelle varie versioni successive
(fino alla cosiddetta variante X-II del Census II) sono stati adottati da molti
organismi statistici nazionali. Un metoda molto diffuso, connesso con i prece-
denti rna legato anche alla moderna impostazione Arima, e stato sviluppato
negli anni '80 cia Statistics Canada, ed e denominato X-ll-ARIMA: esso per-
mette, attraverso applicazioni ripetute di medie mobili, e adottando modelli
ARIMA per prevedere alcuni dati oltre l'ultimo rilevato, di stimare l'effetto
della stagionalita e anche di fornire una valutazione del trend e di componenti
cicliche pluriennali (particolarmente rilevanti nell'analisi congiunturale dell'e-
conomia). Una esposizione autorevole in italiano e contenuta in Bee Dagum
(2002), alla Quale si rimanda per maggiori approfondimenti. Nel199S Findley
et al. hanno introdotto alcuni cambiamenti, specie per quanto riguarda il trat-
tamento dei dati anomali, e hanna chiamato illoro software X-12-ARIMA.

Recentemente, come accennato prima, sono stati sviluppati modelli che


possono considerarsi una evoluzione di quello classico di decomposizione, in
226 10 I modelli rappresentativi

cui si suppone che lc componenti trend, ciclo, stagionalita e irregolarita siano


esse stesse generate da separati modelli ARIMA: si parla in tal caso di meto-
di ARIMA model-based (ad esempio Cleveland e Tiao, 1976, Bell e Hillmer,
1984). Fissiamo l'attenzione sulla sola stagionalita, supponendo che il proces-
so {yt} sia formato additivamente da una parte stagionale {St} e una non
stagionale {Nt}, e che queste obbediscano ai modelli ARIMA:

dove {at} ed {Ut} sono rumori bianchi indipendenti tra di loro (questa assun-
zione e essenziale). Segue immediatamente da yt == St + N, che il processo
osservabile {yt} soddisfa l'equazione:

cPS(B)cPN(B)yt == cPN(B)8s(B)at + cPs(B)8N(B)Ut


e si puo dimostrare (data l'indipendenza tra i processi {at} ed {Ut}) che
anch'esso obbedisce a un modello ARIMA: cP(B)yt == 8(B)ct in cui i polinomi
cP(B) e 8(B) possono essere espressi in funzione dei polinomi cPs(B), cPN(B),
8s(B), 8 N(B).
Ora, i coefficienti di cP(B) e di 8(B) possono essere stimati a partire dalla
serie storica osservata, e si pone il problema di risalire alle stime dei parametri
della componente stagionale, cPs (B) e 8 s(B), e a quelli della componente non
stagionale cPN(B) e 8 N(B). A questo scopo, ci si puo basare sia sul raggrup-
pamento delle radici, a seconda del loro valore, sia nel dominio frequenziale
decomponendo la densita spettrale in termini additivi, ciascuno dei quali re-
sponsabile di determinate bande (frequenze basse: trend; frequenze stagionali:
stagionalita) e associando ciascuno di questi termini a un polinomio nel ritardo
B che caratterizza la specifica componente. Si basa su una procedura di questo
tipo il metodo SEATS di Gomez e Maravall (1996). Esso e implementato dal
software TRAMO-SEATS (TRAMO e una fase propedeutica volta ad analisi
preliminari, rimozione di dati anomali e ricostruzione di dati mancanti) che
e stato recentemente adottato come metodo di destagionalizzazione tipico da
diversi organismi ufficiali di statistica (anche dall'Istat).

Per concludere, un'osservazione finale. Anche per i modelli ARIMA e sta-


gionali il problema della molteplicita e rilevante: e possibile cioe in generale
costruire sulla stessa serie pili modelli, anche con ordini diversi, che forniscono
sostanzialmente le stesse misure di adattamento complessivo; tra l'altro ac-
cade a volte che tra modelli equivalenti alcuni prevedano la differenziazione,
altri no. Se il metro di giudizio e l'accostamento ai dati, la distinzione tra
l'uso di modelli ARMA e ARIMA, anche se concettualmente netta, nella pra-
tica non e cost precisa. :E opinione comune di molti analisti (anche se non di
tutti) di preferire modelli stazionari a modelli integrati se lc prestazioni sono
pressappoco equivalenti.
E infine il caso di osservare, per quanto concerne la molteplicita, che even-
tuali fattori comuni dei polinomi autoregressivi e a somma mobile, che avessero
10.7 Modelli lineari per Ie relazioni tra due processi 227

radici unitarie, non possono formalmente essere "semplificati" come si fa nel


caso stazionario: ovvero, il modello

A(B)cI>(B)Xt == A(B)8(B)ft
non e equivalente a
cI>(B)Xt == 8(B)ft
se A(B) ha radici unitarie, poiche in tal caso non esiste il polinomio inverso
di A(B) e quindi non e lecita la divisione per A(B). Tuttavia quasi sempre
questa situazione si verifica quando si e operata sui dati una differenziazione
non necessaria (sovradijJerenziazione) che spinge nella stima dei parametri a
somma mobile verso strutture non invertibili, cia che suggerisce di costruire il
modello sui dati non (0 meno ) differenziati.

10.7 ModeIIi Iineari per Ie relazioni tra due processi


II presente volume non si occupa diffusamente di modelli rappresentativi per
serie multivariate, un argomento che e stato molto sviluppato e approfondito
in questi ultimi anni (si veda ad esempio Reinsel, 1997, e Liitkepohl, 1993).
Accenneremo pero a un'estensione dei modelli ARIMA che permette di tenere
conto dell'influenza di un'altra serie temporale su quell a che viene rappresen-
tata, e che viene generalmente riferita alla denominazione di modelli a fun-
zione di trasferimento. Si noti che il termine funzione di trasferimento non si
riferisce qui al dominio frequenziale, rna ai coefficienti Vj che "trasferiscono"
l'effetto di una serie sull'altra.
Supponiamo di voler costruire un modello rappresentativo per il processo
{yt} e che esso sia legato linearmente al processo {Xt} che puo essere osser-
vato conternporanearnente a {yt}. Possiarno ipotizzare che il legarne lineare
tra i due processi sia ben descrivibile attraverso un filtro lineare (fisicamente
realizzabile) :

yt ~ L hsX t- s == .l-I(B)Xt
s=O
che, come per i modelli precedenti, puo esser approssimato dal rapporto tra
due polinomi finiti nel ritardo B di ordine rispettivamente r al numeratore e
s al denominatore: H(B) ~ w(B)/J(B). Indicando poi con {Nt} il processo
generato dalla parte di yt non spiegata linearmente da {Xt } , otteniamo il
modello a funzione di trasferimento:

00

== L VjX t - j + s.
j=O

(si faccia attenzione che qui, contrariamente al solito, non e necessariamente


Vo == 1). Si supporra che {Nt}, detto rumore, sia completamente incorrelato
228 10 I modelli rappresentativi

con tutte le {Xt } , e che i processi {yt} e {Xt } siano stazionari (sottoponen-
do quindi, se necessario, le serie a una adeguata differenziazione, prima di
costruire la funzione di trasferimento).
II problema e naturalmente quello di identificare gli ordini res e di sti-
mare i parametri Vi Questi sono legati aIle correlazioni incrociate tra {Xt }
e {yt}. Anzi, se {Xt } fosse un rumore bianco, moltiplicando ambo i membri
del modello per X t - h e prendendo la media otterremmo:

e quindi l'andamento dei parametri Vh sarebbe determinato da quello delle


cross-covarianze (0 cross-correlazioni). Per sfruttare questa proprieta anche
nel caso pili generale, possiamo costruire per {Xt } un modello ARMA:

Ora, ponendo

dal modello a funzione di trasferimento, premoltiplicando per <Px (B)8 x (B)-I,


si ottiene:

00

== L VjEt-j + TJt .
j=o

Percio si possono calcolare, sulla base delle serie osservate {Yt} e {Xt}, i ri-
sultanti valori di {J3t} e {Et} e le loro cross-covarianze risultano proporzionali
ai parametri Vj. Cia permette l'identificazione del polinomio 5(B)-lw(B) con
gli usuali metodi sviluppati per la identificazione degli ordini autoregressivo e
a somma mobile sulla base delle autocorrelazioni. Se ad esempio solo i primi
due valori, per i ritardi 1 e 2, delle cross-covarianze sono sensibilmente diversi
da zero, si puo porre 5(B) == 1 e w(B) == Va - vlB - v2B2; se invece ad esem-
pia Ie cross-correlazioni mostrassero un andamento esponenziale negativo si
potrebbe porre 5(B) == 1 - rpB, w(B) == Va e cosl via.
Resta pero da prendere in considerazione il processo dell'errore TJt, per il
Quale abbiamo supposto la incorrelazione con {Xt } rna non necessariamente
e
la bianchezza. Percio necessario calcolarne i valori sulla base dei dati {Yt}
e {Xt} e di stime preliminari dei parametri Vj, ed adattare anche ad essi un
modello ARMA:

dove {et} e un rumore bianco. Infine, notando che

8 x (B ) 8 x (B ) IJ;(B)
N, = px(B) 'TJt = px(B) )"(B) et
10.7 Modelli Iineari per le relazioni tra due processi 229

si puo scrivere il modello a funzione di trasferimento nella forma seguente:

Una volta definita la struttura dei polinomi, in base agli ordini identificati
nelle fasi della procedura appena delineata, si passa a una stima complessi-
va e simultanea di tutti i parametri con un metodo analogo a quello visto
precedentemente, cioe minimizzando numericamente la somma dei quadrati
dei residui, e si conclude il procedimento con un controllo della bianchezza di
questi ultimi.
II controllo deve riguardare sia l'autocorrelazione dei residui {et}, sia la
cross-correlazione tra questi residui e la serie di input {Xt} 0 meglio i residui
del modello a questa adattato, {Et}. Nei due casi si puo usare una forma di
test portmanteau :
M M
Q1 == N L Te,e(h )2 Q2 == N L Te,c(h)2
h=1 h=1

che si distribuiscono, sotto l'ipotesi nulla di correttezza del modello, come chi
quadrati approssimati con N - p* - q* e N - r - s gradi di liberta, dove
e e
p* l'ordine di ex(B){l(B), q* l'ordine di <Px(B)A(B), ed res sono gli
ordini della struttura di trasferimento w(B) e 5(B). Se il modello e corretto
Ie due statistiche saranno non significative (sempre con probabilita 1 - a),
mentre se e inadeguato solo il modello adattato ai residui TJt dovrebbe risultare
significativa solo la Q1, e la Q2 dovrebbe risentire solo dell'adeguatezza della
funzione di trasferimento. L' esito dei test puo suggerire una struttura di ritardi
diversa, e permettere percio una nuova identificazione, a cui seguira la stima
dei parametri e un nuovo controllo diagnostico, e cost via iterativamente.

Esempio 10.5 (Serie M di Box e Jenkins). Box e Jenkins (1970) riportano


come Serie M una rilevazione di volumi di vendita contemporanearnente a un
altro fenomeno che viene ritenuto un indicatore anticipatore delle vendite. Si
tratta di 150 dati riportati nella Fig. 10.7. Si vuole costruire un modello a
funzione di trasferimento, in cui Yt sono le vendite e Xt I'indicatore. Adattiamo
prima un modello alla serie dell'indicatore. Le sue autocorrelazioni ordinarie e
parziali sono riportate nella Fig. 10.8 e indicano la sostanziale adeguatezza di
un modello MA(l). La stima dei minimi quadrati porta a un valore 01 == 0.45.
Pertanto <Px (B) == 1 e ex (B) == 1- 0.45B. Applicando adesso questo modello
sia alla {Xt} che alla {Yt} otteniamo i residui {Et} e gli pseudo-residui {JJt}, e
ne stimiamo la correlazione incrociata, che e riportata nella Fig. 10.9. I valori
per ritardi fino a 2 sono trascurabili, mentre da 3 in poi l'andamento eben
approssimato da una esponenziale negativa: pertanto si puo pensare che il
dato Yt dipenda da Xt-3 e precedenti secondo uno schema autoregressivo del
primo ordine, quindi poniamo w(B) == v3B3, 5(B) == 1 - 5B con una stima
di V3 pari alla 1/3,c(3)/1c(0) == r/3,c(3)V1/3(0)/1c(0) == 4.68 e una stima di c5
230 10 I modelli rappresentativi

Fig. 10.7. Serie M di Box e Jenkins. Vendite (linea continua), indicatore (linea
tratteggiata)

1--.5!71 I
o / - ,- , mnnnnnm nnn;mm..mlmmnmm mmn~ml

o
1
_ - -I - - -I
•.•.•.•...•.•.....
I

(a) (b)

Fig. 10.8. Autocorrelazioni stimate per la serie dell'indicatore: (a) ordinarie; (b)
parziali

pari al rapporto tra T,8,c(4) e T,8,c(3), cioe circa 0.67. Consideriamo infine il
modelIo per il rumore: calcolando i residui
-1 4.68
N, == yt - 8(B) w(B)Xt == yt - X t- 3
1 - 0.67B
e stimandone le correlazioni (si omettono i dettagli per brevita) si puo iden-
tificare su di essi un modello MA(l) con parametro stimato pari a circa 0.46.
Si arriva quindi al modelIo completo:

4.68
yt == X t- 3 + (1 - 0.46B ) et .
1 - 0.67B
A questo punto e anche possibile ristimare congiuntamente tutti i parame-
tri per una maggiore efficienza. La stima finale, effettuata minimizzando la
somma dei quadrati dei residui, fornisce il modello:
4.72
yt == 1 _ 0.73B X t- 3 + (1 - 0.48B)et
10.7 Modelli lineari per le relazioni tra due processi 231

0.8 ;"""""-.. . . . .- - - - - -.. . . . .- - -.. . . . .- -----.,

0.6

0.4

0.2

-0.2 ~----------- ........

Fig. 10.9. Correlazioni incrociate stimate per i residui della serie M

e il controllo diagnostico sui resid ui {et} non evidenzia allontanamenti signi-


ficativi dalla bianchezza.
11

Deviazioni dalle ipotesi

Prendiamo qui in considerazione il caso in cui alcune delle ipotesi alla base
della metodologia utilizzata nel capitolo precedente non siano soddisfatte, e
alcune tecniche ideate per ovviare a tale inconveniente, adatte a tener conto
di perturbazioni verificatesi sia nella dinamica propria del processo, sia nel
procedimento di osservazione e rilevazione dei dati.

11.1 Perturbazioni nei dati e nella struttura

I dati che si sottopongono all'analisi delle serie temporali solo raramente pro-
vengono da situazioni sperimentali ben definite nelle quali si possono control-
lare (almeno in parte) i fattori esterni e collaterali. Generalmente invece i dati
provengono da rilevazioni, a volte campionarie, effettuate sulle manifestazioni
di un fenomeno seguite nel corso del tempo. Se la durata della rilevazione e
considerevole, puo spesso accadere che fattori esterni 0 strumentali mutino
sensibilmente i lora effetti nel lungo periodo. Ad esempio nella misurazione di
fenomeni naturali (per esempio i terremoti) e meteorologici, la precisione, e
in alcuni casi la stessa metodologia di misura e rilevazione, sono cambiati.
Questa considerazione e ancora pili rilevante se si guardano fenomeni rela-
tivi al comportamento umano (sociale, demografico, economico ...) sui quali,
oltre alle modalita di misurazione, incidono in tempi lunghi l'evoluzione tee-
nologica, 10 sviluppo economico, i cambiamenti politici e legislativi, in una
parola la storia.
Non e infrequente pertanto che le serie temporali osservate presentino va-
riazioni strutturali macroscopiche, che non possono essere eliminate con i sem-
plici metodi basati suI filtraggio che abbiamo esposto precedentemente, e che
contraddicono l'ipotesi di sostanziale omogeneita nel tempo su cui e stata
fondata l'analisi delle serie temporali.
La letteratura statistica riporta numerosi tentativi di tener conto dei pro-
blemi qui accennati, a diversi livelli di approfondimento e con metodi di diversa
234 11 Deviazioni dalle ipotesi

complessita. II punto di vista pili ampio, rna anche di pili difficile realizzazio-
ne, e quello di adottare modelli pili complessi, che permettano di riprodurre
andamenti non lineari e non stazionari. Cia richiede evidentemente strutture
pili complicate, di pili difficile identificazione e stima, ed e uno dei campi pili
trattati dalla ricerca attuale.
Tra le molte proposte, citiamo a titolo di esempio l'analisi spettrale evoluti-
va (Priestley, 1988), nella Quale si suppone che 10 spettro vari lentamente allo
scorrere del tempo, e i modelli a soglia ("threshold", Tong, 1990), con i quali
si suppone che la serie obbedisca a pili regimi alternativi: quando il fenomeno
e in un regime i dati vengono generati secondo un modello sufficientemente
maneggevole (spesso un autoregressivo); si verificano pero transizioni da un
regime all'altro (e quindi cambia il modello che genera i dati), il passaggio e
determinato dalle variazioni di una variabile esterna, oppure da quelle subite
in precedenza dallo stesso processo considerato (self-exciting threshold).
La situazione pili semplice, rna frequente, si ha quando c'e un solo cambio
di regime a un istante fissato, e i due modelli differiscono solo per il valore della
costante: allora e come se a quell'istante cambiasse solo la media della serie,
ferma restando la sua struttura dinamica; in questo caso si parla di cambio
di livello (level shift) e si debbono costruire metodi per decidere se e quando
esso si e verificato (si veda ad es. Tsay, 1988), oltre a stimarne l'ammontare.
Uno strumento semplice ed effieace per valutare l'esistenza di non linearita
e cambi di struttura, mutuato dall'analisi statistica esplorativa, e costituito
dalla rappresentazione grafica, sul piano, delle coordinate (Xt, Xt+h) con t ==
1, ... ,N - h e h fissato. Infatti la forma della nuvola di punti puo suggerire la
natura della relazione tra Xt e Xt+h (in particolare, se la relazione e lineare la
nuvola si dovrebbe disporre tendenzialmente attorno a una retta). L'esistenza
di cambi nella struttura dinamica invece dovrebbe dar luogo a raggruppamenti
dei punti della nuvola in clusters con forme diverse. II controllo grafico viene
effettuato per tutti i ritardi h pili significativi, senz' altro per i primi (h ==
1, 2, 3) e per quello corrispondente a un anna se la serie presenta stagionalita.
Ad esempio, la Fig. 11.1a riporta il grafico della nuvola dei punti (Xt, Xt+l) per
una serie simulata secondo un processo autoregressivo AR(l) con parametro
¢ == 0.8, e come si vede i punti tendono a disporsi nettamente secondo una
retta. Nella Fig. 11.lb viene invece riportato l'analogo grafico per una serie
simulata in accordo a un processo autoregressivo a soglia con due regimi, che
seguono modelli autoregressivi di ordine uno con parametro di segno opposto,
e come si vede si delineano due nuvole che tendono a disporsi secondo rette
di coefficiente angolare opposto.

11.2 Perturbazioni dovute a fattori noti

Molto studiato, e relativamente pili facile, e il caso in cui si voglia rappresen-


tare l'infiuenza esercitata sulla serie da un fattore esterno, che ne provoca un
brusco cambiamento, di effetto limitato a un solo istante oppure prolungato
11.2 Perturbazioni dovute a fattori noti 235

""
":

;-16

......

(a) (b)

Fig. 11.1. Nuvole dei punti (Xt, Xt+l) : (a) serie autoregressiva AR(l) con parametro
0.8; (b) serie autoregressiva a soglia

a un gruppo di istanti consecutivi. Infatti avviene sovente che in una serie si


riscontrino dati disomogenei con i loro precedenti e seguenti: spesso l'effetto
e limitato a un dato, rna a volte si prolunga, diminuendo di intensita, nelle
osservazioni successive. Un esempio edato nella Fig. 11.2 (dove si eesagerato
l'effetto: spesso nelle serie reali non e cost facile accorgersi di questi eventi).
Bisogna preliminarmente distinguere se e noto l'istante nel Quale si produ-
ce il cambiamento, oppure no. II primo caso si verifica quando sulla serie hanno
effetto, per esempio, cambiamenti legislativi, 0 variazioni dei tassi ufficiali, 0
anche calamita naturali, eventi che possono essere localizzati precisamente e

Fig. 11.2. Serie con dati anomali ad effetto istantaneo (t==50) oppure prolungato
(t==100)
236 11 Deviazioni dalle ipotesi

senza errore sull'asse temporale. Si tratta allora di stimarne gli effetti, e a


questo fine una tecnica chiamata analisi di intervento (Box e Tiao, 1975) per-
mette di farlo anche simultaneamente alla stima dei parametri di un modello
ARIMA. La "intervention analysis" si basa sulla definizione di una variabile
artificiale a valori binari 0 e 1. Se l'istante a cui si verifica l'evento esterno
(0 "intervento") e to, allora la variabile artificiale ha valore nullo per t < to,
valore 1 per t == to. I valori successivi a to saranno posti uguali a zero se si
suppone che l'effetto sia limitato e si riassorba (come nel caso di uno sciopero
o di una calamita), oppure uguali a 1 se si pensa che l'effetto del cambiamen-
to sia permanente (come nel caso di nuova legislazione); naturalmente altri
schemi sono possibili e plausibili. La variabile artificiale viene poi inserita nel
modello con una funzione di trasferimento, e ne vengono identificati e stimati
i pesi con il metodo accennato nel paragrafo precedente. Anche se la variabile
artificiale non e evidentemente un ente aleatorio, i metodi di stima possono
essere giustificati in base al criterio dei minimi quadrati. Diverse applicazioni
hanno mostrato l'efficacia dell'analisi di intervento, che ormai e entrata a far
parte integrante del com plesso della modellistica ARIMA anche per la sua
semplicita di applicazione. Si deve solo tener presente che, poiche e raro poter
formulare una ipotesi teorica precisa relativamente al modo come dovrebbero
svilupparsi nel tempo gli effetti dell'evento sulla serie, e buona regola provare
differenti andamenti della variabile artificiale.
Un fattore rilevante di perturbazione con origine e motivazioni note si
verifica quando si considerano fenomeni di natura economica e sociale misurati
su scala mensile (0 plurimensile), ed e da far risalire al diverso comportamento
umana nei diversi giorni della settimana 0 dell'anno, e per questo si parla di
effetti di calendario. La distinzione di tali effetti rispetto a quelli stagionali
risiede nel fatto che essi non si presentano sempre esattamente negli stessi
tempi nei vari anni, e quindi non sono assimilabili a variazioni precisamente
periodiche. Un esempio rilevante e l'effetto della Pasqua, che essendo una
festa mobile, in alcuni anni cade in marzo, in altri in aprile. Percio se la
Pasqua ha effetti su una serie che e rilevata mensilmente, qualche an no essi
si eserciteranno sul dato di marzo, e altri anni su quello di aprile. Per questo
motivo e opportuno adottare una variabile di intervento per gli effetti della
Pasqua, la quale assume per ogni anna il valore uno in corrispondenza del
mese appropriato. A volte si assume che la festa di Pasqua abbia un effetto
anche nei giorni precedenti, e in tal caso, se essa cade nei primissimi giorni di
aprile, si puo introdurre una variabile di intervento anche in marzo.
Gli effetti di calendario pili rilevanti sono in genere ritenuti quelli che, su
dati relativi alla produzione 0 al consumo, sono esercitati dalla diversa lun-
ghezza dei mesi. La struttura del nostro calendario, con mesi di 28, 29, 30 e
31 giorni, fa sl che, se il manifestarsi del fenomeno e in qualche modo legato
all'ampiezza del periodo di rilevazione, i dati mensili non siano perfettamente
omogenei. II rimedio pili frequente e quello di considerare dati depurati della
diversa lunghezza dei mesi, ottenuti semplicemente dividendo ogni osservazio-
ne mensile per il numero di giorni contenuti nel relativo mese, e moltiplicandoli
11.3 Dati anomali 237

per la durata media (pari a 365/12 == 30.416).


Inoltre, in caso di dati sociali 0 economici, va considerato che in genere
il comportamento umana e diverso nei vari giorni della settimana, e i mesi
non contengono nello stesso numero i diversi giorni della settimana: possono
essere quattro 0 cinque. Infine, in qualche mese possono presentarsi festivita
infra-settimanali. Percio in sostanza potrebbe accadere che in un mese vi sono
cinque domeniche, cinque sabati e una festivita infra-settimanale, mentre nel
successivo non ci sono festivita e solo quattro sabati e quattro domeniche. La
prima decisione da prendere e sull'opportunita 0 meno di eliminare gli effetti
di calendario, e cia dipende dagli scopi dell'indagine statistica perche i dati
trasformati possono assumere un significato diverso (ad esempio dalla misura
della produzione si passa a quella della produttivita}, II modo pili sempli-
ce di depurare da questi fattori e di calcolare, per ogni mese compreso nella
rilevazione, il numero di giorni lavorativi (intendendo con questa locuzione
il numero di giorni del mese in cui il fenomeno rilevato si manifesta) , e poi
dividere ogni dato mensile per il suo numero di giorni lavorativi. Questo proce-
dimento naturalmente si presta a qualche critica, soprattutto per la difficolta
di definire che cosa sia un giorno lavorativo e "quanto" lavorativi siano alcuni
giorni particolari (in genere il sabato e il venerdi) in relazione al fenomeno rile-
vato, specie se complesso. Un metodo pili approfondito, inizialmente proposto
da Young (1965) e usato nei programmi Census X-II e successivi, attribuisce
a ogni giorno della settimana un effetto specifico additivo, e 10 stima con un
modello di regressione:

dove Cit e il numero di volte che il giorno di tipo i (domenica, lunedi, martedl
ecc.) si presenta nel mese t, e gli 0:i sono gli effetti dei vari giorni. Ovviamente
si puo sottrarre l'effetto medio e quindi imporre che sia Ql + Q2+ ... + Q7 = 0
cosi che l'effetto di un determinato giorno, ad esempio 0:7 e dato dall'opposto
della somma degli altri: 0:7 == -0:1 - 0:2 - ... - 0:6. In sostanza, poiche tutti i
giorni compaiono almeno 4 volte, l'effetto differenziale dei fattori di calendario
su ciascun mese e dato solo dai coefficienti relativi a quei giorni che nel mese
compaiono 5 volte. Un esposizione pili approfondita di questo e altri metodi
ancor pili articolati si puo trovare in Bee Dagurn (2002).

11.3 Dati anomali

Pili complessa e la situazione nella quale non sia noto a priori l'istante in
cui si verifica la perturbazione: in tal caso si parla di dati anomali 0 outliers,
ed e necessario non solo valutarne gli effetti (stima dell'outlier) rna anche
determinare se e a quale istante si verificano (identificazione degli outlier).
II verificarsi di un outlier e determinato da eventi inattesi 0 da cause scono-
sciute (e 10 studio degli outliers serve anche ad indagarle), rna essi potrebbero
238 11 Deviazioni dalle ipotesi

essere determinati anche da errori in fase di rilevazione, trasmissione, tra-


scrizione, elaborazione. La loro importanza e aumentata anche dal fatto che
possono produrre un effetto critico sulle stime delle autocorrelazioni e dei
parametri dei modelli.
Esempio 11.1.. Se si aggiunge la quantita wauna sola osservazione di una se-
rie di N dati, si puo controllare abbastanza facilmente che la varianza stimata
subisce un aumento di circa w2 / N mentre le autocovarianze stimate subiscono
modifiche dell' ordine di w/ N: in sostanza si ha generalmente una distorsio-
ne verso 10 zero delle autocorrelazioni. Ma se le osservazioni perturbate sono
due, a distanza h, le variazioni sono pili rilevanti, e specie l'autocorrelazione
al ritardo h puo aumentare considerevolmente in valore assoluto. Ancora pili
complicati e difficilmente descrivibili gli effetti sulla stima dei parametri di
modelli ARIMA.
Cia ha portato a sviluppare, come in altri campi della Statistica, Ie proposte di
metodi robusti (si veda ad esempio Martin, 1980). In alternativa, nell'ambito
della modellistica ARMA si cerca di formalizzare l'effetto degli outliers am-
pliando il modello. A questo fine, si usa distinguere, a seconda del permanere
degli effetti, tra outliers additivi e innovativi (Fox, 1972).
I dati anomali additivi sono perturbazioni che agiscono su un solo dato
specifico, e possono essere riprodotti sommando al modello una costante mol-
tiplicata per una funzione delta che assume valore 1 solo in corrispondenza
all'istante perturbato, e zero altrimenti:

(11.1)

rappresenta un modello ARMA con un outlier additivo di ampiezza w all'i-


stante q, poiche s,(
q) == 1 per t == q, e s,(q) == 0 per t i=- q.
Per riprodurre invece anomalie che si prolungano per un certo tempo si
usa il concetto di outlier innovativo, che e una perturbazione limitata a un
solo istante applicata pero al processo delle innovazioni {Et}:

(11.2)

Infatti se indichiamo con <p(B)-18(B) == EhjBj, con ho == 1 e h j == 0 per


j < 0, il polinomio corrispondente alla rappresentazione di Wold, otteniamo:

e quindi l'effetto del verificarsi dell'outlier innovativo al tempo q e quello di


modificare i dati successivi X, in ragione di ht - q volte la sua ampiezza w.
Per quanto riguarda la stima dell'effetto w, se si suppone che i parametri
(cP, 0) siano noti e che si verifichi un outlier all'istante q, si ottengono facilmente
gli stimatori W}q) == Eq nel caso innovativo e
11.3 Dati anomali 239

nel caso additivo, dove i pesi 1fj sono i coefficienti di Bj nel polinomio H(B)-l
della rappresentazione invertita (6.8) (si veda ad esempio Tsay, 1988).
II problema rimane quello della identificazione, e a questo fine si usa cal-
colare Ie quantita W}q) e w~) per ogni possibile q e prendere in considerazione
la pili grande in valore assoluto, dopo averle standardizzate. Sotto l'ipote-
si di assenza di outliers, infatti il valore teorico di w e nullo e le statisti-
che W}q) e w~) si distribuiscono con media nulla e varianza rispettivamente
87 = Var(wJ
q»)
= a 2 e 8~ = Var(wf») = a2/ 2:j 1r;' Percio si usa identificare
un outlier in t == q se Iw}q) 1/ Sf oppure Iw~) 1/ SA eccedono una soglia fissata
(che nella pratica viene sempre scelta tra 3,3.5,4,4.5). II problema pero e reso
pili complicato dal fatto che noi non conosciamo i valori veri dei parametri
(¢, 0), rna dobbiamo usarne delle stime la cui precisione puo esser diminuita
proprio dalla presenza di outliers.
Inoltre sorge un'altra difficolta dovuta al cosiddetto mascheramento (ma-
sking): se in una serie ci sono pili outliers, ciascuno di essi contribuisce a
distorcere la stima dell'altro, poiche le stime di w risentono di tutti i dati
della serie (se additivo) e di tutti i dati precedenti a q (se innovativo).
Per questi motivi il procedimento pili usato per il trattamento degli outliers
eiterativo: si comincia col determinare la singola anomalia pili rilevante e il suo
carattere (additivo 0 innovativo) andando a valutare qual ela pili significativa
tra le stime {wJ ) , w~), q == 1, ... ,N}. Se non ve ne sono che eccedono la soglia,
q

si conclude che non vi sono outliers; in caso contrario si identifica l'outlier e il


suo tipo in corrispondenza alla stima pili significativamente diversa da zero,
e si rimuove il suo effetto dalla serie (sottraendo w~) da X q se e additivo,
oppure sottraendo hjw}q) da X q+ j , per j == 0,1, ... ,N - q se e innovativo).
Sulla serie depurata si ripete il procedimento andando a identificare un
secondo eventuale outlier, e cosl via fino a che non si trovano pili stime
significative delle anomalie.
La procedura puo essere migliorata prevedendo di ristimare i parametri
(¢, B) sulle serie successivamente depurate. Infine, quando l'identificazione dei
dati anomali e completa, e stato consigliato di ripetere l'operazione di stima
massimizzando numericamente la somma dei quadrati dei residui congiunta-
mente rispetto ai parametri (¢, B) e alle ampiezze degli outliers identificati
(Chen e Liu, 1993).
Esempio 11.2. La serie A di Box e Jenkins (1970) riporta dati relativi al-
la concentrazione chimica di una sostanza in una reazione, e consta di 197
osservazioni. Box e Jenkins identificano un modello ARMA(l,l) oppure un
ARIMA(O,l,l) che, stimati con la massima verosimiglianza, risultano:

(1 - 0.9B)Xt == 1.59 + (1 - 0.58B)Et oppure (1 - B)Xt == (1 - 0.7B)Et

con varianza residua rispettivamente pari a 0.097 e 0.1 (e R 2 attorno a 0.37).


La procedura di ricerca degli outliers evidenzia come residuo pili significativo
quello a t == 64 in cui la stima di tipo innovativo da per i due modelli un valore
240 11 Deviazioni dalle ipotesi

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69

Fig. 11.3. Serie A di Box e Jenkins. Evidenziati con un cerchio i dati anomali a t==
43 e 64.

simile ~ 1.11, pari a 3.73 (primo modelIo) 0 3.63 (secondo modello) volte
10 scarto quadratico medio stimato; una volta depurata la serie e ripetuta
la procedura, la stima pili significativa si riferisce a t == 43 ed e l'anomalia
additiva, stimata pari a circa -1 per entrambi i modelli (valore standardizzato
pari a circa -3.7 per il primo modelIo e -3.6 per il secondo). In conclusione si
identifica un outlier innovativo at == 64 e un additivo at == 43. Se ripetiamo la
stima considerando congiuntamente i parametri e le anomalie dei due outliers,
otteniamo per il primo modello:

(1 - 0.91B)Xt == 1.68 + (1 - 0.47 B)ct W}64) == 1.17 w~3) == -1.04

e per il secondo:

(1 - B)Xt == (1 - 0.63B)ct

Le varianze residue finali (cioe dopo aver depurato dei due dati anomali)
risultano circa 0.085 per il modelIo ARMA(l,l) e 0.09 per l'ARIMA(O,l,l).
II grafico della serie e riportato nella Fig. 11.3, in cui sono evidenziati i dati
identificati come outliers.
Le procedure di ricerca degli outliers hanno incominciato a essere sviluppate
a partire dagli anni 80 e sono ormai considerate come una tappa importante
nell'analisi di una serie; l'ultima riedizione del volume di Box e Jenkins (Box,
Jenkins e Reinsel, 1994) gli dedica un capitolo, e la maggior parte dei software
pili moderni di serie temporali e in grado di sviluppare queste procedure.
Naturalmente, il problema dei dati anomali e rilevante anche nel caso che
non ci si ponga necessariamente nell'ottica della modellistica ARIMA, ed e
stato affrontato anche indipendentemente dai modelli (in questo caso perde
11.3 Dati anomali 241

significato il concetto di outlier innovativo) attraverso l'uso di interpolatori


lineari (ad esempio Baragona e Battaglia, 1992, a cui si rimanda per dettagli;
osserviamo solo che la stima w~) gia introdotta e pari alla differenza tra il
dato e l'interpolatore lineare); pili recentemente estato anche trattato in ottica
bayesiana (McCulloch e Tsay, 1994; Barbieri, 1998).
La identificazione di outliers multipli vista come problema di scelta di un
sottoinsieme di istanti "anomali" all'interno dell'insieme (1,2, ... ,N) equivale
a un problema di ottimizzazione combinatoria e puo essere affrontato con
algoritmi meta-euristici (una proposta che adopera algoritmi genetici e in
Baragona, Battaglia e Calzini, 2001).
Un ultimo cenno merita, anche se non strettamente legata a deviazioni
dalle ipotesi, la questione dei dati mancanti. Puo ben accadere, specie se Ie
serie si riferiscono a intervalli di tempo molto lunghi, 0 a periodi del remoto
passato, che le rilevazioni siano lacunose, e alcuni dati siano mancanti. II pro-
cedimento pili semplice sarebbe quello di trascurarli nella stima, rna questo
equivale quasi sempre a porli uguali alla media della serie, e quindi costituisce
una scelta molto precis a anche se a prima vista sarebbe sembrato il compor-
tamento pili neutro. E' preferibile (dato che non si parla di campioni casuali,
rna di serie temporali che hanno una dipendenza seriale) cercare di ricostruire
Ie mancanze basandosi sul resto della serie. II metoda pili semplice e quello
dell'interpolatore lineare, cioe stimare il dato mancante attraverso la migliore
combinazione lineare degli altri dati (dove migliore significa ad errore qua-
dratico medio minimo). Data la connessione con i metodi per i dati anomali,
una procedura semplice per la ricostruzione dei dati mancanti si articola come
segue:
1. Sia x; il dato mancante: attribuiamogli il valore artificiale zero (0 pari alla
media, se non sono scarti).
2. Mediante il metodo per la ricerca degli outliers, stimare la anomalia
additiva al tempo s: w~).
3. Ricostruire il dato mancante con X s == w~) (oppure w~) pili la media nel
secondo caso).
Questo modo di procedere corrisponde ad attribuire al dato mancante il valore
del suo interpolatore lineare. Se il numero di dati mancanti e considerevole,
naturalmente questo, come tutti gli altri metodi, fornisce risultati molto me-
no affidabili. II problema dei dati mancanti e stato affrontato in molte altre
maniere e impostazioni (si veda ad esempio Damsleth, 1980; Ljung, 1982; Fer-
reiro, 1987; anche il filtro di Kalman, che sara illustrato in seguito, puo essere
utilizzato a questo scopo).
12

Inferenza per catene di Markov e processi di


punti

In questo capitolo svolgiamo l'inferenza per le catene di Markov e per i processi


di punti, trattando i principali metodi per stimarne i parametri rilevanti.

12.1 Stima delle probabilita per catene di Markov

Nelle catene di Markov abbiamo gia usato l'aggettivo ergodico per indicare le
catene irriducibili e aperiodiche e in effetti per queste catene si puo dimostrare
un teorema ergodico che si riferisce a questioni analoghe a quelle trattate
prima, e legate alla stima delle quantita rilevanti per una catena di Markov
che sono tutte funzioni delle probabilita:

Pij == Pr {Xn == i IXn - l == j} .


Consideriamo una catena con un numero finito di stati indicati con i natu-
rali 1, 2, ... ,m, irriducibile aperiodica con distribuzione di equilibrio tt . Sup-
poniamo che vi sia un istante iniziale t == 0, e che siano stati rilevati i valori
del processo agli istanti 0,1, ... ,N indicati con (XO, Xl, ... , XN), e le frequenze
empiriche delle transizioni da uno stato all'altro:
N

nij == L I [Xt == i, Xt-l == j], i,j == 1, ... ,m


t=l

dove I[E] e la funzione indicatrice dell'evento E (uguale a 1 se E si verifica e


uguale a 0 se E non si verifica). Poniamo inoltre:

j == 1, ..., m .

Le nij forniscono le stime di massima verosimiglianza. Infatti la verosimi-


glianza dei dati, se la distribuzione iniziale di X o e posta uguale a p?,
sara:
244 12 Inferenza per catene di Markov e processi di punti

L {Xo, Xl, ... , XN Ip } == P~OPXIXOPX2Xl • • • PXNXN-l ==


m m
- ° II II
- Px o nij
Pij
i=l j=l

e la log verosimiglianza:

log L == log p~o + L L nij log Pij


i j

da cui massimizzando rispetto aIle Pij (i, j == 1, ... , m) con i vincoli EiPij
1 (j == 1, ... , m) si ottengono Ie stime di massima verosimiglianza:

nij
Pij == - .
A

n·)

I relativi stimatori possono essere indicati con Ie lettere maiuscole. Se poniamo:

se X k - l == j e X k == i
altrimenti

possiamo scrivere:
N
N i j == L z., (k)
k=l

N
N j == LNij
i=l

La convergenza delle N j (tempo trascorso nella stato j) e assicurata dal teo-


rema ergodico per le catene di Markov, il Quale assicura che per una cate-
na ergodica, Nj/N converge in probabilita a 1["]. D'altra parte, fissato j, la
(Nl j , N 2j , ... , N mj) e una variabile multinomiale, Ie cui componenti al ere-
scere del numero di osservazioni tendono asintoticamente a normali. Combi-
nando queste due proprieta si arriva a dimostrare una forma di consisten-
za e normalita asintotica per gli stimatori Pij == N ij / N j , di cui enunciamo
solo la tesi: sia P == (Pll,P2l, ···,Pml,P12,P22, ···,Pm2, ···,Plm,P2m, ···,Pmm) e
P == (Pll,P2l, ···,Pml, ···,Plm,P2m, ···,Pmm); al tendere di N all'infinito la va-
riabile m 2-pla (1) Vii (p - p) converge a una normale multipla con medie
nulle. Le varianze e covarianze asintotiche sono date da:

lim N Cov {Pij,Pkl} == 0,


N---+oo

Iim A1,), Pk'


· N C ov {p" A}) == -PijPkj
--, ii=k
N ---+00 1rj

1 In realta sia le Pij sia lc Pij soddisfano i vincoli del tipo EiPij == 1, j == 1,2, ..., m
12.1 Stima delle probabilita per catene di Markov 245

· N V ar {A}
11m _ Pij (1 - Pij) .
Pij -
N~oo ~

Pertanto possiamo trattare Ie stime delle probabilita, per N grande, come


approssimativamente non distorte, e con variabilita proporzionale a 1/ m.
Le formule asintotiche permettono di calcolare gli intervalli di confidenza
approssimati.
Basandosi sulla stessa teoria multinormale si riescono a costruire facil-
mente test delle ipotesi. Se consideriamo un'ipotesi che fissa esattamente le
probabilita: Hi, : p?j i, j == 1, ..., m (naturalmente devono essere soddisfatti i
vincoli Eip?j == 1, j == 1, ..., m), possiamo vedere il problema come confronto
per ogni j fissato, tra frequenze empiriche nij e teoriche njp?j e quindi siamo
portati a considerare gli indici chi quadro del tipo:

j == 1, ... ,m

e sommare gli m chi quadri cosi ottenuti:

Se l'ipotesi Hi; e vera, TN e somma di m chi quadrati indipendenti ciascuno


con (m-l) gradi di liberta. In effetti si puo verificare che TN e asintoticamente
uguale alla statistica del rapporto tra Ie massime verosimiglianze:

In particolare, possiamo sottoporre a verifica l'ipotesi di indipendenza: H o


Pij== 1f i, notando che la stima di massima verosimiglianza di 1f i sara n, / N, e
dunque sotto Hi, si avra Pij == nj1ri == ninj / N. La statistica test risulta allora:

che si distribuisce asintoticamente come un chi quadro con m( m-l )-(m-l) ==


(m -1)2 gradi di liberta.

Esempio 12.1 (Giorni di pioggia a Tel Aviv). Gabriel e Neumann riportano


queste frequenze osservate su un periodo di 27 anni (2437 osservazioni):

iniziale asciutto pioggia


successivo asciutto 1049 351
pioggia 350 687
246 12 Inferenza per catene di Markov e processi di punti

da cui noo == 1049, n01 == 350, n10 == 351, n11 == 687, no == 1399, n1 == 1038.
Percio le stime della probabilita di transizione, calcolate attraverso la formula
Pij == nij / nj, risultano:
P == [0.75 0.338]
0.25 0.662 .
Le probabilita stazionarie 1ro e 1r1 possono essere stimate attraverso i rapporti
nj/N, ottenendo *0
~ 0.575, *1~ 0.425, che sono anche uguali all'autovet-
tore della matrice P. Si puo verificare che con il test proposto l'ipotesi di
indipendenza viene respinta anche a livelli d'ampiezza molto piccoli.

12.2 Inferenza per processi di Poisson


Nel processo di Poisson omogeneo l'unico parametro e rappresentato dall'in-
tensita Ache eproporzionale al numero medio di eventi in un intervallo, percio
l'inferenza si presenta pili semplice.
Supponiamo di aver osservato il processo per un intervallo di tempo di
ampiezza to (diciamo da 0 a to) e che si siano realizzati n eventi agli istanti
t1, t 2, ... , tn. Ricordiamo che i tempi di attesa X k tra il (k -I)-mo e il k-mo
evento sono distribuiti in forma esponenziale negativa, e sono indipendenti.
Pertanto la verosimiglianza, se assumiamo che vi sia un evento in t == 0, e
posta Xj == tj - tj-1 (da cui Xl + X2 + + Xn == tn), si puo scrivere:

L == Pr{X1 == X1,X2 == X2, ,Xn == Xn,Xn+1 > to - t n}


== Ane-A(Xl +X2+ ...+ Xn)e- A(to-t n) == Ane- Ato .

La stima di massima verosimiglianza si ottiene massimizzando rispetto a A,


il che comporta A == nita. Pertanto 10 stimatore di massima verosimiglianza
risulta:
,\ == N (0, to) .
to
Ma N(O, to) ha una distribuzione di Poisson di parametro Ato, quindi:
A
Var(A) == - .
A

to

Si puo verificare che la statistica "numero di eventi" e sufficiente e completa


per A, ne segue che ,\ e 10 stimatore non distorto a varianza minima (MVUE).
Supponiamo che invece di osservare il processo per un tempo fissato to,
10 osserviamo fino a raggiungere un certo numero di eventi fissato no, e che
essi si verifichino negli istanti t 1, t 2, ... , t na. Ponendo come prima Xl == t1,
Xj == tj - tj-1 (j == 2, ..., no) e supponendo un evento iniziale in t == 0, la
verosimiglianza risulta:
12.2 Inferenza per processi di Poisson 247

quindi la stima di massima verosimiglianza si ottiene ponendo A == nO/tna e


10 stimatore di massima verosimiglianza risulta percio:
A no
A==--
T (no)

dove T(no) e l'istante in cui si verifica l'no-esimo evento, la cui distribuzione


come sappiamo e gamma di parametri no e A, e la cui media armonica si
ottiene facilmente uguale a AI (no - 1). Percio:

A {I} == -nono-- A .
E(A) == noE - (-)
T no 1

La distorsione si puo correggere facilmente ottenendo 10 stimatore non distor-


to:
A* == no - 1
T (no)
che ha:
A2
E(A*) == A Var(A*) == - - .
no - 2
Poiche anche in questo caso T(no) e sufficiente e completa per A, 10 stimatore
A* risulta quello non distorto a varianza minima.
Un problema di inferenza che si pone spesso nei processi di punti e la
verifica dell'ipotesi che i dati provengano da un processo di Poisson omogeneo,
cioe con intensita A costante, contro l'ipotesi che I'intensita vari con il tempo,
e cioe che la probabilita che avvengano eventi non sia costante. In questo caso
si suppone che i dati provengano da un processo di Poisson non omogeneo
con intensita A(t) variabile nel tempo e si procede sostanzialmente a verificare
la stazionarieta in media e varianza, problema che si puo trattare secondo la
teoria classica di Neyman e Pearson. Per i processi non omogenei ricordiamo
(paragrafo 7.2) che la distribuzione del numero di e renti in un intervallo (s, t)
ha una forma di Poisson con parametro pari a:

i(s,t)= I t
).. (U) dU

mentre per i tempi ai quali si verificano gli eventi si ha Pr( u < Ti. < U +
du ITk - 1 == t) == A(u) exp (- ft A(y) dy) du, e la verosimiglianza si scrive:
U

Per effettuare il testdi omogeneita si assume come ipotesi nulla Ho : A(t) ==


A Vt e si considera il rapporto delle verosimiglianze, che puo risultare di facile
o difficile risoluzione a seconda della forma funzionale di A( t) definita dalla
ipotesi alternativa. Una scelta semplice e del tipo A(t) == A exp{ -Bt}, poiche
in tal caso la verosimiglianza sotto l'ipotesi alternativa e:
248 12 Inferenza per catene di Markov e processi di punti

mentre quella sotto l'ipotesi nulla:

e quindi il rapporto di verosimiglianza dipende dalla statistica test:

Ora sotto Hi, e dato che N(O, to) == n, ciascun T, ha distribuzione uniforme
tra 0 e to. Infatti:

e:
Pr (TI == tl, T2 == t2, , T'; == tn, N (0, to) == n) ==
== Ae- At 1 Ae- A(t 2 - t d Ae-A(tn-tn-l)e-A(to-tn) == Ane- At o In!

da cui:
n!
Pr (TI == t i- T2 == t2, ...,Tn == t n IN (0, to) == n) == t n .
a
La densita e uniforme nell'insieme 0 < t l < t2 < ... < t.; < to, ed uguale
alla densita congiunta di un campione casuale ordinato di n unita da una
variabile distribuita in modo uniforme tra 0 e to (si veda ad es. Azzalini, 2001,
p. 324). D'altra parte le somma (TI + T2 + ... + Tn) non dipende dall'ordine
degli addendi. Se ne puo concludere (si veda ad es. Cox e Lewis, 1966) che la
variabile S == T I + T 2 + ... + T'; ha la stessa distribuzione della somma di n
variabili indipendenti e somiglianti con distribuzione uniforme tra 0 e to. La
uniforme ha densita lito, media to/2 e varianza t5/12; allora per il teorema
centrale di convergenza S e approssimativamente normale per n grande, con:

E (5) = nto Var (5) = ntB


2 12
e cio permette di ricavare regioni di rifiuto. Se l'alternativa e unilaterale:
HI : A(t) == Aexp( -Ot), 0 > 0 e quindi A(t) < A e decrescente, dovremo
scartare i valori piccoli e la regione di rifiuto e del tipo:

S < -nto -z to ~
-
2 a 12

Se invece l'alternativa e HI : A(t) == A exp( -Ot), 0 < 0, e dunque A(t) e


crescente e maggiore di A, allora rifiuteremo per valori grandi di S:

S> -nto
2
+za to ~
-12
.
12.2 Inferenza per processi di Poisson 249

Esempio 12.2. Consideriamo i dati seguenti che riportano il numero mensile


di interruzioni in una rete di comunicazione per un periodo di quindici mesi:

mese 1 2 3 4 5 6 7 8

eventi 10 14 8 5 7 11 9 15
cumulati 10 24 32 37 44 55 64 79
stima intensita 10 12 10.6 9.25 8.8 9.16 9.88 11.3

mese 9 10 11 12 13 14 15

eventi 10 24 8 4 5 12 12
cumulati 89 113 121 125 130 142 154
stima intensita 9.14 9.87 11 10.4 10 10.14 10.26

La terza riga da il rapporto tra eventi cumulati e lunghezza del periodo com-
plessivo, quindi costituisce 10 stimatore dell'intcnsita come 10 si puo calcolare
alla fine di ciascun mese, basato su tutti i dati precedenti. Come si nota, al-
l'aumentare delle informazioni disponibili la stima diventa sempre pili stabile.
Esaminiamo pili da vicino gli ultimi quattro mesi domandandoci se si puo
accettare l'ipotesi di una intensita costante (dai dati sembrerebbe crescen-
te). Sono necessari i tempi nei quali si sono verificati gli eventi, che verranno
espressi in giorni fissando l'origine dei tempi all'inizio del mese e considerando
mesi di 30 giorni, di modo che l'intero periodo e di durata 120:

Mese 12: eventi a 2.5,9.1,24,27.2


Mese 13: eventi a 8.4,10.1,19,26.9,27.5
Mese 14: eventi a 2.1,3.1,7.5,10,11.4,11.8,20.5,21.1,26,27.3,28,28.7
Mese 15: eventi a 0.3,1.1,1.9,4.5,5.3,5.7,13.5,15,20,20.9,25.6,28.1

La statistica test e la somma dei tempi di accadimento, che risulta pari a


2452.2 (si ricordi che ogni istante va misurato a partire dal tempo zero cioe
dall'inizio del mese 12). Gli eventi totali sono n == 33 e il tempo totale di
osservazione e di 120 giorni: quindi sotto l'ipotesi nulla di intensita costante
la media e nto/2 == 1980 e la varianza nt5/12 == 39600, quindi 10 scarto
quadratico medio e circa 199. Pertanto il valore standardizzato della statistica
epari a circa 2.37 che comporta il rifiuto allo 0.01 dell'ipotesi nulla di costanza
contro la unilaterale A( t) crescente.
Parte IV

Metodi di previsione puntuale


13

Previsioni per processi stazionari

Vengono introdotti alcuni metodi di previsione puntuale delle serie temporali.


Dopo una breve esposizione della teoria della previsione dei processi aleatori
stazionari, si espongono i metodi di previsione basati sui modelli della classe
ARIMA, e si discutono brevemente anche metodi basati su altre impostazioni.

13.1 Teoria della previsione


II problema della previsione puo essere formalizzato nell'ambito della teoria
dei processi stocastici studiando le relazioni di un insieme di variabili che si
riferiscono al passato e presente con una variabile del processo che si riferisce
al futuro.
Se supponiamo di trovarci all'istante t, e quindi di poter virtualmente cono-
scere le determinazioni assunte dalle variabili {X s, S ~ t}, rna ci interessa inve-
ce la variabile X t +£ che genera il valore che il processo assumcra tra Ristanti, e
naturale riferirsi alla distribuzione condizionata di X t +£ dati {X s, S ~ t}, e se
vogliamo sintetizzarla l'indice pili comune e la media E{Xt+£IXt,Xt - 1 , .. . }.
Essa ha una ulteriore proprieta di ottimalita, come abbiamo gia accennato
nel primo capitolo: supponiamo che si voglia attribuire un valore puntuale
ana realizzazione futura (e quindi incognita) di X t +£: questo valore sara ov-
viamente funzione dei dati gia noti, percio questa operazione di prevedere il
futuro descrive una statistica:

Si dice che tel' origine del previsore, e f e l' orizzonte di previsione. Qua-
le funzione scegliere? Scegliamo come condizione la pili comunemente usata:
l'errore che commettiamo

dovra avere media zero e media quadratica pili piccola possibile. Ne segue che
<p(.) dovra essere scelta in modo da rendere minima
254 13 Previsioni per processi stazionari

Se indichiamo per brevita x: == (Xt , X t - 1 , ... ) e la media condizionata con


Mt(f) == E{Xt+£IX t}, l'errore quadratico medio si puo scrivere:
2
E {Xt+£ - <p(Xt, X t- 1 , ... )} == E {Xt+£ - Mt(f)}
2
+
+E {Mt(f) - <p(Xt, X t- 1 , .. . )}2 +
+2E {[X t+£ - Mt(f)] [Mt(f) - <p(Xt, X t- 1 , .. . )]}

e il doppio prodotto si annulla (1). Percio il minimo rispetto alla <p si ottiene
annullando il secondo addendo che e 2:: 0 perche quadrate, dunque il previsore
ottimo e la media condizionata. Spesso pero la media condizionata puo essere
una funzione dalla struttura complicata. Un caso molto semplice e quello in
cui il processo sia gaussiano e a media nulla: allora la regressione e lineare e
la media condizionata e funzione lineare delle variabili condizionanti:

In questa situazione il previsore ottimo e lineare. Tuttavia, anche quando il


processo non sia gaussiano, se il calcolo della media condizionata e troppo
complicato (0 non e possibile perche non e nota la forma della distribuzione
di probabilita) possiamo accontentarci di costruire il previsore lineare otti-
mo, cioe quella combinazione lineare di X t , X t - 1 , ... che assicura la minima
differenza quadratica media rispetto ad X t+£: si parla percio di teoria della
previsione lineare. La determinazione dei coefficienti Cj puo essere effettuata
attraverso il metodo dei minimi quadrati, imponendo

Sviluppando il quadrato e la media si ottiene:

1 Per spiegarlo adottiamo la notazione EA(f) per indicare che la media e calcolata
rispetto alla distribuzione di probabilita della variabile A. Si vede subito, poiche
p(A,B) == p(A)p(BIA), che vale la regola E(A,B)(f) == EA{EB1A(f)}. Quindi il
doppio prodotto da valutare risulta:

t
E(xt+€,xt) {[Mt (£) - cp(X [Xt +£ - M t (£)]} ==
)]

= Ext {EXtHlxt {[Mt(£) - cp(Xt )] [XtH - Mt(£)]}} =


t
= Ext {[Mt(£) - cp(X )] EXtHlxt {[XtH - Mt(£)]}}

Ma poiche abbiamo posta

il secondo fattore risulta la media degli scarti dalla media e quindi e uguale a zero
qualunque sia x', percio si annulla l'intero termine.
13.1 Teoria della previsione 255

L cu,(u + £) + L L cucv,(u - v)
00 00 00

,(0) - 2
u=o u=ov=o
ed eguagliando a zero le derivate rispetto ai Ch:

L cu,(h -
00

u) == ,(£ + h), h == 0,1,2, ...


u=o
La soluzione di questo sistema (di infinite equazioni) non e semplice, anche se
epossibile arrivarci passando al dominio frequenziale, e quindi invece di prose-
guire in questa impostazione (dovuta a Wiener), considereremo un approccio
diverso, dovuto a Kolmogorov, che si basa sulla decomposizione di Wold, sotto
l'ipotesi che la misura spettrale sia assolutamente continua. Allora possiamo
scrivere:

L
00

x, == JL +
huct-u
u=o
ed esprimere in funzione delle {st} anche il previsore:

L cuXt- u == JL + L guCt-u
00 00

X t(£) ==
u=o u=o
per cui la media dell'errore al quadrato diventa:

avendo posta u == 8 - £. Poiche le {Ct} sono incorrelate con media zero e


varianza uguale 0'2, si ha:
£-1
L h; + 0'2 L (h s - gs_£)2 .
00

E {Xt+£ - X t(£)}2 == 0'2


s=o s=£
Questa espressione raggiunge il minimo rispetto ai gu quando il secondo ad-
dendo si annulla, ponendo h s == gs-£ (8 == £,£ + 1, ...) ovvero gu == h£+u.
Pertanto la soluzione e:
00

x, (£) == /-l + L h£+uct-u (13.1)


u=o
£-1
et(R) == X t+£ - Xt(R) == L hsct+£-s (13.2)
s=o
256 13 Previsioni per processi stazionari

il che permette di interpretare, nella decomposizione di Wold di X t +R, la parte


relativa alle E gia realizzatesi come il previsore, e la parte relativa alle E non
ancora realizzatesi come l'errore di previsione:

Xt+R == [Et+R + h1Et+R-1 + ... + hR-1Et+1] + [hREt + h£+lEt-1 + ...] + fL ==


== et(f) + Xt(f) .
II risultato si ottiene aneora pili faeilmente se si assume la gaussianita, poi-
che in tal easo X, (f) e la media eondizionata, le {Et} sono a media nulla,
indipendenti tra loro e inoltre indipendenti dalle osservazioni preeedenti:

Xt (£) = E {X t H IX t
L hsEtH~s IX =
} = E {JL + t
}
00 00

== fL + L hsE {Et+£-s /X == fL + L hsEt+£-s .


t}
s=O s=£

L' errore medio di previsione e (ovviamente) zero e la sua media quadratiea


(detta anehe varianza di previsione) risulta:

(13.3)

La previsione puo poi essere espressa in funzione lineare del proeesso effet-
tivamente rilevato, usando la forma invertita: posta H(B)-l == G(B), da
X t == fL + H(B)Et segue Ct == G(B)(Xt - fL) == E j /'1;j (X t - j - fL). Sostituendo
avremo:

L hR+uEt-u == fL + L L h£+u/'1;j(Xt- u- j - fL) .


00 00 00

Xt(R) == fL + (13.4)
u=O u=Oj=O

Questa formula permette di calcolare direttamente il previsore sulla base dei


dati per ogni orizzonte f, ed e la stessa espressione alla Quale e arrivato Wie-
ner, anche se come vedremo tra poco non e sempre la forma pili comoda e
eonveniente per ealeolare lc previsioni.
II risultato del previsore permette una nuova interpretazione delle innova-
zioni {Et}, infatti ponendo f == 1 dalla (13.2) si ottiene et(l) == Ct+1. L'urto
Et e quindi pari all'errore di previsione eon orizzonte uno dall'origine t - 1.
Usando la forma invertita del processo Et == G(B)(Xt - fL), e ricordando ehe
/'1;0 == 1, si rieava:

+ L /'1;j(Xt- j -
00

Et == X, - u fL)
j=l
e quindi, separando X; e scrivendolo per t + 1:

L /'1;j(Xt+1- j -
00

X t+1 - fL == - fL) + Et+1 .


j=l
13.2 Previsioni can modelli ARIMA 257

Questa espressione descrive il processo come somma di due parti incorrelate,


di cui la prima e il previsore Xt(l) e la seconda l'errore di previsione ct+l, ed
e particolarmente utile per processi autoregressivi puri, in cui il numero dei
coefficienti f\;j e finito e f\;j == -¢j.
Osserviamo infine che, data la Iinearita della media, per qualunque com-
binazione lineare di dati futuri si ha:

E {LCkXt+k /X t
} == L ckE {Xt+k IX t} == L ckXt(k) .
k>O

Se ne deduce che la previsione lineare ottima di una combinazione lineare di


dati futuri e fornita dalla identica combinazione lineare applicata ai previsori
del processo.
Per concludere e opportuno notare che i coefficienti dei previsori lineari
qui introdotti, essendo questi calcolati come medie condizionate sotto l'ipotesi
di normalita, dipendono solo dalle autocorrelazioni: quindi due processi che
abbiano la stessa funzione di autocorrelazione avranno previsori lineari della
stessa forma e con gli stessi parametri.

13.2 Previsioni con modelli ARIMA

La teoria della previsione che abbiamo esposto brevemente nel paragrafo pre-
cedente produce una serie di risultati che se particolarizzati ai processi auto-
regressivi, a somma mobile 0 misti, sono stati analizzati nei dettagli da Box e
Jenkins.
Applicando questi risultati ai modelli ARIMA identificati e stimati su serie
reali, si possono ottenere previsioni effettive dei valori futuri delle serie. Va te-
nuto presente che esse risentiranno sia della variabilita intrinseca del previsore
( cioe del fatto che la previsione risente di un errore aleatorio ineliminabile)
sia della distorsione nelle stime dei parametri. Questo secondo aspetto, per la
difficolta di analizzarlo a fondo, verra trascurato in quanto segue (ed eben
poco trattato in letteratura).
II contributo fondamentale di Box e Jenkins consiste nell'aver approfondito
la natura iterativa e adattiva degli stimatori, nell' aver esteso il trattamento
anche ai modelli integrati e stagionali, e nell'aver proposto metodi di calcolo
efficienti.
II punto di partenza sara per noi un modello completo ARIMA moltiplica-
tivo di ordine (p, d, q) x (P, D, Q)s , che supponiamo correttamente identificato
e stimato. Allora possiamo pensare che i dati siano realizzazione di un processo
{Xt } che obbedisce ana relazione

Sviluppando i prodotti otteniamo un polinomio a somma mobile complessivo


T(B) == 8(B)8*(BS) == 1 - tlB - ... - tbBb di grado b == sQ + q invertibile,
258 13 Previsioni per processi stazionari

e un polinomio autoregressivo complessivo F(B) == tP(B)tP*(B S ) ( l - B)d(l -


Bs)D == 1 - fIB - ... - faBa di grado a == p + sP + d + sD con d + sD
radici sul cerchio unitario, e Ie altre di modulo maggiore di uno, quindi un
polinomio non invertibile. Tuttavia, per evitare di appesantire la notazione,
useremo ancora la simbologia precedente indicando con cPj invece che fj i
parametri della struttura autoregressiva, e con OJ invece che tj quelli della
struttura a somma mobile.
Quindi il punto di partenza e il processo che obbedisce a:

dove 8(B) ha radici solo al di fuori del cerchio unitario, mentre tP(B) puo
avere (se d > 0 oppure D > 0) anche alcune radici sul cerchio unitario.
Lo strumento fondamentale della procedura trae la sua sernplicita dalla
proprieta di linearita della media condizionata, e consiste nello scrivere lc
equazioni che esprimono Xt+R in funzione dei dati, 0 degli urti, precedenti, e
calcolare le medie condizionate di ambo i membri dell'equazione, ottenendo
cosi il previsore lineare ottimo. In quanto segue supporremo, per semplificare
le formule, che la media del processo (0 delle differenze se p > 0 0 P > 0)
sia nulla (in caso contrario bisogna sostituire ai dati gli scarti). II legame tra
X t +R e il suo passato puo essere espresso in tre forme diverse:
1. L'equazione aIle differenze corrispondente alIa forma ARIMA:

2. La forma in funzione completa degli urti - detta a volte forma integrata


o forma MA( ex) ):

che in genere avra lunghezza infinita, a meno che il modello non sia un
MA puro; i pesi 1fj corrispondono al polinomio P(B) == 1 + 1fIB + ... ==
tP(B)-18(B) e quindi se la serie e integrata, ovvero d =I 0 e/o D =I 0, non
formano una serie convergente.
3. La forma invertita, a volte detta AR( ex) ):

dove i pesi 7T"j sono dati dal polinomio II(B) == 1 - 1rIB - 1r2B2 - ... ==
tP(B)8(B)-1 e sono sempre convergenti se il modello e invertibile, rna
sono in numero infinito a meno che esso non sia autoregressivo puro.
Se adesso applichiamo I'operatore media condizionata E{.IX t } alle equa-
zioni, ci troveremo a dovere calcolare le medie condizionate di osservazioni e
di urti relativi sia al futuro che al passato, che possiamo risolvere nel modo
seguente:
13.2 Previsioni can modelli ARIMA 259

Xt(h) , h > 0
E { Xt+h IX, == Xt ,Xt- l == Xt-l,··· } == { h<0
Xt-Ihl' -'
E {Et+h} == 0, h > 0
E { Et+h IXt == x, ,Xt- l
Xt-l, ... } == {
== h<0
Et-Ihl '
A

_
in quanto la media dei valori gia realizzatisi e eguale ai valori effettivamente
osservati Xt-Ihl ed Et-Ihl' mentre per gli urti futuri la media condizionata e
uguale a quella non condizionata in quanto essi sono indipendenti dai dati
precedenti. Nell'ottica della previsione, i valori calcolati degli urti relativi al
passato si possono anche scrivere come errori di previsione a orizzonte unitario:

Et-Ihl == Xt-Ihl - Xt-lhl-l(l) .


Di conseguenza, applicando la media condizionata alle tre equazioni (e sup-
ponendo £ < a e £ < b) otteniamo:

X t(£) == cPlXt(£ - 1) + ... + cPR- lXt(l)+


+ cPRXt + cPR+lXt-l + + cPaXt+R-a+
- ()REt - ()R+lEt-l - - ()bEt+R-b (13.5)

X t(£) == 1/;R Et + 1/;R+lEt-l + 1/;R+2 Et-2 + ... (13.6)


X t(£) == 1f lXt(£ - 1) + ... + 1fR- lXt(l) + 1fR Xt + 1fR+lXt-l + ... (13.7)
Nel caso che sia £ > b dalla prima equazione scompare la parte in (), e nel caso
che sia £ > a scompare ovviamente la combinazione lineare dei dati passati
cPRXt+ ... + cPaXt+R-a. Infine se £ == 1, nelle (13.5) e (13.7) non c'e la parte
dipendente dai previsori a orizzonte inferiore a £.
Le tre forme sono equivalenti rna a seconda della struttura del modello e
dell'ordine puo essere pili conveniente usare l'una 0 l'altra. Mentre i parametri
cP e 0 sono quelli che stimiamo direttamente, per usare le altre equazioni si
devono calcolare i pesi 1/; 0 i pesi it . I pesi della rappresentazione a somma
mobile 1/;j, che sono uguali a quelli della rappresentazione di Wold, sono definiti
dalla eguaglianza tra le due strutture polinomiali nel ritardo B, <P(B)t]t(B) ==
8(B):
(1 - cPlB - ... - cPaBa)(l + 1/; lB + 1/;2B2 + ...) == (1 - OIB - ... - ObBb)
e per il principio di identita dei polinomi si possono calcolare eguagliando i
coefficienti di ugual grado:

che esplicitando i pesi psi si possono scrivere

1/;1 == cPl - ()l


1/;2 == cPl1/;l + cP2 - ()2
1/;3 == cPl1/;2 + cP21/;1 + cP3 - ()3
260 13 Previsioni per processi stazionari

Per ottenere una formula generale possiamo porre 1/Jo == 1, 1/Jk == 0 per k < 0,
()k == 0 per k > b e scrivere:

Una tecnica analoga permette di calcolare i pesi della rappresentazione


invertita 1T'j.
I pesi 1/Jj sono anche utili per valutare la variabilita dei previsori, poiche la
forma MA( (0) del previsore e la pili comoda per calcolarne la varianza essendo
espressa in funzione di urti incorrelati. Si ottiene percio, analogamente alla
(13.3):

Se si accetta che gli urti siano gaussiani, allora anche i previsori hanno di-
stribuzione normale, e si calcolano immediatamente intervalli di previsione
sommando e sottraendo aHa previsione la quantita ka / 2 IJ J + 'l/Ji + ... 'I/J;-l
1
dove k a / 2 e il quantile della normale standardizzata allivello a/2. La espres-
sione della varianza permette anche di riconoscere come aumenta l'incertezza
al crescere dell'orizzonte: il passare dall'orizzonte h a quello h + 1 comporta
un aumento della varianza pari a (J21/J~.
Nella applicazione pratica bisogna tener presente che noi disponiamo di os-
servazioni solo dall'istante 1 in poi, mentre i previsori (13.6) e (13.7) possono
contenere tutte le osservazioni 0 gli urti precedenti al tempo t. Evidentemente
si devono prevedere dati non noti, e quindi si assume come origine l'ultimo
istante noto N, percio nel previsore X N (R) i dati ignoti precedenti al primo
compaiono con il termine 1fP+NXO+1fP+N+IX-l + .... Poiche la serie dei 1fj e
convergente, questo termine e in genere trascurabile. Analogo ragionamento
potrebbe essere applicato alla espressione MA( (0) del tipo (13.6), nel caso che
il processo sia stazionario e quindi la serie dei pesi 1/Jj sia convergente. Se inve-
ce si e effettuata una differenziazione, ai valori non noti Ck , k == 0, -1, -2, ...
si sostituira la loro media pari a zero, oppure si adoperano lc forme alterna-
tive (13.5) e (13.7). Queste ultime devono essere applicate in modo iterativo,
calcolando il previsore per orizzonte uno, con questo il previsore a orizzonte
due, poi usando i risultati ottenuti il previsore a orizzonte tre, e cosi via fino
ad arrivare all'orizzonte voluto.
Supponiamo invece che si voglia prevedere il processo a un istante fissato
nel futuro, e sia man mana possibile rilevare dati sempre pili recenti, cioe
spostare l'origine verso il punto da prevedere: come cambia la previsione? Per
fissare Ie idee sia T l'istante da prevedere. Partendo dall'origine N « T) il
previsore si scrive:

Se invece veniamo a conoscere anche il dato al tempo N + 1, potremo spostare


l'origine in avanti a N + 1 e prevedere il dato X T con:
13.2 Previsioni can modelli ARIMA 261

X N+1(T - N - 1) == 'lfJT-N-1 EN+1 + 'lfJT-NEN + 'lfJT-N+1EN-1 + ...


== 'lfJT-N-1EN+1 + XN(T - N) .
La differenza tra i due previsori e:

In sostanza nel passare dall'origine N alla N + 1 il previsore si modifica som-


mando una frazione 'lfJT - N -1 dell'errore di previsione a orizzonte uno registra-
to al nuovo istante N + 1; la varianza (errore quadratico medio) di previsione
diminuisce della quantita 'lfJ}-N -1 a 2 .
Procediamo adesso a particolarizzare i risultati ad alcuni dei pili semplici
modelli.
Modello AR(l). Poiche ¢1 == 1f1 e 'lfJj == ¢j, mentre i OJ sono tutti nulli, la
prima e la terza forma del previsore coincidono:

(13.8)

e quella in forma integrata e:


X t (-tIJ ) -_ ~£ A

tp Et + tp~£+1 Et-1 + ...


A

La varianza di previsione risulta

e poiche I¢I < 1 cresce esponenzialmente con £ fino a a 2 / (1-¢2) == Var(X t +£).
Dalla (13.8) si ottiene per ricorrenza:

£ == 1,2, ...

quindi la previsione per un AR( 1) e fornita dalle potenze successive del pa-
rametro moltiplicate per l'ultimo dato noto, e si avvicina esponenzialmente
(alternando di segno se ¢ < 0, oppure con 10 stesso segno di X, se ¢ > 0) ana
media non condizionata (pari a zero). Se la media e diversa da zero e uguale
a u, il previsore diventa

£ == 1,2, ...

Modello AR (p). Se indichiamo con X, (£) anche i valori gia realizzati esten-
dendo la definizione per £ negativo: Xt(f) == Xt+£, f ~ 0, allora l'equazione
(13.5) si puo scrivere:

(13.9)

e il previsore X, (£), considerato come funzione di £, soddisfa la stessa equa-


zione alle differenze soddisfatta dalle autocorre1azioni, e presenta percio 10
262 13 Previsioni per processi stazionari

stesso andamento (per esempio per p == 2 e ¢2 < 0 puo seguire un andamen-


to sinusoidale smorzato). Le condizioni iniziali che determinano la soluzione
particolare dell'equazione alle differenze sono fornite dal fatto che i valori di
Xt(R) per Rnegativo sono noti e dati dalle osservazioni e quindi Xt(l!) == Xt-I£I'
R==-1,-2, ... ,-p.
Modelli autoregressivi integrati ARIMA [p.d, 0). Per questi modelli Ie dif-
ferenze d-me Z; == (1 - B)d X, seguono 10 schema autoregressivo e quindi i
previsori di Zt+£ tendono esponenzialmente a ritornare sullo zero, conseguen-
temente il previsore di X t+£ tende ad assumere la forma (1 - B)d Xt(R) == 0
dove l'operatore B agisce sull'orizzonte I!; ricordando che

si ottiene, al crescere dell'orizzonte:

e quindi Xt(R) si disporra secondo un polinomio di grado d - 1 il cui anda-


mento e determinato dai valori iniziali Xt-k, k == 1, ... ,d. Ad esempio, per un
ARIMA(l, 1,0) con un trend, rappresentato da:

(1 - ¢B) (1 - B) X, == C + Ct
posta JL == c] (1 - ¢), il modello si puo scrivere:

I pesi 1f sono: 1fo == 1, 1fl == 1 + ¢, 1f2 == -¢ e quindi:

da cui, per le differenze tra previsori, si ha:

tenendo conto che Xt(O) == Xt, X t (- l ) == Xt-l.


Ora, se scriviamo la precedente equazione per I! == 1,2, ... ,k e sommiamo
si ottiene:
k
Xt(k) - Xt - kJL == (Xt - Xt-l - JL) L ¢£
£=1

da cui
13.2 Previsioni can modelli ARIMA 263

che al crescere di k si dispone secondo una retta di coefficiente angolare pari


a u:
Modelli a somma mobile MA(q). In questo caso i pesi ~j sono dati diretta-
mente dai -()j, e quindi si annullano per j > q. Pertanto Xt(R) == 0 per R > q,
cioe il condizionamento ai dati passati non ha effetto se l'orizzonte supera
l'ordine q. Per esempio per un MA(l) otteniamo X t (l ) == -()Et, X t (2) == 0
e
e cosl via, ed in genere conveniente calcolare le previsioni basandosi sulle
stime degli urti.
Modelli a somma mobile integrati A RIMA (O,d,q). Poiche Ie differenze (1-
B)d X, seguono un modello a somma mobile di ordine q, per orizzonti maggiori
di q avremo (1 - B)d Xt(f) == 0, quindi la forma polinomiale di grado d - 1,
che si raggiungeva asintoticamente nel caso autoregressivo, qui si raggiunge
esattamente per R > q. Un caso particolarmente rilevante si ha per il modello
ARIMA(O, 1, 1):
Xt - X t - 1 == ct - ()ct-1 .

Scrivendolo per l'istante t + R e prendendo le medie condizionate, ricordando


che E(Ct+flxt) == 0 se f > 0, avremo:

Pertanto le previsioni per tutti gli orizzonti sono costanti. Questo modello
si comporta in modo particolare nell'aggiornamento delle previsioni. Poiche
X t- 1(f) == Xt-1 - ()Et-1 e Xt(f) == Xt - ()Et, tenendo conto anche che Xt ==
Xt-1 + Et - ()Et-1 si ha:

quindi l'aggiornamento nel passare dalla origine t - 1 alla origine t avviene


sommando una quota (1 - B) dell'errore di previsione osservato. Be vogliamo
esprimere il previsore in funzione dei dati possiamo calcolare i pesi 7fj del
polinomio II(B) == q>(B)8(B)-1, scrivendo q>(B) == 8(B)II(B) ed eguaglian-
do i coefficienti di pari grado in B: poiche in questo caso q>(B) == 1 - B e
8(B) == 1 - BB si ha:

1 - B == (1 - ()B) (1 - 7f1B - 7f2B2 - ...)

da cui

-1 == -B -7f1 termini di grado 1 in B


o == ()7fj-1 - 7fj termini di grado j > 1 in B .
Ne segue che 7f1 == 1 - (), 7fj == ()7fj-1 == ... == (1 - ())()j-1 e dalla (13.7):

Xt(R) == X t (l ) == (1 - ())Xt + (1 - ())()Xt-1 + (1 - ())()2 Xt_2 + ...


II previsore e una media con pesi esponenziali (la somma dei pesi e pari a
uno) delle osservazioni precedenti. Questa forma corrisponde al modello detto
264 13 Previsioni per processi stazionari

di livellamento esponenziale (exponential smoothing, 0 anche EWMA) che


riprenderemo anche nel seguito.
Modelli misti ARIMA(p, d, q). II comportamento del previsore e essenzial-
mente determinato, al crescere dell'orizzonte, dalla struttura autoregressiva,
con l'eccezione dei previsori per i primi q orizzonti, sui quali incide anche la
parte a somma mobile. Ad esempio per un ARMA(I, 1) il previsore a orizzonte
uno e

mentre per gli orizzonti da due in poi si riprende l'andamento esponenziale


tipico dell'AR( 1):

Se il processo eintegrato si avra anche in questo caso la convergenza all'anda-


mento di fondo a seconda del grado di differenziazione. Segnaliamo la proprieta
che per i modelli integrati (d > 0) la espressione (13.7) che descrive il previ-
sore come combinazione lineare dei dati precedenti (e previsori per orizzonti
inferiori) e sempre una media esatta, poiche la somma dei pesi 7rj e pari a
uno. Infatti II(B) == q>(B)8(B)-1 e se q>(B) contiene un fattore (1 - B)d ha
radici unitarie, percio q>(I) == O. Ne segue:

L7rj ==
00

II(I) == 1-7r1-7r2 - ... == 0 =? 1.


j=1

Serie trasformate. Se la serie viene sottoposta alla trasformazione di


potenza di Box e Cox (paragrafo 10.5):

Yt = ~(x~
a
- 1)

allora il modello ARMA sara costruito sui dati trasformati {Yt} e anche la
previsione si riferira alla stessa serie, ovvero, con i metodi qui illustrati si
otterranno i valori Yt (£). Per ritornare alle previsioni espresse in funzione delle
osservazioni originali si puo applicare aIle previsioni la trasformazione inversa:

Anche se questo e il metodo pili naturale, e stato dimostrato (Guerrero, 1993)


che si ottiene cosi un previsore distorto, come e facilmente comprensibile per-
che se f(x) non e lineare allora E{f(X)} i- f{E(X)}. E stata anche proposta
la forma corretta seguente:

dove f3 == a£1{II a+Yt(£)} e a£ e10 scostamento quadratico medio del previsore


Yt(£).
13.2 Previsioni can modelli ARIMA 265

L
Fig. 13.1. Previsioni per la serie D di Box e Jenkins can un modello AR(l)

Esempio 13.1. 0 ltre a calcolare il valore numerico delle previsioni, risulta spes-
so chiarificatore disegnare un grafico in cui, assieme agli ultimi valori noti della
serie, vengono riportate le previsioni con l'origine posta nell'ultimo dato co-
nosciuto, e orizzonte crescente. Assieme al valore del previsore viene riportato
l'intervallo di confidenza a livello 0.95 (a volte a livelli inferiori), ottenuto
sommando e sottraendo alla previsione k O.025 volte il suo scarto quadratico
medio, il che permette di valutare graficamente l'incertezza delle previsioni.
Nella Fig. 13.1 sono riportate le previsioni effettuate con un modello AR(l)
sulla serie D di Box e Jenkins (1970), relativa alla viscosita in un processo
chimico. Come si vede, il previsore tende rapidamente alla media della serie.
Notiamo la considerevole ampiezza dell'intervallo di confidenza, determinato
dalla capacita esplicativa relativamente modesta del modello (R2 pari a circa
0.7).
Nella Fig. seguente 13.2 sono riportate le previsioni per i consumi di ac-
qua registrati a New York, anni 1898-1968. Ana serie e adattato un modello
ARIMA(O, 1,3) incompleto:

(1 - B)Xt == 2.23 + Et - 0.36Et-3

e si vede che dopo i primi tre orizzonti le previsioni si dispongono secondo una
retta di coefficiente angolare pari a 2.23. I grafici delle figure 13.3a e 13.3b ri-
portano le previsioni effettuate sulla serie C di Box e Jenkins (1970) effettuate
con i due modelli alternativi identificati da questi autori, un ARIMA(l, 1,0)
e un ARIMA(O, 2, 2) come si vede i risultati sono molto simili. Nella Fig. 13.4
compaiono le previsioni per la serie delle macchie solari, che presenta una
pseudo-periodicita con un ciclo di 10-11 anni. Si e adattato un AR(2) e le
previsioni mostrano l'andamento sinusoidale smorzato. Infine nella Fig. 13.5
e riportata la serie, anch'essa presa spesso come riferimento, dei passeggeri su
266 13 Previsioni per processi stazionari

/
Fig. 13.2. Previsioni per la serie del consumo idrico a New York con un modelIo
J\ftI11J\(O,1,3)

(a) (b)

Fig. 13.3. Previsioni per la serie C di Box e Jenkins. (a) modelIo AftI11A(l,l,O)
(b) modelIo AftIMA(O,2,2)

linee aeree internazionali rilevati mensilmente dal 1949 al 1960 (serie G di Box
e Jenkins, 1970), che presenta forte trend e stagionalita, ed eben adattata da
un modello ARIMA(O, 1, 1) x (0,1,1)12:

(1 - B)(l - B 12)Xt == (1 - 0.4B)(1 - 0.61B 12 ) Et .

Le previsioni seguono sia I'andamento crescente sia le caratteristiche stagionali


della serie.

13.3 Previsioni con metodi adattivi


La previsione con modelli della classe ARIMA e attualmente la procedura
avanzata pili diffusa per la previsione di serie temporali univariate nelle si-
tuazioni in cui si disponga di una sufficiente capacita di analisi statistica e
13.3 Previsioni can metodi adattivi 267

toO tot t04 to6 to3 tlO tlt t14 us tl3 ttO ttt tt4 ns m t30 tU tH t36 m t40 t4t t44 t46 t43 m m ts4 rss m HO t6t H4 tss H3 m

Fig. 13.4. Previsioni per la serie delle macchie solari can un modello AR(2)

Fig. 13.5. Previsioni per la serie dei passeggeri delle linee aeree can un modello
ARIMA(O, 1, 1) x (0,1,1)12

computazionale, e non siano disponibili conoscenze a priori 0 teorie sul feno-


meno esaminato, che guidino la scelta verso modelli con maggior contenuto
interpretativo.
Nel caso che non si verifichino queste due condizioni, sono ovviamente
disponibili altri metodi di previsione statistica, tra i quali vedremo alcuni
esempi particolarmente rilevanti: esamineremo in particolare alcuni metodi
detti adattivi (exponential smoothing, Holt-Winters) che sono caratterizzati
da scmplicita e immediatezza di uso e sono suscettibili di applicazione auto-
matica e routinaria, anche se la loro precisione non e in genere comparabile
con gli ARIMA. Parleremo anche dei modelli cosiddetti strutturali (Harvey,
268 13 Previsioni per processi stazionari

1990), che possono essere considerati come una sintesi risultante dall'appli-
cazione della teoria economica e degli sviluppi dei processi aleatori. Vedremo
anche come in realta questi modelli possano essere considerati sostanzialmente
come particolarizzazioni degli ARIMA.
I metodi di tipo adattivo (0 perequativo) sono adeguati quando sia neces-
saria una previsione per la Quale la rapidita e facilita di calcolo sono elemento
pili importante dell'accuratezza. Un esempio e la gestione di un magazzino di
parti di ricambio in cui si debbano prevedere i livelli di centinaia 0 migliaia
di articoli, a orizzonte breve e frequentemente (Granger, 1980). La logica che
viene seguita in questi metodi e che esiste un livello medio da prevedere, che
esso puo essere occasionalmente rna lentamente variabile, e che per seguirne
I'evoluzione si utilizzano le informazioni pili recenti combinandole linearmen-
te con i dati storici. In altri termini, cia che si prevede e un livello stabile e
costante per la serie (che quindi e valido per ogni orizzonte) e all'arrivo di
ogni nuovo dato l'informazione viene compenetrata con le precedenti, che so-
no sintetizzate dalla previsione stessa. Siano (Xl, X2, ... , XN) i dati, e P N la
previsione effettuata usando i dati fino all' N -mo, e che e valida per tutti gli
istanti successivi, quindi per ogni orizzonte k la previsione risulta X N (k) == PN ,
k == 1,2, .... Nel momento in cui si viene a conoscere il dato XN+I, la previ-
sione viene modificata combinando linearmente la previsione precedente PN
con il nuovo dato XN+I:

PN+I == aXN+I + (1 - a)PN (13.10)

dove a e un coefficiente compreso tra 0 e 1 il cui valore bilancia l'importanza


dell'andamento storico con quello della informazione pili recente. Questo me-
todo viene chiamato livellamento esponenziale (exponential smoothing) e per-
mette l'aggiornamento iterativo della previsione, adattandola alla evoluzione
della serie man mana che essa viene rilevata.
Sostituendo nella (13.10) successivamente PN == aXN + (1 - a)PN-I,
PN-I == aXN-I + (1 - a)PN-2 e cost via, si ottiene:

PN+I == aXN+I + a(l - a)xN + a(l - a)2 x N_ I + ...


+ a(l - a)kxN+I_k + (1 - a)k+lpN_k .

Al crescere di k, il termine (1 - a )k+l tende a zero e possiamo quindi scrivere


(sostituendo taN + 1 per omogeneita rispetto ai paragrafi precedenti)

L (1 -
00

Pt == aXt + a(l - a)Xt-1 + ... + a(l - a)kxt_k + ... == a a)kxt_k .


k=O

La formula precedente esprime la previsione come media aritmetica ponderata


dei dati fino all'origine con pesi pari alle potenze successive di (I-a) (il fattore
a enecessario perche ela somma dei pesi sia uno). Per questo motivo il metoda
viene chiamato anche EWMA (media mobile ponderata esponenzialmente).
13.3 Previsioni con metodi adattivi 269

Se consideriamo un orizzonte unitario, l'errore di previsione si scrive et ==


Xt+1 - Pt e la previsione (13.10) puo essere scritta in funzione dell'errore di
previsione ponendo Xt+1 == et + Pt:

Pt+l == Pt + aet
che mostra come la previsione evolva aggiustandosi con una proporzione a
dell'errore di previsione appena questo e rilevato.
La procedura dipende dalla scelta del parametro di livellamento a: un
valore di a vicino a zero indica che i dati pili recenti hanno una influenza
limitata rispetto al com plesso delle informazioni storiche, e quindi la previsione
si adatta lentamente ad eventuali cambiamenti nel comportamento della serie.
Valori di a pili vicini a uno indicano invece una minore inerzia e una maggiore
velocita nell'incorporare in Pt le informazioni pili recenti, poiche i pesi a(1 -
a)k decrescono pili rapidamente. La scelta del valore di a puo essere effettuata
con metodi statistici, ad esempio scegliendolo in modo da rendere minimo
l'errore quadratico medio di previsione osservato su un tratto iniziale della
serie. Tuttavia spesso, e in coerenza con Ie caratteristiche di semplicita e
immediatezza di questo metodo di previsione, a viene scelto empiricamente
sulla base di considerazioni a priori sulla rapidita di evoluzione della serie.
La gamma di valori pili usati va da 0.3 a 0.7. E necessario anche scegliere un
valore iniziale per innescare la procedura iterativa, si pone di solito PI == Xl,
e l'effetto del valore iniziale tende a scomparire al crescere di t.
Come abbiamo visto al paragrafo precedente, la previsione effettuata con
il metodo dell'exponential smoothing coincide con il previsore di un modello
a somma mobile del primo ordine integrato ARIMA(O, 1, 1) con parametro
() == (1 - a). Ne possiamo dedurre che questo metodo ha la proprieta di
e
previsore lineare ottimo se applicato a un processo ARIMA(O, 1, 1), e in tal
caso il valore da attribuire al coefficiente di livellamento e determinato dalla
stima del parametro a somma mobile. Se la serie proviene invece da processi
di struttura diversa, questo metodo non fornisce le previsioni lineari a errore
quadratico medio minimo.
La impostazione adattiva estata estesa anche per trattare serie che presen-
tano trend e/o stagionalita, portando a un metodo di previsione pili articolato,
riferito generalmente ai nomi di Holt e Winters. Nel caso si vogliano prevedere
serie con trend rna senza stagionalita la previsione e effettuata secondo una
retta che origina al livello medio, iii, previsto sostanzialmente come prima, e
cresce secondo un coefficiente angolare c il cui valore eanch'esso costantemente
aggiornato:
(13.11)
Per calcolare il livello medio iii, si usa una equazione analoga al caso prece-
dente: se si conoscono i dati fino al tempo t - 1, la previsione per l'istante
t sara mt-l + Ct-l, come dalla (13.11). Questo valore viene ponderato con
il dato Xt quando questo viene rilevato, e la combinazione lineare fornisce la
nuova previsione del livello medio:
270 13 Previsioni per processi stazionari

mt == aXt + (1 - a)(mt-l + Ct-l) . (13.12a)

A sua volta, anche la stima (0 previsione) della pendenza c; viene adeguata


ai valori osservati man mana che se ne viene a conoscenza: all'arrivo del dato
t-mo il coefficiente angolare puo essere aggiornato, usando come valutazione
corrente la differenza tra i due livelli medi attuale e precedente: iii, - iiu..« (che
e l'inclinazione del segmento congiungente iii; a mt-l poiche la loro distanza
in termini temporali e pari a uno):

(13.12b)

Le (13.12a) e (13.12b) permettono l'aggiornamento congiunto dei parametri


della retta (13.11) che costituisce la previsione con il metodo di Holt e Winters.
Qui i coefficienti di livellamento da scegliere sono due: a e (3, che riguardano
separatamente il livello e la pendenza, e per la scelta dei quali si possono
ripetere considerazioni analoghe al caso precedente. La effettiva costruzione
delle previsioni avviene in modo iterativo, basandosi su valori iniziali di m2
e C2 che potrebbero essere posti semplicemente uguali ai primi dati: m2 ==
X2, C2 == X2 - Xl, oppure stimati adattando una retta a un sottoinsieme di
dati iniziali. E stato dimostrato che il previsore generato dalla (13.11) risulta
ottimo nel senso dell'errore quadratico medio di previsione se la serie proviene
da un modello ARIMA(O, 2, 2).
Una ulteriore estensione permette di tener conto della stagionalita, con-
siderando una previsione che segue una retta con termini correttivi additivi
(0 anche moltiplicativi) di natura stagionale. Supponiamo per fissare le idee
che la serie sia rilevata mensilmente: allora oltre al livello medio iii; e al coef-
ficiente angolare Ct, costantemente aggiornati, si calcolano anche dodici pesi
stagionali Sj (uno per ogni mese) e ciascuno di essi viene aggiornato quando si
osserva un dato del relativo mese. La previsione basata sui dati fino al tempo
t si scrive:
Xt(f) == mt + Ct f + St(f)
dove St(f) e l'ultimo peso stagionale calcolato relativo al mese analogo a t + f:
quindi St(f) == St+£-l2 se 1 :::; f :::; 12, St(f) == St+£-24 se 13 :::; f :::; 24 e cosi
via. Vediamo adesso gli aggiornamenti: le equazioni per il livello e la pendenza
rimangono sostanzialmente analoghe, anche se nel calcolare il livello si deve
eliminare I'effetto della variazione stagionale, e quindi come informazione cor-
rente si usera il dato Xt dopo avergli sottratto la pili recente stima del peso
stagionale, cioe St-l2:

iii; == a(Xt - + (1 - a)(mt-l + Ct-l)


St-l2)

Ct == (3(mt - mt-l) + (1 - (3)Ct-l .

E necessario anche aggiornare i pesi stagionali, attraverso una combinazione


line are del valore precedente St-l2 con la valutazione derivante dalla osser-
vazione al tempo t: essa puo essere assunta pari alla differenza tra il dato
effettivo x, e illivello medio tru:
13.4 Previsioni con modelli strutturali 271

Fig. 13.6. Serie rappresentata da un modello ARIMA(l,l,O). Confronto tra


previsioni Holt- Winters (linea continua) e previsioni ARIMA (linea tratteggiata)

Le tre equazioni permettono il calcolo iterativo delle previsioni evolvendo le


valutazioni del livello medio, della pendenza e delle variazioni stagionali. In
questo caso devono essere scelte tre costanti di livellamento, a, (3, r, e per
avviare la ricorsione e necessario inizializzare sia iii; sia c-, sia avere dodici
pesi iniziali 81, ... ,812 che possono essere stimati su un tratto iniziale della
serie.

Esempio 13.2. Consideriamo una serie con trend crescente, ben rappresentata
da un modello ARIMA(l, 1,0):

(1 - 0.8B)(1 - B)Xt == 0.03 + ct


e costruiamo le previsioni (ad orizzonte crescente fino a 20) sia con il modello
ARIMA (linea tratteggiata) sia con il metodo di Holt e Winters dato dalla
(13.11) (linea continua). Come si vede nella Fig. 13.6, il metodo adattivo ha
estrapolato una retta con pendenza sostanzialmente determinata dagli ultimi
dati, mentre Ie previsioni ARIMA si dispongono rapidamente su una retta il
cui coefficiente angolare edeterminato dai parametri del modello (e 0.03/(1-
0.8) == 3/20) che risentono del comportamento dell'intero insieme dei dati.

13.4 Previsioni con modelli strutturali


Presentiamo qui una esposizione sommaria della problematica dei modelli
strutturali che trovano largo uso negli studi economici, il cui sviluppo sta-
272 13 Previsioni per processi stazionari

tistico e dovuto principalmente ad Harvey, ai cui contributi si rimanda per


approfondimenti (Harvey, 1990).
La genesi di tali modelli e da farsi risalire alla controversia, che per molti
anni ha acceso un appassionato dibattito in campo economico ed econometri-
co, tra previsioni basate solo sui dati, e quindi costruite secondo procedimenti
statistico-probabilistici poggiati su un insieme minimo di ipotesi (come la
impostazione ARMA), e procedimenti che fanno invece affidamento su assun-
zioni pili precise relative all'andamento dei fenomeni, originate dalla teoria
economica. I modelli strutturali rappresentano un tentativo di sintesi, poiche
si fondano su assunzioni precise relative aIle determinanti del fenomeno, rna
incorporano anche componenti aleatorie definite in modo formale e probabi-
listicamente corretto, che permettono un trattamento inquadrabile nel solco
della metodologia che abbiamo fin qui tracciato.
Si vedra ben presto, peraltro, che i modelli strutturali si rivelano sostan-
zialmente particolari modelli ARIMA, e quindi la impostazione strutturale
puo esser riguardata come una particolare forma di identificazione del model-
10 ARIMA, basata su una teoria a priori piuttosto che sulle proprieta stimate
della serie analizzata.
A seconda della natura e dell'andamento delle determinanti ipotizzate per
il fenomeno {Xt } , si distinguono vari tipi di modelli strutturali, tra i quali
accenniamo ai pili semplici.

Madella a livello locale. II fenomeno tende a disporsi secondo un livello


costante, rna soggetto a variazioni casuali, e i valori rilevati risentono anche
di ulteriori componenti accidentali. Possiamo scrivere:

J-Lt == J-Lt-l + TIt


dove {Et} ed {TIt} sono due processi rumore bianco, indipendenti e con varianza
rispettivamente a; e a~, illoro rapporto a~ /a; (detto rapporto segnale-errore)
indica in un certo senso la persistenza dellivello locale, poiche se esso e piccolo
allora i valori degli TIt sono trascurabili, J-Lt ~ J-Lt-l e il processo oscilla attorno
a un livello costante, mentre se e molto grande allora gli Et sono trascurabili,
X; ~ J-Lt e il processo tende a comportarsi come una passeggiata aleatoria.
Se consideriamo le differenze prime Zt == X; - X t - 1 otteniamo:

Zt == (1 - B)Xt == (1 - B)J-Lt + (1 - B)Et == TIt + Et - Et-l .

Data l'indipendenza tra {TIt} ed {Et} si ottiene facilmente:

Pertanto l'autocorrelazione si annulIa oltre il ritardo 1, e il processo ha la


struttura di una ARIMA(O, 1, 1). Pili precisamente, possiamo dire che, dato
un processo che segue un modello strutturale a livello locale, esiste un proces-
so ARIMA(O, 1, 1) che ha le medesime autocorrelazioni (e quindi i medesimi
13.4 Previsioni con modelli strutturali 273

previsori lineari). Notiamo pero che non tutti i processi ARIMA(O, 1, 1) sono
interpretabili come modelli strutturali a livello locale, poiche, qualunque siano
a; e a~, si avra sempre

che corrisponde a valori del parametro () della somma mobile compresi tra
zero e uno, rna non negativi. Percio la classe dei modelli strutturali a livello
locale corrisponde a una sottoclasse degli ARIMA (0, 1,1).

Madella a trend lineare locale. In questo caso supponiamo che il livello


medio abbia una tendenza misurata da una inclinazione che subisce anch'essa
variazioni aleatorie. Quindi sempre X, == ILt + e, rna il livello ILt subisce un
incremento:
ILt == ILt-1 + Ct + T/t
e l'incremento stesso e guidato da un processo markoviano:

Ct == Ct -1 + (t .

Si assume che {ft}, {T/t} e {(t} siano processi rumore bianco indipendenti tra
loro.
Anche in questo caso si puo pervenire a un'espressione complessiva per
{Xt}, detta forma ridotta, considerando le differenze seconde: W t == (1 -
B)2 x.. Infatti:

Wt == (1 - B)2 X t == (1 - B)2 ILt + (1 - B)2 f t ==


== (1 - B)Ct + (1 - B)T/t + (1 - B)2 f t ==
== (t + (1 - B)T/t + (1 - B)2 ct .
Si verifica facilmente che il processo {Wt } ha autocorrelazioni nulle per ritar-
di maggiori di due, pertanto {X t } ha la struttura correlativa di un processo
ARIMA(O, 2, 2). Anche in questo caso i processi ARIMA(O, 2, 2) che corrispon-
dono a modelli con trend locale sono un sottoinsieme di tutti quelli invertibili,
poiche per qualunque scelta di a;, a~, a~ si puo dimostrare che valgono sem-
pre Ie condizioni -2/3 < r(1) < 0 e 0 < r(2) < 1/6.

Madella strutturale di base (BSM). Oltre alle componenti precedenti, si


prende in considerazione anche la stagionalita. Essa viene descritta attraverso
pesi stagionali che vengono sommati a ciascun dato, come nel modello clas-
sico di decomposizione, rna supponiamo che anche la stagionalita risenta di
perturbazioni aleatorie, percio se sommiamo i pesi relativi a un intero anna
non si ottiene zero, rna un elemento di un processo rumore bianco: se anche
qui supponiamo la rilevazione mensile, il processo e descritto da:

X t == /-Lt + St + ft
274 13 Previsioni per processi stazionari

dove, come prima,


ttt == ttt-l + Ct + T)t Ct == Ct-l + (t
e per le stagionalita:
St + St-l + ... + St-ll == Vt
dove {Vt} eun
rumore bianco indipendente da {Et}, {T)t} e {(t}. Notiamo che
12)St;
Vt - Vt-l == s, - St-12, ovvero (1 -
B)Vt == (1 - B si giunge alla forma
ridotta applicando simultaneamente Ie differenze prime e dodicesime. Posto
Wt == (1 - B)(l - B 12 )X t == X t - X t- 1- X t- 12 + X t - 13
otteniamo:
Wt == (1 - B)(l - B 12)Xt ==
== (1 - B)(1 - B 12 )JLt + (1 - B)(1 - B 12 ) St + (1 - B)(1 - B 12 )Et ==
== (1 - B 12 ) (Ct + T)t) + (1 - B)2 Vt + (1 - B)(l - B 12 )Et .
Tenendo conto che ct == Ct-l + (t segue
(1 - B
12
)Ct == Ct - Ct-12 == (t + (t-l + ... + (t-ll .
Si deduceche W t e espresso come combinazione lineare di rumori bianchi con
ritardo massimo 13, pertanto la sua autocorrelazione sara nulla per ritardi
maggiori di 13. In conclusione Wt == (1- B)(l- B 12)Xt ha la struttura corre-
lativa di un MA(13). Anche qui, non tutti i MA(13) invertibili corrispondono
a modelli BSM, poiche per questi ultimi, quali che siano le varianze degli urti,
valgono Ie condizioni r(h) > 0, h == 2,3, ... ,11, r(12) < 0, r(13) > 0, proprieta
che comportano una restrizione sui valori dei parametri e. II modello implicato
non e quindi moltiplicativo, tuttavia si puo argomentare (Harvey, 1990, p. 73)
che non e molto diverso da un modello "airline" (0,1,1) x (0,1,1)12 almeno
quando a~ e a~ sono piccole.

Una ulteriore estensione dei modelli strutturali e la possibile introduzione


di una componente ciclica; inoltre e possibile aggiungere facilmente l'effetto di
altre variabili se si ritiene che possano influenzare il fenomeno, in una logica
analoga a quella dei modelli a funzione di trasferimento.
Osserviamo infine che nella forma strutturale Ie equazioni descrivono
generalmente le componenti come processi markoviani, e cio rende questi
modelli particolarmente adatti al trattamento nello spazio degli stati, che
introdurremo nel prossimo paragrafo.

13.5 La previsione nello spazio degli stati e il filtro di


Kalman
Abbiamo visto in precedenza come un processo discreto in tempo discreto,
rna non markoviano, puo essere rappresentato come una catena di Markov
13.5 Spazio degli stati e filtro di Kalman 275

ampliando il concetto di stato della catena, fino a indicare non solo il valo-
re corrente, rna anche valori passati del processo. La stessa logica puo essere
estesa a processi con valori continui, cercando di individuare un vettore di in-
formazioni che sintetizzi, a ogni istante t, tutte le caratteristiche correnti del
processo, di modo che il suo valore all'istante t + 1 dipenda solo da esse e da
fattori da esse indipendenti. L'idea quindi e di pass are dal processo univariato
{Xt } a un processo multivariato {at} che ingloba in se tutte Ie caratteristiche
di {Xt}, e gode della propreta markoviana, di modo che at+1 e dato dalla
combinazione lineare di at e di un termine aleatorio indipendente da at. Non
possiamo pero ipotizzare di poter rilevare completamente il vettore di stato
a a ogni istante, rna dobbiamo contentarci di pensare che quanto possiamo
osservare, cioe Xi . sia solo una parte dell'intero stato at, e che possano even-
tualmente intervenire anche perturbazioni aleatorie nella osservazione. Percio
ipotizziamo che il dato rilevato sia ottenuto da una combinazione lineare degli
elementi del vettore di stato at, a cui si somma un disturbo aleatorio anch'esso
indipendente da at e dalle precedenti osservazioni.
Con queste assunzioni semplificatrici, rna che hanno il pregio della linea-
rita, si formula 10 schema generale del modello nello spazio degli statio
Sia at == (a1t,a2t, ... ,amt)' un vettore aleatorio am dimensioni, {''It} ==
{("l1 t, ... , "lkt)'} un rumore bianco vettoriale a k dimensioni con matrice di
dispersione ETJ - il cui elemento alla riga i e colonna j e Cov{ "lit,"ljt} -, sia
{Et} un rumore bianco (univariato) indipendente da {''It} e siano infine Tuna
matrice m x m, R una matrice m x k, H un vettore 1 x m, tutti costanti.
II modello nello spazio degli stati consta di una equazione di transizione che
descrive 10 stato al tempo t in funzione lineare del suo valore precedente e del
rumore bianco {''It}:
(13.13)
e una equazione di misura che specifica la relazione tra l'osservazione e 10
stato:
X t == H at + Et . (13.14)
Si verifica facilmente che il processo degli stati {at} e markoviano, e que-
sto comporta una serie di conseguenze notevoli per Ie sue caratteristiche. Se
aggiungiamo le ipotesi di distribuzione normale, diventa relativamente facile
calcolare i previsori come media condizionata.
In realta, sulla base di una serie storica osservata, non e possibile calcolare
Ie previsioni della serie, senza effettuare previsioni (ovvero stime) anche dello
stato, perche questo, come gia detto, non e osservabile.
Kalman (1960) ha sviluppato una procedura iterativa per calcolare le pre-
visioni (della serie e dello stato) in modo che ricorsivamente, man mana che si
rilevano nuovi dati, esse possano esser facilmente aggiustate; con una proce-
dura di questo tipo e anche possibile stimare i parametri del modello (matrici
T, H, E TJ, e a;) e anche ricostruire dati mancanti all'interno della serie, come
verra accennato alla fine di questo paragrafo. II complesso di queste procedure
va sotto il nome di jiltro di Kalman, e adesso ne esporremo sommariamente
276 13 Previsioni per processi stazionari

alcuni elementi. Una esposizione pili completa e articolata si puo trovare ad


esempio in Harvey (1990).
L' assunzione di partenza e la norrnalita dei dati, che implica la linearita
delle medie condizionate, e quindi la possibilita di applicare il risultato fon-
damentale della teoria della previsione (il previsore ottimo e dato dalla media
condizionata della variabile da prevedere dato l'insieme di informazioni a di-
sposizione) anche alle equazioni di transizione e di misura. Ovviamente, se
applicati a processi non gaussiani, i risultati avranno ottimalita limitata solo
alla classe delle procedure basate su combinazioni lineari.
Avvertiamo che la teoria dei modelli nello spazio degli stati e del filtro di
Kalman e sviluppabile in un contesto di pili ampia dimensione, in cui 10 stesso
processo osservabile {Xt } puo essere multivariato, mentre qui verra trattato
i1 caso pili semplice in cui la equazione di misura e scalare. Un'altra possibile
estensione prevede che le matrici di costanti T, H, R varino anch'esse con il
tempo t.
Nell'andare a considerare le medie condizionate, si deve sempre ricordare
che anche 10 stato at e una variabile non osservata, e quindi la sua media
condizionata non degenera rna rimane una variabile aleatoria con dispersione
strettamente positiva anche data l'osservazione al tempo t.
Useremo la notazione comune nell'ambito del filtro di Kalman che e pero
lievemente diversa da quella usata finora. In cio che segue va sempre ricorda-
to che at e un vettore. Se supponiamo di prendere come origine l'istante t,
e indichiamo sempre con x' == (Xt , X t - 1 , X t - 2 , ... ) l'insieme delle variabili
gia realizzate e osservate, per effettuare previsioni sara necessario considerare
10 stato at+l e la sua distribuzione condizionata a x', che data la norma-
lita sara una combinazione lineare delle X t - j , j == 0,1, ... e quindi normale
(multivariata) anch'essa: indicheremo con at+llt la sua media:
t}
at+llt == E{ at+lIX .
L'errore quadratico medio di previsione dello stato sara dato dalla matrice di
dispersione del vettore degli errori at+ 1 - at+11t che e uguale alla dispersione
della distribuzione condizionata di at+l dato x', e viene indicata con Pt+llt:

Pt+1l t == V ar{ at+lIXt} .


La previsione del dato X t + 1 puo essere ricavata subito prendendo la media
condizionata nella (13.14):

X t(1) == H at+llt .
e
L'errore di previsione dunque et+l == X t+ 1 - X, (1) == X t+ 1 - H at+llt, la sua
media e nulla e la sua varianza si puo scrivere (ricordando l'indipendenza tra
le X e Ie E):
St+l == E{(Xt+1 - Hat+ljt)2Ixt} ==
== E{[Et+l + H(at+l - at+llt)]2Ix t} ==
== H Pt+11tH' + 0'2
13.5 Spazio degli stati e filtro di Kalman 277

dove 0-
2
e la varianza del disturbo casuale nella equazione di misura: E(E;)
== 0-2 (2).
II valore della stato al tempo t + 1 e determinato dal disturbo 7]t+l, che e
imprevedibile poiche non dipende da x-, e dallo stato precedente at, che non
e "osservato" rna possiamo prevedere (0, se si vuole, stimare) condizionandolo
ai dati a disposizione: in questo modo, passando dalla tappa intermedia del-
la stima della stato corrente, possiamo sperare di semplificare la procedura
previsiva: in realta questa si rivela I'idea chiave del filtro di Kalman. La distri-
buzione di at condizionata a x' e anch'essa normale, ne indichiamo la media
con a(t) e la matrice di varianze e covarianze con P(t). II legame tra queste
quantita e le precedenti si ricava facilmente prendendo la media condizionata
su ambo i membri di at+1 == Tat + RT/t+l:

at+Ilt == Ta(t) Pt+l/t == TP(t)T' + RETJR' . (13.15)

Cercheremo ora di costruire una procedura ricorsiva per la previsione del-


10 stato, esprimendo il previsore at+Ilt in funzione del previsore al tempo
precedente atlt-I' Cia e possibile perche atlt-I == E{ at IX t - l } si puo legare
linearmente ad a(t) == E{atIXt} attraverso il condizionamento ulteriore al
dato Xt. Infatti, poiche X t == (X t - I , Xt) possiamo scrivere:

Ricaveremo ora questa media partendo dal considerare la distribuzione con-


giunta di at e X, condizionata a xt-I. Per far questo scriviamo:

at == atlt-I + (at - atlt-I)


X t == Hatlt-I + H(at - atlt-I) + Et
dove at e X, sono espresse come combinazione lineare delle due variabili at/t-I
e (at - atlt-I)' Ora, condizionando a Xt-I, la atlt-I e una costante, mentre
at - atlt-I e normale con media zero e matrice di dispersione Ptlt- I . Ne
segue che la distribuzione condizionata di (at, X t ) e normale multipla con
medie atlt-I e H atlt-I, e varianze e covarianze date da:

Var(atl x t- I) == Pt1t- 1
Var(XtIX t- l ) == Vori Hcx; + Etl x t- I ) == HPtlt-IH' + 0-2
Cov( at, X, \X t - I
) == E{ (at - atlt-I) [(at - atlt-I)' H' + Et] Ixt - I }
== Pt1t-IH' .
Ora, ricordiamo la regola delle variabili gaussiane condizionate: la distribu-
zione di (AlB == b) e normale con media e varianza date da:

2 Si faccia attenzione che nel nostro caso Ie St, pur essendo espresse con la Iettera
maiuscola (per uniformita con Ia notazione pili diffusa) sono scalari e non matrici.
278 13 Previsioni per processi stazionari

E(AIB == b) == E(A) + Cov(A, B)Var(B)-l{b - E(B)}


Var(AIB == b) == Var(A) - Cov(A, B)Var(B)-lCov(B, A) .

Identificando A con atlXt-l e B con XtlXt-lsi ottiene:

E(atl x t) == E(atI X t- l )+
+ Cov(at, XtlX t- l )Var(Xt IX t- l )-l{Xt - E(Xt IX t- l)}
Var(atI X t) == Var(atI X t- l)-
- Cov(at, XtlX t- l )Var(Xt IX t- l )-lCov(Xt, atI X t- l)

da cui:

a(t) == atlt-l + Ptlt-lH'(HPtlt-lH' + a 2)-1(Xt - Hatlt-l)


P(t) == Pt1t- l - Ptlt-lH'(HPtlt-lH' + a 2)- 1HPt1t- l .
Usando la definizione dell'errore di previsione che abbiamo introdotto:

si puo anche scrivere:

a(t) == atlt-l + Ptlt-lH' S;let


P(t) == Ptlt-l - Ptlt-lH' s;' H Pt1t- l (13.16)

e infine, utilizzando lc (13.15) che forniscono at+llt in funzione di a(t), si


ottengono Ie formule ricorsive del filtro di Kalman:

at+llt == Tatlt-l + T Ptlt-lH' S;let


Pt+ll t == T(Pt1t- l - Ptlt-lH' s;' H Pt1t-l)T' + RErJR' .
La ricorsione viene generalmente scritta in funzione della matrice K, detta
guadagno di Kalman:

diventando:

at+llt == Tatlt-l + Kie,


Pt+l 1t == T Ptlt-lT' - KtStK~ + RErJR' (13.17)

che illustra come Ia previsione per 10 stato si modifica in funzione lineare


dell'errore di previsione della serie et.
Possiamo calcolare facilmente anche le previsioni per orizzonte f > 1 a
partire dall'origine t. Infatti scrivendo la equazione di transizione (13.13) per
l'istante t + f e condizionando a X t otteniamo:

(13.18)
13.5 Spazio degli stati e filtro di Kalman 279

che comporta un errore di previsione at+£ - at+£lt == T(at+£-l - at+£-llt) +


RrJt+£, da cui per la varianza di previsione:

(13.19)

Applicando ripetutamente queste relazioni si ottengono Ie quantita espresse


in funzione dei previsori a orizzonte unitario:
£-1

at+£lt == T £- l at+llt , n
Ft+£lt == T£-l Ft+1lt
n (T')£-l + '""'"
~ TjR"LiTJ R'(T')j
j=O

con TO == I. Le corrispondenti previsioni per i dati si calcolano di conseguenza


applicando la media condizionata alla equazione di misura (13.14):

Xt(R) == Hat+£lt == HT£-lat+llt


V ar{ x, (R)} == H Pt+£ltH'
£-1
== HT£-l Pt+l1t(T')£-1 H' +L HTj RETJR'(T')j H'. (13.20)
j=O

In conclusione con un modello nello spazio degIi stati la previsione puo


avvenire ricorsivamente, con aggiornamento ogni volta che si viene a conoscere
un nuovo dato: sono pero necessari valori iniziali alia e PliO, oppure quelli non
condizionati a(O) e P(O), rna se il processo e stazionario la loro influenza
diminuisce progressivamente allo scorrere del tempo.
Passiamo ora a discutere il problema di come utilizzare la impostazio-
ne nello spazio degli stati per costruire Ie previsioni relative ai modelli che
abbiamo introdotto, si tratta cioe di esprimerli nello spazio degli statio
Per i modelli strutturali questa operazione non presenta in genere grandi
difficolta, dato che la loro forma e gia di tipo markoviano. In particolare, il
modello a livello locale:

J-Lt == J-Lt -1 - . rJt

e gia direttamente nella forma richiesta identifica__ido 10 stato at con J-Lt e


ponendo T == 1, R == 1 e H == 1.
II modello con trend lineare locale:

X t == J-Lt + Et ; J-Lt == J-Lt -1 + Ct + rJt ; Ct == Ct-1 + (t


e caratterizzato a ogni istante, oItre che daI Iivello medio J.Lt, anche dalla
pendenza, percio il suo stato li comprende entrambi: at == (J-Lt, Ct)'. Inoltre
il vettore dei disturbi dello stato dovra contenere sia gli rJt sia gli (t: rJt ==
(rJt, (t)'. Percio l' equazione di transizione si puo scrivere:

[ J-Lt]
Ct
==
01
[1 1] [J-Lt - 1] + [rJt](t
Ct-l
280 13 Previsioni per processi stazionari

mentre l'equazione di misura risulta:

Percio i parametri risultano:

H==[10] R=I= [~n .


Infine, il modello strutturale di base (BSM) contiene le stagionalita, quindi
10 stato deve comprendere, oltre a !-Lt e a Ct, anche il coefficiente stagionale St.
Ma questo dipende dai coefficienti precedenti, poiche, sempre considerando
rilevazioni mensili, si assume che

St + St-I + St-2 + ... + St-II == Vt .

Dunque s, dipende dagli undici coefficienti precedenti St-I, ... ,St-II, non solo
dall'immediato precedente come avviene per !-Lt e per Ct. Ne deduciamo che 10
stato deve comprendere (almeno) undici coefficienti stagionali consecutivi. Se
poniamo

possiamo scrivere le equazioni strutturali nel modo seguente:

1 1 0 0 0 ... 0
!-Lt !-Lt-I r]t
Ct
0 1 0 0 0 ... 0 Ct-I (t
St
0 0 -1-1-1 ... -1 St-I Vt
0 0 1 0 0 0
St-I
0 0 0 1 0 ... 0
St-2 + 0

St-IO 000 0 0 1 0 St-II o


che rappresenta l'equazione di transizione ponendo

Inoltre, poiche X t == !-Lt + St + ct, l'equazione di misura risulta:

!-Lt
Ct
St
X, == [1 0 1 0 0] St-I + ct .

St-IO

Pertanto i parametri sono R == I e


13.5 Spazio degli stati e filtro di Kalman 281

11000 0
01000 0
o 0 -1 -1 -1 -1
H==[1010 0];T== 00100 0
0 0 0 1 0 ... 0

000 0 0 1 0

Pili complicato e meno intuitivo e porre un modello ARIMA nella forma


dello spazio degli stati: si possono proporre svariati metodi di procedere, che
portano a rappresentazioni diverse. Per un modello puramente autoregressivo
AR(p) e abbastanza naturale pensare che 10 stato comprenda p osservazioni
consecutive:
at == (Xt,Xt-l, ... ,Xt-p+l)'
e tenendo conto che X, == cPIXt-l + cP2Xt-2 + ... + cPpXt- p + ct si puo scrivere

Xt cPl cP2 ...... cPP X t- 1 ct


X t- 1 1 0 0 0 X t- 2 0
0 1 0 ... 0
X t- 2 X t- 3 + 0

X t- p+ 1 0 0 0 1 0 x.; 0

e l'equazione di misura e senza errore:


Xt
X t- 1
x, == [1 0 0 ... 0] Xt- 2

Ma per i modelli misti 0 a somma mobile la costruzione non e cosl semplice,


e si pone il problema, tra le molte possibilita, di scegliere la pili conveniente,
che e ritenuta quella che ha 10 stato di dimensione minima. La questione e
piuttosto complessa e legata alla estensione della "memoria" del processo.
Un risultato importante (dovuto ad Akaike, 1974) che descriveremo pili in
dettaglio e il seguente: un processo ARMA(p, q) puo essere rappresentato nello
spazio degli stati con uno stato di dimensione max(p, q + 1) le cui componenti
sono l' osservazione e i previsori a orizzonte crescente. In sostanza significa che
i previsori di orizzonte da uno fino a max(p, q + 1)-1, insieme col dato corrente,
racchiudono in se l'intero insieme di informazioni del passato che concorre a
determinare le caratteristiche del processo a un certo istante.
Supponiamo per semplicita che sia p 2: q + 1, in caso contrario ampliamo
l'ordine autoregressivo aggiungendo parametri cPj uguali a zero, fino ad avere
p == q + 1, e consideriamo il processo depurato dalla media Zt == X, - f-L e la
sua rappresentazione di Wold:
282 13 Previsioni per processi stazionari
00

z, == L hkct-k
k=O
II previsore a orizzonte f si puo scrivere come nella (13.1):
00
t}
Zt(f) == E {Zt+RIZ == L hR+uct-u
u=O
Inoltre abbiamo gia visto la relazione tra i previsori dello stesso dato basati
su origini successive:
00 00
t+1}
Zt+l (f - 1) == E {Zt+RIZ == L hR+u- 1ct+l-u == hR-1ct+l + L hR+kct-k
u=O k=O
dove si e cambiato l'indice di sommatoria ponendo k == u - 1. Ne segue

(13.21 )

formula valida per ogni f > 1, e anche per f == 1 se poniamo Zt+ 1 (0) ==
Zt+ 1. Questa relazione puo essere utilizzata per la transizione da uno stato
al successivo, rna ogni previsore e espresso in funzione di quello precedente
con orizzonte superiore; per il previsore del pili grande orizzonte considerato
e invece necessaria una formula che 10 esprima in funzione degli orizzonti
inferiori. A questo fine viene in aiuto l'ipotesi che sia P > q, e quindi il previsore
a orizzonte P segue, come sappiamo dalla (13.9), 10 schema autoregressivo:
p

Zt(p) == LcPjZt(p-j).
j=1

Sostituendo nella (13.21) scritta per f == p si ottiene:


p

Zt+l(P - 1) == Zt(p) + hp- 1ct+l == L cPjZt(p - j)+hp- 1ct+l .


j=1
In conclusione possiamo considerare 10 stato

e scrivere l'equazione di transizione:

Zt+l 0 1 0 0 0
Zt+l (1) 0 0 1 0 0
Zt+l (2) 0 0 0 1 0
x

Zt+l(P - 2) 0 0 0 o ... 1
Zt+l(P - 1) cPP cPp-l cPp-2 ...... cPl
13.5 Spazio degli stati e filtro di Kalman 283

Zt 1
Zt(l) hI
Zt(2) h2
x + Et+l .

Zt(p - 2) hp - 2
Zt(p - 1) hp - l
Ovviamente l'equazione di misura e immediata, e senza errore:
Zt == (1,0,0, ... ,O)at .

Pertanto i parametri di questa rappresentazione risultano:

H == [1 0 . . . 0] R == [ 1 hI h2 . . . hp - l ]'

o 1 o 0 o
o 0 1 0 o
o 0 o 1 o
T==

o 0 0 0 1
cPP cPp-l cPp-2 cPl
e l'errore della stato e 'T/t = Et di dimensione uno.
Abbiamo accennato come il filtro di Kalman possa essere di aiuto anche
nella stima dei parametri: esso in particolare permette di calcolare, sotto l'i-
potesi di normalita, la verosimiglianza dei dati, e quindi di applicare algoritmi
di ottimizzazione per massimizzarla rispetto ai parametri. Se indichiamo ge-
nericamente con () l'insieme dei parametri, la verosimiglianza degli N dati
(Xl, X2, ... , XN) si pUO scrivere:

L(Xl, X2,···, xNI()) == L(Xll())L(X21(), xl)L(X31(), Xl, X2) ... x


x L(Xt+ll(), xt) ... L(XN I(), x N-1)

dove come sempre x' == (Xl,X2, ... ,Xt). Ora, sotto l'ipotesi di norrnalita,
L(xt+ll(), xt) e la densita di una gaussiana con media E(Xt+lIX t) == H at+llt
e varianza St+l == H Pt+l1tH' + a 2 e quindi e uguale a:

Ne segue che la log-verosimiglianza dei dati si puo scrivere:

I parametri () sono naturalmente contenuti nelle quantita et e St, che possono


essere calcolate rapidamente in modo ricorsivo con il filtro di Kalman; gli
stimatori che si ottengono rendendo massima (con metodi numerici) la log-
verosimiglianza rispetto a () godono delle proprieta degli stimatori di massima
284 13 Previsioni per processi stazionari

verosimiglianza, inoltre questa impostazione si rivela particolarmente utile


nell' ottica bayesiana.
La logica del filtro di Kalman permette di calcolare abbastanza facilmente
la distribuzione dello stato at condizionata non solo alle informazioni fino
al tempo t - 1 oppure t, rna anche all'intero insieme di informazioni x N .
Questa procedura (chiamata smoothing) puo essere utilizzata per ricostruire
dati mancanti, 0 anche nella identificazione di dati anomali.
In conclusione, possiamo dire che la rappresentazione nella spazio degli
stati e l'utilizzo del filtro di Kalman costituiscono una impostazione alter-
nativa alla modellistica tradizionale che trae la ragion d'essere dall'esigenza
di previsioni "on line" 0 "in tempo reale" , rna puo fornire vantaggi anche in
termini di stima 0 di ricostruzione di dati mancanti, a prezzo di una maggiore
complicazione computazionale e a volte di una minore immediatezza inter-
pretativa; i pregi di questa impostazione si apprezzano soprattutto quando si
affronta 10 studio di processi multivariati.

13.6 La combinazione delle previsioni

Abbiamo visto come sia possibile seguire diverse strade per costruire le pre-
visioni, adattando modelli diversi. Tutti i metodi che abbiamo preso in con-
siderazione assicurano la non distorsione delle previsioni, nel senso che sotto
le adeguate ipotesi la media dell'errore di previsione e nulla. Per misurarne le
prestazioni, e anche come criterio guida nella costruzione stessa dei previsori,
abbiamo adottato l'errore quadratico medio che e largamente accettato come
il criterio pili adeguato (anche se in alcuni casi, sempre pili rari, si fa ricorso
all'errore medio assoluto).
Pertanto i vari metodi di previsione possono essere confrontati in base al
lora errore quadratico medio, e sembrerebbe naturale scegliere il metoda di
previsione che assicura l'errore quadratico medio pili piccolo. A questo propo-
sito sono pero rilevanti due osservazioni: prima di tutto, l'errore quadratico
medio di un metodo non puo che venire stimato, e in genere questa stima e
proprio un risultato del metoda stesso, percio la sua affidabilita (e quindi la
distorsione, che potrebbe anche risultare verso il basso invece che verso l'alto)
e legata alla bonta del metodo, che e proprio cia che si vuole misurare.
Inoltre l'errore quadratico medio e una misura globale di efficacia del me-
todo, rna non edetto che nella concreta applicazione per costruire lc previsioni
a un'origine fissata t, un metoda anche non ottimale non possa fornire una
prestazione migliore di un altro che in teoria e migliore.
Va segnalato infine che la nostra valutazione e affidata solo all'errore di
previsione a orizzonte uno (previsione del dato immediatamente successivo
all' origine della previsione), e l' ordinamento che essa induce sui metodi di
previsione non e detto si mantenga uguale se dovessimo andare a considerare
le previsioni a orizzonti pili am pi.
13.6 La combinazione delle previsioni 285

Per tutti questi motivi, molti autori (si veda ad esempio Granger, 1980)
prendono in considerazione la possibilita di eseguire previsioni combinate, uti-
lizzando pili metodi simultaneamente. Questa idea puo essere sviluppata in
modo semplice, considerando la combinazione lineare dei previsori.
Supponiamo di porci all'origine t e di dover prevedere il dato successivo
X t + 1 , e di disporre di due previsori diversi, costruiti secondo metodi differenti,
che indicheremo con F; e G t , non distorti. Se poniamo ep(t) == X t + 1 - Fi
ed ec(t) == X t + 1 - G t , si ha E{ep(t)} == E{ec(t)} == O. Indichiamo con
(J} == E{ ep(t)2} e (J~ == E{ ec(t)2} gli errori quadratici medi di previsione.
Consideriamo la combinazione lineare convessa di F; e C, con coefficiente
p:
Ct == pFt + (1 - p)G t .
Ovviamente C, e un previsore non distorto poiche E {ec (t)} == E {pep(t) +
(1 - p)ec (t)} == 0 e il suo errore quadratico medio di previsione e:
(J~ == E{ec(t)2} == p2(J} + (1- p)2(J~ + 2p(1- p)E{ep(t)ec(t)} .
II valore ottimale di p e quello che rende minima questa quantita, e si ottiene
facilmente derivando rispetto aped eguagliando a zero:
p* == {(J~ - ,}/{(J} + (J~ - 2,}
dove si e indicata la covarianza con, == E{ ep(t)ec(t)}. Si noti che se la
covarianza tra F; e G, e positiva, il valore ottimo p* puo risultare minore di
zero, poiche puo accadere che E{ep(t)ec(t)} > (J~, mentre il denominatore
di p* e sempre positivo essendo pari alla varianza di (Ft - G t ) . Analogamente,
p* puo essere maggiore di uno. Sostituendo il valore ottimo di p* nel previsore
combinato si ottiene la combinazione ottimale C;: il suo errore quadratico
medio e:

E { ec* (t )
2} _ a}(ab - ,)2 + ab(a} - ,)2 + 2,(a} - ,)(ab - r) _
- -
((J~ + (Jb - 2,)2
(J~(Jb - ,2
(J} + (J~ - 2, .
Si puo dimostrare che

pertanto la varianza dell'errore del previsore combinato non e superiore alla


pili piccola delle varianze dei previsori di partenza (3), quindi l'operazione di
combinazione sarebbe sempre conveniente. Tuttavia va osservato che il coef-
ficiente p* non puo essere determinato con precisione, poiche dipende dagli
3 Infatti ad esempio
E{eF(t)2} - E{ec* (t)2} == a} - (a}a~ - ,2)j(a} + a~ - 2,)
== (a} - ,)2 j(a} + a~ - 2,) ~ 0
e analogamente E{ ec(t)2} ~ E{ e~* (t)}.
286 13 Previsioni per processi stazionari

,'I

,1
, 1

,I
..', ............ ............
;1
..."

;
.:, .'
'/,
'I

.; "
.'
.' ,I
I
,,'
I

,,
I

-,
,,
'I
I
I

I--dati ----- previs. Arima ...._... previs. Holt-Winters - - previs. combinato I

Fig. 13.7. Combinazione delle previsioni ottenute con un modello ARMA e con il
metodo di Holt-Winters

errori quadratici medi di previsione che sono incogniti, percio possiamo solo
stimare il valore di p*, e non e assicurato, ne si puo affermare sulla base dei
soli dati, che il risultante previsore combinato sia effettivamente migliore. Per-
tanto l'uso dei previsori combinati deve essere valutato in dipendenza della
qualita delle stime degli errori quadratici medi.
Esempio 13.3. Abbiamo simulato una serie generata dal modena

(1 - 0.6B)(1 - B)Xt == Et .

Abbiamo calcolato previsioni a orizzonte uno e per origme crescente sia


con il previsore ARIMA correttamente identificato e stimato sia col metodo
Holt-Winters. La Fig. 13.7 riporta i risultati: la serie, Ie previsioni ARIMA
e quelle del livellamento esponenziale di Holt-Winters. L'errore quadratico
medio stimato su 20 previsioni e a} == 0.94 per l'ARIMA, ab == 1.20 per 10
Holt-Winters, mentre la covarianza osservata tra i previsori e 0.437. Pertanto
possiamo stimare il coefficiente della combinazione p* == 0.603 e costruire il
previsore combinato, ottenuto sommando a 0.603 volte il previsore ARIMA
0.397 volte il previsore Holt-Winters. Anche i risultati di questo previsore
sono riportati nella Fig. 13.7, e si vede che presentano una prestazione leg-
germente migliore delle componenti, confermata anche dall'errore quadratico
medio osservato che e 0.74.
14
Previsioni per catene di Markov e processi di
punti

Si prende in considerazione la problematica della previsione puntuale per le


catene di Markov, basata sulle distribuzioni di probabilita degli stati futuri, e
poi il caso dei processi di punti, per i quali il problema previsivo si presenta
con caratteristiche peculiari.

14.1 Previsioni nelle catene di Markov

La particolare struttura delle catene di Markov, dovuta alla proprieta marko-


viana e allo spazio degli stati discreto, rende particolarmente agevole il com-
pito della previsione, permettendo di valutare la distribuzione di probabilita
delle variabili che generano i valori futuri della catena.
Consideriamo una catena finita con m stati numerati da 1 a m, e sup-
poniamo come sempre di aver osservato il processo negli istanti da t ~ 1 a
t ~ N, e siano (Xl, X2, ... , X N) i valori rilevati: inoltre indichiamo per brevita
con XN ~ k 10 stato in cui la catena si trova all'ultimo istante nota N. II va-
lore che il processo assumera nell'istante immediatamente successivo, X N + I ,
ha una distribuzione di probabilita che dipende solo dal valore assunto per
t ~ N, cioe XN ~ k, e si scrive

La distribuzione di probabilita (Plk' P2k, ... ,Pmk) (detta distribuzione predit-


tiva) determina percio completamente le proprieta del valore futuro X N + I ed
essa puo essere sintetizzata dagli usuali indici statistici (ad esempio la moda,
oppure si puo calcolare 10 stato "medio" se la numerazione data agli stati e
significativa; se ne possono calcolare anche misure di variabilita 0 mutabilita).
E facile anche calcolare la distribuzione di probabilita dei valori successivi,
usando le equazioni di Chapman e Kolmogorov:
288 14 Previsioni per catene di Markov e processi di punti

m m

== L Pr {X N +2 == i IXN + 1 == j} Pr {X N + 1 == j IXN == k} == LPijPjk


j=1 j=1

che sono gli elementi della matrice t». Analogamente, la distribuzione di


probabilita del processo dopo s istanti dall'ultimo noto e data dalla colonna
relativa allo stato k della matrice P", Al crescere dell'orizzonte s, come sap-
piamo, le colonne di P" convergono al vettore delle probabilita di equilibrio 1r
e quindi la distribuzione predittiva converge alla distribuzione ergodica:

lim Pr{XN +s == i
s---+oo
IXN == k} == Pr{X == i} == 1ri .

Dal punto di vista della applicazione pratica, le quantita Pij e 1ri devono essere
stimate usando i risultati del paragrafo 12.1 e quindi basandosi sulle stime

Pij == nij/nj, irj == nj/N


dove nij e il numero delle volte che si osserva un passaggio dallo stato j allo
stato i nella serie osservata.
Nel valutare i risultati si terra conto della variabilita di questi stimatori,
la cui varianza e covarianza possono essere stimate come segue:

Una misura sintetica dell'errore di previsione puo essere calcolata usando un


indice di dissomiglianza tra la distribuzione prevista e quella effettiva:

o, == L. E (Pik - Pik)2 == L. Var (Pik)


1, 1,

= L i Pik(l - Pik)/( N 1fk) =


= N~k (1- L i P7k) .

Questa misura dipende dallo stato di origine k, un indice complessivo si ottiene


se ne prendiamo la media con lc probabilita di equilibrio 1rk:

Naturalmente anche questa misura dipende dalle probabilita vere, e puo


essere stimata usando Ie probabilita stimate pOij. Come si vede, queste mi-
sure coincidono con gli indici di eterogeneita delle distribuzioni condizionate
Pr(X N + 1/XN ) . Percio maggiore e la incertezza nella transizione della cate-
e
na, minore anche la precisione delle stime e la qualita complessiva della
previsione.
14.2 Previsione per processi di punti 289

Esempio 14.1. Ritorniamo allo studio della piovosita a Tel Aviv, per il quale
abbiamo gia stimato la matrice di transizione:

p == [0.75 0.338]
0.25 0.662

dove il primo stato si riferisce al tempo asciutto, e il secondo alla pioggia.


La stima delle probabilita di equilibrio e data dall'autovettore di P associato
alla radice caratteristica 1, cioe, come abbiamo gia visto, (0.575,0.425). Se
conosciamo il tempo fino a oggi, e oggi e asciutto, la distribuzione del tempo
per domani si stima con Pr(asciutto)== 0.75, Pr(pioggia)== 0.25. Se invece oggi
piove, la previsione per domani sara Pr(asciutto)== 0.338, Pr(pioggia)== 0.662.
L'entropia relativa delle due distribuzioni ( - EPi log Pi diviso il suo massimo,
quindi -(P1logPl + P210gp2)/ log 2) e circa 0.81 per la prima e 0.92 per la
seconda. Se consideriamo l'orizzonte due (cioe il tempo di dopodomani) Ie
distribuzioni di probabilita (colonne di p 2) diventano (0.647,0.353) in caso
di oggi asciutto, e (0.478,0.522) in caso di oggi pioggia. L'entropia aumen-
ta rispettivamente a 0.90 e 0.96. Per le previsioni del terzo giorno successi-
vo (colonne di p 3 ) le distribuzioni diventano rispettivamente (0.605,0.395) e
(0.535,0.465). Come sappiamo queste distribuzioni tendono a divenire somi-
glianti e uguali a quella di equilibrio, e gia a orizzonte 6 la differenza si avverte
solo alla terza cifra decimale: cia significa che la conoscenza del tempo fino a
506 giorni prima non ha praticamente influenza (secondo il nostro modello)
nel determinare la tendenza alla pioggia.
Naturalmente in modo analogo e con ovvie modificazioni si possono calcolare
le probabilita che si verifichino specifici eventi di interesse, come la probabilita
che non piova per k giorni, 0 l'attesa media per un giorno di pioggia. Eventi
di questo tipo hanno speciale interesse quando tra gli stati ve ne sono di ri-
flettenti (0 assorbenti) che rivestono un particolare significato, come nel caso
delle dighe.

14.2 Previsione per processi di punti

II tema della previsione per i processi di punti presenta aspetti pili delicati
e problematici rispetto alle serie temporali, determinati essenzialmente dalla
diversa risposta che in questo campo si richiede a una previsione: non solo e
non tanto infer ire I'intensita con cui un fenomeno si manifestcra, rna anche
fare affermazioni sul se e quando quel fenomeno si vcrifichera,
Con questa premessa, osserviamo che l'oggetto della previsione da un lato
puo riferirsi al numero di eventi, e dall'altro riguardare i tempi di attesa tra
un evento e il successivo. La scelta tra questi due sviluppi viene fatta gene-
ralmente dipendere dalla frequenza media degli eventi in rapporto alla scala
temporale sulla quale avviene la previsione. Se l'orizzonte di previsione e gran-
de rispetto alla intensit.a, di modo che il numero atteso di eventi neH'orizzonte
290 14 Previsioni per catene di Markov e processi di punti

e elevato, si preferisce spesso considerare come grandezza da prevedere il nu-


mero di eventi. Se invece il rapporto e opposto, di modo che per intervalli
di lunghezza commensurabile con l'orizzonte ci si puo attendere che non si
realizzino eventi, 0 al pili sono uno 0 due, allora e pili opportuno prendere
in considerazione le previsioni relative alIa variabile "tempo fino al prossimo
evento". Per chiarire con un esempio, se si parla di incidenti automobilistici in
una determinata zona 0 arteria, e vogliamo costruire previsioni pluriennali, si
considerera il numero annuale di incidenti. Se il nostro orizzonte e invece pili
ravvicinato, dell'ordine ad esempio di giorni, si preferira impostare il problema
con riferimento alIa domanda "quando avverra il prossimo incidente?" .
Le due impostazioni portano a percorsi metodologici completamente di-
versi. Infatti nel primo caso, se seguiamo il numero di eventi su un intervallo
di tempo sufficientemente ampio, si viene a determinare una successione di
variabili che puo essere assimilata a un processo a parametro discreto, al qua-
Ie si puo applicare, con Ie dovute cautele, la teoria della previsione lineare.
Pili precisamente, consideriamo il numero di eventi che si verificano in inter-
valli di tempo di lunghezza m, indicando come prima con N(s, t) il numero
di eventi occorsi tra set, e partendo dal tempo zero poniamo Zl == N(O, m),
Z2 == N(m, 2m), Z3 == N(2m, 3m) e cost via.
Ad esempio nel caso di un processo di Poisson omogeneo Ie Zj hanno una
distribuzione di Poisson di parametro Am, e sono indipendenti, in situazioni
pili articolate invece potranno essere autocorrelate; inoltre se Am non e troppo
piccolo, si puo assumere che abbiano una distribuzione non troppo dissimile
dalla gaussiana, e possiamo allora applicare la teoria della previsione lineare
direttamente al processo {Zt, t == 0,1, ...}, sviluppando modelli del tipo di
quelli esposti nel capitolo precedente.
Tuttavia questa impostazione fornisce risposta solo a una parte delle esi-
genze previsive che possono sorgere di fronte a un processo di punti, soprat-
tutto a que llc relative alIa conoscenza di tipo strutturale, alle tendenze di
lungo periodo. E spesso necessario, in aggiunta, esaminare andamenti di pili
breve periodo, e, ponendosi su un orizzonte rispetto al Quale gli eventi so-
no rari, esercitare una attivita di natura previsiva anche sulla localizzazione
nel futuro dell'istante a cui si verifichera il prossimo evento. E generalmente
questa l'ottica pili rilevante quando i processi di punti vengono adoperati per
schematizzare situazioni eccezionali, come piene, uragani, e terremoti.
Quest'ultimo argomento, la previsione dei terremoti, costituisce un tema
molto importante e trattato approfonditamente nella letteratura probabilisti-
ca e statistica, una interessante e autorevole introduzione si trova in Vere-
Jones (1995). In tutti questi casi, per motivi comprensibili, I'intensita viene
anche chiamata rischio.
II problema pili ovvio e naturale in quest'ottica si puo schematizzare come
segue: fissato un istante t come origine della previsione, e supposto di cono-
scere tutti gli istanti ai quali si sono verificati eventi prima di t, vogliamo
fare affermazioni sul prossimo evento. E abbastanza evidente che dovremo
abbandonare il quadro di riferimento della stima puntuale, poiche qualunque
14.2 Previsione per processi di punti 291

inferenza del tipo "il prossimo evento si verifica all'istante s" ha generalmente
probabilita nulla.
II problema viene a volte affrontato ricorrendo alla ricerca di indicatori
anticipatori (leading indicators), cioe fenomeni diversi che hanno la caratte-
ristica di verificarsi in anticipo rispetto a quello studiato. Questa tecnica ha
trovato un largo impiego in economia (per maggiori informazioni, si veda ad
esempio Granger, 1980) per prevedere le crisi congiunturali, rna in molti cam-
pi indicatori anticipatori non esistono 0 sono poco affidabili (per esempio nel
caso dei terremoti).
Quello che si puo tentare e invece una valutazione della distribuzione di
probabilita della variabile aleatoria "tempo di attesa tra t e il prossimo even-
to", basata sull'insieme delle conoscenze disponibili fino al tempo t. A questo
fine ci basiamo sul concetto di iniensiti: condizionata 0 rischio condizionato
r(t) definito da:
r(t)dt == Pr{Evento in(t, t + dt)IIt }
dove, come sempre, It e l'insieme delle informazioni disponibili fino al tempo
t. Se indichiamo con T* la variabile "tempo di attesa tra t e il primo evento
dopo t" , la sua distribuzione condizionata si ottiene facilmente:

Pr {T* > ulld = Pr {N(t, t + u) = OIId = exp { -l u


r;(x)dx }

dove r;(x)dx == Pr{Evento in (t + x, t + x + dx)IIt , N(t, t + x) == O} e la


valutazione di r; (x) puo porre qualche difficolta, tuttavia nel caso in cui sia
stata assunta una forma analitica per il rischio condizionato, essa puo essere
usata anche per approssimare r;(x) ponendo r;(x) ~ r(t + x).
Nel caso del processo di Poisson omogeneo evidentemente il rischio e co-
stante ed uguale a A, percio la variabile T* ha distribuzione esponenziale di
parametro A qualunque sia l'origine: l'equivalenza tra il processo di Poisson
e il rumore bianco si conferma anche in questo caso, portando a previsioni
condizionate uguali a que llc incondizionate.
Nei casi di maggior interesse applicativo si cerca invece di stimare il rischio
in funzione del tempo e condizionatamente alla storia passata del processo.
Un modo di procedere semplificato e quello di supporre che l'intensita sia
variabile lentamente nel tempo, e quindi r(t) viene stimato con l'intensita
media relativa al passato pili recente, del tipo

f(t) == N(t - s, t)j s

scegliendo s sufficientemente grande in funzione della stabilita della stima. Se


si dispone di rilevazioni contemporanee di pili fenomeni connessi, il rischio puo
essere anche stimato in funzione di questi attraverso un modello di regressione
(eventualmente generalizzato).
C'e poi da considerare l'aspetto del condizionamento, cioe l'effetto della
storia passata sulla intensita, Da questo punto di vista sono stati proposti
292 14 Previsioni per catene di Markov e processi di punti

Fig. 14.1. Numero annuale di terremoti di magnitudo superiore a 7, dal 1900 al


1998

diversi andamenti teorici che in genere vengono motivati dalla natura del fe-
nomeno considerato. Ad esempio, a volte e adeguato ipotizzare che l'intcnsita
cresca al crescere del tempo trascorso dall'ultimo evento. In alternativa, nella
studio dei terremoti e usato il modello di Hawkes in cui si suppone invece che
ogni evento produca un effetto di incremento dell'intensita media nel periodo
successivo. Questo sembrerebbe in contraddizione con l'ipotesi precedente, rna
e
non 10 perche bisogna considerare che spes so una scossa principa1e seguita e
da un certo numero di scosse secondarie. Be indichiamo con tl, t2, ... , t-. gli
eventi verificatisi tra 0 e t, i due schemi portano alla seguente forma per i
rischi:

r(t) == a + <p(t - tn)


r(t) == a + g(t - tl) + g(t - t2) + ... + g(t - tn)
dove <p e una funzione positiva crescente, ad esempio un polinomio, e invece 9 e
una funzione a valori positivi generalmente decrescente, che indica l'effetto di
"eccitamento" del processo dovuto a ciascun evento. Uno schema analogo vie-
ne adottato quando si accetta, sempre nella studio dei terremoti, la teoria degli
sciami sismici, secondo la quale ogni evento e seguito da un addensamento di
altre scosse minori.
In tutti questi casi e necessario prima stimare i parametri delle funzioni
analitiche che definiscono il rischio condizionato r(t), e poi usare queste stime
per stimare conseguentemente la distribuzione di probabilita del tempo di
attesa fino al prossimo evento T* .
In caso di necessit.a di sintesi, 0 per confronto con situazioni diverse, si
considerano a volte, oltre alla media (e la moda) di questa distribuzione,
anche alcuni quantili (ad esempio la mediana e quello al livello 0.95), con i
quali si possono costruire intervalli di confidenza.
14.2 Previsione per processi di punti 293

:: l" r'-
" , ~~~~-
1 11111 11 "
II
'----------

(a) (b )

Fig. 14.2. Autocorrelazione stimata per la serie dei terremoti. (a) ordinaria. (b)
parziale

Fig. 14.3. Adattamento di un mod ello ARMA(1 ,I) alia serie dei t err emoti. I valori
adat tat i secondo il mod ello sono indicat i da punti

Esempio 14.2. Nella Fig. 14.1 sono riportati i dati del numero di terremoti
di magnitudo non inferiore a 7 registrati annualmente dal 1900 al 1998 dal
National Earthquake Information Center degli Stati Uniti. Ogni dato e la
reaIizzazione di un pro cesso di punti su un intervallo di ampiezza annuale , rna
la serie puo essere trattata con i consueti modelli lineari . II correlogramma
stimato, ordinario e par ziale, e riportato nella Fig . 14.2 . Alla serie e stato
adattato il seguente modello ARMA( 1, 1):

X, = 3.45 + 0.83Xt - 1 + Et - 0.45Et-l


che presenta un R 2 pari a 0.34. I controlli diagnostici sia nel dominio temporale
sia nel frequenziale suggeriscono di accettare larg amente I'ipotesi che i residui
siano bianchi . Nella Fig . 14.3 sono riportati per gli ultimi 50 anni i dati,
insieme con i valori adattati dal modello, che coincidono come sappiamo con le
previsioni ad orizzonte uno . Infine nella Fig . 14.4 e riportato invece il risultato
della previsione effett uata ponendo l'origine all'anno 1984 e con orizzont e
crescente da uno a quindici anni.
294 14 Previsioni per catene di Markov e processi di punti

Fig. 14.4. Previsioni per la serie dei terremoti con origine 1984 e orizzonte da 1 a
15 anni

Diversa evidentemente e l'impostazione da adottare quando non e sufficiente


una indagine retrospettiva 0 su scala temporale ampia, rna c'e l'esigenza di
prevedere e localizzare nel tempo il verificarsi di eventi futuri, anche ai fini
della valutazione del rischio e dell'adozione di misure preventive. In questo
caso e opportuno prendere in considerazione gli ultimi eventi verificatisi e i
tempi trascorsi tra un evento e il successivo.
Consideriamo gli anni 1998 e 1999: in Italia sono stati registrati dall'Isti-
tuto Nazionale di Geofisica 21 eventi sismici di magnitudo media superiore a
3.5 : il primo il 10 gennaio 1998 (zona etnea), il secondo il 17 gennaio 1998
(Tirreno meridionale) e cost via. Considerando il tempo trascorso (in giorni)
tra un evento e l'altro, si ottiene la sequenza:

7,9,11,41,13,9,24,26,18,1,54,24,5,8,116,9,20,254,67,12.

L'ultimo evento del biennio si e verificato il 30 dicembre 1999. Poniamoci a


tale data e cerchiamo di prevedere il prossimo terremoto: possiamo studiare
la variabile "tempo di attesa tra il 30/12/1999 e il prossimo evento" dopo
aver ipotizzato e stimato il comportamento della intensita media r(t). Una
possibilita edi assumere r(t) pari all'intensita media del 1999: in questo an no si
sono verificati 6 eventi, quindi l'intensita media si stima pari a 6/365 == 0.0164.
Con questa semplice impostazione il tempo di attesa fino al prossimo evento ha
distribuzione esponenziale di parametro A == 0.0164, quindi valor medio circa
61 giorni e quantile al 95 per cento pari a circa 182 giorni, quello al 99 per
cento e circa 281. Altre diverse assunzioni circa il comportamento del rischio
porteranno ad altre valutazioni. Se si assume una forma crescente linearmente
col tempo trascorso dall'ultimo evento, del tipo r(t) == a + b(t - tn) si ottiene:

Pr{T* > u} == exp{ -au - bu2/2} .


14.2 Previsione per processi di punti 295

Supponiamo che b sia stimato in modo che ogni giorno che passa senza eventi
accresce I'intensita media di un incremento pari a 0.00027 (che corrisponde
a un aumento del ritmo di circa un evento ogni dieci anni). Per mantenere
la media approssimativamente uguale a quella osservata nel 1999 (un evento
ogni 61 giorni) si stima a == 0.005. Di conseguenza la distribuzione stimata
per l'attesa fino al prossimo evento e data da:

Pr{T* > u} == exp{ -0.005u - 0.00027u 2/2} .


Di questa distribuzione il quantile al Iivello 95 per cento e circa 131 giorni,
quello al livello 99 per cento e pari a 167, assai inferiori a quelli relativi al
processo di Poisson, che spesso corrisponde a una valutazione minima del
rischio.
Per concludere, dobbiamo infine ricordare che naturalmente ogni possibile
modello deve essere attentamente valutato non solo alla luce delle ragioni teori-
che che giustificano l'andarnento del rischio, rna anche in base all'adattarnento
effettivo ai dati reali, procedimento che puo comportare diverse difficolta,
Parte V

Appendici
A
Fondarnenti di Analisi di Fourier

A.I Richiami di trigonometria e analisi complessa

L' analisi di Fourier si basa sulle funzioni trigonometriche sin (x) e cos(x),
usando preferenzialmente una forma generalizzata del tipo

j (x; a, A, 0) == a cos( Ax + 0)

chiamata sinusoide, che descrive una funzione ad andamento sinusoidale, con


valori oscillanti tra -a ed a, periodo 21T/ A e con massimo corrispondente
all'ascissa -O/A. L'andamento del sinusoide e esemplificato nella Fig. A.1.
II valore a viene detto ampiezza, il valore A jrequenza, e 0 viene detta fase.
Per a == 1, A == 1,0 == 0 si ottiene cos x, per a == 1, A == 1,0 == -1T /2 si ha
sin x. Scegliendo opportunamente il valore della frequenza A si puo decidere la
periodicita, poiche il periodo e pari a 21T/ A; scegliendo il valore di () si trasla
la funzione sull'asse delle ascisse, e il suo massimo coincide con il punto di
ascissa - ()/ A. Infine ovviamente modificando a > 0 si controlla l' oscillazione
dei valori della funzione, il massimo e pari ad a e il minimo e -a. Operando
con le funzioni trigonometriche useremo spesso alcune lora proprieta, tra le
quali ricordiamo Ie seguenti:

sin( a ± (3) == sin a cos (3 ± cos a sin (3


cos( a ± (3) == cos a cos (3 =f sin a sin (3

dalle quali si ottiene anche

sin 2a == 2 sin a cos a; cos 2a == 2 cos 2 a-I == 1 - 2 sin 2 a .

Nell'analisi di Fourier, inoltre, si ricorre spesso a sviluppi nel campo dei numeri
complessi, anche se il risultato e reale: cio porta notevoli vantaggi nei calcoli,
come apparira evidente nel seguito. Ricordiamo che un numero complesso
e rappresentabile come un punto nel piano complesso, in cui l'ascissa e il
luogo dei numeri reali, l'ordinata illuogo dei numeri puramente immaginari,
300 A Fondamenti di Analisi di Fourier

1'- 2Jt/A

Fig. A.I. Sinusoide f(x; a, A,B) == a COS(AX + B)

multipli dell'unita immaginaria denotata dal simbolo i (radice quadrata di


-1). Ogni numero complesso z puo essere denotato in forma algebrica z ==
a + ib attraverso le sue coordinate (a, b), oppure utilizzando le coordinate
polari modulo p == Izl(2:: 0) e argomento () == arg(z), legate alle altre dalle
relazioni:
p == Va 2 + b2 a == p cos ()
() == arctan(b/ a) {:} b == p sin () .
Sostituendo l'espressione in coordinate polari nella forma algebrica si ottiene:

a + ib == p cos () + ip sin () == p(cos () + i sin ()) == pei8 .

Questa ultima notazione e quella che useremo pili spesso perche unisce al van-
taggio di poterla manipolare algebricamente, l'espressione esplicita del modulo
e dell'argomento. Essa si basa sulla definizione della esponenziale complessa
e sulle formule di Eulero, che utilizzeremo frequentemente:

e
iy
== cosy + i siny ei a _ e- i a
cos a == - - - - sina== - - - -
e- iy == cos Y - i sin y 2 2i

Esse sono la chiave per ridurre calcoli tra funzioni trigonometriche a calcoli
tra potenze, in quanto per le esponenziali complesse valgono lc regole algebri-
che usuali di calcolo tra potenze, se si tratta (e i ) come la base. Infatti dalla
definizione e dalle proprieta delle funzioni trigonometriche si ottiene subito
che e i 8 #- 0 per ogni (), che e i 8 == 1 se e solo se () e zero oppure multiplo di 21r,
e inoltre eixe i y == ei(x+y) qualunque sia x e y, poiche
A.l Richiami di trigonometria e analisi complessa 301

== (cos x + i sin x )(cos y + i sin y)


== cos x cos y - sin x sin y + i (sin x cos y + cos x sin y )
== cos(x + y) + i sin(x + y) == ei(x+y) .

Notiamo in particolare che e- i B == 1/ ei B, infatti:

1 1 cos () - i sin () cos () - i sin () (). . ()


- - - - 2- == cos - Z SIn .
cos () + i sin () cos () - i sin () cos? () + sin ()

Un esempio della potenzialita di questo modo di procedere edato dalle for-


mule di ortogonalita tra seni e coseni. Conosciamo gia dalla teoria dell'integra-
zione alcune espressioni di ortogonalita tra seni e coseni integrati sull'intervallo

I
(-7r,7r):
1r

I: I:
1r sin(ax) cos(bx)dx = 0, 'Va, b

cos (ax) cos(bx)dx = sin(ax) sin(bx)dx = 0, a -=I- b .

Formule analoghe valgono se si somma su punti equidistanziati, invece di


integrare su intervalli, e sono quelle che pili ci saranno utili quando ci riferiamo
a processi a parametro discreto. Pili precisamente considereremo N punti
equidistanziati tra 0 e 27r, la cui ascissa e del tipo 27rj/ N, j == 1, ... , N. I
risultati per i seni e i coseni si ricavano direttamente da una formula analoga
relativa alle esponenziali complesse:

Teorema A.I. Sia N un intero maggiore di 1, e posto A == 27r/ N, e k un


intero can Ik I < N, allora risulta:
N
""
~ exp z/\] 0, kk ==
{" 'k} = {N, 0
-=I- 0 . (A.l)

Dimostrazione. La formula e ovvia per k == 0 poiche eO == 1. Per k =I 0,


ricordando che la somma di una progressione geometrica di N termini con
primo termine a I e ragione q e data da a1 (1 - qN) / (1 - q) e tenendo presente
che la (A.l) e proprio una progressione geometrica formata da N termini con
primo elemento e ragione pari a exp( iAk) si ha:

N
L exp {iAjk} == e
i Ak
(1 - e
i AN k
)/ (1 - e
i Ak
) == 0
j=1

perche exp( iANk) == exp( i27rk) == 1 in quanto exp( i27r) == cos(27r)+ i sin(27r)
== 1. 0
302 A Fondamenti di Analisi di Fourier

Teorema A.2. Sia N intero maggiore di 1, e posta A == 21r/ N, per ogni coppia
di interi non negativi a e b minori di N si ha:

L cos('\ja) cos('\jb) {O'


N
N/2, =
a#b
a:. b:' °. (A.2)
J=l N, a - b- 0

Dimostrazione. La formula e ovvia per a == b == 0 poiche cos(O) == 1. Negli


altri casi possiamo ricorrere alle formule di Eulero: cos(a) == (e i a + e- i a)/2 e
scrivere:
N N
L cos('\ja) cos(,\jb) = ~ L (e
i Aj a
+ e- i Aj a) (e i Aj b + e- i Aj b) =
j=l j=l

=~ L{
N
eiAj(a+b) + eiAj(a-b) + e-iAj(a-b) + e-iAj(a+b)} .
j=l

In base al teorema AI, la prima e la quarta progressione sono sempre nulle


perche a + b > o. Be a # b sono nulle anche la seconda e la terza progressione,
e quindi l'intera espressione si annulla. Be invece a == b, la seconda e la terza
progressione valgono N e quindi il secondo membro vale (1/4)(N +N) == N/2.
D

Teorema A.3. Sia N intero maggiore di 1, e posto A == 21r/ N, per ogni coppia
di interi non negativi a e b minori di N si ha:

N
?=sin(,\ja)sin(,\jb)=
{O' ai=b
N/2,a:.b:'O.
J=l 0, a - b- 0

Dimostrazione. II caso a == b == 0 e ovvio poiche sin(O) == o. Per gli altri


la dimostrazione e analoga al teorema A2 usando la formula sino == (ei a -
e- i a ) / (2i). D
Teorema A.4. Sia N intero maggiore di 1, e a, b interi non negativi minori
di N. Posto A == 21r/N si ha:
N
Lsin(Aja)cos(Ajb) == o.
j=l

Dimostrazione. Be a == 0 il teorema e ovvio. Per a diverso da zero, usando le

:i
formule di Eulero si ha:
N N
L sin('\ja) cos('\jb) = L (e
i Aj a
- e-iAja)(eiAjb + e- i Aj b ) =

:i L {
j=l j=l
N
= eiAj(a+b) + eiAj(a-b) - e-iAj(a-b) - e-iAj(a+b)} .
j=l
A.I Richiami di trigonometria e analisi complessa 303

La prima e la quarta progressione sono nulle per il teorema AI, e cosi pure
la seconda e la terza se a =I b; viceversa se a == b il secondo e il terzo termine
sono uguali e avendo segno opposto si elidono. 0

Corollario A.5. Nelle stesse ipotesi precedenti si ha:


N N

L cos(Aja) == {~' ~ ~ ~ L sin(Aja) ==0 .


j=l ' j=l

Dimostrazione. Conseguenza immediata ponendo b == 0 dei teoremi A2 e A4.


o

I teoremi sono stati esposti per a e b maggiori 0 uguali a zero, rna l'estensione
a numeri negativi e immediata ricordando che cos a == cos( -a) e sin a ==
- sin( -a); inoltre abbiamo assunto che a e b fossero minori di N, rna valgono
teoremi analoghi per valori qualunque A e B: basta tener presente che se
a == Amod(N), cioe se a e il resto della divisione di A per N, e b == Bmod(N),
allora sin(AA) == sin(Aa), cos(AA) == cos(Aa) e analogamente per B. Quindi
ad esempio il teorema A.2 diventa:

0, Amod(N) =1= Bmod(N)


L cos(AjA) cos(AjB) ==
N {
N12, Amod(N) == Bmod(N) =I 0 .
j=l 0, Amod(N) == Bmod(N) == 0

Infine, vediamo alcune formule che ci serviranno nella trattazione. La


prima e:

Infatti dalle formule di Eulero:


2~ I: exp(-iaA)dA = {~ a /o~n~ero .

-1 J1r exp(-iaA)dA == -1
21r -1r 1r
l
0
1r
e-
ia A
+e
2
ia A
dA == -1
1r
l
0
1r

cos(aA)dA.

Se a =1= 0

.!.
1r io
r cos(aA)dA = .!. [sin(aA)] =.!. sin(mr) -
1r a
7r

0 1r a
sin(O) =0 .

a
Se invece == 0 ovviamente ~ dA == 1. Jo1r
NeIl'ambito della statistica dei processi aleatori e frequente manipolare
funzioni trigonometriche anche non relative aIle frequenze di Fourier del tipo
21rjIT: adesso ricaveremo alcune formule per le somme di seni e coseni relative
aIle armoniche di una frequenza qualunque A. A tal fine avremo bisogno delle
relazioni trigonometriche

sin u - sin v = 2 cos! (u + v) sin! (u - v)


2 2
304 A Fondamenti di Analisi di Fourier

1 1
cos u - cos v == - 2 sin "2 (u + v) sin "2 (u - v)
che si ottengono facilmente dalle formule di addizione e sottrazione ponendo
u == a - (3 e v == a + (3. Dimostreremo che
n

L cos At == -2l{sinA(n+~)}
t=l
.
SIn "2
-1 ==
cos~(n+1)Asin~nA
SIn "2
A
--=---------=--
. A

~. _ ~ {COS ~ - cos(n + ~)A} _ sin ~(n + l)Asin ~nA


L...J SIn At - . A - . A .
t= 1 2 SIn "2 SIn "2
Dimostrazione. Poiche la dimostrazione e analoga svolgeremo solo la prima
lasciando l'altra come esercizio. Ritornando alla espressione in funzione delle
esponenziali complesse: 2 cos a == eia+e- ia, e usando la regola della somma
di una progressione geometrica, otteniamo:

n 1{ · L· n n }
== -e
o; 1 -e iAn e -iA 1 -iAn
- -e .
L cos At == -2 L +
t=l t=l
e1,At
t=l
e-1,At
2 1-
. + -
e1,A 2 1- e-1,A

(e i A _ 1)(1 - e i An) + (e- i A - 1)(1 _ e- i An)


iA i A)
2(1 - e )(l - e-

COSA - 1 + cosnA - cos(n + l)A


2(1 - cos A)

Ora, ponendo u == ii): v == (n + 1)>'" otteniamo

cos(n>...) - cos(n + 1)>'" == -2 sin(n + 1/2)A sin( -A/2)


== 2 sin(n + 1/2)>... sin(A/2)

e ricordando anche che 1 - cos X == 2 sin 2 (>.../2):

~cas>'t=2
n 1{ -1+sin(n+ )>.
2
1/ sin A}
2
.

Per la seconda eguaglianza, portando sin(A/2) a denominatore comune, il


numeratore diventa sin(n + 1/2)A - sin(A/2) per il Quale si usa la formula che
scompone sin u - sin v ponendo u == (n + 1/2)A, v == A/2.
La formula analoga per la somma estesa anche a indici negativi e imme-
diata:
n
L sinAi == 0
n
t~n cas At = 1
n
+2~casAt = sin(n+ 2)A sin 2 .
1 / >..
t=-n

D
A.2 Sviluppo di Fourier per funzioni periodiche 305

Con questi risultati possiamo valutare le stesse somme considerate all'inizio


dell' Appendice, rna prese su frequenze non di Fourier, usando le formule gia
ricordate del tipo cos u - cos v == - 2 sin ~ (u - v) sin ~ (u + v). Ad esempio:

1 1
L sin(Aaj) sin(Abj) = -2 L cos A(a + b)j + 2 L cosA(a - b)j
n n n

j=l j=l j=l

che si ottiene ponendo Aaj == ~(u - v) e Abj == ~(u + v), da cui u == Aj(b + a)
e v == Aj(b - a).
Inoltre con questi risultati possiamo calcolare facilmente la somma che
porta al nucleo di Fejer (paragrafo 9.2) KN(A). Innanzitutto notiamo che

n-1 n-1 t

L (n -lhl)e- i Ah == L L e- i AS
==
h=-n+1 t=O s=-t

== L
n-1 (
1+2 L cos AS
t )
== . + 1.)A
L sin(tsIn(-)
n-1
A2 .
t=O s=l t=O 2

Tenendo conto che sin(t - ~)A == sin(At) cos(A/2)-cOS(At) sin(A/2) abbiamo:

n-1
~ sin(t + 2)A
1
= 8
n 1
sin (t - 2)A = cos 2 8 sin At - sin 2 8 cos At
(A) n (A) n

== cos ( -A) sin ~(n + l)Asin ~nA - SIn


. (A) cos ~(n + l)Asin ~nA
-
2 sin ~ 2 sin ~

= si~sin!~A
"2
[cos (~)
2
sin !(n + nx - sin (~) cos !(n + l)A]
2 2 2

= sin2(~A) /sin (~) .


In conclusione:
1 1 1
L L sin(t + -),,\
n-1 . n-1
KN(A) == 2 (n - Ihl)e- 2Ah == 2' A ==
n h=-n+1 n sIn("2) 2 t=O
2
1 sin ( ~A)
2 2
n sin ( ~) .

A.2 Sviluppo di Fourier per funzioni periodiche

E un argomento classico dell'analisi matematica 10 sviluppo in serie di Fou-


rier, nel Quale si esprimono funzioni periodiche di variabile reale generalmente
306 A Fondarnenti di Analisi di Fourier

continue come serie di funzioni trigonometriche. Noi considereremo sviluppi


analoghi, rna, avendo come riferimento applicativo lc serie storiche a parame-
tro discreto, studieremo funzioni di variabile discreta, indicando l'argomento
anche qui, per semplicita, con i numeri interi. Consideriamo percio una fun-
zione di variabile intera Xt , periodica di periodo T (intero), il che significa
che i valori si ripetono ogni T istanti: Xt == Xt+kT per ogni k intero. II suo
comportamento e completamente descritto dai valori assunti in T punti con-
secutivi, ad esempio Xl, X2, ... , XT, quindi un vettore nello spazio R T . L'idea
fondamentale dell'analisi di Fourier e di spiegare l'andamento della funzione
mediante una sovrapposizione di sinusoidi di periodo esattamente pari a T
oppure un suo sottomultiplo. La logica del procedimento puo essere illustrata
come segue. Dati i valori assunti X j (j == 1, ... , T), cerchiamo di adattarvi una
sinusoide del tipo a cos( Aj + B) di periodo T e quindi con A == 27f /T (detta
frequenza fondamentale). L'adattamento non sara perfetto e quindi ci saran-
no delle differenze in pili 0 in meno, che possiamo cercare di descrivere con
una sinusoide di periodo T /2, cioe di frequenza 2A == 47f /T (chiamata seconda
armonica). Se ancora non si ottiene una uguaglianza, la rimanente differenza
si puo cercare di descrivere con una sinusoide di periodo ancora pili piccolo
pari a T /3 e quindi frequenza 3A == 67f IT (detta terza armonica) e cosi via,
andando ad adattare sinusoidi con oscillazioni sempre pili veloci fino alla pili
rapida che e l'armonica di ordine T /2, che ha frequenza AT /2 == 7f (1) e il cui
periodo e pari a 2 (la periodicita pili piccola riscontrabile in funzioni ad argo-
mento intero). La teoria dimostra (10 faremo subito) che questo procedimento
ricostruisce esattamente la funzione Xt, e quindi si ottiene, posta p == T /2,

Xt = t,
ao + {a j cos (~ jt) + b, sin (~ jt)} ,t = 1,2, ... , T (A.3)

con bp == O. Tra le diverse dimostrazioni ne forniamo una di natura geometrica


che ha il pregio, oltre alla semplicita, di suggerire una diversa interpretazio-
ne dello sviluppo di Fourier. Si tratta sernplicernente di considerare il vettore
X == (Xl, X2, ... , XT)' nello spazio R
T
e di esprirnere le coordinate in una
nuova base ortogonale di R T . La base che scegliamo e format a dai vettori co-
stituiti dai valori assunti dalle sinusoidi della frequenza fondamentale e delle
armoniche, pili un vettore unitario costante. Pili precisamente, consideriamo
i vettori Zo, Zl, ... ,zp, Zp+l, ,Z2p-l definiti come segue: Zo ha elementi co-
stanti uguali a 1, Zk (k == 1,2, ,p) ha come elementi i valori della sinusoide
cos(27fkt/T) per t == 1,2, ... , T, e zp+j(j == 1,2, ... ,p - 1) ha come elementi
i valori di sin(27fjt/T) per t == 1,2, ... ,T (cio spiega perche non si considera
j == p, dato che sin(27fpt/T) == sin( 7ft) == 0). Scriviamo la base ponendo come
prima ,\ == 21f/T :

1 Abbiamo implicitamente supposto che il periodo T sia pari. Se T e dispari si


ottengono risultati analoghi, rna con cornplicazioni leggerrnente superiori nella
dirnostrazione.
A.2 Sviluppo di Fourier per funzioni periodiche 307

1 cos X cos2"\ cosp"\ sin X sin2"\ sin(p - 1),,\


1 cos 2,,\ cos 4,,\ cos 2p"\ sin 2,,\ sin 4,,\ sin 2(p - 1)"\

1 coe'I'); cos2T"\ ... cosTp"\ sinT"\ sin2T"\ ... sinT(p -1)"\


Usando Ie formule di ortogonalita del paragrafo precedente possiamo ve-
rificare che la matrice B e ortogonale, mentre le norme dei vettori della base
risultano:
T
II Z k 11
2
== l: (cos 2; k j ) 2 == P , k == 1, ... p - 1
j=l
T
II zp+ k 11
2
== l: (sin '2;; k j) 2 == P , k == 1, ... p - 1 .
j=l

II vettore zp ha un valore diverso perche i suoi elementi sono pari a cos(21rpt/T)


== cos(1rt) == (- 1)t .
Avendo appurato che B e una base ortogonale possiamo esprimere il vet-
tore dei dati x in funzione lineare della nuova base con coefficienti ao, al, . . . ,
ap , b1 , b2 , . . . , bp - 1 :

che dimostra 10 sviluppo di Fourier (A.3).


Come immediata conseguenza possiamo ottenere lc espressioni dei coeffi-
cienti aj e bj : poiche essi sono le coordinate nella nuova base, sappiamo che
sono uguali aIle z~x/llzkI12. Particolarizzando otteniamo:

1
aj=pLXtCOS rJt
T (21r .) , j=1, ... ,p-1
t=l

bj = 1pL Xt sin (21r)


T
r jt , j = 1, ... , p - 1 (A.4)
t=l
1 T 1 T t
ao = TL x, ; ap = TL x; ( ~ 1) .
t=l t=l

La formula (A.3) ha 10 svantaggio di contenere coseno e seno della stessa


frequenza, mentre possiamo unificare la struttura usando la forma sinusoidale
completa di frequenza e fase, basandosi solo sul coseno (ad esempio). Per fare
questo, sostituiamo alle aj e bj le loro espressioni polari

aj == dj cos ()j ; bj == dj sin ()j , j == 1, . . . ,p - 1

dove dj = Ja; + b; e OJ = arctan(bjfaj), ponendo inoltre do = ao, dp = ap ,


()o == ()p == O. La (A.3) diviene
308 A Fondamenti di Analisi di Fourier

Xt = td
)=0
j cos (~ jt - OJ) .
Questa formula consente una pili immediata interpretazione: la funzione Xt
e descritta come la somma di sinusoidi relative alla frequenza fondamenta-
le ,,\ == 21T /T corrispondente al periodo T, e alle sue frequenze armoniche
2"\,3"\, ... ,p"\ corrispondenti a onde di periodo sottomultiplo di T: T /2, T /3,
T /4, fino a T / (T /2) == 2. Ciascuna sinusoide ha una propria ampiezza dj e
una propria fase ()j .
Una ulteriore interpretazione che fornisce la base per considerazioni che si
riveleranno essenziali nel seguito, nasce dal considerare x == (Xl, X2, ... , XT )
come una popolazione statistica di T unita. La variabile statistica rilevata e
la combinazione lineare con pesi aj e bj dei caratteri sintetizzati dai vettori
popolazione Zj (corrispondenti ai valori assunti dalle diverse armoniche) che
sono tra loro incorrelati come appena visto. La sua media, dalla (A.4), e pari a
ao == do· La sua varianza si puo ottenere facilmente calcolando prima la norma
di x, che si ricava subito dalla espressione in funzione della base ortogonale
B:

IIxII 2== a6 111112 + ai I zll1 2+ ... + a; I zpI1 2+ bi Ilzp+1112 ... + b;_11Iz2P_ll/2


== p ( 2a6 + ai + ... + 2a; + bi + ... b;-l)
== p (2d6 + di + ... + d;-l + 2d;) .
Ne segue (si ricordi che p == T /2) che

quindi lo ampiezze dj al quadrato decompongono la varianza nel contributo di


ciascuna Zj, cioe di ciascuna componente sinusoidale di frequenza ,,\j e periodo
T'[], L'insieme (dr,d§, ... ,d;) indica qual e il peso relativo, in termini di
momento secondo, delle varie componenti cicliche che concorrono a costituire
i valori Xt, e viene chiamato spettro di Fourier.
Esempio A.6. Consideriamo una funzione periodica di periodo 8, di cui ripor-
tiamo due cicli nella Fig. A.2 in cui e segnata anche la media, corrispondente
all'armonica zero, ao in (A.3). Dopo aver calcolato i coefficienti aj e bj secon-
do le (A.4) abbiamo costruito le componenti cicliche relative alla frequenza
fondamentale 21T /T == 1T/ 4 e alle prime tre armoniche 21T/ 4 == 1T /2, 31T/ 4
e 41T/ 4 == 1T, il cui andamento (in realta solo i punti relativi ad ascissa in-
tera, uniti da segmenti) e riportato nella Fig. A.3, ed e contraddistinto da
periodi rispettivamente di 8, 4, 8/3 e 2 istanti. Sommando termine a termi-
ne i valori della componente fondamentale, delle tre armoniche e della media
ao si ottengono esattamente i valori della funzione. Lo spettro e il seguente:
dr
d5 == a5 == 13.14, == 4.57, d§ == 3.06, d~ == 2.8, d~ == 1.26.
A.2 Sviluppo di Fourier per funzioni periodiche 309

10

6 11 16

Fig. A.2. Serie periodica di periodo 8

fondamentale armonica2

-1
-1
-2
-2 --Iw--..- --J
-3

armonica3 armonica4

1.5,....------------.,

0.5
o +---\--+----+----1~_+____+_+__+_____+_____lr__+__+___f__+---1

-0.5
-1
-1
-2 ...1.-- ----1 -1.5 -I..- .....J

Fig. A.3. Componente fondamentale e prime tre armoniche

Una ulteriore forma di sviluppo di Fourier si ottiene esprimendo le funzioni


trigonometriche attraverso le esponenziali complesse: in questo modo la x,
viene rappresentata attraverso una somma finita di potenze. Per arrivare a
questo risultato partiamo dalla (A.3) sostituendo a seno e coseno Ie espressioni
di Eulero, sempre indicando A == 27r IT:
310 A Fondamenti di Analisi di Fourier

+ e-i>..jt
L
_ p { ei>..jt ei>..jt _ e-i>..jt }
Xt - ao + aj 2 + bj 2i .
j=l

Raccogliendo le diverse potenze di ei >.. e indicando con Zj == (aj - ibj ) /2,


Z_j == Zj == (aj +ib j)/2, j == 1, ... ,p, Zo == ao, si ottiene:

L
p

x, == Zjei>..jt (A.5)
j=-p

e dalle (A.4) si ricavano le Zj:

(A.6)

che vengono chiamate trasformate di Fourier della Xt. Anche la (A.5) espri-
me, equivalentemente alle precedenti, la decomposizione di Xt in somma di
componenti sinusoidali, e pur comparendovi l'unita immaginaria, i valori del-
le Xt rimangono reali (mentre la trasformata di Fourier Zj ha valori com-
plessi): cia si riconosce dal fatto che nella (A.5) ogni esponenziale complessa
ei a trova anche il suo reciproco e -ia, e i loro coefficienti sono 1'uno il co-
niugato dell'altro, percio la loro somma cei a + ce- i a da luogo alla sinusoi-
de 2 Re( c) cos 0: + 2 Im( c) sin 0: (2). La componente sinusoidale di frequen-
za pari a k); e periodo T/k ha quindi ampiezza dk == 21zkl e fase Ok
arctan{ - Im(zk) / Re(Zk)}.

A.3 Analisi di Fourier per funzioni non periodiche,


integrale di Fourier

II procedimento che abbiamo svolto si puo applicare a funzioni di variabile


intera periodiche di periodo T, che possono essere definite per ogni valore in-
tero rna ripetono ciclicamente i valori assunti: Xt == Xt+T, Vt. E evidente che
facendo crescere il periodo T la funzione ha possibilita di andamento sem-
pre pili ricco, e poiche in genere noi ci interesseremo dei valori di una serie
storica per un intervallo di tempo finito, per esempio per t da 1 aN, potrem-
mo anche considerare funzioni periodiche purche di periodo sufficientemente
grande (e qualche volta 10 faremo). Tuttavia, non e difficile arrivare a formule
analoghe agli sviluppi di Fourier, valide per funzioni, sempre ad argomento
intero, non periodiche. Cia si ottiene prendendo il limite per T - t 00 nelle
formule precedenti, e sotto condizioni di regolarita che assicurino l'esistenza

2 Dato un numero complesso c == a - ib si indica con a == Re( c) il suo coefficiente


reale e con b == Im(c) il coefficiente immaginario. Inoltre c == a + ib, c + i: == 2a,
c- i: == -2ib, Icl == va 2 + b2 e arg{c} == arctan ( -b/a).
A.3 Analisi di Fourier per funzioni non periodiche 311

dei limiti che considereremo. Rimane valida l'interpretazione come sovrappo-


sizione di componenti sinusoidali, rna le frequenze possibili non saranno pili
un numero finito 21rj IT, j == 1, ... , T 12, poiche T va a infinito, rna diventano
possibili sinusoidi di frequenza A qualsiasi, variabile con continuita tra 0 e it . II
contributo in ampiezza di una singola sinusoide, prima indicato con Zj, diven-
ta quindi adesso una funzione ((A). Sempre assumendo p == T12, definiamo
((1rjlp) == Zj/(1r/p), per cui la (A.5) diventa:

Xt = ,f ((~j)
J==-P P
exp {i~jt}~
p P

che puo essere interpretata come una somma di Cauchy relativa alla funzione
( (x ) exp {i tx} sull'intervallo (-1r, 1r), descritta dalla decomposizione [~j, ~ (j +
P P
1)), j == -p, ... , p - 1. Al crescere di T, tende a zero la lunghezza degli
intervallini (pari a 1r I p == 21r IT) e quindi il limite definisce un integrale (di
cui assumiamo l' esistenza) :

che viene detto integrale di Fourier.


L'analoga della (A.6), cioe la trasformata di Fourier della funzione non
periodica Xt, si ottiene anche qui prendendo illimite per T - t 00, rna facendo
crescere anche j in modo che 21rj IT tenda a un valore fisso A:

(anche qui sara necessario imporre condizioni alla Xt perche questo limite
esista).
Nell'interpretare la decomposizione (chiamata decomposizione spettrale)
di Xt si deve tener conto del fatto che ora sono una infinita continua di com-
ponenti di frequenza diversa a concorrere a formare Xt: le periodicita possibili
sono comprese tra 2 (corrispondente alla frequenza 1r) e infinito (corrispon-
dente alla frequenza 0). Lo spettro di Fourier diventa ora una funzione 1((A)1 2
di variabile reale A, definito tra 0 e n , rna il contributo di ogni singola com-
ponente di fissata frequenza alla varianza (0, se si vuole, alla norma al qua-
drato) e infinitesimo, mentre si puo dire (con terminologia analoga a quella
della probabilita delle variabili assolutamente continue) che il contributo delle
componenti di frequenza compresa tra A e A+ d); e pari a 1((A)1 2dA.
L'integrale di Fourier puo essere espresso anche in termini completamente
reali, Se poniamo U(A) == Re{ ((A)}, V(A) == Im{ ((A)}, ricordando che Zj ==
Z_j abbiamo ((A) == (( -A) e quindi U(A) e V(A) sono funzioni pari e inoltre
((A) == U(A) - iV(A), (( -A) == U(A) + iV(A). Pertanto, spezzando l'integrale
nei due sotto-intervalli (-1r, 0) e (0, 1r) si ha:
312 A Fondamenti di Analisi di Fourier

Xt = l" [U(A) - iV(A)]eiAtdA + l" [U(A) + iV(A)]e-iAtdA =

= 1'' cos(At)2u(A)dA + l 1r

sin(At)2v(A)dA

che fornisce la rappresentazione in termini reali dell'integrale di Fourier, in


cui naturalmente
1 1
U(A) = 21f L Xt COS(At)
00

V(A) == -
27r
L 00

Xt sin(At) .
t=l t=l
B

Software per l'analisi delle serie ternporali e la


..
previsionc

Abbiamo gia osservato come la complessita delle elaborazioni necessarie per


l'analisi nel dominio temporale e frequenziale e per la previsione imponga l'uso
di un software specialistico anche nelle applicazioni pili semplici.
Per questo motivo l'analisi delle serie temporali e la previsione statistica
hanno attratto un'attenzione e un impegno sempre crescenti delle maggiori ca-
se di software, e oggi gran parte dei pili diffusi software di analisi quantitativa
permette di applicare la metodologia esposta in questo volume.
Senza pretendere ovviamente di presentare una rassegna esaustiva, cite-
remo solo alcuni pacchetti tra i pili usati, riferendoci all'ambiente Microsoft
Windows, anche se la maggior parte di essi e disponibile anche per ambiente
Macintosh, Unix e Linux.
Va sottolineato che l'offerta di software e in rapida evoluzione, appaiono
continuamente nuovi pacchetti e quelli esistenti vengono modificati, pertan-
to le informazioni riportate in questa appendice vanno considerate soltanto
indicative.
I sistemi Sas (www.sas.com) e Spss (www.spss.it) prevedono entram-
bi moduli di serie temporali (rispettivamente Sas-Ets e Spss-Trends) che
svolgono analisi nel dominio temporale e frequenziale, costruzione di mo-
delli ARIMA complete di previsioni, destagionalizzazione. Analoghe pos-
sibilita vengono offerte da pacchetti di orientamento econometrico come
E-Views (www.eviews.com) e Rats (www.estima.com), e da software spe-
cificamente statistici come S-Plus (www.insightful.com) oppure Statistica
(www.statsoftinc.com).
Esistono poi pacchetti esplicitamente dedicati alla previsione, ad esem-
pio Forecast-Pro (www.forecastpro.com) e anche alcuni software che han-
no per oggetto principale le serie temporali: tra questi citiamo Autobox
(www.autobox.com) per la ricchezza del supporto in linea e la continua
evoluzione, e Sea (www.scausa.com) per l'autorevolezza degli autori e la
disponibilita delle metodologie pili avanzate.
Anche alcuni software che si configurano pili come linguaggi evoluti, qua-
li Mathematica (www.wolfram.com), Matlab (www.mathworks.com) e Gauss
314 B Software per la previsione

(www.aptech.com) permettono facilmente 10 sviluppo di analisi attraverso


moduli 0 librerie supplementari, prodotti dalle Case 0 di pubblico dominio.
Naturalmente non tutti i software prevedono tutti i metodi esposti nel pre-
sente volume, e molti dispongono invece di una raccolta di metodi pili ricca e
articolata di quelli che sono presentati qui. Ad esempio, non tutti realizzano
il metodo Census-X11-Arima, e pochi il Tramo-Seats (notiamo pero che il
software per questo metodo di destagionalizzazione e disponibile liberamen-
te sul sito della Banca di Spagna www.bde.esjserviciojsoftware/econome.htm
e su quello dell'Istat al link www.istat.itjstrumenti/metodijdestagj). La si-
tuazione e in continua evoluzione e frequentemente vengono rilasciate nuove
versioni che prevedono capacita pili articolate.
I prodotti citati finora prevedono l'acquisto 0 l'uso sotto licenza. Tra i
software liberi, il pili rilevante ai nostri fini e R della Free Software Foundation
(www.gnu.org/softwarejr) che ha una struttura simile as-Plus e permette
abbastanza facilmente la realizzazione di analisi sia nel dominio temporale
sia frequenziale, sia la costruzione di modelli rappresentativi e di previsioni.
Un interessante e utile pacchetto econometrico basato su R e Gretl, di cui
esiste anche una versione in italiano (http: / j gretl.sourceforge. net ). Infine e
stato messo a punto recentemente il software JMulTi (http:/ jsourceforge.netj
projects/jmulti) che ha come riferimento ideale Liitkepohl (1993) e permette
anche analisi econometriche avanzate e multivariate.
Esistono inoltre, e sono molto utili, alcuni pacchetti software collegati a
testi di serie temporali, che a seconda dei casi sono liberi, 0 vengono dati
in licenza gratuita con l'acquisto del volume. Tra di essi citiamo Itsm 2000,
ultima versione del software collegato ai testi di Brockwell e Davis (su un CD
allegato al libro).
Per concludere, osserviamo che nel web esistono molte possibilita di trovare
e scaricare i dati relativi alle serie temporali pili importanti e studiate, come
riferimento esemplificativo si suggeriscono i siti lib.stat.cmu.edu e il www-
personal.buseco.monash.edu.auj hyndman/TSDL.
r-;»
Bibliografia

Abraham, B. and G. E. P. Box (1978). Deterministic and forecast-adaptive time


dependent models. Appl. Statist. 27, 120-130.
Akaike, H. (1969). Fitting autoregressive models for prediction. Ann. Inst. Statist.
Math. 21, 243-247.
Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans.
Automatic Control 19, 716-722.
Akaike, H. (1979). A Bayesian extension of the minimum AIC procedure of
autoregressive model fitting. Biometrika 66, 237-242.
Anderson, T. W. (1971). The Statistical Analysis of Time Series. New York: Wiley.
Azzalini, A. (2001). Inferenza Statistica (2 ed.). Milano: Springer-Verlag Italia.
Baragona, R. and F. Battaglia (1992). Linear interpolators and the outlier problem
in time series. Metron 50, 79-97.
Baragona, R. and F. Battaglia (2000a). Partial and inverse autocorrelations in
portmanteau- type tests for time series. Commun. Statist. Simula. Compo 29,
971-986.
Baragona, R. and F. Battaglia (2000b). Some applications of genetic algorithms
to statistical inference. In Atti della XL Riunione Scientifica della Soc. Ital. di
Statistica, Firenze, pp. 329-340.
Baragona, R., F. Battaglia, and C. Calzini (2001). Genetic algorithms for the identi-
fication of additive and innovational outliers in time series. Compo Statist. Data
Anal. 37, 1-12.
Barbieri, M. M. (1998). Additive and innovational outliers in autoregressive time
series: a unified approach. Statistica 58, 395-409.
Bartlett, M. S. (1990). Chance or chaos? J. Roy. Statist. Soc. Ser. A 153, 321-347.
Basawa, I. V. and B. L. S. Prakasa Rao (1980). Statistical Inference for Stochastic
Processes. London: Academic Press.
Bee Dagum, E. (2002). Analisi delle Serie Storiche. Modellistica, Previsione e
Scomposizione. Milano: Springer-Verlag Italia.
Bell, W. and S. C. Hillmer (1984). Issues involved with the seasonal adjustment of
economic time series. J. Bus. Econom. Statist. 2, 291-330.
Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. J.
Econometrics 31, 307-327.
316 Bibliografia

Box, G. E. P. and D. R. Cox (1964). An analysis of transformations. J. Roy. Statist.


Soc. Ser B 26, 211-252.
Box, G. E. P. and G. M. Jenkins (1970). Time Series Analysis Forecasting and
Control. S. Francisco: Holden-Day.
Box, G. E. P., G. M. Jenkins, and G. C. Reinsel (1994). Time Series Analysis
Forecasting and Control (new ed.). Englewood Cliffs: Prentice- Hall.
Box, G. E. P. and D. A. Pierce (1970). Distribution of residual autocorrelations in
autoregressive integrated moving average time series models. J. Amer. Statist.
Ass. 65, 1509-1526.
Box, G. E. P. and G. C. Tiao (1975). Intervention analysis with applications to
economic and environmental problems. J. Amer. Statist. Ass. 70, 70-79.
Brillinger, D. R. (1981). Time Series Data Analysis and Theory (expanded ed.). S.
Francisco: Holden-Day.
Brockwell, P. J. and R. A. Davis (1987). Time Series, Theory and Methods. New
York: Springer-Verlag.
Casdagli, M. (1992). Chaos and deterministic versus stochastic non linear modelling.
J. Roy. Statist. Soc. Ser. B 54, 303-328.
Chatfield, C. (1993). Neural networks: forecasting breakthrough or passing fad? Int.
J. Forecast. 9, 1-3.
Chen, C. and L. M. Liu (1993). Joint estimation of model parameters and outlier
effects in time series. J. Amer. Statist. Ass 88, 284-297.
Cipolletta, 1. (1992). Congiuntura Economica e Previsione. Bologna: 11 Mulino.
Cleveland, W. P. and G. C. Tiao (1976). Decomposition of seasonal time series: a
model for the X-II program. J. Amer. Statist. Ass. 17, 581-587.
Cox, D. R. and P. A. W. Lewis (1966). The Statistical Analysis of Series of Events.
London: Methuen.
Cox, D. R. and H. D. Miller (1965). The Theory of Stochastic Processes. London:
Methuen.
Damsleth, E. (1980). Interpolating missing values in a time series. Scand. J.
Statist. 7, 33-39.
Di Fonzo, T. and F. Lisi (2005). Serie Storiche Economiche. Roma: Carocci.
Dickey, D. A. and W. A. Fuller (1979). Distribution of the estimates for
autoregressive time series with unit roots. J. Amer. Statist. Ass. 74, 427-431.
Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of
the variance of the United Kingdom inflation. Econometrica 50, 987-1007.
Fabbri, G. and R. Orsini (1993). Reti Neurali per le Scienze Economiche. Padova:
Muzio.
Ferreiro, O. (1987). Methodologies for the estimation of missing observations in time
series. Stat. Prob. Letters 5, 65-69.
Findley, D. F., B. C. Monsell, W. R. Bell, M. C. Otto, and B. C. Chen (1998). New
capabilities and methods of the X-12-ARIMA seasonal adjustment program. J.
Bus. Econom. Statist. 16, 127-176.
Fox, A. J. (1972). Outliers in time series. J. Roy. Statist. Soc. Set: B 34, 350-363.
Gabriel, K. R. and J. Neumann (1962). A Markov chain model for rainfall occurrence
at Tel Aviv. Quarterly J. Roy. Meteorol. Soc. 88, 90-95.
Gaetan, C. (2000). Subset ARMA model identification using genetic algorithms. J.
Time Ser. Anal. 21, 559-570.
Gilchrist, W. (1976). Statistical Forecasting. London: Wiley.
Bibliografia 317

Gomez, W. and A. Maravall (1996). Programs Seats and Tramo: instructions for
the user. Working Paper 9628, Bank of Spain, Madrid.
Granger, C. W. J. (1980). Forecasting in Business and Economics. London:
Academic Press.
Guerrero, V. M. (1993). Time series analysis supported by power transformations.
J. Forecasting 12, 37-48.
Hamilton, J. D. (1994). Time Series Analysis. Princeton: Princeton University
Press.
Hannan, E. J. (1960). Time Series Analysis. London: Methuen.
Hannan, E. J. and B. G. Quinn (1979). The determination of the order of an
autoregression. J. Roy. Statist. Soc. Ser. B 41, 190-195.
Harvey, A. C. (1990). Forecasting Structural Time Series Models and the Kalman
Filter. Cambridge: Cambridge University Press.
Hipel, A. W. and A. 1. McLeod (1994). Time Series Modelling of Water Resources
and Environmental Systems. Amsterdam: Elsevier.
Johnson, N. L. and S. Kotz (1970). Distributions in Statistics. Continuous
Univariate Distributions, Volume 2. New York: Wiley.
Kalman, R. E. (1960). A new approach to linear filtering and prediction problems.
Trans. ASME J. Basic. Engin. D 82, 35-45.
Karlin, S. (1966). A First Course in Stochastic Processes. New York: Academic
Press.
Kwiatkowski, D., P. C. B. Phillips, P. Schmidt, and Y. Shin (1992). Testing
the null hypothesis of stationarity against the alternative of a unit root. J.
Econometrics 54, 159-178.
Linstone, H. and M. Turoff (1975). The Delphi Method. Reading: Addison-Wesley.
Ljung, G. and G. E. P. Box (1978). On a measure of lack of fit in time series.
Biometrika 65, 297-303.
Ljung, G. M. (1982). The likelihood function for a stationary Gaussian auto-
regressive moving average process with missing observations. Biometrika 69,
265-268.
Liitkepohl, H. (1993). Introduction to Multiple Time Series Analysis. Berlin:
Spinger-Verlag.
Mann, H. B. and A. Wald (1943). On the statistical tr eatment of linear stochastic
difference equations. Econometrica 11, 173-220.
Marbach, G., C. Mazziotta, and A. Rizzi (1991). Le P. evisioni. Fondamenti Logici
e Basi Statistiche. Milano: ETAS Libri.
Martelli, A. (1988). Scenari e Strategie: Analisi del Futuro e Condotte d'Impresa.
Milano: ETAS Libri.
Martin, R. D. (1980). Robust estimation of autoregressive models. In D. R. Bril-
linger and G. C. Tiao (Eds.), Directions in Time Series. Hayward: Institute of
Mathematical Statistics.
Mc Culloch, R. E. and R. S. Tsay (1994). Bayesian analysis of autoregressive time
series via the Gibbs sampler. J. Time Ser. Anal. 15, 235-250.
Pefia, D. and J. Rodriguez (2002). A powerful portmanteau test of lack of fit for
time series. J. Amer. Statist. Ass 97, 601-610.
Piccinato, L. (1996). Metodi per le Decisioni Statistiche. Milano: Springer-Verlag
Italia.
318 Bibliografia

Piccolo, D. (1974). Analisi delle serie temporali. I processi AR(2). Portici: Cen-
tro di Specializzazione e Ricerche Economico-Agrarie per il Mezzogiorno della
Universita di Napoli.
Piccolo, D. (1990). Introduzione all'Analisi delle Serie Storiche. Roma: La Nuova
Italia Scientifica.
Priestley, M. B. (1981). Spectral Analysis and Time Series. London: Academic
Press.
Priestley, M. B. (1988). Non Linear and Non Stationary Time Series Analysis.
London: Academic Press.
Pukkila, T. M. (1984). On the distributions of differences between the estimated
autocorrelations and the partial autocorrelations at the same lag. Commun.
Statist. Simula. Compo 13, 463-488.
Reinsel, G. C. (1997). Elements of Multivariate Time Series Analysis. New York:
Springer-Verlag.
Said, S. E. and D. A. Dickey (1985). Hypothesis testing in ARIMA(p,l,q) models.
J. Amer. Statist. Ass. 80, 369-374.
Schwarz, G. (1978). Estimating the dimension of a model. Ann. Statist. 6, 461-464.
Sharda, R. and R. B. Patil (1990). Neural networks as forecasting experts: an
empirical test. In Proc. IJCNN 1989 Joint Conference on Neural Networks,
Washington.
Shumway, R. H. and D. S. Stoffer (2000). Time Series Analysis and Its Applications.
New York: Springer-Verlag.
Taniguchi, M. and Y. Kakizawa (2000). Asymptotic Theory of Statistical Inference
for Time Series. New York: Springer-Verlag.
Tong, H. (1990). Non Linear Time Series. A Dynamical System Approach. Oxford:
Clarendon Press.
Tong, H. and R. L. Smith (1992). Royal Statistical Society Meeting on Chaos:
introduction. J. Roy. Statist. Soc. Ser B 54, 301-302.
Tsay, R. S. (1988). Outliers, level shifts and variance changes. J. Forecasting 7,
1-20.
Vere-Jones, D. (1995). Forecasting earthquakes and earthquake risk. Int. J.
Forecast. 11, 503-538.
Weigend, A. S. and N. A. Gershenfeld (Eds.) (1994). Time Series Prediction:
Forecasting the Future and Understanding the Past. Reading: Addison- Wesley.
Young, A. H. (1965). Estimating trading-day variation in monthly economic time
series. Technical Paper 12, Bureau of Census, Washington.
Indice

Algoritmi genetici, 222, 241 Coefficiente di determinazione R 2 , 109,


Allineamento, 180 202
Analisi complessa Coerenz~ 105, 109
richiami, 299 stima della, 180
Analisi di intervento, 236 Condizioni di mixing, 46
Approccio normativo, 4 Consistenza, 144
Autocorrelazione, 46, 74 Correlazione incrociata, 103
corner method, 192 stima della, 179
definita positiva, 74 Correlogramma, 76
distribuzione stimatori, 160 Covarianza incrociata, 102
estesa, 192 rappresentazione spettrale, 104
inversa, 192 stima della, 179
parziale, 120, 124 Cross-correlogramma, 103
stima della, 152 Cumulanti, 36, 37
Autocovarianza, 46, 74
definita positiva, 74 Daniell
distribuzione stimatori, 160 stimatore di, 170
rappresentazione spettrale, 81 Dati anomali, 237
ritardo massimo di stima, 154 Dati mancanti, 241
stima della, 152 Delphi, 5
Destagionalizzazione, 99, 218
Barriera, 57 metodi Census, 225
Bartlett metodi model-based, 226
formula di, 156 metodo TRAMO-SEATS, 226
stimatore di, 168 metodo X-11-ARIMA, 225
Bartlett-Priestley Dickeye Fuller, 212
stimatore di, 172 Dirac
Box e Cox funzione delta di, 85
trasformazione di, 214 Dirichlet
nucleo di, 170
Cambio di livello, 234 Dissomiglianza
Campione casuale, 144 indice di, 288
Chi quadrato, 43 Distribuzione di probabilita
320 Indice

di Poisson, 136 simmetrico, 91


esponenziale, 136, 246 Finestra
gamma, 136, 247 chiusura della, 175
normale multipla, 38 di intervallo, 167
cumulanti, 43 gradi di Iiberta equivalenti, 175
distribuz. condizionate, 39 larghezza di banda, 169
formula di Isserlis, 43 spettrale, 167
marginale , 39 Fisher
standardizzata, 39 informazione di, 184
Dominio Formule di ortogonalita
frequenziale, 73, 78 esponenziali complesse, 301
temporale, 73 seni e coseni, 301
Dualita, 128 Fourier
Durbin analisi di, 73, 78
metodo iterativo di, 126, 198 frequenze di, 89
integrale di, 311
Effetti di calendario, 236 spettro di, 308
Entropia, 289 trasformata di, 88, 89, 164, 310
Equazione Funzione
allc differenze finite, 117 di trasferimento, 92, 108, 113
di Chapman e Kolmogorov, 53 generatrice
di misura, 275 dei cumulanti, 36
di transizione, 275 dei momenti, 36
di Yule e Walker, 117, 124, 184 dei pesi, 113
normale, 183 delle autocovarianze, 89
Ergodicita, 144 indicatrice, 243
in autocovarianza, 157
in cross-covarianza, 179 Hawkes
in media, 149 modello di, 292
Esponenziale complessa, 300 Hilbert
Eteroschedasticita condizionata, 215 spazio di, 73
Eulero
formule di, 300 Identificazione
come approssimazione, 191
Fejer come scoperta, 191
nucleo di, 150, 168, 305 criteri automatici, 193
Filtro lineare, 90 AIC, 194
a media mobile, 223 BIC, 198
alle differenze, 98 FPE, 193
dodicesime, 220 Hannan e Quinn, 198
alle quasi differenze, 101 Schwarz, 197
fase, 93 Incertezza, 3
fisicamente realizzabile, 90 Indicatori anticipatori, 291
guadagno, 93 Inferenza parametrica, 143
input, 91 Innovazioni, 116, 256
invariante, 90 Integrale stocastico, 80
invertibile, 98 Interpolatore lineare, 241
output, 91 Intervallo di confidenza, 143
rappresentazione spettrale, 93 per l'autocorrelazione, 160
Indice 321

per la densita spettrale, 176 identificazione, 189, 190


stima dei parametri, 190, 201
Kalman verifica, 190, 201
filtro di, 241, 274 integrati, 209
guadagno di, 278 modello airline, 222
smoothing, 284 serie non stazionarie, 207
Kolmogorov e Smirnov, 205 serie stagionali, 218
Kwiatkowski, Phillips, Schmidt e Shin, spazio degli stati, 274
213 ARIMA, 281
strutturali, 279
Macchie solari, 178, 200, 265 stagionali moltiplicativi, 220
Mann eWald, 184 Modelli strutturali, 267
Markov a livello locale, 272
catene di, 48, 51 a trend lineare locale, 273
ergodiche, 60 di base BSM, 273
irriducibili, 60 forma ridotta, 273
previsione, 287 Multinomiale, 244
stima delle probabilita, 243
distribuz. di equilibrio, 61 N umero complesso
processo di, 47, 275 argomento, 300
proprieta di, 47 coordinate polari, 300
stato ricorrente, 59 forma algebrica, 300
stato transitorio, 59 forma esponenziale, 300
Matrice modulo, 300
definita positiva, 37
della densita spettrale, 106 Operatore lineare, 95
di cross-correlazione, 107 anticipo, 95
di cross-covarianza, 106 differenza, 95
di dispersione, 37 inverso, 97
di Toeplitz, 75 ritardo, 95
Hermitiana, 106 Outlier, 237
stocastica, 52 additivo, 238
Media innovativo, 238
condizionata, 254
di insieme, 145 Parsimonia, 193, 207
stima della, 148 Passeggeri linee aeree internazionali,
distribuzione asintotica, 151 222, 265
stima di massima verosimiglianza, Passeggiata aleatoria, 56
151 Periodogramma, 163
temporale, 145 distribuzione del, 165
Modelli caotici, 10 troncato, 170
Modelli interpretativi, 188 Polinomio trigonometrico, 219
Modelli rappresentativi, 13, 187 Previsione
classe ARCH, 216 catene di Markov, 287
classe CARCH, 218 combinata, 284
a funzione di trasferimento, 227 combinazione lineare convessa, 285
a soglia (threshold), 234 condizionale, 4
classe ARIMA, 189, 209 errore di, 13
classe ARMA, 189 lineare, 254
322 Indice

livellamento esponenziale, 264, 268 intensita, 135


metodi adattivi, 267 intervallo tra due eventi, 135
metodi di Holt e Winters, 269 numero di eventi, 136
modelli ARIMA, 257 previsione, 289
pesi pi greco, 260 stima, 246
pesi psi, 260 tempo di attesa, 136
modelli strutturali, 271 di Poisson non omogeneo, 137
origine, 253 test di omogeneita, 247
orizzonte, 253 di punti, 49, 133
processi di punti, 289 autocovarianza, 139
secondo Kolmogorov, 255 densita degli eventi, 134
secondo Wiener, 255 densita di covarianza, 139
spazio degli stati, 274 densita spettrale, 139
teoria della, 253 intensita, 134
univariata, multivariata, causale, 5 intensita condizionata, 291
varianza di, 256 previsione, 289
Previsione statistica, 6 rischio, 290
glob ale , 10 di rinnovo, 134
metodo, 8 lineare, 111
oggetto, 6 autocovarianza, 113
puntuale, 12 densita spettrale, 113
scopo, 7 invertibile, 114, 128, 129
Previsore, 13 multivariato, 106
costo di un, 13 non markoviano, 67
di combinazione lineare, 257 pseudo-periodico, 124
ottimo, 254 rappresentazione spettrale, 80
Principio di incertezza, 175 realizzazione di un, 33
Processo aleatorio rumore bianco, 86, 160
a parametro continuo, 33 stazionario, 45, 71
a parametro discreto, 33 Punto di troncamento, 167
a somma mobile, 114, 128
del primo ordine, 128 Radici unitarie, 209, 211
del secondo ordine, 129 Rendimenti, 215
previsione, 257 Reti neurali, 9
stima dei parametri, 181 Ritardo 0 lag, 76
autoregressivo, 115 Robustezza, 6, 238
del primo ordine, 118 Rumore, 227
del secondo ordine, 121
previsione, 257 Scenari, 4, 5
stazionarieta, 116 Simulated annealing, 222
stima dei parametri, 181 Sinusoide
autoregressivo a somma mobile, 115, ampiezza, 299
130 fase, 299
di ordine (1,1), 130 frequenza, 299
previsione, 257 armonica, 306
stima dei parametri, 181 fondamentale, 306
bivariato, 102 Sistema lineare bivariato, 107
circolare, 78 Software, 313
di Poisson, 135 Spettro
Indice 323

densita cospettrale, 104 di bianchezza, 203


stima della, 179 nel dominio frequenziale, 205
densita di quadratura, 104 KPSS, 213
stima della, 179 Ljung e Box, 204
densita spettrale, 82 portmanteau, 204, 229
stima della, 163 probabilita delle catene di Markov,
densita spettrale incrociata, 104 245
densita spettrale normalizzata, 86 Trend, 72, 100
evolutivo, 234 in varianza, 214
misura spettrale, 82 stocastico, 210
a salti, 82 Trigonometria
assolutamente continua, 82 richiami, 299
mista, 84 Tukey
stimatori consistenti, 166 stimatore di, 171
distorsione, 173 Tukey-Hamming
distribuzione, 175 stimatore di, 171
varianza, 173 Tukey-Hanning
Stazionarieta, 44 stimatore di, 171

Teoria dell'affidabilita, 137 Urti, 116


Teoria delle code, 137
Teoria delle decisioni, 13 Validazione, 6
Terremoti, 290, 292 Volatilita, 218
sciame sismico, 292
Test, 143 What."if,4
ADF, 213 Wold
Box e Pierce, 204 decomposizione di, 111