Identificazione Parametrica Di Modelli Econometrici

UNIVERSITA POLITECNICA DELLE MARCHE
FACOLTA DI INGEGNERIA
Corso di Laurea triennale in ingegneria gestionale

Tecniche di identificazione per lindividuazione di modelli
econometrici
Identification techniques for detection of econometric
models
Relatore: Chiar.mo
Tesi di Laurea di:
Prof. Andrea Monteri
Andrea Tamburri
Correlatore:
Prof.ssa Alessandra Micozzi
A.A. 2015/2016
Tecniche di identificazione per lindividuazione di modelli econometrici
Indice
1. Serie Storiche viste come Processi Stocastici
1.1.Definizioni di un Processo Stocastico.8

1.2.Stazionariet di un Processo Stocastico.10
1.3.Ergodicit...11
2. Modelli lineari
14
2.1 Modelli lineari per Serie Storiche..14

2.2 Modelli lineari per Processi Stocastici...17
3. Identificazione parametrica per Processi Stocastici
20
3.1.Dati.20
3.2.Famiglia di modelli21
3.3.Scelta del modello ottimo..23
3.4.Validazione del modello28
4. Identificazione mediante reti neurali artificiali
33
4.1.Processi non lineari. ..33

4.2.Le Reti Neurali Artificiali..35
4.3.Costruzione di una Rete Neurale38
4.4.Apprendimento di una Rete Neurale..39
4.5.Generalizzazione del modello45
5. Presentazione e analisi dei dati
46
5.1.Le Serie Storiche finanziarie.46
5.2.Lindice Nasdaq-100......49
5.3.Analisi preliminare.50
5.4.Identificazione degli Input.54
6. Identificazione dellIndice Nasdaq-100
73
6.1.Modello ARMAX..75
6.2.Modello Rete Neurale80
7. Confronto fra modelli e conclusioni
87
PROCESSI STOCASTICI
SERIE STORICHE
IDENTIFICAZIONE
PARAMETRICA DI
PROCESSI STOCASTICI
MODELLI
WHITE-BOX
MODELLI
GREY-BOX
MODELLI
BLACK-BOX
SISTEMI NON
LINEARI
SISTEMI LINEARI
LTI
LTV
NLTI
NLTV
IDENTIFICAZIONE
MODELLI ARMAX
IDENTIFICAZIONE
DI RETI NEURALI
VALIDAZIONE
DEI MODELLI
PREVISIONE
Introduzione
Un processo stocastico la versione probabilistica del concetto di sistema
dinamico: una forma di rappresentazione di una grandezza che varia nel tempo
in modo casuale e con certe caratteristiche. Facendo osservazioni ripetute dello
stesso processo, si ottengono diverse realizzazioni nel tempo.
Le serie storiche sono particolari realizzazioni di processi stocastici che vengono
studiate sia per interpretare un fenomeno, individuando componenti di trend, di
ciclicit, di stagionalit e/o di accidentalit, sia per prevedere il suo andamento
futuro.
Una caratteristica fondamentale di tali processi la dipendenza tra osservazioni
successive che viene sfruttata, attraverso luso di particolari modelli, per
prevedere landamento futuro delle serie studiate in modo da controllare la
casualit e lincertezza (insite nelle variabili aleatorie) a proprio vantaggio.
L'identificazione dei sistemi dinamici proprio quella scienza che si prefigge
l'obiettivo di stimare modelli di sistemi a partire da dati sperimentali. Numerosi
sistemi infatti sono difficili da modellare tramite le leggi della fisica o troppo
complicati: per questo motivo l'identificazione cerca di trovare un modello che si
adegui alle misure effettuate.
In particolare ci occuperemo dellidentificazione parametrica black-box: non
conosciamo nulla su possibili leggi fisiche che spiegano il fenomeno da
identificare, per cui supporremo un modello con un certo numero di parametri da
stimare.
Nel nostro caso ci occuperemo delle serie storiche finanziarie, di loro natura
imprevedibili e quindi di difficile identificazione, essendo processi di natura non
lineare.
Quelli maggiormente utilizzati in ambito econometrico per le serie finanziarie

sono i modelli autoregressivi a eteroschedasticit condizionata, detti ARCH
(AutoRegressive Conditional Heteroskedasticy).
Nel nostro caso, tuttavia, ci occuperemo dellidentificazione parametrica
dellindice Nasdaq-100, visto come processo stocastico che riceve in input i titoli
azionari di Apple, Amazon, Google, Facebook e Microsoft (i principali titoli
dellindice), mediante modelli lineari ARMAX, consolidati tra gli economisti e
computazionalmente poco onerosi, ma incapaci di cogliere la non linearit dei
processi, e mediante Reti Neurali Artificiali, create proprio per modellare processi
non lineari, ma computazionalmente molto onerose.
Al fine di avere una maggiore comprensione degli strumenti trattati
approfondiremo vari aspetti: le propriet di base dei processi stocastici, la struttura
dei modelli lineari e non lineari, la stima dei parametri, la validazione e la scelta
del modello migliore.
Infine mostreremo i risultati delle tecniche utilizzate e confronteremo i due
modelli per capire quale tra i due migliore nellidentificazione del processo.
Capitolo 1
Serie Storiche viste come Processi Stocastici

Definiamo la serie storica { }=1 come un insieme di variabili casuali ordinate
rispetto al tempo che esprime la dinamica di un certo fenomeno nel tempo. Il
fenomeno pu essere studiato attraverso lanalisi della serie storica al fine di
individuare il processo generatore di essa.
Le serie storiche possono fondamentalmente essere divise in due tipi
(conseguenti a due approcci diversi per quanto riguarda lanalisi):
deterministico: se i valori della variabile possono essere esattamente determinati
sulla base dei valori precedenti;
stocastico: se i valori delle variabili possono essere determinati sulla base dei
valori precedenti solo in misura parziale.
L'approccio classico all'analisi delle serie storiche assume un modello del tipo:
= () +
Il valore del fenomeno al tempo t risulta dalla composizione di una sequenza
deterministica, f(t), detta parte sistematica, e di una sequenza di variabili aleatorie,
detta parte stocastica, indipendenti e identicamente distribuite con
. . ~(0, 2 )
Si ritiene, inoltre, che la parte sistematica sia la risultante di tre componenti non
direttamente osservabili:
il trend (o componente tendenziale) la tendenza di fondo del fenomeno

considerato, spesso espressa mediante una funzione polinomiale di grado
non troppo elevato;
il ciclo (o componente congiunturale) l'alternanza di fluttuazioni di segno

diverso intorno al trend;
la stagionalit (o componente stagionale) costituita da variazioni che si

riscontrano con analoga intensit negli stessi periodi di anno in anno.
Figura 1.1 Esempio di serie storica e sua scomposizione in componente

tendenziale, stagionale e residua
L'approccio moderno, invece, ipotizza che la parte sistematica manchi o sia stata
eliminata dai dati e si limita a studiare la parte stocastica. In questo caso un
processo stocastico a variabili correlate che dipendono dai valori passati della e
dagli errori passati di .
1.1. Definizioni di un Processo Stocastico

Si pu definire un processo stocastico come una successione di variabili aleatorie.
Quindi ciascun elemento di un processo stocastico ha una sua funzione di
densit ( ) nonch un suo valore atteso e una sua varianza .
Al contrario dei modelli cross-section (costituiti da variabili aleatorie indipendenti

tra di loro),
il caso delle serie storiche presenta una differenza concettuale di base che richiede
una estensione dei concetti probabilistici. In un contesto di serie storiche, infatti,
la naturale tendenza di molti fenomeni ad evolversi in modo pi o meno regolare
porta a pensare che il dato rilevato in un dato istante t sia pi simile a quello
rilevato allistante 1piuttosto che in epoche distanti; si pu dire, in un certo
senso, che la serie storica che analizziamo ha memoria di s. Questa caratteristica
generalmente indicata col nome di persistenza. ([1], R. Lucchetti, Appunti di
analisi delle serie storiche, 2008)
Al fine di modellare la persistenza sono state definite ulteriori funzioni
probabilistiche utili allanalisi di serie storiche.
Funzione di autocovarianza:
,+ = ( , + ) = [( )(+ + )]
chiaramente si ha che
, = ( )
Funzione di autocorrelazione globale (ACF):

,+
,+ =
+
Funzione di autocorrelazione parziale (PACF):
,+ = ( , + |1 +1 )
In pratica lautocorrelazione parziale di ordine k si calcola facendo una
regressione di su una costante e 1 +1 .
Il coefficiente associato a +1 che risulta lautocorrelazione parziale di

ordine k.
Queste quantit, se diverse da 0, costituiscono la memoria del processo, e sono
appunto lelemento che rende i processi stocastici lo strumento teorico adatto a
rappresentare serie storiche caratterizzate da persistenza. Infatti, se ,+1 0
allora si ha che
( |1 ) ( )
In particolare, nei processi lineari, si ha il caso particolare:
[ |1 ] [ ]
1.2.Stazionariet di un Processo Stocastico

Si parla di processo stocastico stazionario in due sensi: stazionariet forte (o
stretta) e stazionariet debole (o di covarianza).
Dato un processo stocastico , si ha stazionariet forte se la distribuzione
congiunta,
= ( , 1 +1 ) indipendente da t per qualsiasi k.
Questa una variabile casuale k-dimensionale con una sua distribuzione
congiunta che potrebbe dipendere da t. Si ha stazionariet forte se, per qualsiasi k
e per qualsiasi sottoinsieme di ampiezza k, la distribuzione congiunta non dipende
da t ma uguale a quella di un altro sottoinsieme di pari ampiezza. In altri termini,
quando un processo stazionario in senso forte le caratteristiche distribuzionali di
tutte le marginali rimangono costanti al passare del tempo.
Dal momento che la stazionariet forte implica condizioni sullintera distribuzione
della variabile aleatoria si fa riferimento ad una condizione meno restrittiva.
10
La stazionariet debole riguarda solo distribuzioni di ampiezza 2: si ha

stazionariet debole se tutte le variabili aleatorie, 2 = ( , 1 )hanno momenti
primi e secondi costati nel tempo.
Si ha stazionariet debole se:
[ ] = <
[ ] = 2 <
( , + ) = <
Si ha cio stazionariet debole se tutte le variabili aleatorie hanno media, varianza

e autocovarianza finite e costanti nel tempo; in particolare notiamo che
lautocovarianza funzione di k, non di t.
Bisogna notare che una definizione non implica laltra; ad esempio, un processo
pu essere stazionario in senso forte ma non possedere momenti; viceversa, la
costanza nel tempo dei momenti non implica che le varie marginali abbiano la
stessa distribuzione. Tuttavia, se un processo gaussiano dimostrabile che
stazionariet debole e forte coincidono. Data labbondanza dei processi gaussiani
nelle applicazioni, si parla comunemente di stazionariet senza aggettivi,
intendendo con essa la stazionariet debole.
1.3. Ergodicit
Un processo ergodico se, quanto pi due suoi elementi sono lontani nel tempo,
tanto meno sono correlati.
Allora:
| | < lim = 0
=0
11
Tale aspetto diventa importante non appena si passi dal processo stocastico come
variabile aleatoria alle sue realizzazioni.
In un processo ergodico la persistenza del processo debole su lunghi orizzonti e
allaumentare dellampiezza del campione aumenta in modo significativo anche
linformazione in nostro possesso.
Infatti quando si osserva la realizzazione di un processo stocastico si osserva solo
un sottoinsieme finito di una realizzazione e non si pu sapere n se un altro
sottoinsieme presenterebbe le stesse caratteristiche, n se queste sarebbero
presenti in altre realizzazioni. Se per un processo ergodico, allora
losservazione di una sua realizzazione abbastanza lunga equivalente, ai fini
inferenziali, allosservazioni di diverse sue realizzazioni.
Definita una realizzazione di ampiezza T di un processo stocastico , avremo
che, se il processo stazionario ed ergodico i momenti campionari sono stimatori
consistenti dei momenti del processo in modo da poterli utilizzare per condurre
inferenza sul processo generatore dei dati, che ignoto.
Gli equivalenti campionari dei momenti teorici sono:
media campionaria
1
=
=1
varianza campionaria
1
= ( )2
=1
autocovarianza campionaria
1
= ( )( )
12
Quindi, siccome lautocovarianza campionaria una stima consistente

dellautocovarianza, allora anche

13
Capitolo 2
Identificazione mediante modelli lineari

Un processo stocastico si dice lineare se soddisfa due condizioni:
lineare
2 costante nel tempo
{0 , 1 , 0 , , 1 } viene chiamato set informativo del periodo t-1 e

contiene tutti i dati riguardanti la realizzazione presa in esame sino al periodo t-1.
Notiamo bene che per poter soddisfare le due condizioni il processo stocastico
deve essere chiaramente stazionario.
Una seria storica pu quindi essere espressa come:
= +
=0
Dove una costante, un vettore di parametri da identificare (di cui parleremo

nel prossimo capitolo) e una variabile aleatoria.
2.1 Modelli
lineari per Serie Storiche
Le serie storiche = () sono comunemente viste come output di un processo

LTI filtrando in ingresso un white noise a media nulla e varianza 2 .
Figura 2.1Schema a blocchi per serie storica
14
Si soliti classificare tali processi stocastici in funzione della struttura della

funzione di trasferimento W(z). inoltre dimostrabile che il processo, per essere
stazionario, deve avere i poli della W(z) tutti minori di 1.
Modelli MA(m)
Un processo MA, o Moving Average, pu essere scritto come:
() = 0 () + 1 ( 1) + + ( )
con () = .
Un processo generato in questo modo detto processo a media mobile di ordine m
in quanto il segnale y(t) la media pesata degli ultimi m + 1 campioni del rumore
bianco di ingresso ().
Utilizzando loperatore ritardo unitario tale per cui
( 1) = () 1
dove x(t) una qualsivoglia variabile aleatoria, otteniamo un polinomio nella
forma:
() = ()() () = 0 + 1 1 + +
Moltiplicando il polinomio per otteniamo la seguente funzione di
trasferimento per il processo:
0 + 1 1 + +
Dal momento in cui la funzione di trasferimento ha tutti i poli nellorigine il

() = () =
processo stazionario, con media nulla (in quanto il white noise ha media nulla) e
varianza costante e indipendente dal tempo.
Modelli AR(n)
Un processo cos generato detto processo autoregressivo di ordine n (o Auto
Regressive, AR(n)).
15
In questo caso il processo pu essere descritto come:

() + 1 ( 1) + + ( ) = ()
Utilizzando nuovamente loperatore ritardo (o lag) 1 otteniamo:
()() = () () = 1 + 1 1 + +
1
La () si ottiene moltiplicando il polinomio () per e diventa:

() =
+ 1 1 + +
Affinch il processo sia stazionario le radici del polinomio caratteristico devono

essere di modulo minore di uno e quindi otterremo media e varianza finite e
indipendenti da t.
Modelli ARMA(n,m)
Un processo generato in questo modo detto processo auto-regressivo a media
mobile di ordine (n,m) (o auto regressive moving average, ARMA(n,m), in quanto
luscita contiene una componente auto-regressiva ed una a media mobile.
Esso pu essere scritto come:
() + 1 ( 1) + + ( ) = 0 () + 1 ( 1) + + ( )
Utilizzando anche in questo caso loperatore ritardo e modellando le equazioni
polinomiali come fatto in precedenza per otteniamo, infine, una forma del tipo:
()() = ()()
con
() =
() 0 + 1 1 + +
=
()
+ 1 1 + +
16
Anche in questo caso, per fare in modo che il processo sia stabile, occorre che le
radici del polinomio A(z) siano tutte di modulo inferiore a 1.
2.2 Modelli
lineari per Processi Stocastici
Volendo generalizzare i modelli non solo alle serie storiche, ma a tutti i processi
stocastici, definiamo, sulla base dei modelli polinomiali precedentemente ricavati
attraverso loperatore di ritardo 1 i modelli lineari tempo-invarianti (LTI) come:
() = ()() + ()()
In pratica abbiamo esteso il concetto di modello lineare non solo alle serie
storiche, ma a tutti i processi stocastici (caratterizzati quindi da persistenza) che
possono anche avere degli ingressi deterministici u(t), dove G(z) e W(z) sono le
opportune funzioni di trasferimento che descrivono la dinamica del processo y(t)
che hanno in ingresso, rispettivamente, ingressi deterministici e un white noise. In
particolare, la componente G(z)u(t) modella la parte deterministica del processo,
mentre
W(z)(t) modella quella stocastica (che fino ad ora avevamo chiamato serie
storica).
Figura 2.2 Schema a blocchi di un processo stocastico
17
Modelli ARX (na, nb)

Questa classe di modelli, chiamati ARX (Auto Regressive with eXogenous input)
fa riferimento a quella dei modelli AR riguardanti la serie storica con laggiunta di
un nodo sommatore che esprime la parte deterministica del processo.
Otteniamo quindi un processo descritto da:
() + 1 ( 1) + + ( )
= 1 ( 1) + + ( ) + ()
Definendo i polinomi
() = 1 + 1 1 + +
() = 1 1 + +
otteniamo quindi
() =
()
()
() =
1
()
Possiamo notare che le due funzioni di trasferimento hanno lo stesso polinomio

caratteristico, che, come detto nel paragrafo precedente, deve avere le radici di
modulo inferiore ad 1 perch il processo sia stazionario.
Modelli ARMAX (na,nb,nc)

La classe di modelli ARMAX (Auto Regressive and Moving Average with
eXogenous input) riprende invece da quella dei modelli ARMA a cui aggiunge la
parte deterministica del processo dovuta alla presenza di ingressi deterministici.
Pu essere descritta come:
() + 1 ( 1) + + ( )
= 1 ( 1) + + () + 0 () + 1 ( 1) +
+ ( )
18
Definendo il polinomio C(z) come

() = 0 + 1 1 + +
otteniamo
() =
()
()
() =
()
()
Anche questa volta abbiamo che entrambe le funzioni di trasferimento hanno lo

stesso polinomio caratteristico A(z) che deve avere tutte le radici con modulo
inferiore ad 1 perch il processo sia stazionario.
19
Capitolo 3
Identificazione parametrica dei Processi Stocastici

Con il termine identificazione intendiamo linsieme di tecniche che consentono di
costruire modelli matematici di sistemi dinamici, a partire da misure sperimentali
(il nostro set dati).
Il nostro obbiettivo quello di applicare le tecniche di identificazione parametrica
(indicheremo con il vettore dei parametri incogniti da identificare) su un modello
lineare tempo-invariante di tipo black-box attraverso le classi di modelli citate nel
capitolo precedente, in cui il set di dati in nostro possesso e la stima dei parametri
siano utilizzati per rappresentare il comportamento ingresso-uscita del sistema
astraendo da eventuali informazioni sulle caratteristiche fisiche del sistema da
modellare .
La procedura di identificazione composta di quattro elementi principali:
DATI
FAMIGLIA DI MODELLI
SCELTA DEL MODELLO OTTIMO
VALIDAZIONE DEL MODELLO
3.1 Dati
I dati sono linsieme delle misure e effettuate sul sistema, in base alle quali si
desidera stimare un modello del sistema stesso.
Vengono raggruppati in quello che precedentemente avevamo chiamato set
informativo avente la seguente forma.
{(0), , ( 1), (0), , ( 1), (0), , ( 1)}
20
3.2 Famiglia di modelli

La famiglia di modelli che prenderemo in considerazione , come
precedentemente accennato, quella dei modelli LTI black-box. La classe di
modelli pu essere rappresentata tramite una struttura che permette di descrivere
la dinamica ingresso-uscita del sistema e quella dellerrore di identificazione con
un numero finito di valori numerici, detti appunto parametri. Nel nostro caso
faremo riferimento ai modelli citati nel Capitolo 2.
In particolare, riferendoci solo ai casi generali dei modelli ARX e ARMAX,
definiamo le funzioni di trasferimento, in funzione, oltre che delloperatore
ritardo, anche dei parametri da identificare, raccolti nel vettore .
Quindi
() = (, )
() = (, )
Per i modelli ARX( , ) ha le seguente forma:

= [1 1 ]
Mentre per i modelli di tipo ARMAX:
= [1 1 1 ]
Per una valutazione a priori dellordine dei modelli si fa riferimento, per quanto
riguarda lordine delle parti autoregressiva e a media mobile, ai diagrammi degli
ACF e PACF. Le funzioni di autocorrelazione globale e parziale stimate misurano
infatti la persistenza della serie con il vantaggio di rendere confrontabili diversi
modelli poich non dipendono dalla scala del processo essendo normalizzate.
Facendo inferenza su queste stime che, se il processo generatore stazionario ed
ergodico, sono consistenti, possibile quindi valutare a priori lordine del
modello.
21
Figura 3.1 Correlogrammi di un processo AR(1)
Figura 3.2 Correlogrammi di un processo MA(1)
22
Figura 3.3 Correlogrammi di un processo ARMA(1,1)

Le linee tratteggiate indicano lintervallo di accettazione al 95% del test per
lipotesi nulla = 0; in pratica, le autocorrelazioni fuori banda sono
statisticamene significative.
3.3 Scelta del modello ottimo

Una volta scelta la classe di modelli, occorre definire un criterio per selezionare il
miglior modello. Lidea di base dellapproccio predittivo determina un criterio
specifico di bont del modello confrontano le uscite y(t) del sistema incognito con
quelle (| 1)fornite dal modello, a parit di ingresso u(t).
23
Figura 3.4 Schema a blocchi dellapproccio predittivo

1
()
() = (| 1) = [1
Con
] () + () ( 1)
()
che la stima ottima del predittore a minimo errore quadratico medio individuata
dalla media attesa condizionale.
La differenza (t,) tra luscita del predittore e luscita del sistema viene detta
errore di predizione e misura laccuratezza con la quale, sulla base del modello
(), si pu predire il comportameto del sistema:
(, ) = () (| 1) =
1
()
()
()
()
I metodi di identificazione parametrica basati sullerrore di predizione

minimizzano tipicamente un funzionale di costo
((, )) = (, 1 )
Il valore ottimo sar quindi dato da:
= ( (, 1 ))
24
Chiaramente otterremo stime consistenti dei parametri che minimizzeranno la

funzione di costo sotto ipotesi di stazionariet di ergodicit del processo preso in
esame.
Minimizzazione dei minimi quadrati per modelli ARX

Nel caso dei modelli ARX la stima di predizione assume la forma:
(, ) = ()() ()()
Una propriet importante dei modelli ARX che lerrore di predizione una
funzione lineare dei parametri. Infatti, ricordando la definizione del vettore dei
parametri e definendo il regressore
() = [( 1) ( ) ( 1) ( )]
allora
(| 1) = ()
Otteniamo che lerrore di predizione della forma
(, ) = () ()
In questo caso si usa il criterio dei minimi quadrati che ha come funzionale di
costo il quadrato dellerrore di predizione (chiamato anche MSE) con
1
((, )) = (, 1 ) =
(() () )2
2
=1
che andr minimizzato per ottenere la stima ottima dei parametri.
La stima ottima dei parametri si ottiene quindi
=1
=1
1
1
= ( ()() )1 ()()
25
Chiamando la matrice =1 ()() =S(T) occorre che questa matrice sia

invertibile affinch si ottenga ununica soluzione ottima della stima parametrica.
Si hanno quindi due possibili casi di non identificabilit dei parametri:
Identificabilit strutturale:
se il sistema da identificare ha complessit minore di quella dei modelli scelti si

ha una ridondanza dei parametri e, indipendentemente da come siano raccolti i
dati, la matrice S(T) risulter non invertibile. Occorre progettare lesperimento di
raccolta dati in modo da raccogliere quanta pi informazione possibile sui
parametri e/o limitare il numero degli stessi. Questa matrice pu essere utilizzata
per verificare a priori lordine del modello: se questa vicina ad essere singolare,
significa che, in qualche direzione dello spazio dei regressori, () circa nullo e
quindi c una ridondanza nel vettore dei parametri ed opportuno ridurre
lordine del modello.
Identificabilit sperimentale:
Quando la qualit dei dati a causare la non invertibilit della matrice si parla di
mancanza di identificabilit sperimentale. Se lingresso u(t) persistentemente
eccitante di ordine allora la matrice S(T) sar invertibile. Il segnale dovr
quindi essere persistentemente 1 di ordine elevato (un white noise un
segnale persistentemente eccitante di qualunque ordine).
1.
Dato in ingresso u(t) si dice persistentemente eccitante di ordine n se, considerando

la matrice
()
Il segnale u(t) si dice persistentemente eccitante di ordine n se la matrice non

singolare.
26
Metodo di massima verosimiglianza per modelli ARMAX.

In questo caso le premesse sono identiche a quelle per un modello ARX, ma il
vettore dei regressori ha la forma:
(, ) = [( 1) ( ) ( 1) ( ) ( 1) (
)]
Quindi
(, ) = () (, )
Anche in questo caso si definisce la funzione di costo come la somma degli errori
di predizione al quadrato come:
1
((, )) = (, 1 ) =
(() (, ) )2
2
=1
Si noti che lo pseudo-regressore dipende dai campioni passati dellerrore di

predizione ( 1) ( ) e quindi del vettore incognito dei parametri che
si sta cercando di stimare. Per questo motivo si dice che nel caso di modelli
ARMAX lerrore si ottiene tramite una regressione pseudo-lineare (o, in altre
parole (, ) una funzione non lineare di .
La funzione di costo J non una forma quadratica nei parametri (come nel caso
ARX) quindi non si dispone di una formula esplicita per determinare il punto di
minimo di J allora si ricorre ad un algoritmo iterativo di ricerca del punto di
minimo. Lalgoritmo per la ricerca del punto di minimo approssima ((, )) con
una funzione quadratica () in un intorno di ,poi calcolo il punto di minimo
+1 () e itera il procedimento.
27
Dove:
+1 = += ( ()() )
=1
()()
=1
con () = ()
Affinch lalgoritmo converga alla soluzione ottima necessario che la matrice
() = (=1 ()() )1 sia non singolare e quindi non si devono presentare,
anche in questo caso, problemi di identificabilit strutturale e sperimentale gi
discussi in precedenza.
3.4 Validazione del modello

Una volta che un modello stato identificato, necessario validarlo, cio
verificare se esso coerente con le informazioni disponibili sul sistema
() ai dati (la bont di
Il valore ((, )) fornisce una misura dell aderenza di
un modello identificato si valuta in base alla sua capacit di riprodurre i dati
generati dal sistema incognito), ma non una misura assoluta, in quanto:
((, )) dipende dai soli dati disponibili e, dunque, dal particolare

esperimento di raccolta dati effettuato ( un criterio non oggettivo),
((, )) diminuisce al crescere della complessit del modello.
Fino ad un certo aumento del numero di parametri la diminuzione de costo

significativa perch dovuta ad un modello pi adatto a spiegare i dati. Viceversa,
per valori pi alti il costo diminuisce solo perch i nuovi parametri consentono di
riprodurre anche la realizzazione del rumore presente sui dati (fenomeno detto
overfit o sovraparametrizzazione). Ovviamente questo contributo del tutto
inutile ai fini dellidentificazione del sistema dinamico.
28
Si utilizzano i cosiddetti criteri di informazione. Il metodo consiste nellassociare

una penalit a ciascun parametro, in modo che il costo finale aumenti al crescere
dellordine del modello in presenza di overfit (laumento di parametri non
consente pi una diminuzione del costo significativo, per cui il costo aumenta in
quanto la parte che rappresenta laumento di parametri pesa pi della maggiore
aderenza del predittore).
In particolare:
((, )) = (, 1 )(1 + ())
con = + +
I criteri da noi utilizzati, che dipendono dalla forma () e dal numero di
parametri d, sono:
AIC, Criterio di Akaike, dove

() =
FPE, Final Prediction Error, dove

() =
Figura 3.4 Andamento della funzione di costo con laggiunta di un criterio di

informazione
29
Nella nostra analisi useremo anche lindice di FIT:

= {1
1
2
=1(() ())
dove
=1
=1
1
1
= (() () )2 = (() (, )()
la funzione di costo per lerrore di predizione in simulazione (caso limite per la

predizione in k= passi avanti) che un requisito molto pi stringente di una
predizione (con k=1 abbiamo (| 1)) poich non si utilizza la conoscenza dei
valori passati della y(t), ma viene e calcolata simulando il modello identificato
G(z) deterministico con lingresso u(t).
Un FIT del 100% denota una perfetta riproduzione in simulazione dei dati da
parte del modello (e corrisponde quindi al caso ideale in cui i dati sono stati
generati proprio dalla funzione di trasferimento identificata G(z)).
Analisi residuale
I residui (, )rappresentano quella parte dei dati che il modello non in grado di
riprodurre, per cui valutare le loro propriet statistiche pu fornire una utile
indicazione sulla qualit del modello. Prendendo una stima della funzione di
covarianza incrociata fra ed u, e della funzione di autocovarianza dei residui
entrambe queste quantit devono essere piccole, per i seguenti motivi:
Il residuo di predizione non deve dipendere dal particolare set di dati

impiegato. In particolare, non deve essere correlato con lingresso,
altrimenti la qualit del modello potrebbe cambiare con ingressi differenti.
30
Se c dipendenza tra e u, allora c un contributo sulluscita y che

deriva dallingresso u e che non stato spiegato dal modello identificato.
Quindi il modello pu essere migliorato.
Se i residui di predizione sono tra loro correlati (e quindi vi persistenza),

allora una parte di (t) avrebbe potuto essere prevista sulla base dei dati
disponibili. Anche in questo caso quindi il modello pu essere migliorato.
A tal fine si usano i correlogrammi ACF PACF e di cross-correlazione per i

residui che, per una corretta identificazione del modello, devono identificare un
processo di tipo white noise (che per lappunto un processo completamente
scorrelato con persistenza nulla). Se dovesse risultare della persistenza e/o della
cross-correlazione dei residui di predizione il modello identificato dovr essere
scartato in quanto non in grado di spiegare la totalit del processo stocastico.
Cross-validazione
Una tipica misura della qualit del modello identificato data dalla capacit di
riprodurre set di dati differenti da quello usato per la stima dei parametri. Infatti,
un modello non viene identificato per riprodurre i dati utilizzati nella procedura di
identificazione, ma perch sia rappresentativo del comportamento del sistema in
diverse condizioni di funzionamento.
In primo luogo si suddivide il set informativo in due sottoinsiemi:
11 = {1 (0), , 1 ( 1), 1 (0), , 1 ( 1), 1 (0), , 1 ( 1)}
Set di identificazione
21 = {2 (0), , 2 ( 1), 2 (0), , 2 ( 1), 2 (0), , 2 ( 1)}
Set di validazione
31
Il set di identificazione (o training set) viene utilizzato per la stima dei parametri,
mentre il secondo set (validation set) viene usato per la validazione attraverso le
funzioni di costo e i criteri dinformazione sopra citati e si scelgono i modelli con
gli indici pi performanti.
Anche lanalisi residuale viene effettuata sul set di validazione in modo da evitare
problemi di sovraparametrizzazione: si valuta la bianchezza dellerrore di
predizione e si scartano i modelli per i quali si ha un elevato peggioramento della
bianchezza dellerrore di predizione.
32
Capitolo 4
Identificazione mediante Reti Neurali Artificiali

Negli ultimi anni, anche in campo economico-finanziario, sta suscitando notevole
interesse una nuova classe di modelli non lineari caratterizzati da unarchitettura
tesa a riprodurre il cervello umano noti come reti neuronali o pi semplicemente
reti neurali. Le reti neurali possono rappresentare un vantaggio competitivo
rispetto ai metodi tradizionali quali analisi statistica ed econometrica. Esse, infatti,
si prestano ad unampia gamma di applicazioni grazie alle loro capacit di
approssimazione universale (possono risolvere problemi non lineari che non
trovano soluzione nellapproccio tradizionale), apprendimento da osservazioni
sperimentali, classificazione e generalizzazione.
Un altro grande vantaggio risiede nel fatto che non richiedono molte assunzioni
sullassetto probabilistico (gaussianit, stazionarit, ergodicit) del processo
generatore dei dati.
Le fasi di progettazione di una rete neurale sono sostanzialmente tre:
costruzione di unarchitettura di rete neurale;
apprendimento supervisionato dei parametri della rete
generalizzazione del modello al processo generatore dei dati
4.1 Processi non lineari

Abbiamo definito un processo come persistente se
( |1 ) ( )
ci implica la non indipendenza del singolo elemento del processo dalla sua
storia.
33
Per i modelli lineari abbiamo studiato un caso particolare, e cio quello in cui
[ |1 ] [ ]
possibile che esistano degli aspetti di persistenza che non riguardano i momenti
primi del processo, ma piuttosto si ravvisano fenomeni di persistenza della
volatilit, i cosiddetti volatility clusters (detta anche eteroschedasticit) che sono
comuni nellanalisi dei rendimenti delle serie storiche finanziarie (di cui
parleremo brevemente nel prossimo capitolo). In questo caso dunque abbiamo una
situazione di persistenza nella varianza del processo:
[ |1 ] [ ]
Questa condizione permette di parlare dei processi non lineari, ossia quella classe
di processi che non rispettano le condizione imposte nel Capitolo 2 di linearit del
valore atteso e costanza nel tempo della varianza, che per via della
eteroschedasticit non sar rispettata.
Al fine di esprimere formalmente ci, si soliti scrivere il modello del processo
come combinazione dei momenti condizionati:
= + 2
dove se non lineare o 2 non costante nel tempo si avr a che fare con un
processo non lineare.
34
4.2 Le Reti Neurali Artificiali (Neural Net)

Le reti neurali artificiali nascono dalla volont di simulare artificialmente
lorganizzazione ed il funzionamento fisiologici delle strutture cerebrali umane
costituite da un grandissimo numero di cellule nervose, dette neuroni, collegate tra
loro in una complesse rete di unit interconnesse. Linput di un neurone
costituito dai segnali di uscita dei neuroni ad esso collegati. Quando il contributo
di questi ingressi supera una determinata soglia, il neurone, attraverso
unopportuna funzione di trasferimento, genera un segnale bio-elettrico che si
propaga, attraverso i pesi sintattici, ad altri neuroni.
Caratteristiche significative di questa rete sono:
il parallelismo dellelaborazione, dovuto al fatto che i neuroni elaborano

simultaneamente linformazione;
la possibilit della rete di apprendere dallesperienza.
Questultima la caratteristica fondamentale per consentirle di auto-organizzarsi,

di adattarsi alle nuove informazioni in ingresso e di estrarre dagli esempi
conosciuti i caratteri generali che stanno alla base della loro organizzazione. Una
rete neurale artificiale acquisisce questa attitudine in una opportuna fase di
apprendimento.
Architettura di una rete

Le reti neurali sono costituite da unit computazionali elementari (i neuroni) che
sono combinati secondo diverse architetture; noi tratteremo della organizzazione a
strati (rete multi layer perceptron), composte da:
linput layer, costituito da n neuroni pari al numero di input della rete (ricevono
informazioni dallesterno);
lhidden layer, composto da uno o pi strati nascosti (o intermedi) costituito da
35
m neuroni;
loutput layer, costituito da p neuroni pari al numero di output desiderati (che
rappresentano la previsione effettuata dalla rete).
Nelle reti stratificate si individuano degli strati di neuroni tali che ogni neurone
connesso con tutti quelli dello strato successivo, ma non esistono connessioni tra i
neuroni allinterno dello stesso strato, n tra neuroni di strati non adiacenti.
Inoltre, dato che i segnali viaggiano dallo strato di ingresso verso lo strato di
uscita, si parla di rete feed forward.
Figura 4.1 Architettura di una rete neurale artificiale
Modello di un neurone
Il neurone lunit fondamentale ed elemento di calcolo delle reti neurali.
Il neurone costituito da n canali di ingresso (costituiti dal vettore x) a ciascuno
dei quali associato un peso sinaptico che esprime la forza del legame tra la iesima unit di input e la j-esima unit dello strato in cui si trova il neurone preso
in considerazione.
36
Figura 4.2 Struttura di un neurone artificiale

Luscita del j-esimo neurone calcolata applicando la funzione di attivazione alla
somma pesata degli ingressi (net) con
= ( ) = ( )
=1
Dove la soglia del j-esimo neurone, che ha leffetto di abbassare il valore in

ingresso alla funzione di attivazione. Essa pu essere vista come peso 0 = di
un input costante 0 = 1
Per cui luscita del j-esimo neurone data da
= ( ) = ( )
=0
37
La funzione di attivazione quindi condiziona il legame ingresso-uscita esistente

tra input ed output, quando dai primi arriva un impulso superiore ad una soglia
che si propaga allinterno della rete.
A seconda della relazione ingresso-uscita che si vuole rappresentare (binaria,
lineare, non lineare) si possono usare diverse funzioni di attivazione:
Funzione lineare ( ) =
Funzione logistica (o sigmoide)
( )=1+
Queste sono le funzioni pi usate in ambito di identificazione di processi

economico finanziari in quanto sono crescenti, continue e differenziabili (inoltre
la funzione sigmoide molto adatta nel descrivere processi non lineari in quanto
non lineare anchessa).
4.3 Costruzione di una Rete Neurale

La costruzione della rete prevede necessariamente alcune fasi come la scelta
dellarchitettura pi adatta per lapprendimento e del meccanismo di connessione
degli input tra loro e fra questi e loutput, passando per gli strati nascosti, elementi
decisivi per le prestazioni della rete.
Occorrer poi decidere il numero di strati nascosti e il numero di neuroni da
inserire. dimostrabile che un solo strato nascosto sufficiente ad approssimare
funzioni non lineari con elevato grado di accuratezza. Tuttavia, questo approccio
38
richiede un elevato numero di neuroni, andando a limitare il processo di

apprendimento.
Risulta, quindi, essere pi efficace lutilizzo di reti con due strati nascosti,
soprattutto per previsioni su dati ad alta frequenza.
Lesperienza mostra come un numero di strati nascosti superiore a due non
produce miglioramenti nei risultati ottenuti dalla rete. In riferimento al numero dei
neuroni, va notato che un numero eccessivo di neuroni pu generare overlearning,
cio il modello si adatta troppo al processo presentato senza essere in grado di
generalizzare. Al contrario, un numero troppo basso di neuroni riduce il
potenziale di apprendimento della rete.
Per quanto riguarda, infine, la funzione di attivazione non esiste una regola
teoricamente accettabile per definire la funzione di attivazione dei vari strati.
Solitamente si adotta la stessa funzione per gli strati input, nascosto/i e output. La
funzione lineare viene in genere utilizzata per lo strato che contiene loutput della
rete neurale. Il limite rilevante della funzione lineare quello di non consentire un
fitting adeguato per serie storiche finanziarie (che analizzeremo) caratterizzate da
trend persistente. La funzione logistica, presentata precedentemente, risulta essere
particolarmente utile negli strati nascosti delle reti applicate alle serie storiche
finanziarie.
4.4 Apprendimento di una Rete Neurale

Uno dei modi pi usati per permettere ad una rete di imparare
lapprendimento supervisionato, che prevede di presentare alla rete per ogni
esempio di addestramento la corrispondente uscita desiderata.
Innanzitutto si suddivide il processo in sottoperiodi, i quali determinano lambito
di apprendimento (training set), dove la rete impara cercando di riconoscere la
39
dinamica, e di valutazione. Questultimo viene a sua volta distinto in test set (dove
si verifica ladattamento della rete) e in validation set (la rete si applica a un
insieme di dati che non ha mai potuto osservare al fine di determinarne le
prestazioni).
I pesi solitamente vengono inizializzati con valori casuali allinizio
delladdestramento.
Poi si cominciano a presentare, uno alla volta, gli esempi costituenti il training set.
Per ogni esempio presentato si calcola lerrore commesso dalla rete, cio la
differenza tra luscita desiderata e luscita effettiva della rete che viene usato per
aggiustare i pesi. Il processo viene di solito ripetuto ripresentando alla rete, in
ordine casuale, tutti gli esempi del training set finch lerrore commesso su tutto il
training set risulta inferiore ad una soglia prestabilita. Dopo laddestramento la
rete viene testata controllandone il comportamento sul test set.
Indicatori dellerrore di previsione
Definiamo dei criteri di arresto opportuni per lapprendimento mediante training
set al fine di evitare loverlearning, dovuto ad uneccessiva iterazione
dellalgoritmo di apprendimento utilizzato, che va ad intaccare la capacit di
generalizzazione del modello. Si valutano funzioni di costo costituite dallerrore
di previsione (tra loutput desiderato e il target).
Lobiettivo identificare il valore dei pesi in modo tale da minimizzare la
funzione di costo:
=
dove
il vettore dei parametri identificato, mentre E il funzionale di costo
scelto.
40
Tra i vari indicatori di errore sviluppati in ambito statistico useremo:

lindice di 2 2
il Mean Square Error (MSE)
= =1(() ())2
Fissando un valore per questi parametri la rete si bloccher una volta raggiunto il
valore desiderato, quando i valori degli indicatori per il validation set raggiungono
il punto di minimo (infatti allinizio del training gli indicatori del validation set
diminuiranno, poi cominceranno ad aumentare per linsorgere delloverlearning).
Figura 4.3 Errore nella fase di training e validation

2.
Il coefficiente di determinazione una proporzione tra la variabilit dei dati e la correttezza del modello
statistico utilizzato. Esso misura la frazione della varianza della variabile dipendente espressa dalla
regressione
(()
())
=1-=
())
=(()
Varia tra 0 e 1, quando 0 il modello non spiega per nulla i dati, quando 1 c una perfetta aderenza del modello.
41
Algoritmo di Backpropagation
Lalgoritmo di Backpropagation un meccanismo che, attraverso successive
iterazioni (o Epoche), permette di minimizzare la funzione di costo.
Esso prevede che, per ogni esempio del training set, i segnali viaggino
dallingresso verso luscita al fine di calcolare la risposta della rete.
La seconda fase prevede che i segnali di errore vengono propagati allindietro,
sulle stesse connessioni su cui nella prima fase hanno viaggiato gli ingressi, ma in
senso contrario, dalluscita verso lingresso. Durante questa seconda fase vengono
modificati i pesi.
Lalgoritmo usa il gradiente della funzione di costo calcolato rispetto ad ogni peso
al fine di minimizzare lerrore:
dove lerrore tra luscita del target e quella effettiva e linput delliesimo neurone.
Se E cresce allaumentare di allora deve essere diminuito per contrastare la
crescita di E, al contrario se E diminuisce allaumentare di allora deve
essere aumentato per favorire la diminuzione di E.
Ogni peso viene aggiornato attraverso il seguente meccanismo:
=
dove il learning rate, numero reale compreso tra 0 ed 1.
Lerrore calcolabile per un neurone di uscita, ma non per un neurone nascosto
perch non conosciamo la sua uscita desiderata. Fissando lattenzione su un
neurone dello strato nascosto, lerrore commesso da tale neurone viene calcolato
42
come somma degli errori commessi da tutti i neuroni si uscita collegati a tale
neurone nascosto. Il contributo di ciascuno di tali errori dipende, ovviamente, sia
dalla dimensione dellerrore commesso dal relativo neurone di uscita, sia dal peso
sulla connessione tra il neurone nascosto e il neurone in output.
Per un neurone di uno strato nascosto lerrore dato da:
= ( )
dove s lo strato che viene propagato allindietro.
Il learning rate il tasso di cambiamento di ogni peso, ad ogni iterazione, volto a

minimizzare lerrore. Se il tasso grande lalgoritmo rischier di oscillare attorno
al punto di minimo, al contrario se troppo piccolo lalgoritmo converger troppo
lentamente.
Un modo per evitare questo problema lapplicazione dii un tasso di
apprendimento decrescente: inizialmente lalgoritmo converger velocemente, ma
alla fine non osciller attorno al minimo.
Algoritmo di Levenberg-Marquardt
Lalgoritmo di Levenberg-Marquardt anchesso un metodo per la
minimizzazione dellerrore quadratico medio molto usato a causa della sua rapida
convergenza e delle doti di robustezza di cui caratterizzato. Si pu immaginare
composto di una fase di discesa del gradiente (come lalgoritmo di
backpropagation), lenta ma convergente, seguito da un risolutore di tipo
3 , pi veloce.
43
Siccome la funzione di costo ha la forma di una somma di quadrati, allora la

matrice Hessiana del valore da minimizzare pu essere approssimata come:
=
Il gradiente pu allora essere approssimato come:

=
Dove J lo jacobiano della funzione di costo da minimizzare, contenente le

derivate prime degli errori della rete rispetto ai pesi , il vettore contenente
gli errori di rete con = () ()
I pesi vengono cos aggiornati :

= [ + ]1
Quando pari a 0, un metodo di Gauss-Newton con lapprossimazione
dellHessiano, mentre pi grande pi assomiglia ad un algoritmo di discesa
del gradiente.
3.
Lalgortimo di Gauss-Newton viene utilizzato per risolvere i minimi quadrati di

problemi non lineari. Date m funzioni r di n variabili , con , lalgoritmo di
Gauss-Newton iterativamente rileva il valore della variabile che minimizza la
somma dei quadrati. Partendo da un () iniziale, lalgoritmo itera il seguente
procedimento
44
4.5 Generalizzazione del modello

Una volta che la rete neurale stata correttamente costruita necessario verificare
la sua bont previsionale. infatti possibile che un modello riesca bene a
descrivere il training set ed il test set, ma poi risulti del tutto inadeguato per
quanto riguarda la sua generalizzazione (la previsione in ambito finanziario).
Dovremo pertanto testare sul validation set la rete neurale con le medesime
tecniche gi descritte. In primo luogo si dovranno misurare sulla serie storica mai
osservata dalla rete gli indicatori di errore. Qualora questi dovessero risultare
significativamente peggiori, o comunque non accettabili, sulla base degli obiettivi
originali, la rete subir un ulteriore training.
Il fatto che una rete non riesca a generalizzare il processo sulla base della
realizzazione testata pu essere dovuto al problema delloverlearning: il modello
troppo aderente ai dati su cui stato fatto il training. Se invece la rete si adatta
bene al validation set allora si pu procedere con la previsione tenendo conto che
si avranno risultati sempre meno soddisfacenti con laumentare dellorizzonte
temporale di riferimento. Nel lungo periodo infatti maggiormente possibile che
la serie storica possa subire sostanziali variazione nei suoi momenti rispetto al
breve periodo (lerrore in simulazione, non utilizzando valori passati della y(t)
poich, a causa dellergodicit, la persistenza nulla in un tempo infinitamente
lontano, maggiore di un errore di predizione di k passi in avanti).
45
Capitolo 5
Presentazione e analisi preliminare dei dati

Nel nostro studio abbiamo preso in esame particolari serie storiche, chiamate
finanziarie, di cui parleremo attraverso un breve approfondimento.
5.1 Le Serie Storiche Finanziarie

Le serie storiche finanziarie sono misurazioni fatte su attivit finanziarie in diversi
istanti temporali. Lobiettivo dello studio di queste serie , per lappunto,
lidentificazione di un modello che approssimi bene il processo generatore dei
dati. Il motivo di ci chiaramente il guadagno ottenibile mediante previsione, nel
breve periodo, dei risultati finanziari presi in esame.
Gli oggetti su cui si concentrano gli studi degli analisti finanziari sono:
Prezzo
Rendimento
Volatilit
Prezzi
I prezzi sono le valutazioni delle attivit finanziarie derivanti dallincontro tra
domanda ed offerta nel Mercato finanziario. Sono solitamente calcolati, secondo il
tasso , come:
= 1 (1 + )
46
Infatti secondo lipotesi di efficienza del Mercato, per la quale tutta

linformazione al periodo t contenuta al periodo t-1, evidente che i titoli
seguano un processo random wal 4 .
Si pu notare dalla definizione una forte persistenza del processo generatore dei
prezzi, che causa la non stazionariet in media della serie.
Figura 5.1 Titolo azionario
Caratteristica delle serie finanziarie la presenza di trend che non permettono la

costanza nel tempo del valore atteso condizionato, che dovr essere eliminato
dalla serie al fine di poter approcciarsi allidentificazione di tale processo
4. I processi random walk, o a radice unitaria, sono processi del tipo:

= +
dove ~(, )
Quindi = = un processo stazionario ed ergodico.
47
Rendimenti
Sono gli strumenti maggiormente utilizzati in ambito di analisi in quanto
mantengono le caratteristiche stocastiche dei prezzi, in pi sono caratterizzati
dalla costanza del valore atteso condizionato e, quindi, sono stazionari.
In particolare si utilizzano i rendimenti logaritmici:
= ln( ) ln(1 )
Essendo differenze del primo ordine, i rendimenti logaritmici sono molto utili in
quanto eliminano la non stazionariet in media (il trend) della serie.
Figura 5.2 Rendimento logaritmico di un titolo azionario
Volatilit
La volatilit una misura del rischio legato allinvestimento finanziario ed
misurato dalla varianza condizionata dei rendimenti:
[ |1] = [ |1 ]
48
Come visibile nel precedente grafico, le serie sui rendimenti logaritmici dei titoli
azionari sono spesso caratterizzate dalla presenza di volatility clustering (o
eteroschedasticit cfr. paragrafo 4.1): periodi di alta volatilit si alternano a
periodi di bassa volatilit, quindi c persistenza della varianza nella serie.
Possiamo dunque affermare che nella maggior parte dei casi i rendimenti
logaritmici dei titoli azionari sono dei processi non lineari.
5.2 Lindice azionario Nasdaq-100
Azioni
Unazione un titolo rappresentativo di una quota della propriet di una societ
per azioni.
Lemissione di azioni per lazienda emittente utile per il recupero di liquidit
finanziaria necessaria per eventuali investimenti, mentre il possessore ha il diritto
di ricevere una quota dei profitti dellazienda noti come dividendi, oltre a possibili
guadagni derivanti dalla vendita delle azioni stesse in seguito a quotazione sul
mercato azionario. Sono quindi esposte al rischio dimpresa, di mercato e di
cambio.
Indici Azionari
Gli indici azionari sono la sintesi del valore del paniere dei titoli azionari che
rappresentano. I movimenti dellindice sono una buona approssimazione del
variare nel tempo della valorizzazione dei titoli compresi nel portafoglio e per
questo sono molto utilizzati in ambito di analisi finanziaria.
Si distinguono tra:
49
Indici equally weighted: questi sono caratterizzati dalluguaglianza

dei fattori di ponderazione per tutti i titoli che compongono
lindice. Non importa la capitalizzazione delle societ incluse,
perch tutti i titoli delindice hanno il medesimo peso e per questo
rispecchiano correttamente landamento dellintero portafoglio;
Indici value weighted: questi risolvono il problema del precedente

indice in quanto il peso di ciascun titolo risulta proporzionale alla
sua capitalizzazione di borsa.
Nasdaq-100
Il Nasdaq-100 un indice di borsa value weighted delle maggiori 100 imprese
non-finanziarie quotate nel mercato borsistico NASDAQ. il principale indice
del mercato borsistico di titoli tecnologici ed calcolato come:
=1 #
= 1
=1 #1 1
Dove la sommatoria contiene i pesi e i prezzi di tutte le n societ inglobate
nellindice.
5.3 Analisi preliminare

Il nostro intento quello di identificare un modello, mediante un ARMAX e una
Rete Neurale, in grado di spiegare il processo stocastico alla base dei dati raccolti
dellindice Nasdaq-100 al fine di prevedere i suoi andamenti futuri.
In particolare considereremo lindice come un processo stocastico sottoposto a
degli ingressi quali i titoli azionari di Facebook, Amazon, Google, Apple e
Microsoft i cui pesi coprono circa il 40% di tutto lindice. La nostra intenzione
di prevedere come cambia lindice Nasdaq-100 in base alle variazione dei suddetti
titoli azionari nel corso del tempo.
50
Abbiamo quindi raccolto circa 1200 campioni per ogni titolo e per lindice e li
abbiamo divisi nei vari set di dati utili. Sono poi stati sottoposti al test 5 per
lindividuazione dei trend.
TES
Nasdaq
Appl
Amazo
Googl
Microsof
Faceboo
-100
ADF
Tabella 5.1 ADF Test per i titoli

La variabile logica di valore 1 indica il rifiuto dellipotesi nulla di presenza di
radice unitaria, al contrario del valore 0. Come si pu notare dal test utilizzeremo i
rendimenti logaritmici in quanto non contengono la componente di trend che
comporta la non stazionariet del valore atteso del processo.
5.
Il test ADF si basa sulla statistica test: =

.
parametri e la deviazione standard di
51
la somma della stima dei

dove
Normalit
Alla base della teoria dellidentificazione c lipotesi di gaussianit dei processi.
Per verificare ci abbiamo calcolato alcuni parametri specifici.
Nasdaq-
Apple
Amazon
Google
Microsoft
Facebook
9.98e-04
7.91e-
5.22e-04
0.0012
100
Media
4.90e-04
1.43e
04
04
Deviazione
0.0110
standard
Asimmetria
0.016
0.0210
0.0157
0.0147
0.0269
0.1696
1.1697
-0.3317
1.0976
11.1822
14.800
11.9311
16.4684
8
-0.2520
0.613
7
Curtosi
5.8270
8.811
0
Tabella 5.2 Parametri per valutare la gaussianit di una distribuzione
I rendimenti logaritmici hanno caratteristiche di media e deviazione standard

vicini allo zero.
Ci sono delle leggere asimmetrie; infatti quando il coefficiente di asimmetria
uguale a 0 c simmetria perfetta, quando maggiore di 0 si avr una asimmetria
verso destra, quando minore di 0 si avr una asimmetria verso sinistra.
Lindice di curtosi, essendo molto maggiore di 3 per tutti i rendimenti, denota
code pesanti nella distribuzione dei rendimenti, ossia presenza di outlier nei
dati.
Queste caratteristiche possono essere viste nei grafici normplot che misurano il
grado di approssimazione a distribuzioni normali.
52
Figura 5.3.1 Normplot del Nasdaq-100 e di Apple
Figura 5.3.2 Normplot di Amazon e Facebook
Figura 5.3.3 Normplot di Google e Microsoft
53
In base ai dati ottenuti e ai grafici possiamo ritenere attendibile lapprossimazione

dei dati a distribuzioni gaussiane.
5.4. Identificazione degli input

Per identificare ottimamente il modello occorre che non si verifichino i casi di
identificabilit strutturale e/o sperimentale (cfr. Paragrafo 3.3). A tal fine
modelleremo, mediante strutture ARMA, le serie storiche dei titoli azionari presi
in considerazione per dimostrare lelevato grado di persistente eccitazione degli
input.
Apple
Analizzando i grafici ACF e PACF notiamo che non ci sono lags caratterizzati da
autocorrelazione statisticamente significativa. Nemmeno il test di 6
rileva lags statisticamente significativi.
6.
La statistica del test :
= ( + )
=
dove T la dimensione del campione, l'autocorrelazione campione al

lag k, ed k lindice del lag testato.
54
Figura 5.4 ACF e PACF di Apple
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 5.3 Valori del Ljung-Box test per vari lags

La variabile logistica di valore 0 esprime limpossibilit di rifiutare lipotesi nulla
di autocorrelazione uguale a 0 del lag preso in considerazione, al contrario del
valore della variabile par ad 1.
Utilizzando i criteri dinformazione FPE e AIC un ARMA(0,0) il risultato
migliore.
AR model: y(t) = e(t)

Fit: -0.03297%
FPE: 0.0002775, MSE: 0.0002775, AIC: 3.5272e+03
55
Gli ACF e PACF, uniti al test di Ljung-Box sui residui confermano la bont di
tale scelta non rivelando autocorrelazioni statisticamente significative.
Figura 5.5 Plot dei residui
Figura 5.6 ACF e PACF dei residui
56
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 5.4 Valori del Ljung-Box test per vari lags dei residui
Come si pu notare dal plot dei residui, e verificato dal test 7 ci sono dei
cluster di volatilit. quindi presente una non linearit in varianza che non pu
essere catturata dal modello scelto.
Abbiamo poi utilizzato il modello per fare previsione sul test set. Affinch la
previsione risulti buona ricordiamo che il valore dellindice MSE deve risultare
prossimo allo 0 e il valore dellindice di FIT deve essere prossimo al 100%.
7. Il test ARCH valuta lipotesi nulla che una serie di residui rt non mostra
eteroschedasticit condizionale, contro lalternativa che un modello
ARCH(L) descriva la serie.
Il modello ARCH(L) ha la seguente forma:
= + + + +
dove c almeno un = ,
La statistica test il moltiplicatore di Lagrange , dove T la dimensione del
campione ed il coefficiente di adattamento del modello ARCH(L) tramite
regressione.
Sotto lipotesi nulla, la distribuzione della statistica test un chi-quadro con L gradi
di libert.
57
Figura 5.7 Previsione sul test set
La linea in blu indica la predizione in simulazione del modello che ovviamente

nulla (il FIT dello 0% circa) in quanto la simulazione si basa sulla parte
deterministica del modello identificato che, in questo caso, inesistente. Infatti il
processo totalmente scorrelato per cui, non essendoci persistenza, il modello non
pu dire nulla su ci che accadr nel futuro basandosi sui dati del passato.
Amazon
Anche in questo caso i correlogrammi ACF e PACF, cos come il test di LjungBox non rilevano autocorrelazioni statisticamente significative.
58
Figura 5.8 ACF e PACF di Amazon
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Il modello risultante migliore quindi un ARMA(0,0)

Fit: -0.2242%
FPE: 0.0003657, MSE: 0.0003657, AIC: 6.6958e+03
59
I residui confermano, anche questa volta, la bont del modello scelto.
60
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
I residui risultano scorrelati, per come nel precedente caso il test ARCH
conferma la presenza di eteroschedasticit nei residui che non possono essere
catturati da un modello lineare.
Essendo il processo totalmente scorrelato la predizione in simulazione risulta
essere, anche in questo caso, pessima in quanto non stato possibile identificare
una parte deterministica del modello.
Figura 5.11 Simulazione sul test set
61
Facebook
I grafici ACF e PACF ed il test Ljung-Box condotti sul rendimento del
titolo di Facebook non mostrano autocorrelazioni statisticamente
significative.
Figura 5.12 ACF PACF di Facebook
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tuttavia, utilizzando i criteri dinformazione, il modello ottimale

risulta essere un ARMA(2,3).
62
ARMA model: A(z)y(t)=C(z)e(t)
A(z) = 1 + 1.356 z^-1 + 0.4259 z^-2
C(z) = 1 + 1.379 z^-1 + 0.4657 z^- 2 + 0.04634
Fit: 0.3846%
FPE: 0.0006997, MSE: 0.0006874, AIC: 2.8359e+03
A supporto di tale scelta sopraggiungono i correlogrammi ed il test di

Ljung-Box che sottolineano la totale scorrelazione dei residui.
Figura 5.13 Plot dei resudui
63
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Il FIT e il MSE risultano essere migliori rispetto ai primi due modelli

analizzati in quanto la persistenza ha permesso lindividuazione della
parte deterministica del processo che in grado di predire landamento
del test set.
Il FIT non tuttavia molto soddisfacente in quanto il test ARCH
sottolinea la presenza di eteroschedasticit della serie per cui il
modello identificato non riuscito a catturare la non linearit in
varianza del test set.
64
Google
Dagli ACF e PACF non risultano autocorrelazioni statisticamente significative,
cos come per i test di Ljung-Box.
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
65
Figura 5.16 ACF e PACF di Google

Analizzando diversi modelli sul training set, attraverso i criteri dinformazione, un
ARMA(0,0) , ovviamente, il risultato migliore.
Fit: -0.2538%
FPE: 0.0002201, MSE: 0.0002201, AIC: 6.8078e+03
Gli ACF e PACF, cos come il test di Ljung-Box, risultano scorrelati, per cui il
modello identificato valido e pu essere utilizzato per la predizione in modo da
poter valutare la sua performance predittiva.
66
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
67
Come nei casi precedenti, a causa dellimpossibilit di identificare una parte

deterministica del modello per la totale scorrelazione del processo in esame, la
previsione sul test set non stata soddisfacente. Nonostante il MSE sia prossimo
allo 0, in quanto lerrore medio di predizione molto besso, il FIT molto
deludente. Infatti la simulazione del modello risulta nulla in quanto il modello non
pu dire assolutamente nulla sugli eventi futuri basandosi sui dati passati.
Bigsogna dire che secondo lARCH test non vi eteroschedasticit nei residui.
Microsoft
Dal test di Ljung-Box risultano esserci alcuni lags statisticamente significativi, al
contrario dei correlogrammi ACF e PACF, che indicano una certa persistenza del
processo preso in esame.
68
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 5.10 Valori del Ljung-Box test per vari lags)
Figura 5.20 ACF e PACF di Microsoft

Il modello 8 identificato, secondo i criteri dinformazione risulta essere
un processo ARMA(4,4).
8.
In realt se avessimo fatto riferimento esclusivamente ai criteri dinformazione il

modello ottimo risulterebbe un ARMA(8,7). Per il modello risulta essere troppo
complesso. Infatti i residui sul test set risulterebbero fortemente correlati, per cui ci
troviamo in presenza di overfitting.
69
ARMA model: A(z)y(t) = C(z)e(t)
A(z) = 1 + 0.221 z^-1 - 0.9554 z^-2 - 0.2621 z^-3 + 0.7196 z^-4
C(z) = 1 + 0.2626 z^-1 - 0.9631 z^-2 - 0.3411 z^-3 + 0.6452 z^-4
Fit: 5,696%
FPE: 0.0002252, MSE: 0.0002186 , AIC: 1.5489e+03

Lanalisi dei residui conferma la bont del modello, infatti risultano essere
totalmente scorrelati sia per i correlogrammi ACF e PACF che per il test di LjungBox.
70
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Per quanto riguarda la simulazione fatta sul test set, al contrario dei precedenti,
siamo riusciti ad identificare una parte consistente del processo a causa della
persistenza di questultimo. Per questo motivo, oltre ad avere un buon indice
MSE, c un miglioramento del FIT, che comunque ancora molto distante
dallessere prossimo al 100%. La causa di ci la presenza di eteroschedasticit
(non linearit in varianza), individuata mediante il test ARCH, che non pu essere
catturata da un modello lineare.
71
72
Capitolo 6
Identificazione dellindice Nasdaq-100

Dallanalisi preliminare abbiamo visto innanzitutto che le serie storiche di titoli
azionari hanno forte persistenza e trend, per cui ci siamo concentrati sui loro
rendimenti. Inoltre possono essere considerati processi con distribuzione
approssimativamente gaussiana.
Infine, mediante identificazione di processi ARMA, stato possibile ricondurre i
rendimenti dei titoli azionari di Amazon, Apple, Facebook, Google e Microsoft a
ingressi persistentemente eccitanti di ordine elevato (addirittura la maggior parti
di essi sono dei white noise, che possono assumere qualsiasi ordine di persistente
eccitazione).
Il nostro prossimo obbiettivo quello di identificare il processo generatore dei
dati dellindice Nasdaq-100 mediante modello ARMAX e Rete Neurale
considerando in input, come spiegato nel capitolo precedente, i titoli gi
analizzati.
73
(t)
Nasdaq-100
y(t)
M()
APPLE
AMAZON
FACEBOOK
y(t-1)
(t)
u(t-1)
GOOGLE
MICROSOFT
Predittore Nasdaq-100
()
(t)
(t)
Figura 6.1 Schema a blocchi dellapproccio predittivo al problema
In particolare, come visibile dalla figura, applicheremo un approccio predittivo

(cfr Paragrafo 3.).
Il processo Nasdaq-100 da identificare applicandogli in input i titoli azionari
studiati nel capitolo precedente, che coprono il 40% del peso totale dellintero
indice. Il 60% del peso rimanente costituir un disturbo, probabilmente
significativo, che non potr essere identificato dal predittore.
Una volta identificato il predittore ottimo (mediante i criteri dinformazione)
passeremo allanalisi delle sue performance attraverso lanalisi residuale (i residui
74
dovranno essere dei white noise) per la validazione e attraverso lanalisi

dellerrore di predizione valutato dagli indici MSE e FIT (migliore sar il
predittore pi lindice MSE sar prossimo allo 0 e il FIT prossimo al 100%).
6.1 Modello ARMAX

Per avere una valutazione degli ordini della parte in media mobile e della parte
autoregressiva, (cfr. Paragrafo 3.2) utilizziamo i correlogrammi ACF, PACF ed
il test di Ljung-Box.
Lordine degli input pu essere preso di valore al massimo uguale a quello
della persistente eccitazione degli input. Dal momento che essi sono di elevato
grado di persistente eccitazione potremo avere un alto ordine di
Sceglieremo il modello che meglio si adatta al processo considerando i criteri di
informazione AIC ed FPE.
I correlogrammi e il test di Ljung-Box dei rendimenti dellindice Nasdaq-100 non
mostrano delle autocorrelazioni statisticamente significative nei vari lags.
Figura 6.1 ACF e PACF del Nasdaq-100
75
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella6.1 Ljung-Box test per il Nasdaq-100

Tra i vari modelli provati per diversi ordini di , , risultato essere il
migliore un ARMAX(3, 2, 2) con un periodo di ritardo delleffetto degli input
sulloutput.
ARMAX model: A(z)y(t) = B(z)u(t) + C(z)e(t)
A(z) = 1 - 0.19 z^-1 + 0.01214 z^-2 + 0.01776 z^-3
B1(z) = 0.2057 z^-1 - 0.03342 z^-2
B2(z) = -0.002849 z^-1 + 0.04498 z^-2
B3(z) = 0.2129 z^-1 - 0.05736 z^-2
B4(z) = 0.1133 z^-1 - 0.02936 z^-2
B5(z) = 0.1772 z^-1 - 0.03921 z^-2
C(z) = 1 - 0.2114 z^-1 - 0.02733 z^-2
Fit: 60,35 %
FPE: 1.862e-05, MSE: 1.763e-05, AIC: -10.8907
I residui risultano scorrelati, cos come non c cross-correlazione tra gli input e
loutput a conferma della bont dellidentificazione del modello parametrico (cfr.
Paragrafo 3.4).
Gli ACF, PACF e il test di Ljung-Box mostrano la scorrelazione dei residui.
76
Figura 6.2 Plot dei residui e degli input
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 6.2 Ljung-Box test per i vari lags dei residui
77
Anche i diagrammi di cross-correlazione (sono, in pratica, dei correlogrammi che

mostrano la funzione di covarianza tra i residui e i vari input) non mostrano segni
di correlazione statisticamente significativa.
78
Figure 6.4 Cross-correlazioni tra i residui e i vari input
Anche per quanto riguarda la predizione il modello scelto risulta essere il migliore
sulla base degli indici MSE e FIT.
79
Figura 6.5 Predizione per vari modelli ARMAX
Come mostra la figura, il modello ARMAX(3, 2, 2) risulta essere quello con

lindice di FIT pi elevato. La predizione nettamente migliore rispetto ai
precedenti casi analizzati.
Questo dovuto al fatto che il processo presenta della persistenza tale per cui
possibile fare una buona predizione sulla base dei dati passati. Inoltre il test
ARCH non individua eteroschedasticit, quindi il modello riesce a catturare tutta
la dinamica del processo, che risulta lineare.
6.2 Modello della Rete Neurale

Prima della presentazione della rete ottimale bisogna enunciare che stata
utilizzata una rete di tipo feed forward con funzione di attivazione logistica e
contenente un solo strato nascosto in quanto siamo in presenza di modellazione di
serie storiche (cfr. Paragrafo 4.3)
80
Come funzione di costo da minimizzare useremo la scarto quadratico medio. Per

quanto riguarda i criteri di scelta del modello ottimale useremo gli indici MSE e
2 valutati sul test set per valutare la bont del fitting della rete sul training set.
Infine valuteremo la capacit di generalizzazione della rete sul validation set
attraverso gli ACF e i digrammi di cross-correlazione gi utilizzati nelle
precedenti applicazioni, cos come lindice MSE per quanto riguarda lerrore di
previsione.
La rete ottimale risulta essere feed forward, ottenuta mediante lalgoritmo di
backpropagation con 6 neuroni per gli input e per loutput (in controreazione)
nello strato nascosto, 2 lags per loutput ed un solo lag per gli input. Lo strato di
output contiene un solo neurone con funzione di attivazione lineare.
Figura 6.6 Rete Neurale dellindice Nasdaq-100
In seguito sono riportati i valori tabellati dei pesi e delle soglie relative,
rispettivamente, allo strato nascosto e allo strato di output.
i-esimo
Apple
Amazon
Facebook
Google
Micrsoft
- 0.2327
0.3753
- 0.5778
- 0.6189
- 0.1375
neurone
1
81
- 0.1072
- 1.0020
0.9394
- 0.0512
- 0.4253
1.0757
- 0.0835
- 0.0283
- 0.7699
2.4642
1.2874
1.0118
1.0328
- 0.2724
0.5437
- 0.3741
- 0.4104
- 1.0339
- 1.1021
0.2988
0.3946
0.1858
- 0.5337
0.5445
- 0.0466
Tabella 6.3 Pesi dello strato nascosto per gli input
i-esimo neurone
Nasdaq-100 Lag 1
Nasdaq-100 Lag 2
0.5248
- 0.8219
- 0.3068
-0.6197
0.3260
- 0.1041
0.6689
0.8392
0.2644
0.8621
- 0.0221
2.0104
Tabella 6.4 Pesi dello strato nascosto per il Nasdaq-100 in controreazione
Apple
Amazon
Facebook
Google
Microsoft
Nasdaq100
-0.3915
-0.7040
0.3158
- 0.0439
Tabella 6.5 Pesi dello strato di output
82
- 0.5344
0.7800
i-esimo neurone
1
- 1.5986
- 0.8855
- 0.5572
0.1658
- 0.8894
- 2.0043
Tabella 6.6 Soglie per lo strato nascosto
Per lo strato di output il valore della soglia pari a - 0.4050.
A conferma della bont del modello possiamo vedere la completa scorrelazione

dei residui mediante gli ACF e i diagrammi di cross-correlazione tra i residui e
loutput.
Figura 6.7 ACF dei residui
83
Figure 6.8 Cross-correlazione tra gli input (rispettivamente Apple, Amazon,

Facebook, Google, Microsoft) e loutput.
Per quanto riguarda il fitting notiamo che lindice MSE pari a 1.3146e-05 e si
raggiunge allundicesima iterazione: lalgoritmo si ferma quando la funzione di
costo per il validation test aumenta per 6 iterazioni consecutiva al fine di evitare
loverlearning.
84
Figura 6.9 MSE misurato per i vari set di dati

Anche lindice di fitting 2 denota unottima aderenza del modello al processo sia
per quanto riguarda lindentificazione (misurato tramite il test set) sia per la
generalizzazione/ previsione (misurato tramite validation set).
Figura 6.10 2 dei vari set di dati.
85
In generale il modello riesce ad adattarsi quasi perfettamente ai dati utilizzati per

la sua identificazione, come avvalorato dagli indici proposti e dai correlogrammi
ACF e di cross-correlazione. Inoltre riesce ad esprimere molto bene anche i dati
del validation set, per cui in grado di catturare la gran parte della dinamica del
processo producendo ottime previsioni sulla base dei dati passati in input.
La successiva figura mostra graficamente la risposta del modello passati i dati dei
vari set come input.
Figura 6.11 Risposta del modello ai vari set
86
Capitolo 7
Confronto fra modelli e conclusioni

Nellintroduzione avevamo parlato dei processi stocastici e della loro natura
aleatoria e casuale. La persistenza dei processi viene sfruttata per prevedere
landamento futuro delle serie studiate in modo da controllare la casualit e
lincertezza (insite nelle variabili aleatorie) a proprio vantaggio.
proprio per questo che vengono studiate le serie storiche; in particolare, per
quanto riguarda le serie storiche finanziarie, serve per ottenere un guadagno dalla
compravendita dei titoli azionari mediante la loro previsione attraverso il modello
identificato.
Abbiamo quindi proposto due soluzioni alternative per la risoluzione del
problemi: i modelli lineari ARMAX e le Reti Neurali Artificiali.
Sono due modelli diametralmente opposti: il primo tra i pi utilizzati tra gli
analisti in quanto ha una base teorica consolidata, computazionalmente poco
oneroso, ma non in grado di catturare la parte non lineare delle serie finanziarie; il
secondo stato proposto in tempi pi recenti, con la costruzione di processori pi
performanti, proprio per lidentificazione di processi non lineari, ma
computazionalmente molto pi oneroso.
Per il modello ARMAX abbiamo inizialmente verificato che la distribuzione dei
processi analizzati sia gaussiana e che fossero serie stazionarie ed ergodiche.
Al fine di garantire lidentificabilit sperimentale abbiamo dimostrato che gli
input fossero persistentemente eccitanti di ordine elevato: i modelli si sono
dimostrati inadatti a identificare i processi in quanto incapaci di cogliere la loro
non linearit, ma ci non era importante perch lo scopo del procedimento era di
cogliere la persistente eccitazione degli input.
87
Il modello ARMAX identificato per il Nasdaq-100 si dimostrato valido

nellidentificazione del processo in quanto i residui non mostrano autocorrelazioni
e cross-correlazioni statisticamente significative.
Per quanto riguarda la previsione effettuata, essa si dimostrata buona come
evidenziano gli indici MSE e FIT.
MODELLO
MSE
FIT
ARMAX(3,2,2)
1.763e-05
60,35%
Tabella 6.7 Indici di previsione del modello ARMAX

Per quanto riguarda la Rete Neurale, essa non ha richiesto particolare analisi
preliminari sulle caratteristiche probabilistiche dei processi. stata scelta una rete
feed forward con 6 neuroni sullo strato nascosto e funzione di attivazione
sigmoide ed un solo neurone sullo strato di uscita con funzione di attivazione
lineare. Il polinomio degli input di ordine 1, mentre il polinomio degli output in
controreazione di ordine 2.
Anche in questo caso lidentificazione del modello si rivelata ottima in quanto
non sono presente autocorrelazione e cross-correlazioni statisticamente
significative sui residui ottenuti.
Nel caso della previsione la Rete Neurale si dimostrata pi performante rispetto
al modello ARMAX:
2
MODELLO
MSE
NN(6,1)
1,3146e-05
0,93093
Tabella 6.8 Indici di previsione della Rete Neurale

Gli indici MSE dei due modelli risultano confrontabili, ma lindice 2 della Rete
Neurale superiore allindice di FIT del modello ARMAX (sono due indici
differenti, ma esprimono lo stesso concetto: quanto loutput del modello si adatta
88
bene alloutput del set di dati). Questo probabilmente dovuto al fatto che gli
input sono processi non lineari e il modello ARMAX non riesce a cogliere la parte
non lineare della dinamica, a differenza della Rete Neurale.
Un altro interessante caso di studio, non trattato allinterno della tesi, potrebbe
essere quello di creare un modello ibrido: sia gli input che gli output del modello
ARMAX potrebbero essere preprocessati da una Rete Neurale al fine di eliminare
tutta la non linearit del processo per poi analizzare gli indici al fine vedere se il
risultato ottenuto pi performante dei precedenti.
89
Bibliografia
[1] R. Lucchetti, (2008). Appunti di analisi delle serie storiche.
[2] A. Garulli, A. Giannitrapani, (2011). Dispense di identificazione e analisi dei
dati.
[3] G. Anderson, G. Moore, (1984). A Linear algebric procedure for solving
linear perfect foresight models.
[4] O. Criner, (2008). Control systems identification in finance and economics.
[5] S. Bittanti, (2004). Identicazione dei Modelli e Sistemi Adattativi.
[6] L. Ljung, (1999). System Identication-theory for the user.
[7] F. Garofalo, L. Iannelli, F. Vasca, (2006). Ottimizzazione e Identicazione dei
Modelli.
[8] R. Lucchetti, (2011). Identication of covariance structures.
[9] J. D. Angrist, J. Pischke, (2008). Mostly Harmless Econometrics: An
Empiricists Companion.
[10] C. Gallo. Costruzione di una Rete Neurale Articiale per applicazioni
EconomicoFinanziarie.
[11] Thomas J. Rothenberg, (1971). Identification in Parametric Models.
[12] J. Hamilton, (1994). Time Series Analysis.
[13] G. M. Gallo, B. Pacini, (2002). Metodi quantitativi per i mercati nanziari.
[14] N. Iskrev, (2010). Parameter identification in dynamic economic models.
[15] B. Yegnanarayana, (2009). Artificial neural networks
90
Ringraziamenti
Il mio primo e sincero grazie va ad Andrea Monteri ed ad Alessandra Micozzi,
rispettivamente relatore e correlatore della tesi, che si sono dimostrati sempre
disponibili per eventuali chiarimenti, sempre aperti ad un confronto, sempre pronti
a risolvere un problema.
Vorrei anche ringraziare tutta la mia famiglia, che mi ha supportato in ogni
decisione della mia vita, dalla pi giusta alla pi sbagliata, senza mai batter ciglio.
Un altro profondo ringraziamento va a Francesca, che mi stata vicina anche nei
momenti pi brutti e difficili. anche grazie a lei e al suo amore che sono riuscito
a scrivere questa tesi.
Infine, ma assolutamente non per importanza, i miei pi sentiti ringraziamenti
vanno a tutte quelle persone che negli anni ho conosciuto e che mi hanno aiutato a
diventare la persona che sono. Non ho intenzione di fare i vostri nomi perch, dal
momento che siete veramente tanti, rischierei di non menzionare qualcuno di voi,
ma sappiate che vi porto tutti sempre nel mio cuore.
91

Identificazione Parametrica Di Modelli Econometrici

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Identificazione Parametrica Di Modelli Econometrici

Caricato da

Copyright:

Formati disponibili

UNIVERSITA POLITECNICA DELLE MARCHE

Corso di Laurea triennale in ingegneria gestionale

Tesi di Laurea di:

Prof. Andrea Monteri

Tecniche di identificazione per lindividuazione di modelli econometrici

1.1.Definizioni di un Processo Stocastico.8

2.1 Modelli lineari per Serie Storiche..14

3. Identificazione parametrica per Processi Stocastici

4. Identificazione mediante reti neurali artificiali

4.1.Processi non lineari. ..33

5. Presentazione e analisi dei dati

5.1.Le Serie Storiche finanziarie.46

Tecniche di identificazione per lindividuazione di modelli econometrici

6. Identificazione dellIndice Nasdaq-100

7. Confronto fra modelli e conclusioni

Tecniche di identificazione per lindividuazione di modelli econometrici

Tecniche di identificazione per lindividuazione di modelli econometrici

Tecniche di identificazione per lindividuazione di modelli econometrici

Quelli maggiormente utilizzati in ambito econometrico per le serie finanziarie

Tecniche di identificazione per lindividuazione di modelli econometrici

Serie Storiche viste come Processi Stocastici

il trend (o componente tendenziale) la tendenza di fondo del fenomeno

Tecniche di identificazione per lindividuazione di modelli econometrici

il ciclo (o componente congiunturale) l'alternanza di fluttuazioni di segno

la stagionalit (o componente stagionale) costituita da variazioni che si

Figura 1.1 Esempio di serie storica e sua scomposizione in componente

1.1. Definizioni di un Processo Stocastico

Tecniche di identificazione per lindividuazione di modelli econometrici

Al contrario dei modelli cross-section (costituiti da variabili aleatorie indipendenti

Funzione di autocorrelazione globale (ACF):

Tecniche di identificazione per lindividuazione di modelli econometrici

Il coefficiente associato a +1 che risulta lautocorrelazione parziale di

1.2.Stazionariet di un Processo Stocastico

Tecniche di identificazione per lindividuazione di modelli econometrici

La stazionariet debole riguarda solo distribuzioni di ampiezza 2: si ha

Si ha cio stazionariet debole se tutte le variabili aleatorie hanno media, varianza

Tecniche di identificazione per lindividuazione di modelli econometrici

Tecniche di identificazione per lindividuazione di modelli econometrici

Quindi, siccome lautocovarianza campionaria una stima consistente

Tecniche di identificazione per lindividuazione di modelli econometrici

Identificazione mediante modelli lineari

2 costante nel tempo

{0 , 1 , 0 , , 1 } viene chiamato set informativo del periodo t-1 e

Dove una costante, un vettore di parametri da identificare (di cui parleremo

lineari per Serie Storiche

Le serie storiche = () sono comunemente viste come output di un processo

Figura 2.1Schema a blocchi per serie storica

Tecniche di identificazione per lindividuazione di modelli econometrici

Si soliti classificare tali processi stocastici in funzione della struttura della

Dal momento in cui la funzione di trasferimento ha tutti i poli nellorigine il

Tecniche di identificazione per lindividuazione di modelli econometrici

In questo caso il processo pu essere descritto come:

La () si ottiene moltiplicando il polinomio () per e diventa:

Affinch il processo sia stazionario le radici del polinomio caratteristico devono

Tecniche di identificazione per lindividuazione di modelli econometrici

lineari per Processi Stocastici

Figura 2.2 Schema a blocchi di un processo stocastico

Tecniche di identificazione per lindividuazione di modelli econometrici

Modelli ARX (na, nb)

Possiamo notare che le due funzioni di trasferimento hanno lo stesso polinomio

Modelli ARMAX (na,nb,nc)

Tecniche di identificazione per lindividuazione di modelli econometrici

Definendo il polinomio C(z) come