FACOLTA DI INGEGNERIA
Relatore: Chiar.mo
Andrea Tamburri
Correlatore:
Prof.ssa Alessandra Micozzi
A.A. 2015/2016
Indice
1. Serie Storiche viste come Processi Stocastici
2. Modelli lineari
14
20
3.1.Dati.20
3.2.Famiglia di modelli21
3.3.Scelta del modello ottimo..23
3.4.Validazione del modello28
33
46
5.2.Lindice Nasdaq-100......49
5.3.Analisi preliminare.50
5.4.Identificazione degli Input.54
73
6.1.Modello ARMAX..75
6.2.Modello Rete Neurale80
87
PROCESSI STOCASTICI
SERIE STORICHE
IDENTIFICAZIONE
PARAMETRICA DI
PROCESSI STOCASTICI
MODELLI
WHITE-BOX
MODELLI
GREY-BOX
MODELLI
BLACK-BOX
SISTEMI NON
LINEARI
SISTEMI LINEARI
LTI
LTV
NLTI
NLTV
IDENTIFICAZIONE
MODELLI ARMAX
IDENTIFICAZIONE
DI RETI NEURALI
VALIDAZIONE
DEI MODELLI
PREVISIONE
Introduzione
Un processo stocastico la versione probabilistica del concetto di sistema
dinamico: una forma di rappresentazione di una grandezza che varia nel tempo
in modo casuale e con certe caratteristiche. Facendo osservazioni ripetute dello
stesso processo, si ottengono diverse realizzazioni nel tempo.
Le serie storiche sono particolari realizzazioni di processi stocastici che vengono
studiate sia per interpretare un fenomeno, individuando componenti di trend, di
ciclicit, di stagionalit e/o di accidentalit, sia per prevedere il suo andamento
futuro.
Una caratteristica fondamentale di tali processi la dipendenza tra osservazioni
successive che viene sfruttata, attraverso luso di particolari modelli, per
prevedere landamento futuro delle serie studiate in modo da controllare la
casualit e lincertezza (insite nelle variabili aleatorie) a proprio vantaggio.
L'identificazione dei sistemi dinamici proprio quella scienza che si prefigge
l'obiettivo di stimare modelli di sistemi a partire da dati sperimentali. Numerosi
sistemi infatti sono difficili da modellare tramite le leggi della fisica o troppo
complicati: per questo motivo l'identificazione cerca di trovare un modello che si
adegui alle misure effettuate.
In particolare ci occuperemo dellidentificazione parametrica black-box: non
conosciamo nulla su possibili leggi fisiche che spiegano il fenomeno da
identificare, per cui supporremo un modello con un certo numero di parametri da
stimare.
Nel nostro caso ci occuperemo delle serie storiche finanziarie, di loro natura
imprevedibili e quindi di difficile identificazione, essendo processi di natura non
lineare.
Capitolo 1
L'approccio moderno, invece, ipotizza che la parte sistematica manchi o sia stata
eliminata dai dati e si limita a studiare la parte stocastica. In questo caso un
processo stocastico a variabili correlate che dipendono dai valori passati della e
dagli errori passati di .
Funzione di autocovarianza:
,+ = ( , + ) = [( )(+ + )]
chiaramente si ha che
, = ( )
10
[ ] = <
[ ] = 2 <
( , + ) = <
1.3. Ergodicit
Un processo ergodico se, quanto pi due suoi elementi sono lontani nel tempo,
tanto meno sono correlati.
Allora:
| | < lim = 0
=0
11
Tale aspetto diventa importante non appena si passi dal processo stocastico come
variabile aleatoria alle sue realizzazioni.
In un processo ergodico la persistenza del processo debole su lunghi orizzonti e
allaumentare dellampiezza del campione aumenta in modo significativo anche
linformazione in nostro possesso.
Infatti quando si osserva la realizzazione di un processo stocastico si osserva solo
un sottoinsieme finito di una realizzazione e non si pu sapere n se un altro
sottoinsieme presenterebbe le stesse caratteristiche, n se queste sarebbero
presenti in altre realizzazioni. Se per un processo ergodico, allora
losservazione di una sua realizzazione abbastanza lunga equivalente, ai fini
inferenziali, allosservazioni di diverse sue realizzazioni.
Definita una realizzazione di ampiezza T di un processo stocastico , avremo
che, se il processo stazionario ed ergodico i momenti campionari sono stimatori
consistenti dei momenti del processo in modo da poterli utilizzare per condurre
inferenza sul processo generatore dei dati, che ignoto.
Gli equivalenti campionari dei momenti teorici sono:
media campionaria
1
=
=1
varianza campionaria
1
= ( )2
=1
autocovarianza campionaria
1
= ( )( )
12
13
Capitolo 2
lineare
= +
=0
2.1 Modelli
14
Modelli MA(m)
Un processo MA, o Moving Average, pu essere scritto come:
() = 0 () + 1 ( 1) + + ( )
con () = .
Un processo generato in questo modo detto processo a media mobile di ordine m
in quanto il segnale y(t) la media pesata degli ultimi m + 1 campioni del rumore
bianco di ingresso ().
Utilizzando loperatore ritardo unitario tale per cui
( 1) = () 1
dove x(t) una qualsivoglia variabile aleatoria, otteniamo un polinomio nella
forma:
() = ()() () = 0 + 1 1 + +
Moltiplicando il polinomio per otteniamo la seguente funzione di
trasferimento per il processo:
0 + 1 1 + +
processo stazionario, con media nulla (in quanto il white noise ha media nulla) e
varianza costante e indipendente dal tempo.
Modelli AR(n)
Un processo cos generato detto processo autoregressivo di ordine n (o Auto
Regressive, AR(n)).
15
+ 1 1 + +
Modelli ARMA(n,m)
Un processo generato in questo modo detto processo auto-regressivo a media
mobile di ordine (n,m) (o auto regressive moving average, ARMA(n,m), in quanto
luscita contiene una componente auto-regressiva ed una a media mobile.
Esso pu essere scritto come:
() + 1 ( 1) + + ( ) = 0 () + 1 ( 1) + + ( )
Utilizzando anche in questo caso loperatore ritardo e modellando le equazioni
polinomiali come fatto in precedenza per otteniamo, infine, una forma del tipo:
()() = ()()
con
() =
() 0 + 1 1 + +
=
()
+ 1 1 + +
16
Anche in questo caso, per fare in modo che il processo sia stabile, occorre che le
radici del polinomio A(z) siano tutte di modulo inferiore a 1.
2.2 Modelli
Volendo generalizzare i modelli non solo alle serie storiche, ma a tutti i processi
stocastici, definiamo, sulla base dei modelli polinomiali precedentemente ricavati
attraverso loperatore di ritardo 1 i modelli lineari tempo-invarianti (LTI) come:
() = ()() + ()()
In pratica abbiamo esteso il concetto di modello lineare non solo alle serie
storiche, ma a tutti i processi stocastici (caratterizzati quindi da persistenza) che
possono anche avere degli ingressi deterministici u(t), dove G(z) e W(z) sono le
opportune funzioni di trasferimento che descrivono la dinamica del processo y(t)
che hanno in ingresso, rispettivamente, ingressi deterministici e un white noise. In
particolare, la componente G(z)u(t) modella la parte deterministica del processo,
mentre
W(z)(t) modella quella stocastica (che fino ad ora avevamo chiamato serie
storica).
17
() = 1 1 + +
otteniamo quindi
() =
()
()
() =
1
()
18
()
()
() =
()
()
19
Capitolo 3
3.1 Dati
I dati sono linsieme delle misure e effettuate sul sistema, in base alle quali si
desidera stimare un modello del sistema stesso.
Vengono raggruppati in quello che precedentemente avevamo chiamato set
informativo avente la seguente forma.
{(0), , ( 1), (0), , ( 1), (0), , ( 1)}
20
() = (, )
21
22
23
()
() = (| 1) = [1
Con
] () + () ( 1)
()
che la stima ottima del predittore a minimo errore quadratico medio individuata
dalla media attesa condizionale.
La differenza (t,) tra luscita del predittore e luscita del sistema viene detta
errore di predizione e misura laccuratezza con la quale, sulla base del modello
(), si pu predire il comportameto del sistema:
(, ) = () (| 1) =
1
()
()
()
()
24
In questo caso si usa il criterio dei minimi quadrati che ha come funzionale di
costo il quadrato dellerrore di predizione (chiamato anche MSE) con
1
((, )) = (, 1 ) =
(() () )2
2
=1
=1
=1
1
1
= ( ()() )1 ()()
25
Identificabilit strutturale:
Identificabilit sperimentale:
Quando la qualit dei dati a causare la non invertibilit della matrice si parla di
mancanza di identificabilit sperimentale. Se lingresso u(t) persistentemente
eccitante di ordine allora la matrice S(T) sar invertibile. Il segnale dovr
quindi essere persistentemente 1 di ordine elevato (un white noise un
segnale persistentemente eccitante di qualunque ordine).
1.
()
26
Anche in questo caso si definisce la funzione di costo come la somma degli errori
di predizione al quadrato come:
1
((, )) = (, 1 ) =
(() (, ) )2
2
=1
27
Dove:
+1 = += ( ()() )
=1
()()
=1
con () = ()
Affinch lalgoritmo converga alla soluzione ottima necessario che la matrice
() = (=1 ()() )1 sia non singolare e quindi non si devono presentare,
anche in questo caso, problemi di identificabilit strutturale e sperimentale gi
discussi in precedenza.
28
29
1
2
=1(() ())
dove
=1
=1
1
1
= (() () )2 = (() (, )()
Analisi residuale
I residui (, )rappresentano quella parte dei dati che il modello non in grado di
riprodurre, per cui valutare le loro propriet statistiche pu fornire una utile
indicazione sulla qualit del modello. Prendendo una stima della funzione di
covarianza incrociata fra ed u, e della funzione di autocovarianza dei residui
entrambe queste quantit devono essere piccole, per i seguenti motivi:
30
Cross-validazione
Una tipica misura della qualit del modello identificato data dalla capacit di
riprodurre set di dati differenti da quello usato per la stima dei parametri. Infatti,
un modello non viene identificato per riprodurre i dati utilizzati nella procedura di
identificazione, ma perch sia rappresentativo del comportamento del sistema in
diverse condizioni di funzionamento.
In primo luogo si suddivide il set informativo in due sottoinsiemi:
11 = {1 (0), , 1 ( 1), 1 (0), , 1 ( 1), 1 (0), , 1 ( 1)}
Set di identificazione
21 = {2 (0), , 2 ( 1), 2 (0), , 2 ( 1), 2 (0), , 2 ( 1)}
Set di validazione
31
Il set di identificazione (o training set) viene utilizzato per la stima dei parametri,
mentre il secondo set (validation set) viene usato per la validazione attraverso le
funzioni di costo e i criteri dinformazione sopra citati e si scelgono i modelli con
gli indici pi performanti.
Anche lanalisi residuale viene effettuata sul set di validazione in modo da evitare
problemi di sovraparametrizzazione: si valuta la bianchezza dellerrore di
predizione e si scartano i modelli per i quali si ha un elevato peggioramento della
bianchezza dellerrore di predizione.
32
Capitolo 4
33
Per i modelli lineari abbiamo studiato un caso particolare, e cio quello in cui
[ |1 ] [ ]
possibile che esistano degli aspetti di persistenza che non riguardano i momenti
primi del processo, ma piuttosto si ravvisano fenomeni di persistenza della
volatilit, i cosiddetti volatility clusters (detta anche eteroschedasticit) che sono
comuni nellanalisi dei rendimenti delle serie storiche finanziarie (di cui
parleremo brevemente nel prossimo capitolo). In questo caso dunque abbiamo una
situazione di persistenza nella varianza del processo:
[ |1 ] [ ]
Questa condizione permette di parlare dei processi non lineari, ossia quella classe
di processi che non rispettano le condizione imposte nel Capitolo 2 di linearit del
valore atteso e costanza nel tempo della varianza, che per via della
eteroschedasticit non sar rispettata.
Al fine di esprimere formalmente ci, si soliti scrivere il modello del processo
come combinazione dei momenti condizionati:
= + 2
dove se non lineare o 2 non costante nel tempo si avr a che fare con un
processo non lineare.
34
35
m neuroni;
loutput layer, costituito da p neuroni pari al numero di output desiderati (che
rappresentano la previsione effettuata dalla rete).
Nelle reti stratificate si individuano degli strati di neuroni tali che ogni neurone
connesso con tutti quelli dello strato successivo, ma non esistono connessioni tra i
neuroni allinterno dello stesso strato, n tra neuroni di strati non adiacenti.
Inoltre, dato che i segnali viaggiano dallo strato di ingresso verso lo strato di
uscita, si parla di rete feed forward.
Modello di un neurone
Il neurone lunit fondamentale ed elemento di calcolo delle reti neurali.
Il neurone costituito da n canali di ingresso (costituiti dal vettore x) a ciascuno
dei quali associato un peso sinaptico che esprime la forza del legame tra la iesima unit di input e la j-esima unit dello strato in cui si trova il neurone preso
in considerazione.
36
= ( ) = ( )
=1
= ( ) = ( )
=0
37
Funzione lineare ( ) =
( )=1+
38
39
dinamica, e di valutazione. Questultimo viene a sua volta distinto in test set (dove
si verifica ladattamento della rete) e in validation set (la rete si applica a un
insieme di dati che non ha mai potuto osservare al fine di determinarne le
prestazioni).
I pesi solitamente vengono inizializzati con valori casuali allinizio
delladdestramento.
Poi si cominciano a presentare, uno alla volta, gli esempi costituenti il training set.
Per ogni esempio presentato si calcola lerrore commesso dalla rete, cio la
differenza tra luscita desiderata e luscita effettiva della rete che viene usato per
aggiustare i pesi. Il processo viene di solito ripetuto ripresentando alla rete, in
ordine casuale, tutti gli esempi del training set finch lerrore commesso su tutto il
training set risulta inferiore ad una soglia prestabilita. Dopo laddestramento la
rete viene testata controllandone il comportamento sul test set.
Indicatori dellerrore di previsione
Definiamo dei criteri di arresto opportuni per lapprendimento mediante training
set al fine di evitare loverlearning, dovuto ad uneccessiva iterazione
dellalgoritmo di apprendimento utilizzato, che va ad intaccare la capacit di
generalizzazione del modello. Si valutano funzioni di costo costituite dallerrore
di previsione (tra loutput desiderato e il target).
Lobiettivo identificare il valore dei pesi in modo tale da minimizzare la
funzione di costo:
=
dove
il vettore dei parametri identificato, mentre E il funzionale di costo
scelto.
40
= =1(() ())2
Fissando un valore per questi parametri la rete si bloccher una volta raggiunto il
valore desiderato, quando i valori degli indicatori per il validation set raggiungono
il punto di minimo (infatti allinizio del training gli indicatori del validation set
diminuiranno, poi cominceranno ad aumentare per linsorgere delloverlearning).
Il coefficiente di determinazione una proporzione tra la variabilit dei dati e la correttezza del modello
statistico utilizzato. Esso misura la frazione della varianza della variabile dipendente espressa dalla
regressione
(()
())
=1-=
())
=(()
Varia tra 0 e 1, quando 0 il modello non spiega per nulla i dati, quando 1 c una perfetta aderenza del modello.
41
Algoritmo di Backpropagation
Lalgoritmo di Backpropagation un meccanismo che, attraverso successive
iterazioni (o Epoche), permette di minimizzare la funzione di costo.
Esso prevede che, per ogni esempio del training set, i segnali viaggino
dallingresso verso luscita al fine di calcolare la risposta della rete.
La seconda fase prevede che i segnali di errore vengono propagati allindietro,
sulle stesse connessioni su cui nella prima fase hanno viaggiato gli ingressi, ma in
senso contrario, dalluscita verso lingresso. Durante questa seconda fase vengono
modificati i pesi.
Lalgoritmo usa il gradiente della funzione di costo calcolato rispetto ad ogni peso
al fine di minimizzare lerrore:
dove lerrore tra luscita del target e quella effettiva e linput delliesimo neurone.
Se E cresce allaumentare di allora deve essere diminuito per contrastare la
crescita di E, al contrario se E diminuisce allaumentare di allora deve
essere aumentato per favorire la diminuzione di E.
Ogni peso viene aggiornato attraverso il seguente meccanismo:
=
dove il learning rate, numero reale compreso tra 0 ed 1.
Lerrore calcolabile per un neurone di uscita, ma non per un neurone nascosto
perch non conosciamo la sua uscita desiderata. Fissando lattenzione su un
neurone dello strato nascosto, lerrore commesso da tale neurone viene calcolato
42
come somma degli errori commessi da tutti i neuroni si uscita collegati a tale
neurone nascosto. Il contributo di ciascuno di tali errori dipende, ovviamente, sia
dalla dimensione dellerrore commesso dal relativo neurone di uscita, sia dal peso
sulla connessione tra il neurone nascosto e il neurone in output.
Per un neurone di uno strato nascosto lerrore dato da:
= ( )
dove s lo strato che viene propagato allindietro.
Algoritmo di Levenberg-Marquardt
Lalgoritmo di Levenberg-Marquardt anchesso un metodo per la
minimizzazione dellerrore quadratico medio molto usato a causa della sua rapida
convergenza e delle doti di robustezza di cui caratterizzato. Si pu immaginare
composto di una fase di discesa del gradiente (come lalgoritmo di
backpropagation), lenta ma convergente, seguito da un risolutore di tipo
3 , pi veloce.
43
3.
44
45
Capitolo 5
Prezzo
Rendimento
Volatilit
Prezzi
I prezzi sono le valutazioni delle attivit finanziarie derivanti dallincontro tra
domanda ed offerta nel Mercato finanziario. Sono solitamente calcolati, secondo il
tasso , come:
= 1 (1 + )
46
dove ~(, )
47
Rendimenti
Sono gli strumenti maggiormente utilizzati in ambito di analisi in quanto
mantengono le caratteristiche stocastiche dei prezzi, in pi sono caratterizzati
dalla costanza del valore atteso condizionato e, quindi, sono stazionari.
In particolare si utilizzano i rendimenti logaritmici:
= ln( ) ln(1 )
Essendo differenze del primo ordine, i rendimenti logaritmici sono molto utili in
quanto eliminano la non stazionariet in media (il trend) della serie.
Volatilit
La volatilit una misura del rischio legato allinvestimento finanziario ed
misurato dalla varianza condizionata dei rendimenti:
[ |1] = [ |1 ]
48
Come visibile nel precedente grafico, le serie sui rendimenti logaritmici dei titoli
azionari sono spesso caratterizzate dalla presenza di volatility clustering (o
eteroschedasticit cfr. paragrafo 4.1): periodi di alta volatilit si alternano a
periodi di bassa volatilit, quindi c persistenza della varianza nella serie.
Possiamo dunque affermare che nella maggior parte dei casi i rendimenti
logaritmici dei titoli azionari sono dei processi non lineari.
Azioni
Unazione un titolo rappresentativo di una quota della propriet di una societ
per azioni.
Lemissione di azioni per lazienda emittente utile per il recupero di liquidit
finanziaria necessaria per eventuali investimenti, mentre il possessore ha il diritto
di ricevere una quota dei profitti dellazienda noti come dividendi, oltre a possibili
guadagni derivanti dalla vendita delle azioni stesse in seguito a quotazione sul
mercato azionario. Sono quindi esposte al rischio dimpresa, di mercato e di
cambio.
Indici Azionari
Gli indici azionari sono la sintesi del valore del paniere dei titoli azionari che
rappresentano. I movimenti dellindice sono una buona approssimazione del
variare nel tempo della valorizzazione dei titoli compresi nel portafoglio e per
questo sono molto utilizzati in ambito di analisi finanziaria.
Si distinguono tra:
49
Nasdaq-100
Il Nasdaq-100 un indice di borsa value weighted delle maggiori 100 imprese
non-finanziarie quotate nel mercato borsistico NASDAQ. il principale indice
del mercato borsistico di titoli tecnologici ed calcolato come:
=1 #
= 1
=1 #1 1
Dove la sommatoria contiene i pesi e i prezzi di tutte le n societ inglobate
nellindice.
50
Abbiamo quindi raccolto circa 1200 campioni per ogni titolo e per lindice e li
abbiamo divisi nei vari set di dati utili. Sono poi stati sottoposti al test 5 per
lindividuazione dei trend.
TES
Nasdaq
Appl
Amazo
Googl
Microsof
Faceboo
-100
ADF
5.
51
Normalit
Alla base della teoria dellidentificazione c lipotesi di gaussianit dei processi.
Per verificare ci abbiamo calcolato alcuni parametri specifici.
Nasdaq-
Apple
Amazon
Microsoft
9.98e-04
7.91e-
5.22e-04
0.0012
100
Media
4.90e-04
1.43e
04
04
Deviazione
0.0110
standard
Asimmetria
0.016
0.0210
0.0157
0.0147
0.0269
0.1696
1.1697
-0.3317
1.0976
11.1822
14.800
11.9311
16.4684
8
-0.2520
0.613
7
Curtosi
5.8270
8.811
0
52
53
Apple
Analizzando i grafici ACF e PACF notiamo che non ci sono lags caratterizzati da
autocorrelazione statisticamente significativa. Nemmeno il test di 6
rileva lags statisticamente significativi.
6.
= ( + )
=
54
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
55
Gli ACF e PACF, uniti al test di Ljung-Box sui residui confermano la bont di
tale scelta non rivelando autocorrelazioni statisticamente significative.
56
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 5.4 Valori del Ljung-Box test per vari lags dei residui
Come si pu notare dal plot dei residui, e verificato dal test 7 ci sono dei
cluster di volatilit. quindi presente una non linearit in varianza che non pu
essere catturata dal modello scelto.
Abbiamo poi utilizzato il modello per fare previsione sul test set. Affinch la
previsione risulti buona ricordiamo che il valore dellindice MSE deve risultare
prossimo allo 0 e il valore dellindice di FIT deve essere prossimo al 100%.
7. Il test ARCH valuta lipotesi nulla che una serie di residui rt non mostra
eteroschedasticit condizionale, contro lalternativa che un modello
ARCH(L) descriva la serie.
Il modello ARCH(L) ha la seguente forma:
= + + + +
dove c almeno un = ,
La statistica test il moltiplicatore di Lagrange , dove T la dimensione del
campione ed il coefficiente di adattamento del modello ARCH(L) tramite
regressione.
Sotto lipotesi nulla, la distribuzione della statistica test un chi-quadro con L gradi
di libert.
57
Amazon
Anche in questo caso i correlogrammi ACF e PACF, cos come il test di LjungBox non rilevano autocorrelazioni statisticamente significative.
58
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
59
60
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 5.6 Valori del Ljung-Box test per vari lags dei residui
I residui risultano scorrelati, per come nel precedente caso il test ARCH
conferma la presenza di eteroschedasticit nei residui che non possono essere
catturati da un modello lineare.
Essendo il processo totalmente scorrelato la predizione in simulazione risulta
essere, anche in questo caso, pessima in quanto non stato possibile identificare
una parte deterministica del modello.
61
Facebook
I grafici ACF e PACF ed il test Ljung-Box condotti sul rendimento del
titolo di Facebook non mostrano autocorrelazioni statisticamente
significative.
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
62
Fit: 0.3846%
63
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 5.8 Valori del Ljung-Box test per vari lags dei residui
64
Google
Dagli ACF e PACF non risultano autocorrelazioni statisticamente significative,
cos come per i test di Ljung-Box.
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
65
Fit: -0.2538%
FPE: 0.0002201, MSE: 0.0002201, AIC: 6.8078e+03
Gli ACF e PACF, cos come il test di Ljung-Box, risultano scorrelati, per cui il
modello identificato valido e pu essere utilizzato per la predizione in modo da
poter valutare la sua performance predittiva.
66
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 5.9 Valori del Ljung-Box test per vari lags dei residui
67
Microsoft
Dal test di Ljung-Box risultano esserci alcuni lags statisticamente significativi, al
contrario dei correlogrammi ACF e PACF, che indicano una certa persistenza del
processo preso in esame.
68
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
8.
69
Fit: 5,696%
70
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
Tabella 5.10 Valori del Ljung-Box test per vari lags dei residui
Per quanto riguarda la simulazione fatta sul test set, al contrario dei precedenti,
siamo riusciti ad identificare una parte consistente del processo a causa della
persistenza di questultimo. Per questo motivo, oltre ad avere un buon indice
MSE, c un miglioramento del FIT, che comunque ancora molto distante
dallessere prossimo al 100%. La causa di ci la presenza di eteroschedasticit
(non linearit in varianza), individuata mediante il test ARCH, che non pu essere
catturata da un modello lineare.
71
72
Capitolo 6
73
(t)
Nasdaq-100
y(t)
M()
APPLE
AMAZON
FACEBOOK
y(t-1)
(t)
u(t-1)
GOOGLE
MICROSOFT
Predittore Nasdaq-100
()
(t)
(t)
74
75
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
I residui risultano scorrelati, cos come non c cross-correlazione tra gli input e
loutput a conferma della bont dellidentificazione del modello parametrico (cfr.
Paragrafo 3.4).
Gli ACF, PACF e il test di Ljung-Box mostrano la scorrelazione dei residui.
76
Lag
Lbqtest 0
10
15
20
25
30
35
40
45
77
78
Anche per quanto riguarda la predizione il modello scelto risulta essere il migliore
sulla base degli indici MSE e FIT.
79
80
In seguito sono riportati i valori tabellati dei pesi e delle soglie relative,
rispettivamente, allo strato nascosto e allo strato di output.
i-esimo
Apple
Amazon
Micrsoft
- 0.2327
0.3753
- 0.5778
- 0.6189
- 0.1375
neurone
1
81
- 0.1072
- 1.0020
0.9394
- 0.0512
- 0.4253
1.0757
- 0.0835
- 0.0283
- 0.7699
2.4642
1.2874
1.0118
1.0328
- 0.2724
0.5437
- 0.3741
- 0.4104
- 1.0339
- 1.1021
0.2988
0.3946
0.1858
- 0.5337
0.5445
- 0.0466
i-esimo neurone
Nasdaq-100 Lag 1
Nasdaq-100 Lag 2
0.5248
- 0.8219
- 0.3068
-0.6197
0.3260
- 0.1041
0.6689
0.8392
0.2644
0.8621
- 0.0221
2.0104
Apple
Amazon
Microsoft
Nasdaq100
-0.3915
-0.7040
0.3158
- 0.0439
82
- 0.5344
0.7800
i-esimo neurone
1
- 1.5986
- 0.8855
- 0.5572
0.1658
- 0.8894
- 2.0043
Tabella 6.6 Soglie per lo strato nascosto
Per lo strato di output il valore della soglia pari a - 0.4050.
83
84
85
86
Capitolo 7
87
MSE
FIT
ARMAX(3,2,2)
1.763e-05
60,35%
MODELLO
MSE
NN(6,1)
1,3146e-05
0,93093
88
bene alloutput del set di dati). Questo probabilmente dovuto al fatto che gli
input sono processi non lineari e il modello ARMAX non riesce a cogliere la parte
non lineare della dinamica, a differenza della Rete Neurale.
Un altro interessante caso di studio, non trattato allinterno della tesi, potrebbe
essere quello di creare un modello ibrido: sia gli input che gli output del modello
ARMAX potrebbero essere preprocessati da una Rete Neurale al fine di eliminare
tutta la non linearit del processo per poi analizzare gli indici al fine vedere se il
risultato ottenuto pi performante dei precedenti.
89
Bibliografia
[1] R. Lucchetti, (2008). Appunti di analisi delle serie storiche.
[2] A. Garulli, A. Giannitrapani, (2011). Dispense di identificazione e analisi dei
dati.
[3] G. Anderson, G. Moore, (1984). A Linear algebric procedure for solving
linear perfect foresight models.
[4] O. Criner, (2008). Control systems identification in finance and economics.
[5] S. Bittanti, (2004). Identicazione dei Modelli e Sistemi Adattativi.
[6] L. Ljung, (1999). System Identication-theory for the user.
[7] F. Garofalo, L. Iannelli, F. Vasca, (2006). Ottimizzazione e Identicazione dei
Modelli.
[8] R. Lucchetti, (2011). Identication of covariance structures.
[9] J. D. Angrist, J. Pischke, (2008). Mostly Harmless Econometrics: An
Empiricists Companion.
[10] C. Gallo. Costruzione di una Rete Neurale Articiale per applicazioni
EconomicoFinanziarie.
[11] Thomas J. Rothenberg, (1971). Identification in Parametric Models.
[12] J. Hamilton, (1994). Time Series Analysis.
[13] G. M. Gallo, B. Pacini, (2002). Metodi quantitativi per i mercati nanziari.
[14] N. Iskrev, (2010). Parameter identification in dynamic economic models.
[15] B. Yegnanarayana, (2009). Artificial neural networks
90
Ringraziamenti
Il mio primo e sincero grazie va ad Andrea Monteri ed ad Alessandra Micozzi,
rispettivamente relatore e correlatore della tesi, che si sono dimostrati sempre
disponibili per eventuali chiarimenti, sempre aperti ad un confronto, sempre pronti
a risolvere un problema.
Vorrei anche ringraziare tutta la mia famiglia, che mi ha supportato in ogni
decisione della mia vita, dalla pi giusta alla pi sbagliata, senza mai batter ciglio.
Un altro profondo ringraziamento va a Francesca, che mi stata vicina anche nei
momenti pi brutti e difficili. anche grazie a lei e al suo amore che sono riuscito
a scrivere questa tesi.
Infine, ma assolutamente non per importanza, i miei pi sentiti ringraziamenti
vanno a tutte quelle persone che negli anni ho conosciuto e che mi hanno aiutato a
diventare la persona che sono. Non ho intenzione di fare i vostri nomi perch, dal
momento che siete veramente tanti, rischierei di non menzionare qualcuno di voi,
ma sappiate che vi porto tutti sempre nel mio cuore.
91