Sei sulla pagina 1di 18

Corso di Idrologia Applicata

Lezione V
Analisi di serie di dati idrologici

Un’importante capitolo dell’idrologia statistica riguarda l’analisi di serie


temporali di dati.
Numerosi esempi di serie di dati sono già stati incontrati durante il corso e
numerosi altri possono essere: serie di altezza di precipitazione giornaliera o
oraria registrate da un pluviografo; serie di deflussi giornalieri o mensili di un
corso d’acqua, ecc…
In molti casi sorge l’esigenza di costruire modelli matematici in grado di
riprodurre le serie di dati osservati:
• per la generazione di serie sintetiche di dati;
• per la previsione di valori futuri;
• per riconoscere la presenza di trend spazio-temporali nei dati;
• per risolvere il problema dei dati mancanti all’interno della serie (missing
data)
Corso di Idrologia Applicata
Lezione V

Analisi di serie di dati idrologici

Le serie di dati idrologici si riferiscono quasi sempre a fenomeni descritti da


variabili continue. Molto spesso, però, l’osservazione del fenomeno viene
compiuta effettuando un campionamento discreto della variabile.
Ad esempio, come abbiamo già visto in passato, le precipitazioni possono
essere campionate al più ogni 5 o 10 minuti, pur essendo intrinsecamente dei
fenomeni che evolvono nel tempo con continuità. Anche per i fenomeni
distribuiti nello spazio, si dispone quasi sempre di una osservazione
campionata in alcuni punti discreti (anche in questo caso ricordiamo
l’esempio della misura delle precipitazioni attraverso una rete di pluviometri
sparpagliati sul territorio).
Come vedremo, il modo in cui viene effettuato il campionamento della
variabile ha degli effetti sull’informazione che è possibile estrarre dalla serie
di dati campionati.
Corso di Idrologia Applicata
Lezione V

Decomposizione di una serie di dati


Le serie di dati, spaziali o temporali, sono caratterizzate in varia misura dalla
presenza di una serie di attributi (ad esempio la presenza di trends, shifts,
stagionalità o altre forme di periodicità, autocorrelazione, ecc…), che vengono
indicati genericamente come componenti del segnale. Una serie di dati può
essere decomposta nella somma delle sue componenti.
L’obiettivo di questa elaborazione è di porre in evidenza tutte quelle
componenti della serie il cui valore possa essere agevolmente
(deterministicamente) modellato. La rimanente parte potrà essere trattata alla
stregua di una fluttuazione aleatoria intorno al valore deterministicamente
prevedibile.
Il primo, più semplice, esempio di elaborazione in tal senso è la
standardizzazione del segnale, che consiste nella sottrazione della media e nella
divisione per la deviazione standard:
1 N
f =  fi
fi − f N i =1
fi  =
Sf
S 2f =
N ( fi − f )2
i =1 N −1
Corso di Idrologia Applicata
Lezione V

Decomposizione di una serie di dati


Una serie di dati standardizzati dovrebbe essere caratterizzata da media nulla e
varianza unitaria. Non sempre, però, ottenere tale risultato è così semplice.
Può accadere che la serie di dati manifesti la presenza di un trend o di una (o
più) periodicità: il valore medio non appare costante lungo la serie, e, pertanto,
la rimozione della media globale costante porterebbe a compiere un errore nella
stima della varianza dei dati.
Il problema, pertanto, è quello di studiare l’andamento di un valore medio
variabile lungo la serie (media mobile). Ad esempio, nel caso delle serie
temporali di variabili idrologiche (ad es. piogge giornaliere), tipicamente si
sottrae dapprima il valore medio globale e, successivamente, dalla serie così
ottenuta si sottraggono i valori medi mensili:

fi = fi − f fi= fi− f j j = 1,...,12


Corso di Idrologia Applicata
Lezione V

Decomposizione di una serie di dati


Una volta rimosso il trend o la stagionalità del valor medio, può accadere che
anche la varianza presenti un trend o una stagionalità e, pertanto, anche essa
andrà considerata variabile lungo la serie. Se ciò non venisse fatto, ma si
valutasse semplicemente la varianza totale della serie, si otterrebbe una
distorsione della variabilità dei dati, sovrastimandola in alcune parti della serie,
sottostimandola in altre. I dati della serie a media nulla dovranno quindi essere
divisi per il valore locale della deviazione standard (varianza mobile).
Ancora una volta, nel caso delle serie temporali di variabili idrologiche (ad es.
piogge giornaliere), tipicamente si può manifestare una periodicità stagionale
nella varianza, di cui si può tenere conto calcolandone i valori mensili:

f i
f i= j = 1,...,12
S f  , j
Corso di Idrologia Applicata
Lezione V
Decomposizione di una serie di dati
Uno shift (o jump) è invece un salto che fa sì che i valori assunti dagli elementi
della serie da un certo indice in poi si distinguano nettamente da quelli precedenti
(può ad esempio essere dovuto alla sostituzione dello strumento di misura con uno
di caratteristiche diverse). Lo shift può interessare tanto la media quanto la
varianza e in tal caso queste ultime andranno computate distintamente per i vari
tratti della serie.
Una volta ottenuta una serie standardizzata, ovvero a media costantemente nulla
lungo la serie e varianza costantemente unitaria lungo la serie, il passo successivo
è studiare se essa manifesti un qualche grado di autocorrelazione.
In tal caso, infatti, sarà possibile stimare, entro certi limiti, l’i-esimo valore della
serie a partire da un certo numero di quelli precedenti (il numero di dati utili ad
effettuare questa previsione dipende dalla rapidità con cui la autocorrelazione
scema aumentando lo sfalsamento). Di solito si ricorre ad una combinazione
lineare dei valori precedenti.
Se si dispone di più di una serie di dati standardizzati, potrà essere possibile
studiare anche la crosscorrelazione, ovvero se sia possibile prevedere i valori di
una serie a partire da quelli (precedenti o contemporanei) delle altre.
Corso di Idrologia Applicata
Lezione V

Analisi armonica di un segnale


Il teorema di Fourier afferma che un segnale periodico qualsiasi, di periodo
T, può essere considerato come la somma d’infinite funzioni seno e coseno:

f (x ) cos (ix )dx


2
a0 
ai = 
f (x ) = +  ai cos (ix ) + bi sen(ix )
TT
bi =  f (x )sen(ix )dx
2 i =1 2
TT

2  è la pulsazione ed f è la frequenza
 = 2f =
T dell’armonica fondamentale.

Si definisce potenza media o valore efficace del segnale la seguente quantità:

P =  f (x ) dx =
1
TT
2 a02  2
(
+  ai + bi2
4 i =1
)
Corso di Idrologia Applicata
Lezione V
Analisi armonica di un segnale
Le proprietà delle funzioni trigonometriche consentono di scrivere lo
sviluppo in serie di Fourier nelle seguenti formulazioni alternative, in tutto e
per tutto equivalenti alla precedente:
f ( x )e − jix dx
1
ci =
TT 
1
 c0 = a0
f (x ) =  ci e jix
2
ci = (ai − jbi ) i  0
1
i =−
2
ci = (ai + jbi ) i  0
1
 2
 ci
2
P=
i =−
a0
C0 =
 2
f (x ) = C0 +  Ci cos (ix − i ) Ci = ai2 + bi2
i =1
i = arg (ai + jbi )

P =  Ci2
i =0
Corso di Idrologia Applicata
Lezione V
Analisi armonica di un segnale
Corso di Idrologia Applicata
Lezione V
Analisi armonica di un segnale
Le armoniche necessarie alla perfetta coincidenza dello sviluppo in serie di
Fourier con la funzione di partenza costituiscono il contenuto armonico di un
segnale. È molto importante riconoscere che un campionamento discontinuo e
di durata limitata di una funzione continua (ciò che di solito accade sia quando
si effettuano delle misure di una grandezza idrologica, sia quando si utilizza un
modello discretizzato di un sistema continuo) comporta giocoforza la
possibilità che una parte del contenuto armonico vada persa durante il
campionamento.
In particolare, il passo di campionamento  (spaziale o temporale) definisce la
massima frequenza (spaziale o temporale) rappresentabile:
1
f max = (criterio di Nyquist)
2

Allo stesso modo, l’ampiezza totale dell’intervallo di campionamento (spaziale


o temporale) limita la minima frequenza (spaziale o temporale) rappresentabile:
1
f min =

Corso di Idrologia Applicata
Lezione V
Analisi armonica di un segnale
Un importante effetto dei limiti alla rappresentazione delle armoniche che un
campionamento discreto e di ampiezza limitata comporta è il cosiddetto
fenomeno dell’aliasing.
Si tratta di un fenomeno di distorsione del segnale, causato dall’errata
rappresentazione delle frequenze superiori a fmax. I coefficienti dello sviluppo in
serie di Fourier risulteranno infatti affetti dal seguente errore:
+
ci = ci +  ci+ Nl
l = −
l 0

La scelta della frequenza e della durata del campionamento, pertanto, deve


essere fatta, se possibile, in modo che l’intervallo di frequenze rappresentabili
sia ampiamente superiore al contenuto in frequenza del segnale misurato.
La rappresentazione del contenuto armonico viene di solito effettuata attraverso
lo spettro di potenza, che associa ad ogni frequenza il corrispondente valore di
P e consente di riconoscere la presenza di periodicità (ad esempio stagionalità
se si evidenzia la presenza di una armonica di periodo pari ad un anno).
Corso di Idrologia Applicata
Lezione V
Funzioni discrete
I concetti precedentemente introdotti per le funzioni periodiche possono essere
estesi al caso delle funzioni non periodiche estendendo gli intervalli di
integrazione dal periodo T all’intero insieme di definizione della funzione.
Tale estensione, tuttavia, non è sostanzialmente necessaria in quanto le
osservazioni dei fenomeni, periodici o meno, hanno sempre durata limitata e
quindi è possibile assumere che l’ampiezza dell’intervallo di osservazione
coincida con il periodo dell’armonica fondamentale, non essendo peraltro
possibile rappresentare le frequenze inferiori.
Più utile è invece l’estensione al caso delle funzioni campionate in un insieme
discreto di N punti distanziati di  l’uno dall’altro. Per quanto riguarda lo
sviluppo in serie di Fourier, risulta:
N −1  2i x j 
N −2   2i x j   2i x j  ai =
2
( )
 j  N  
( ) a f x cos
f xj = 0 +  ai cos N   + bi sin N  
  N j =0  
2 i =1 
     2 N −1  2i x j 
x j = j j = 0,..., N − 1 bi =  ( )
f x j sin 
N j =0  N  
Corso di Idrologia Applicata
Lezione V
Funzioni di correlazione
Uno strumento importante per guidare nella costruzione di un modello di
simulazione di un fenomeno idrologico sono le funzioni di correlazione.
Data una funzione periodica f(x), di periodo T, si definisce funzione di
autocorrelazione:
  f (x ) − f  f (x +  ) − f dx
a( ) = T
 f (x ) − f 2 dx
T

La funzione di autocorrelazione, per definizione simmetrica e periodica di


periodo T, fornisce informazioni sulla ‘memoria’ della funzione f(x), ovvero su
quanto i valori che essa assume siano correlati ai valori assunti altrove (in altri
punti o in altri istanti). Questa informazione è importante per stabilire
l’ampiezza dell’intervallo (spaziale o temporale) in cui è utile osservare un
fenomeno al fine di poterne prevedere l’evoluzione.
La correlazione massima (a=1) si ha ovviamente per =0. La rapidità con cui a
diminuisce al crescere di  indica quanto rapidamente il fenomeno perde la
memoria del passato.
Corso di Idrologia Applicata
Lezione V
Funzioni di correlazione
È spesso importante studiare se esiste correlazione tra i valori assunti da due
diverse grandezze, rappresentate da due funzioni periodiche. Si definisce
funzione di crosscorrelazione o correlazione mutua:

  f (x ) − f g (x +  ) − g dx
c( ) = T
12
 2 

  f (x ) − f 
2
g (x +  ) − g  dx
T 

La funzione di crosscorrelazione, anch’essa per definizione periodica di


periodo T, fornisce informazioni sulla possibilità di prevedere i valori assunti
da una funzione a partire da quelli assunti dall’altra.
In questo caso non è detto che la correlazione massima corrisponda a =0. Ciò
accade, ad esempio, nel caso della funzione di crosscorrelazione temporale
dell’altezza di precipitazione misurata in due punti che vengono raggiunti in
tempi successivi da un fronte perturbato.
Corso di Idrologia Applicata
Lezione V

Funzioni discrete
Le funzioni di correlazione di funzioni discrete si calcolano con le seguenti
espressioni:

N −1− j
  f (xi ) − f  f (xi+ j )− f 
Funzione di autocorrelazione. a ( j ) = i =0
N −1
  f (xi ) − f 
2

i =0

N −1− j
  f (xi ) − f g (xi+ j )− g 
Funzione di crosscorrelazione. c ( j ) = i =0
12
 N −1 N −1
2
 
  f (xi ) − f 
2
 i g ( x ) − g  

 i =0 i =0 

L’indice j prende il nome di lag o sfalsamento.


Corso di Idrologia Applicata
Lezione V
I modelli AR
In un modello autoregressivo (AR) si stima l’i-esimo valore della serie
standardizzata fi attraverso una combinazione lineare di alcuni dei valori
assunti precedentemente. Il numero p di valori precedenti utilizzati nella
combinazione lineare è detto ordine del modello e il modello si indica come
AR(p).
La struttura matematica del modello è pertanto la seguente:
p
fi =   j fi− j +  i
j =1
La serie i rappresenta una variabile aleatoria normale incorrelata, di solito
indicata come rumore (noise) o errore. I parametri del modello sono pertanto
rappresentati dai p coefficienti della combinazione lineare.
La varianza e la funzione di autocorrelazione del modello AR assumono le
seguenti espressioni:
 2 p
 =
2
p
ak =   j ak − j
j =1
1 −  j a j
j =1
 2
Nel caso del modello AR(1) si ottiene:  =
2
ak = 1ak −1 = 1k
1 − 12
Corso di Idrologia Applicata
Lezione V
I modelli ARMA
I modelli ARMA (AutoRegressive Moving Average models) sono più versatili
di quelli AR. La struttura matematica è la seguente:

Ai p parametri autoregressivi si aggiungono q parametri di media mobile, i. Il


modello viene indicato come ARMA(p,q).
I modelli ARMA devono soddisfare le condizioni di stazionarietà e
invertibilità, che introducono vincoli sui parametri (equazioni caratteristiche):

Per il modello ARMA(1,1) le equazioni caratteristiche si riducono a:


− 1  1  1 − 1  1  1

La varianza e il coefficiente di autocorrelazione di lag unitario di un modello


ARMA(1,1) assumono le seguenti espressioni:

 = 2 1 − 211 + 12
 2 a1 =
(1 − 11 )(1 − 1 )
1 − 12 1 − 211 + 12
Corso di Idrologia Applicata
Lezione V
I modelli ARX
Modelli di sistemi più complessi possono essere costruiti considerando la
dipendenza della variabile di interesse non solo da sé stessa (parte
autoregressiva, modello AR), ma anche da altre variabili gk, che vengono dette
ingressi esogeni (heXogenous, da cui ARX). Ciascuna delle variabili esogene
può avere un proprio diverso ordine. La struttura matematica del modello è
pertanto la seguente:
p nX lk
f i =   j f i − j +   k , j g k ,i − j +  i
j =1 k =1 j =1

Nell’esempio è rappresentata l’espressione matematica di un modello ARX, di


ordine p per la parte autoregressiva, con nX ingressi esogeni gk, ciascuno di
ordine lk.
I parametri di un simile modello sono pertanto rappresentati, oltre che dai p
coefficienti j della parte autoregressiva, anche dagli 1,…, nXdella
combinazione lineare delle nX variabili esogene.
Analoga estensione ai sistemi con più ingressi e uscite può essere fatta per i
modelli ARMA, definendo così i modelli ARMAX.

Potrebbero piacerti anche