Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza (es. stagionali) Disturbi ad alta frequenza, al di l delle frequenze di interesse del sistema dinamico Outliers, dati mancanti Il primo passo di tale fase consiste sempre nellispezione visiva dei dati
Valor Medio
2
Dati Sperimentali
-2
-4
100
200
300
400
500
600
700
800
900
1000
Trend
3 2
Dati Sperimentali
-1
-2
100
200
300
400
500
600
700
800
900
1000
Trend PWL
3 2 1 0 -1
Dati Sperimentali
-2
100
200
300
400
500
600
700
800
900
1000
Eliminazione di outliers
Normalizzazione
Le variabili dingresso e di uscita considerate in un processo di acquisizione dati sono, in genere, grandezze fisiche di diverso tipo. Esse presentano valori numerici spesso assai diversi che non possono essere forniti direttamente ad un sistema poich si rischierebbe di penalizzare quelle grandezze che, a causa del loro range di variazione, assumono dei valori numerici pi piccoli delle altre. La fase di normalizzazione, altrimenti detta di scaling, riveste unimportanza rilevante in fase di pre-processing dei dati. E necessaria affinch importanti variabili di processo con piccole ampiezze non vengano considerate meno significative di variabili con ampiezza maggiore.
Min-max normalization
=
'
minA
maxA minA
Dove: minA maxA new_minA new_maxA = valore da normalizzare; = valore normalizzato; = valore minimo della variabile A; = valore massimo della variabile A; = valore minimo del nuovo range che si vuole definire; = valore massimo del nuovo range che si vuole definire.
Z-score normalization
mean A = A
'
Dove: meanA A = valore da normalizzare; = valore normalizzato; = valore medio della variabile A; = deviazione standard della variabile A.
Robust normalization
La robust scaling prevede, per una sequenza di dati {xi}, di sostituire, nella formula della Z-score, la media con la mediana e la deviazione standard con la MAD (median absolute deviation) cos definita:
=
'
medianA
SMAD
Modified normalization
Questo metodo prevede che, per una variabile con n osservazioni, si determinino le n/2 osservazioni pi vicine al valore della mediana. La mediana e la deviazione standard di questo sottoset di dati saranno successivamente utilizzate per autoscalare lintera sequenza n di dati. Una modifica a tale criterio apportata dalla Consistent Modified Scaling che suggerisce di trovare un fattore di correzione alla procedura in modo da stimare quanto pi accuratamente possibile la deviazione standard e la media del sottoset di dati utilizzato per normalizzare lintera sequenza di dati.
Min-Max Normalization
MIN - MAX N OR MAL IZATION
550 500 450 N 3/ h m 400 350 300 250 0 1000 2000 3000 4000 5000 6000 Variabile non normalizzata
1 N 3/ h m
Variabile normalizzata
0.5
Robust Normalization
R OB U S T N OR MAL IZATION
550 500 450 N 3/ h m 400 350 300 250 0 1000 2000 3000 4000 5000 6000 Variabile non normalizzata
Suddivisione dei dati Linsieme dei dati viene diviso in due parti: Dati per lidentificazione Dati per la validazione del modello entrambi gli insiemi devono essere rappresentativi della intera dinamica del processo i dati per lidentificazione non devono contenere ridondanze, cio trend ripetuti in modo prevalente rispetto agli altri per i modelli OE e ARMAX i dati dovrebbero essere contigui temporalmente (altrimenti si generano transitori errati) in ogni caso per tutti i modelli i tratti di dati discontinui possono essere uniti solo dopo avere creato i vettori di ingresso con i ritardi corretti il numero di dati per lidentificazione deve essere scelto in funzione del numero di parametri liberi del modello