Preprocessamento Dei Dati

Preprocessamento dei Dati
Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza (es. stagionali) Disturbi ad alta frequenza, al di l delle frequenze di interesse del sistema dinamico Outliers, dati mancanti Il primo passo di tale fase consiste sempre nellispezione visiva dei dati
Pre-processamento dei Dati

I processi fisici evolvono dinamicamente attorno a punti di equilibrio. La presenza nei dati di caratteristiche statiche o lentamente variabili pu occultare le caratteristiche dinamiche, inficiando lefficienza degli algoritmi di identificazione Le operazioni pi comuni effettuate sui dati sono: Sottrazione del valore medio dal set di dati; Scaling (normalizzazione)(tutti i dati sono riportati alla stessa varianza) Detrending (sottrazione del miglior fit lineare sui dati) Filtraggio Normalizzazione

Istruzione Matlab detrend: >u1=detrend(u) rimuove il miglior fit lineare dalla sequenza di dati >u1=detrend(u,constant) rimuove il valor medio dal vettore u >u1=detrend(u,linear,BP) rimuove un trend lineare a tratti in cui gli indici della spezzata sono contenuti nel vettore BP

>detrend(y,constant)
8
Valor Medio
2
Dati Sperimentali
-2
Dati dopo la Sottrazione del Valor Medio
-4
100
200
300
400
500
600
700
800
900
1000

>detrend(y)
8 7 6
Trend
3 2
Dati Sperimentali
Dati dopo il Detrending

1 0
-1
-2
100
200
300
400
500
600
700
800
900
1000

>detrend(y,linear,[100:100:size(y)])
8 7 6 5 4
Trend PWL
3 2 1 0 -1
Dati Sperimentali
Dati dopo il detrend PWL
-2
100
200
300
400
500
600
700
800
900
1000
Pre-processamento dei Dati

Disturbi ad Alta Frequenza
Gli strumenti di misura spesso introducono rumore ad alta frequenza Tale rumore viene di solito filtrato tramite filtri passa basso La banda del filtro scelta solitamente attraverso lanalisi dello spettro del segnale (modulo della trasformata di Fourier) >plot(abs(fft(detrend(y))))

Outliers, Dati mancanti
Gli strumenti di acquisizione dei dati possono non essere perfetti. Pu capitare che singoli campioni o parti di dati sperimentali siano affetti da errori dovuti a tali cause. Gli effetti sul set di dati sono in genere: Picchi Discontinuit Saturazioni Valori costanti Gli outliers vengono in genere trattati eliminando le porzioni di dati affette o stimando i valori mancanti (per continuit)
Eliminazione di outliers
Normalizzazione
Le variabili dingresso e di uscita considerate in un processo di acquisizione dati sono, in genere, grandezze fisiche di diverso tipo. Esse presentano valori numerici spesso assai diversi che non possono essere forniti direttamente ad un sistema poich si rischierebbe di penalizzare quelle grandezze che, a causa del loro range di variazione, assumono dei valori numerici pi piccoli delle altre. La fase di normalizzazione, altrimenti detta di scaling, riveste unimportanza rilevante in fase di pre-processing dei dati. E necessaria affinch importanti variabili di processo con piccole ampiezze non vengano considerate meno significative di variabili con ampiezza maggiore.
Min-max normalization
=
'
minA
maxA minA
(new_ maxA new_ minA ) + new_ minA
Dove: minA maxA new_minA new_maxA = valore da normalizzare; = valore normalizzato; = valore minimo della variabile A; = valore massimo della variabile A; = valore minimo del nuovo range che si vuole definire; = valore massimo del nuovo range che si vuole definire.
Z-score normalization
mean A = A
'
Dove: meanA A = valore da normalizzare; = valore normalizzato; = valore medio della variabile A; = deviazione standard della variabile A.
Robust normalization
La robust scaling prevede, per una sequenza di dati {xi}, di sostituire, nella formula della Z-score, la media con la mediana e la deviazione standard con la MAD (median absolute deviation) cos definita:
SMAD= 1.4826 mediani {Ixi - xmedianI},

Dove xmedian la mediana di x La relazione diventa quindi:
=
'
medianA
SMAD
Modified normalization
Questo metodo prevede che, per una variabile con n osservazioni, si determinino le n/2 osservazioni pi vicine al valore della mediana. La mediana e la deviazione standard di questo sottoset di dati saranno successivamente utilizzate per autoscalare lintera sequenza n di dati. Una modifica a tale criterio apportata dalla Consistent Modified Scaling che suggerisce di trovare un fattore di correzione alla procedura in modo da stimare quanto pi accuratamente possibile la deviazione standard e la media del sottoset di dati utilizzato per normalizzare lintera sequenza di dati.
Min-Max Normalization
MIN - MAX N OR MAL IZATION
550 500 450 N 3/ h m 400 350 300 250 0 1000 2000 3000 4000 5000 6000 Variabile non normalizzata
1 N 3/ h m
Variabile normalizzata
Andamento di una variabile prima e dopo la normalizzazione
0.5
0 0 1000 2000 3000 4000 5000 6000
Esempio di codice Matlab
Robust Normalization
R OB U S T N OR MAL IZATION
550 500 450 N 3/ h m 400 350 300 250 0 1000 2000 3000 4000 5000 6000 Variabile non normalizzata
3 2 1 N 3/ h m 0 -1 -2 -3 0 1000 2000 3000 4000 5000 6000 Variabile normalizzata
Andamento di una variabile normalizzata
Esempio di codice Matlab
Suddivisione dei dati Linsieme dei dati viene diviso in due parti: Dati per lidentificazione Dati per la validazione del modello entrambi gli insiemi devono essere rappresentativi della intera dinamica del processo i dati per lidentificazione non devono contenere ridondanze, cio trend ripetuti in modo prevalente rispetto agli altri per i modelli OE e ARMAX i dati dovrebbero essere contigui temporalmente (altrimenti si generano transitori errati) in ogni caso per tutti i modelli i tratti di dati discontinui possono essere uniti solo dopo avere creato i vettori di ingresso con i ritardi corretti il numero di dati per lidentificazione deve essere scelto in funzione del numero di parametri liberi del modello

Preprocessamento Dei Dati

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Preprocessamento Dei Dati

Caricato da

Copyright:

Formati disponibili

Preprocessamento dei Dati