Sei sulla pagina 1di 17

Preprocessamento dei Dati

Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza (es. stagionali) Disturbi ad alta frequenza, al di l delle frequenze di interesse del sistema dinamico Outliers, dati mancanti Il primo passo di tale fase consiste sempre nellispezione visiva dei dati

Pre-processamento dei Dati


I processi fisici evolvono dinamicamente attorno a punti di equilibrio. La presenza nei dati di caratteristiche statiche o lentamente variabili pu occultare le caratteristiche dinamiche, inficiando lefficienza degli algoritmi di identificazione Le operazioni pi comuni effettuate sui dati sono: Sottrazione del valore medio dal set di dati; Scaling (normalizzazione)(tutti i dati sono riportati alla stessa varianza) Detrending (sottrazione del miglior fit lineare sui dati) Filtraggio Normalizzazione

Preprocessamento dei Dati


Istruzione Matlab detrend: >u1=detrend(u) rimuove il miglior fit lineare dalla sequenza di dati >u1=detrend(u,constant) rimuove il valor medio dal vettore u >u1=detrend(u,linear,BP) rimuove un trend lineare a tratti in cui gli indici della spezzata sono contenuti nel vettore BP

Preprocessamento dei Dati


>detrend(y,constant)
8

Valor Medio
2

Dati Sperimentali

-2

Dati dopo la Sottrazione del Valor Medio

-4

100

200

300

400

500

600

700

800

900

1000

Preprocessamento dei Dati


>detrend(y)
8 7 6

Trend
3 2

Dati Sperimentali

Dati dopo il Detrending


1 0

-1

-2

100

200

300

400

500

600

700

800

900

1000

Preprocessamento dei Dati


>detrend(y,linear,[100:100:size(y)])
8 7 6 5 4

Trend PWL
3 2 1 0 -1

Dati Sperimentali

Dati dopo il detrend PWL

-2

100

200

300

400

500

600

700

800

900

1000

Pre-processamento dei Dati


Disturbi ad Alta Frequenza
Gli strumenti di misura spesso introducono rumore ad alta frequenza Tale rumore viene di solito filtrato tramite filtri passa basso La banda del filtro scelta solitamente attraverso lanalisi dello spettro del segnale (modulo della trasformata di Fourier) >plot(abs(fft(detrend(y))))

Preprocessamento dei Dati


Outliers, Dati mancanti
Gli strumenti di acquisizione dei dati possono non essere perfetti. Pu capitare che singoli campioni o parti di dati sperimentali siano affetti da errori dovuti a tali cause. Gli effetti sul set di dati sono in genere: Picchi Discontinuit Saturazioni Valori costanti Gli outliers vengono in genere trattati eliminando le porzioni di dati affette o stimando i valori mancanti (per continuit)

Eliminazione di outliers

Normalizzazione
Le variabili dingresso e di uscita considerate in un processo di acquisizione dati sono, in genere, grandezze fisiche di diverso tipo. Esse presentano valori numerici spesso assai diversi che non possono essere forniti direttamente ad un sistema poich si rischierebbe di penalizzare quelle grandezze che, a causa del loro range di variazione, assumono dei valori numerici pi piccoli delle altre. La fase di normalizzazione, altrimenti detta di scaling, riveste unimportanza rilevante in fase di pre-processing dei dati. E necessaria affinch importanti variabili di processo con piccole ampiezze non vengano considerate meno significative di variabili con ampiezza maggiore.

Min-max normalization
=
'

minA
maxA minA

(new_ maxA new_ minA ) + new_ minA

Dove: minA maxA new_minA new_maxA = valore da normalizzare; = valore normalizzato; = valore minimo della variabile A; = valore massimo della variabile A; = valore minimo del nuovo range che si vuole definire; = valore massimo del nuovo range che si vuole definire.

Z-score normalization
mean A = A
'

Dove: meanA A = valore da normalizzare; = valore normalizzato; = valore medio della variabile A; = deviazione standard della variabile A.

Robust normalization
La robust scaling prevede, per una sequenza di dati {xi}, di sostituire, nella formula della Z-score, la media con la mediana e la deviazione standard con la MAD (median absolute deviation) cos definita:

SMAD= 1.4826 mediani {Ixi - xmedianI},


Dove xmedian la mediana di x La relazione diventa quindi:

=
'

medianA
SMAD

Modified normalization
Questo metodo prevede che, per una variabile con n osservazioni, si determinino le n/2 osservazioni pi vicine al valore della mediana. La mediana e la deviazione standard di questo sottoset di dati saranno successivamente utilizzate per autoscalare lintera sequenza n di dati. Una modifica a tale criterio apportata dalla Consistent Modified Scaling che suggerisce di trovare un fattore di correzione alla procedura in modo da stimare quanto pi accuratamente possibile la deviazione standard e la media del sottoset di dati utilizzato per normalizzare lintera sequenza di dati.

Min-Max Normalization
MIN - MAX N OR MAL IZATION

550 500 450 N 3/ h m 400 350 300 250 0 1000 2000 3000 4000 5000 6000 Variabile non normalizzata

1 N 3/ h m

Variabile normalizzata

Andamento di una variabile prima e dopo la normalizzazione

0.5

0 0 1000 2000 3000 4000 5000 6000

Esempio di codice Matlab

Robust Normalization
R OB U S T N OR MAL IZATION

550 500 450 N 3/ h m 400 350 300 250 0 1000 2000 3000 4000 5000 6000 Variabile non normalizzata

3 2 1 N 3/ h m 0 -1 -2 -3 0 1000 2000 3000 4000 5000 6000 Variabile normalizzata

Andamento di una variabile normalizzata

Esempio di codice Matlab

Suddivisione dei dati Linsieme dei dati viene diviso in due parti: Dati per lidentificazione Dati per la validazione del modello entrambi gli insiemi devono essere rappresentativi della intera dinamica del processo i dati per lidentificazione non devono contenere ridondanze, cio trend ripetuti in modo prevalente rispetto agli altri per i modelli OE e ARMAX i dati dovrebbero essere contigui temporalmente (altrimenti si generano transitori errati) in ogni caso per tutti i modelli i tratti di dati discontinui possono essere uniti solo dopo avere creato i vettori di ingresso con i ritardi corretti il numero di dati per lidentificazione deve essere scelto in funzione del numero di parametri liberi del modello

Potrebbero piacerti anche