Sei sulla pagina 1di 238

Corso di Laurea Magistrale in Ingegneria Biomedica

Universitá degli Studi “Federico II” di Napoli

Analisi avanzata di segnali biomedici per applicazioni cliniche


a.a. 2015-2016 (ver. 22102015)

A cura di
Prof. Mario Sansone
Ing. Roberta Fusco
Indice

I Introduzione ai modelli in fisiologia 3

1 Modelli per la cinetica dei traccianti 5


1.1 Definizione delle quantitá fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Tempo di transito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Volume di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Indicator Dilution Theory (IDT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Alcune questioni sulla funzione AIF . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Modelli compartimentali deterministici . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Compartimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Tracciante e tracciato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.3 Equazioni del tracciato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.4 Equazioni del tracciante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.5 Soluzione delle equazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.6 Tempi di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Modelli compartimentali stocastici . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Evoluzione delle probabilitá di transizione . . . . . . . . . . . . . . . . . . . . 17
1.5.2 Distribuzione dei tempi di transito per modelli stocastici . . . . . . . . . . . . 17
1.5.3 Tempi di transito medi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Identificabilitá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7 Modelli a parametri distribuiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.1 Modello di Bassingthwaighte . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.2 Modello generale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.3 Tissue homogeneity model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8 Un esempio concreto: DCE-MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8.1 Analisi qualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8.2 Analisi semiquantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.3 Analisi quantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9 Stima dei parametri cinetici mediante algoritmi non iterativi . . . . . . . . . . . . . 35
1.9.1 Algoritmo di Horsfield e Morgan . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.9.2 Algoritmo di Murase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

i
INDICE

1.10 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.10.1 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.10.2 Esempio: modello a due compartimenti . . . . . . . . . . . . . . . . . . . . . 41
1.10.3 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.10.4 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.10.5 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.10.6 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.10.7 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.10.8 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2 Modello del segnale elettromiografico (EMG) 47


2.1 Singola unitá motoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.1.1 Esempio in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2 Insieme di unitá motorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3 Modello della Heart Rate Variability (HRV) 57


3.1 Modello Integral Pulse Frequency Modulation (IPFM) . . . . . . . . . . . . . . . . . 57
3.1.1 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Poincare plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.1 Esempio in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3 Rilevazione dei complessi QRS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 Errori nella determinazione della posizione del picco R . . . . . . . . . . . . . . . . . 67
3.4.1 Interpolazione mediante DFT . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5 Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1 Filtro di Savitzky-Golay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4 Modello per Magnetic Resonance Spectroscopic Imaging 71


4.1 Modello del segnale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2 Singular Value Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Linear Prediction SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5 Stima dei parametri mediante regressione 77


5.1 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2 Ordinary Least Squares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3 Proprietá statistiche della soluzione OLS . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4 La trasformata di Fourier discreta come problema LS . . . . . . . . . . . . . . . . . . 79
5.5 Criteri di ottimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.6 Regressione Non Lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.7 Differenze rispetto alla stima nel caso non-lineare . . . . . . . . . . . . . . . . . . . . 82
5.8 Generalitá sulla ottimizzazione di funzioni . . . . . . . . . . . . . . . . . . . . . . . . 82

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 ii


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
INDICE

5.9 Algoritmo di Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83


5.10 Algoritmo di Gauss-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.11 Algoritmo di Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.12 Algoritmo VARiable PROjection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.13 Criteri per valutare la bontá di uno stimatore . . . . . . . . . . . . . . . . . . . . . . 86
5.14 Un approccio geometrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.15 Misure di non linearitá: Curvatura Relativa . . . . . . . . . . . . . . . . . . . . . . . 88
5.15.1 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.16 Funzioni di costo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.17 Scelta dell’ordine del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.17.1 Criterio di Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.18 Esempi ed esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.18.1 Esempio: uso dell’algoritmo di Levenberg-Marquardt . . . . . . . . . . . . . . 95
5.18.2 Esercizio: implementazione del metodo VARPRO . . . . . . . . . . . . . . . . 96
5.18.3 Esempio: applicazione del teroema di Cramer-Rao ad una variabile gaussiana 96
5.18.4 Esercizio: Cramer-Rao per variabile gaussiana con due parametri . . . . . . . 97
5.18.5 Esempio: metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.18.6 Esempio: applicazione del teorema di Cramer-Rao nel caso di modello non-
lineare con rumore gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.18.7 Esempio: applicazione del metodo Monte Carlo . . . . . . . . . . . . . . . . . 100

II Introduzione all’uso di tecniche di Pattern Recognition per modelli


fisiologici 105

6 Introduzione al pattern recognition 107


6.1 Il problema del pattern recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2 Principi della classificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.3 Concetti di base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.3.1 Acquisizione dei dati e preprocessing . . . . . . . . . . . . . . . . . . . . . . . 108
6.3.2 Rappresentazione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.3.3 Decision making . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.3.4 Criteri di separabilitá tra classi . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.3.5 Feature selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3.6 Feature extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3.7 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3.8 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3.9 Prestazioni del classificatore . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.4 Esempi ed esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.4.1 Esempio: stima a massima verosimiglianza dei parametri di distribuzioni
gaussiane multivariate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 iii


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
INDICE

6.4.2 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

7 Principal component Analysis 117


7.1 Proprietà delle componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.2 PCA di un campione di osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.3 Approccio geometrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.4 Decomposizione in valori singolari . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.5 Trasformazione Karhunen-Loéve (KLT) . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.6 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8 Independent Component Analysis 135


8.1 Il problema del cocktail party . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.2 Concetti preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.2.1 Variabili congiuntamente gaussiane . . . . . . . . . . . . . . . . . . . . . . . . 135
8.2.2 Non Gaussianitá e kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
8.2.3 Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
8.2.4 Sbiancamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.3 ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.3.1 Centraggio dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.3.2 Lo sbiancamento dei dati è solo una metà di ICA . . . . . . . . . . . . . . . . 139
8.3.3 Perchè le variabili gaussiane sono vietate . . . . . . . . . . . . . . . . . . . . . 139
8.3.4 L’indipendenza equivale alla non gaussianità . . . . . . . . . . . . . . . . . . 139
8.3.5 Implementazione dell’ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.3.6 Misura della non gaussianità mediante kurtosis . . . . . . . . . . . . . . . . . 140
8.3.7 Misura della non gaussianità mediante negentropia . . . . . . . . . . . . . . . 140
8.4 Implementazioni disponibili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
8.5 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

9 Clustering o unsupervised learning 145


9.1 L’algoritmo Expectation-Maximization . . . . . . . . . . . . . . . . . . . . . . . . . . 145
9.2 Gaussian Mixture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2.1 Esempio Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
9.3 L’algoritmo k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

III Introduzione alle tecniche per il trattamento della non staziona-


rietá per segnali fisiologici 153

10 Analisi della non stazionarietá dei segnali biomedici 155


10.1 Generalitá sui segnali non stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
10.2 Metodi per testare la non stazionarietá . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10.2.1 Runs test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 iv


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
INDICE

10.2.2 Reverse arrangement test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

11 Analisi tempo-frequenza 163


11.1 Short Time Fourier Transform (STFT) . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11.2 Generalised Short Time Fourier Transform (GSTFT) . . . . . . . . . . . . . . . . . . 164
11.3 Wigner-Ville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
11.4 Atomi di Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

12 Wavelet 167
12.1 Continuous Wavelet Transform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.2 Discrete Wavelet Transform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
12.3 Analisi Multirisoluzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
12.4 Banco di Filtri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
12.5 Applicazioni in campo biomedico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

IV Appendici 179

A Notazioni e richiami 181


A.1 Notazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
A.2 Notazioni per il calcolo differenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
A.3 Metodo dei moltiplicatori di Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . 183
A.4 Richiami su probabilitá e processi aleatori . . . . . . . . . . . . . . . . . . . . . . . . 184
A.5 Probabilitá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
A.6 Caratterizzazione di processi aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
A.7 Segnale e rumore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
A.8 Processi gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
A.9 Proprietá dei processi stazionari in senso lato . . . . . . . . . . . . . . . . . . . . . . 186
A.10 Matrice di autocorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
A.11 Stima delle principali quantitá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
A.12 Filtraggio di segnali aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
A.13 Il processo di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
A.13.1 Esempio in Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

B Stima spettrale per applicazioni biomediche - Metodi non parametrici 195


B.1 Metodi non parametrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
B.1.1 Periodogramma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
B.1.2 Periodogramma modificato . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
B.1.3 Metodo di Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
B.1.4 Metodo di Welch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
B.1.5 Metodo di Blackman-Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 v


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
INDICE

B.1.6 Stima dello spettro a minima varianza . . . . . . . . . . . . . . . . . . . . . . 201


B.1.7 Stima dello spettro a massima entropia . . . . . . . . . . . . . . . . . . . . . 203
B.1.8 Periodogramma di Lomb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

C Stima spettrale per applicazioni biomediche - Metodi parametrici 207


C.1 Modello autoregressivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
C.2 Stima dello spettro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
C.3 Predizione lineare in avanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
C.4 Metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
C.5 Metodo FBLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
C.5.1 Selezione dell’ordine del modello . . . . . . . . . . . . . . . . . . . . . . . . . 212
C.6 Stima di frequenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
C.6.1 Caso di una sinusoide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
C.6.2 Caso di p sinusoidi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
C.6.3 Metodo di Pisarenko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
C.6.4 MUSIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

D Filtri adattativi per applicazioni biomediche 217


D.1 Filtro di Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
D.1.1 Il principio di ortogonalitá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
D.1.2 Comportamento del filtro in presenza di rumore . . . . . . . . . . . . . . . . 219
D.1.3 Superficie di errore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
D.1.4 Legame con il modello autoregressivo e la predizione lineare . . . . . . . . . . 220
D.2 L’algoritmo Steepest Descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
D.3 Filtro LMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
D.4 Filtro Recursive Least-Squares o RLS . . . . . . . . . . . . . . . . . . . . . . . . . . 223
D.5 Adaptive Noise Canceling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 vi


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Introduzione ed obiettivi corso

Il paradigma generalmente accettato della scienza attuale si fonda sul concetto di modello di un
sistema fisico/fisiologico e sulla possibilitá di effettuare previsioni sulla base del modello. Il modello
é una descrizione matematica, verbale, grafica etc.. di una realtá fisica/fisiologica. I modelli mate-
matici hanno il vantaggio di poter essere manipolati efficientemente per poter effettuare previsioni.
Spesso i modelli matematici si presentano sotto forma di equazioni differenziali.
Esaminiamo la figura 1 . Un sistema fisiologico presenta dei parametri ignoti e dei disturbi
esterni che ne influenzano il comportamento in risposta ad una stimolazione da ingressi esercitati
dallo sperimentatore. il rumore di misura corrompe i dati misurati. Lo sperimentatore riassume le
sue conoscenze a priori in due modelli possibili e vuole stabilire quale sia la ipotesi piú attendibile.
Per fare ció deve esercitare degli ingressi controllati sul sistema e deve prelevare dei dati sulle
corrispondenti risposte. I dati misurati sono confrontati con le risposte dei modelli matematici per
stimare i loro rispettivi parametri. Infine i vari modelli sono confrontati tra loro per stabilire quale
sia il modello ottimo. Una volta che il modello ottima sia stato selezionato, potrá essere usato per
fare previsioni (progettazione).
Facciamo un esempio in un ambito familiare: il flusso di corrente attraverso un resistore. Lo
sperimentatore (immaginiamo che sia ignaro della legge di Ohm !!!) vuole provare un modello del
tipo ∆V = R·I 2 ed un modello del tipo ∆V = log(R·I 2 ) che lega la tensione applicata (ingresso) alla
corrente (uscita) del sistema. Entrambi i modelli hanno un solo parametro R. Lo sperimentatore
applicherá una serie di ingressi (ad esempio ∆V = 1, 2, . . . , 10V e misurerá le uscite (ad es. le
correnti I = 3, 6, . . . , 30A. Mediante una procedura di stima (che sará ampiamente trattata nel
corso) valuta in entrambi i casi il parametro R. Mediante tecniche di validazione dei modelli (anche
queste trattate nel corso) potrá stabilire la precisione delle stime e la bontá complessiva dei modelli
rispetto alle misure effettuate. A questo punto potrá decidere quale dei due modelli descrive con
maggiore accuratezza il sistema nell’ambito delle condizioni in cui lo sperimentatore ha fatto le
misure. Inoltre potrá usare il modello per fare previsioni (ad es. se applico una tensione di 8 V
quale sará la corrente ?) e potrá progettare circuiti che contengano tale componente.
Mentre le procedure di stima e valutazione dei modelli sono state molto studiate e sono at-
tualmente disponibili una serire di tecniche che sono oggetto del corso, non é possibile purtroppo
formalizzare la fase di costruzione del modello che é invece una parte creativa della scienza e dell’in-
gegneria. Inoltre, anche l’ambito applicativo influenza la costruzione del modello dato che per ogni
sistema fisico/fisiologico é possibile mettere a punto modelli diversi, piú o meno accurati nell’ambito
di interesse.
Infine si puó osservare che possiamo dividere i modelli in due grandi tipologie: i modelli basati su
principi primi e i modelli fenomenologici. La prima categoria include quei modelli che si basano su
principi largamente accettati dalla scienza corrente (relazioni locali tra forza e accelerazione etc...):
questi modelli tentano una descrizione del sistema complesso a partire dai suoi elementi costitutivi
semplici ad es. si puó tentare di costruire il modello di un tumore partendo dalle molecole delle
sostanze che lo compongono. I modelli fenomenologici sono invece delle descrizioni ’ispirate dai
dati’, nel senso che lo sperimentatore individua dei ’pattern’ all’interno delle misure e con questi
tenta di sviluppare un modello (nell’esempio del resistore, se lo sperimentatore esaminasse i dati
misurati, potrebbe scoprire che tensione corrente sono allineati lungo una retta e quindi tentare un

1
INDICE

modello fenomenologico che ipotizza una relazione lineare tra le due grandezze ..... ). Ovviamente
il modello fenomenologico non ’spiega’ il sistema di interesse ma ne da una descrizione sufficiente
per gli scopi per cui il modello é pensato.

Figura 1: Confronto e validazione di piú modelli.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 2


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Parte I

Introduzione ai modelli in fisiologia

3
Capitolo 1

Modelli per la cinetica dei


traccianti

E’ di interesse determinare il comportamento dinamico (cinetica) e spazio-temporale (andamento


della concentrazione e del flusso nel tempo e i percorsi di distribuzione nei vari distretti corporei)
di specifiche sostanze (il sangue stesso o farmaci) all’interno del corpo umano. La quantificazione
della cinetica dei traccianti (cioé la misura di quantitá come la concentrazione vs tempo) all’interno
del corpo umano é uno strumento ampiamente usato per la diagnosi e la valutazione di terapie (ad
es. con farmaci antitumorali o anti-angiogenici) e per lo sviluppo di nuovi farmaci.
A tale scopo sono stati messi a punto dei traccianti cioé delle molecole che seguono lo stesso
flusso della sostanza che si vuole studiare ed al contempo sono rilevabili con opportune apparec-
chiature. Ad esempio nel caso della PET (Positron Emission Tomography) un tracciante molto
usato é il 18 FDG (FLuoro-Deossi-Glucosio) che segue lo stesso metabolismo del glucosio (ad es.
per lo studio del metabolismo dei tumori) ma possiede un isotopo radioattivo del Fluoro il cui
livello di emissione (radio-attivitá) puó essere rilevato con la PET. Un altro esempio é costituito
dal Gd-DTPA (Gadolinio-Diethylene-Triamine-Pentaacetic-Acid) che é visibile in MRI (Magnetic
Resonance Imaging): segue il flusso del sangue dal letto vascolare al liquido interstiziale e con esso
é possibile studiare la microvascolarizzazione dei tumori.
Gli approcci possibili per lo studio della cinetica dei traccianti sono due. Il primo consiste nel
prelevare campioni di sangue all’ingresso e all’uscita dell’organo che si vuole studiare: l’analisi dei
campioni consente di rilevare la concentrazione dei traccianti e quindi, con l’adozione di opportune
ipotesi sul comportamento della vascolarizzazione dell’organo di interesse, di stimare le grandezze
di interesse. Nel secondo approccio, reso possibile dalle moderne apparecchiature di imaging, la
concentrazione del tracciante puó essere misurata all’interno dell’organo stesso (o meglio all’interno
dei voxel che lo costituiscono): anche in questo caso le grandezze di interesse possono essere stimate
aggiungendo opportune ipotesi sul comportamento della vascolarizzazione dell’organo di interesse.
Le ipotesi aggiuntive costituiscono dei modelli per la cinetica dei traccianti all’interno del corpo
umano. I modelli che sono stati maggiormente studiati sono classificabili in tre tipologie: Indicator
Dilution Theory; Modelli Compartimentali; Modelli a parametri distribuiti. Le varie tipologie
partono da presupposti differenti ma raggiungono risultati simili.

1.1 Definizione delle quantitá fondamentali


Nel seguito si useranno i seguenti termini:

tempo (di transito) (T) é il tempo impiegato da un tracciante per attraversare un organo, si
misura tipicamente in minuti dato che i fenomeni che si considerano hanno una scala temporale

5
Capitolo 1. Modelli per la cinetica dei traccianti

di diversi minuti;

massa (M) si tratta della quantitá di tracciante, in genere si puó misurare in mg, mmol, MBq
(per traccianti radioattivi);

volume di distribuzione (VD ) é il volume entro cui i traccianti si distribuiscono, si misura in


ml;

flusso di massa (J) o portata di massa, é la quantitá di materia che si muove verso/da un organo
si misura in mg/min, mmol/min, MBq/min;

flusso di volume (F) o semplicemente flusso é il volume che si muove, si misura in ml/min;

concentrazione (C) quantitd́i materia nell’unità di volume, si misura in mg/ml, mmol/mlm


MBq/ml.

Inoltre si useranno spesso le seguenti equazioni o simili:

equazione di tempo di transito F T = VD

equazione di diluzione C = M/VD

equazione di bilancio di massa dM/dt = Jinput − Joutput

In genere si analizzano le unitá di misura dei due membri di un equazione per verificarne la
consistenza.
Discutiamo brevemente alcune grandezze nel dettaglio

1.1.1 Tempo di transito

Poiché ogni molecola di tracciante impiega un tempo differente per attraversare l’organo di interesse,
i tempi di attraversamento costituiscono una distribuzione di cui puó essere valutato il valor medio.
Chiamando F il flusso misurato in uscita dall’organo, e VD il volume entro cui il tracciante si é
distribuito (entrambi costanti nel periodo di misura) allora risulta valida l’equazione del tempo di
transito su riportata.
T puó esser misurato direttamente rilevando la presenza di tracciante all’interno dell’organo
(rilevazione del residuo, ad es. in PET, DCE-MRI) oppure prelevando campioni di sangue all’uscita
dell’organo (rilevazione del flusso di uscita).
L’equazione del tempo di transito consente ad esempio di trovare F se il VD é noto, come ad
esempio nell’analisi del flusso cerebrale.

1.1.2 Volume di distribuzione

VD puó essere misurato in condizioni ’statiche’ usando la equazione di diluzione: se il tracciante


si distribuisce uniformemente all’interno del VD (ad es. il volume del sangue) allora misurando la
concentrazione (ad es. con PET), e conoscendo la quantitá di tracciante introdotta, si puó ottenere
VD .
Se invece le condizini statiche non sono possibili, perché il tracciante abbandona il volume che
vogliamo misurare prima che la condizione di miscelazione uniforma sia raggiunta, allora possiamo
agire usando l’equazione del tempo di transito. In tal caso bisogna misurare il flusso.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 6


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.2. INDICATOR DILUTION THEORY (IDT)

1.2 Indicator Dilution Theory (IDT)


Consideriamo un organo con un unico punto di ingresso ed un unico punto di uscita. Supponiamo
che non vi sia ri-circolazione: cioé quando il fluido esce non rientra. Supponiamo che il flusso
attraverso l’organo ed il volume VT 1 dell’organo siano costanti nel periodo di misura. Il volume
costante implica che ogni unitá di fluido che entra nel sistema deve poi uscire dal sistema.

Figura 1.1: Relazione tra il tracciante in ingresso ad un organo ed la concentrazione di tracciante


in uscita.

Una ulteriore ipotesi é la stazionarietá. Per chiarire questo concetto supponiamo che un trac-
ciante (indicatore) sia iniettato ad un certo istante in un punto del letto vascolare: esso non puó
comparire istantaneamente in un altro punto di prelievo ma occorre un certo tempo affinché una
particella di tracciante transiti dal punto di iniezione al punto di prelievo (tempo di transito). Il
tempo di transito non é uguale per tutte le particelle. Esiste una distribuzione di tempi di transi-
to. La stazionarietá implica che la distribuzione dei tempi di transito deve essere costante durante
l’esperimento. Una ulteriore ipotesi é che le particelle di tracciante abbiano la stessa distribuzio-
ne dei tempi di transito delle particelle di fluido nativo, cioé che tracciante e fluido nativo siano
perfettamente miscelati e indistinguibili.
Supponiamo ora che una certa quantitá di tracciante mi (misurata in [mmol]) sia iniettata
all’ingresso dell’organo all’istante t = 0 (per i simboli delle varie grandezze fare riferimento alla
tabella 1.3). Misuriamo poi la concentrazione del tracciante in funzione del tempo CV (t) [mmol/ml]
all’uscita dell’organo. La quantitá di tracciante dm che lascia l’organo tra gli istanti di tempo t e
t + dt é data da dm(t) = CV (t) · F · dt dove F é il flusso in [ml/min], per cui F · dt é il volume di
liquido che lascia l’organo nell’intervallo di tempo considerato (fig. 1.1).
Poiché tutto il tracciante deve lasciare l’organo prima o poi, allora si deve avere:
Z ∞ Z ∞
mi = dm(t) = CV (t) · F · dt.
0 0

da cui si ricava il flusso:


mi
F = R∞ .
0
CV (t)dt

Indichiamo con h(t) la frazione di tracciante, rispetto al totale, che [nell’unitá di tempo] lascia
l’organo all’istante t: quindi h(t) coincide con la frazione di particelle di tracciante che lasciano
l’organo [nell’unitá di tempo] all’istante t e quindi con la frazione di particelle che hanno avuto un
tempo di transito pari proprio a t dato che l’istante di iniezione é 0: pertanto h(t) é proprio la
distribuzione dei tempi di transito che é stata citata prima (dato che tracciante e tracciato sono
indistinguibili).
Si ha:
F · CV (t) CV (t)
h(t) = = R∞
mi 0
CV (t)dt
1 Il volume V comprende sia lo spazio in cui il tracciante si distribuisce V
T D sia le regioni dove il tracciante non
puó arrivare quali ad es. le regioni intracellulari

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 7


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

infatti F · CV (t) é la quantitá di tracciante che lascia l’organo [nell’unitá di tempo] all’istante t (le
dimensioni fisiche di h(t) sono [min−1 ]).
La funzione h(t) puó essere vista anche come la risposta impulsiva all’iniezione istantanea di una
quantitá mi di tracciante. Per una iniezione di tipo generale (non impulsiva) si fa riferimento alla
funzione CA (t) (Arterial Input Function o AIF, funzione di input arterioso). Sia mi (t) = F · CA (t)
(dimensioni fisiche [mmol/min]) la quantitá di tracciante iniettata [nell’unitá di tempo] al tempo
t. Consideriamo la quantitá di tracciante introdotta in un intervallo (t − s, t − s + ds) dove t − s
é un istante che precede t, questa quantitá é data da mi (t − s)ds. La frazione di questa quantitá
eliminata [nell’unitá di tempo] al tempo t é h(s) (infatti h(s) é la frazione di particelle che hanno
un tempo di transito pari ad s e quindi se le particelle sono state introdotte all’istante t − s allora
all’istante t sará trascorso un tempo s ). Quindi, al tempo t la frazione (rispetto al totale introdotto
all’istante t − s) di tracciante espulsa [nell’unitá di tempo] é h(s)mi (t − s)ds. Per cui per ottenere
l’ammontare totale di tracciante espulso [nell’unitá di tempo] all’istante t (che é dato da F · CV (t))
bisogna sommare tutti i contributi per s = 0, . . . , t:
Z t Z t
F · CV (t) = h(s)mi (t − s)ds = h(s)F · CA (t − s)ds = F · h(t) ⊗ CA (t) (1.1)
0 0

dove si è tenuto conto che, se f (t) e g(t) sono definite per t > 0:
Z ∞ Z t
f (t) ⊗ g(t) = f (τ )g(t − τ )dτ = f (τ )g(t − τ )dτ
−∞ 0

Essendo h(t) la distribuzione di frequenza dei tempi di transito (il tempo di transito t occorre
con frequenza h(t)), ha senso calcolare il suo valore medio chiamato tempo medio di transito (Mean
Transit Time, MTT):
Z ∞
MTT = th(t)dt
0

Con le metodiche di imaging (MRI,CT,PET) non é possibile misurare la concentrazione venosa


CV all’uscita dall’organo di interesse, ma si puó misurare la concentrazione media all’interno dello
spazio di distribuzione del tessuto CD (t) e la AIF CA . Pertanto, usando la legge di Fick (che esprime
la legge di conservazione della massa) é necessario trovare una relazione tra CA ,CV e CD . Infatti,
detta M la massa di tracciante all’interno dell’organo di interesse all’istante t, allora:

dM (t) dVD CD (t) dCD (t)


= = VD = F [CA (t) − CV (t)] (1.2)
dt dt dt
essendo F · CV (t) la quantitá di tracciante che lascia l’organo nell’unitá di tempo per via venosa e
F · CA (t) la quantitá di tracciante che entra nell’organo nell’unitá di tempo per via arteriosa. Dalle
equazioni (1.2) e (1.1) si ricava:
Z t Z t
F F
CD (t) = [CA (τ ) − CV (τ )]dτ = [CA (τ ) − h(τ ) ⊗ CA (τ )]dτ
VD 0 VD 0

e quindi2 :
2 la eq. 1.3 si ricava tenendo presente le seguenti relazioni (dove f (t) e g(t) sono definite per t > 0):
Z t
f (t) ⊗ σ(t) = f (τ )dτ
0
Z t
f (τ ) ⊗ g(τ )dτ = [f (t) ⊗ g(t)] ⊗ σ(t) =
0
Z t
= f (t) ⊗ [g(t) ⊗ σ(t)] = f (t) ⊗ g(τ )dτ
0

Rt h i
− f (τ ) ⊗ g(τ )]dτ = f (t) ⊗ σ(t) − 0t g(τ )dτ
R
dove σ(t) é la funzione gradino; ed inoltre: 0 [f (τ )

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 8


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.2. INDICATOR DILUTION THEORY (IDT)

Z t
F F
CD (t) = CA (t) ⊗ [σ(t) − h(τ )dτ ] = CA (t) ⊗ R(t) (1.3)
VD 0 VD
Rt
dove R(t) é chiamata la funzione residuo. Tenendo presente che 0 h(τ )dτ rappresenta la frazione
di tracciante che risulta escreta fino al tempo t, R(t) rappresenta la frazione di tracciante che al
tempo t si trova all’interno dell’organo di interesse.
Considerando la concentrazione di tracciante nel tessuto CT (t):

F
CT (t) = fD CD (t) = R(t) ⊗ CA (t) = QT (t) ⊗ CA (t)
VT

dove QT (t) é chiamata la risposta impulsiva del tessuto.


Esiste inoltre la seguente relazione tra la funzione residuo e la distribuzione dei tempi di transito
(ottenuta integrando per parti la espressione della funzione residuo):
Z ∞ Z ∞ Z ∞
dR(t)
R(t)dt = [tR(t)]∞ 0 − t dt = th(t)dt
0 0 dt 0

Figura 1.2: Relazione tra volume di distribuzione e flusso.

E’ possibile calcolare il volume di distribuzione VD facendo le seguenti considerazioni nel caso


di iniezione impulsiva di tracciante. F é il flusso cioé il tasso [ml/min] con cui le particelle entrano
e lasciano l’organo; h(t)dt é la frazione di particelle che, entrate nell’organo al tempo 0 lasciano
l’organo nell’intervallo t, t + dt; il volume di distribuzione del tracciante puó essere pensato come
composto da tutte le tracce percorse dalle particelle nel loro viaggio dall’ingresso all’uscita: detta L
la lunghezza della traccia percorsa dalla i-sima particella dVi = LdAi dove dAi è l’area del tubicino
percorso dalla particella; poiché L = v̄t dove v̄ é la velocitá (media) e t il tempo impiegato per
percorrerlo si ha LdAi = tv̄dAi . Considerando oraP il volumeP totale percorso
P da tutte le particelle
aventi il medesimo tempo di transito si ha: dV = i dVi = i tv̄dAi = i tdF P i = tF h(t)dt dove
v̄dAi = dFi é la frazione di flusso che compete alla i-sima particella , mentre i v̄dAi = F h(t)dt é

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 9


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

la frazione di flusso che esce all’istante t; in definitiva dV = tF h(t)dt. La somma di tutti i volumi
dV fornisce il volume VD . Ció conduce al principio di Stewart-Hamilton:
Z ∞
VD = F th(t)dt = F · M T T
0

1.3 Alcune questioni sulla funzione AIF


Lo studio del comportamento cinetico di traccianti ha visto un ampio range di approcci suggeriti
da una serie di autori. Ci sono spesso significative differenze nelle assunzioni usate nell’applicazione
di ogni modello. La determinazione della funzione di input arterioso (AIF) per definire CA (t) è un
esempio di dove queste differenze frequentemente occorrono.
Un approccio spesso seguito in letteratura consiste nel misurare la AIF paziente per paziente.
Questo approccio dovrebbe essere in linea di principio il migliore perché consente di adattare il
modello sullo specifico paziente. Tuttavia il rumore di misura puó introdurre errori significativi
nella stima dei parametri. Questo é il motivo per cui in molti studi si adottano dei modelli anche
per le AIF (CA (t)).
In genere, il mezzo di contrasto viene iniettato per via endovenosa in una vena periferica e, dopo
un passaggio attraverso il sistema cardio-polmonare, si assume che esso sia ben miscelato con il
plasma sanguigno.
Tipicamente la concentrazione del plasma all’ingresso di un organo di interesse puø’ essere
rappresentata come la somma di N esponenziali decrescenti [?] (vedi fig. 1.3):

N
X
CA (t) = D ak exp(−mk t). (1.4)
k=1

dove D é la dose somministrata al paziente. In particolare Weinmann [?] ha ottenuto i seguenti


valori:
N = 2, a1 = 3.99 [kg/L] a2 = 4.78 [kg/L] m1 = 0.144 [min−1 ] m2 = 0.0111 [min−1 ] D = 0.1;
[mmol/kg di peso corporeo].

0.9

0.85

0.8

0.75
C (t) [mmol/L]

0.7
A

0.65

0.6

0.55

0.5
0 2 4 6 8 10
time [min]

Figura 1.3: Andamento nel tempo della funzione di input arterioso.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 10


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.3. ALCUNE QUESTIONI SULLA FUNZIONE AIF

La modellazione con bi-esponenziale era sufficiente quando la velocitá di acquisizione della CD (t)
era piuttosto bassa. Le apparecchiature di CT o MRI moderne sono in grado di acquisire molti
volumi in un tempo ristretto, per cui sono state sviluppati modelli migliori per la AIF.
Uno di questi [71] consiste nell’usare una funzione gamma-variata (vedi fig. 1.4):
(
0 t ≤ t0
CA (t) = r −(t−t0 )/b
C0 (t − t0 ) e t ≥ t0

dove t0 é il Bolus Arrival Time (BAT) cioé il tempo impiegato dal bolo per arrivare alla regione di
interesse e di fatto diventa l’origine dei tempi; r e b sono costanti da determinare sperimentalmente
(ad es. in [72] sono riportati i valori trovati per gli adulti r = 3, b = 1.5 s ).
In linea di principio bisogna anche tenere conto della dispersione della CA dal punto di iniezione
attraverso i tessuti fino all’organo di interesse. Per cui la espressione della CA si modifica come
segue:

CA (t) = CA (t) ⊗ H(t)
dove H(t) modella la dispersione attraverso i tessuti e richiede una specifica modellazione [?].

4.5

3.5
CA(t) [mmol/L]

2.5

1.5

0.5

0
0 5 10 15 20 25 30
time [s]

Figura 1.4: AIF Gamma variata.

Un ulteriore modello é quello proposto da Orton et al. [?] che approssima le misure effettuate
da Parker et al. [?] in cui la AIF è data dalla seguente espressione:

CA (t) = cB (t) + cB (t) ⊗ G(t)

dove cB (t) é un termine chiamato bolus-function del tipo gamma-variato o bi-esponenziale (la
scala temporale di questo termine é dell’ordine di poche decine di secondi). Questo stesso termine
si somma ad un secondo termine dato dalla convoluzione con una bolus-transfer-function G(t) che
tiene conto del passaggio del bolo attraverso i tessuti: la scala temporale é dell’ordine di 10-20 minuti
ed in genere puó essere usata una funzione mono-esponenziale oppure del tipo gamma-variato con
r = 1 e b opportunamente scelto.
In definitiva l’approccio seguito nei diversi studi puó esser di tre tipi:

• si misura la AIF paziente per paziente e la si usa nel processo di deconvoluzione; questo
approccio sarebbe preferibile ma puó introdurre errori a causa del rumore di misura;

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 11


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

• si usa una AIF ’standard’ ricavata da una popolazione di riferimento (Weinmann, Parker):
questo approccio puó introdurre errori a causa della inadeguatezza dello standard rispetto
allo specifico paziente;
• si misura la AIF sullo specifico paziente e la si modella con uno dei modelli ricavando i
corrispondenti parametri (Weinmann, Orton): questo approccio puó beneficiare dell’effetto di
’smoothing’ dell’AIF misurata introdotto dal fitting del modello.

1.4 Modelli compartimentali deterministici


In questa sezione consideriamo il modello compartimentale ad M compartimenti: il concetto di
‘compartimento ’sarà definito con precisione; si chiariranno anche i concetti di tracciante e di
tracciato; si ricaveranno le equazioni che definiscono l’evoluzione della concentrazione di tracciante
all’interno dei compartimenti e si troverà la soluzione generale di tali equazioni.

1.4.1 Compartimento
Diremo che un volume é un compartimento se la sostanza in esso contenuta si distribuisce unifor-
memente (si dice che il compartimento è ben miscelato). I vari compartimenti interagiscono tra loro
scambiandosi materia.
Il concetto di compartimento non é legato al fatto che i vari compartimenti siano tra di loro
fisicamente separabili. Ad esempio, consideriamo la situazione in cui all’interno di uno stesso volume
siano presenti 4 sostanze chimiche A, B, C, D, e che esista una reazione chimica A + C  B + D.
Se siamo interessati alla cinetica delle sostanze A e B potremo considerarle come compartimenti
separati che si scambiano materia.

1.4.2 Tracciante e tracciato


Nel contesto biomedico, in genere é interessante (ad es. per valutare la evoluzione di un farmaco
all’interno dell’organismo, oppure per determinare le permeabilità delle membrane, etc..) studiare
la cinetica di una certa sostanza attraverso i vari compartimenti in cui fluisce. Ció implica che si
deve essere in grado di misurare la quantità di sostanza all’interno dei vari compartimenti o almeno
in uno di essi.
In genere, si suppone che in condizioni stazionarie dell’organismo la quantità di sostanza presente
nei vari compartimenti non subisca variazioni. Pertanto per poter ricavare delle informazioni sulla
cinetica della sostanza in studio (tracciato) é necessario introdurre una piccola quantitá di sostanza
tracciante che segua esattamente lo stesso ciclo della sostanza tracciata (ad es. il FDG segue lo
stesso percorso del glucosio ed è rilevabile mediante PET, il Gd-DTPA segue il flusso del sangue
ed é misurabile mediante DCE-MRI). Il tracciante introdotto non sará in equilibrio e quindi sará
possibile misurarne la cinetica campionando i compartimenti accessibili in vari istanti di tempo.
Riassumendo le condizioni cui deve soddisfare il tracciante sono le seguenti:

• l’organismo non é in grado di distinguere tra tracciante e tracciato;


• la quantitá di tracciante aggiunto deve essere piccola per non alterare lo stato di equilibrio;
• il tracciante non é in equilibrio.

L’iniezione del tracciante in un compartimento puó avvenire con varie modalitá di cui le piú
usate sono:

• bolo: una quantitá di tracciante viene aggiunta istantaneamente al compartimento e si ha un


immediata distribuzione all’interno del compartimento

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 12


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.4. MODELLI COMPARTIMENTALI DETERMINISTICI

• tasso costante: il tracciante viene aggiunto con un tasso fissato

Se il bolo non si diffonde istantaneamente all’interno del compartimento (ovvero, in termini pra-
tici, la velocitá di diffusione all’interno del compartimento é minore della velocitá di sambio con gli
altri compartimenti) allora si sostituisce il compartimento in questione con due o piú compartimenti
all’interno dei quali si possa considerare valida l’ipotesi di diffusione istantanea del tracciante.

1.4.3 Equazioni del tracciato


Consideriamo un sistema costituito da M compartimenti. Con riferimento alla figura 1.5 denotiamo
con Qj (t) la quantitá di tracciato che é presente nel compartimento j all’istante t; con gjk (con
j 6= k) il tasso di trasferimento frazionale del tracciato dal compartimento k al compartimento
j (cioé la quantitá che fluisce nell’unitá di tempo divisa per l’ammontare di tracciato in k); con
rj0 il asso di trasferimento dall’ambiente verso il compartimento j. In genere gjk potrebbe di-
pendere da Qm (t) per m = 1 . . . M , oppure da altri parametri θ1 . . . θp quindi dovremmo scrivere
gjk = gjk (Q1 (t) . . . QM (t), θ1 . . . θp ). In particolare, noi considereremo modelli lineari cioé in cui il
tasso gjk é costante e non dipende né dal tempo né dalla quantitá di tracciato presente negli altri
compartimenti.

Figura 1.5: Modello compartimentale generale.

Per definizione, la quantitá di tracciato che fluisce dal compartimento k verso il compartimento
j nell’intervallo di tempo [t, t + dt] é gjk Qk (t)dt. Nell’ipotesi di M compartimenti potremo scrivere
l’equazione di bilancio di massa:

M
X M
X
dQj = gjk Qk (t)dt + rj0 (t)dt − gkj Qj (t)dt (1.5)
k=1,k6=j k=0,k6=j

dove il primo termine rappresenta l’ammontare di sostanza che fluisce nel compartimento j da tutti
gli altri; il secondo termine rappresenta il flusso dall’ambiente verso il compartimento j (l’indice 0
si usa per l’ambiente); il terzo termine rappresenta il flusso totale in uscita dal compartimento j.
dividendo per dt si ottiene:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 13


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

M
X M
X
Q̇j = gjk Qk (t) + rj0 (t) − gkj Qj (t) (1.6)
k=1,k6=j k=0,k6=j

che puó essere scritta in termini matriciali:

Q̇ = AQ + r (1.7)

dove:

Q = [Q1 (t) . . . QM (t)]T (1.8)

r = [r10 (t) . . . rM 0 (t)]T (1.9)

 
a11 ... a1M
 .. .. .. 
A= . . .  (1.10)
aM 1 ... aM M

avendo posto:

M
X
ajj = − gkj (1.11)
k=0,k6=j
ajk = gjk (1.12)

Per ipotesi, il tracciato é in stato stazionario pertanto:

Q(t) = const ⇒ Q̇(t) = 0 = AQ(t) + r(t) (1.13)

1.4.4 Equazioni del tracciante


Consideriamo la iniezione di una piccola quantitá di tracciante nel compartimento j (tale da non
disturbare lo stato stazionario del tracciato). Indichiamo con qj (t) la quantitá di tracciante nel
compartimento j. Poiché il tracciante ed il tracciato seguono lo stesso percorso fisiologico (sono
indistinguibili) allora la equazione di bilancio di massa si modificherá come segue:

M
X M
X
Q̇j + q̇j = gjk (Qk (t) + qk (t)) + rj0 (t) + bj0 (t) − gkj (Qj (t) + qj (t)) (1.14)
k=1,k6=j k=0,k6=j

dove bj0 (t) é il tasso di iniezione del tracciante nel compartimento j. In forma matriciale si avrá:

Q̇ + q̇(t) = A(Q(t) + q(t)) + r(t) + b(t) (1.15)

Usando l’eq. (1.13) si ha :

q̇(t) = Aq(t) + b(t) (1.16)

da cui si vede che il tracciato segue la stessa equazione di bilancio di massa del tracciato.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 14


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.4. MODELLI COMPARTIMENTALI DETERMINISTICI

1.4.5 Soluzione delle equazioni

La soluzione generale dell’equazione (1.16) é data dalla seguente espressione:

Z t
At
q(t) = e q(0) + eA(t−τ ) b(τ )dτ (1.17)
0

dove, come noto:

A2 t2 A3 t3
eAt = I + At + + + ... (1.18)
2! 3!

1.4.6 Tempi di distribuzione

Consideriamo un sistema costituito da n compartimenti. Sia Q(ρ, t) l’ammontare di tracciante


complessivamente contenuto nel sistema all’istante t distribuito tra i vari compartimenti in frazioni
ρ = (ρ1 , . . . , ρn ). Sia Q0 (ρ) l’ammontare introdotto all’istante t = 0. La quantitá che complessiva-
mente ha lasciato il sistema dall’istante iniziale fino all’istante t é Q0 (ρ) − Q(ρ, t). Si ha inoltre che
la quantitá di tracciante che lascia il sistema nel intervallo t, t + dt é data da:
X
Q0 (ρ)h(t)dt = k0j qj (t)dt (1.19)
j∈O

dove con h(t) abbiamo indicato la stessa quantitá usata nella teoria IDT (vedi 1.2) e k0j qj dt rap-
presenta la quantit’a che lasia il compartimento j e va nell’ambiente, mentre O é l’insieme degli
indici che denotano i compartimenti. Pertanto si ha:

1 X
h(t) = k0j qj (t) (1.20)
Q0 (ρ)
j∈O

Per un modello mono-compartimentale con coefficiente di outflow k si ha che: q(t) = q0 e−kt da


cui h(t) = ke−kt .

Figura 1.6: Catena lineare di n compartimenti con coefficiente frazinario k.

Per un modello a catena lineare come in figura 1.6 in cui vi sia un ingresso impulsivo solo al
primo compartimento all’isante t = 0, si ha la soluzione:

k n−1 tn−1 −kt


qn = e (1.21)
(n − 1)!

e quindi la distribuzione dei tempi di transito assume la forma:

k n tn−1 −kt
h(t) = e (1.22)
(n − 1)!

detta distribuzione di Erlang.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 15


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

1.5 Modelli compartimentali stocastici


In generale il tracciante é un materiale particolato ed il trasferimento tra i compartimenti coinvolge
un numero intero di particelle. Pertanto un modello appropriato é un modello compartimentale sto-
castico in cui le variabili di stato sono aleatorie. Tuttavia se il numero di particelle é estremamente
grande allora il comportamento di un sistema stocastico particolato é praticamente indistinguibile
da quello di un sistema deterministico.
Definiamo le seguenti quantitá. Sia ni (t) il numero di particelle presente nel compartimento j
all’istante t. Chiaramente ni (t) assume valori interi ni = 0, 1, . . .. La distribuzione iniziale delle
particelle sia n(0) = [n0 (0), n1 (0), . . . , nM (0)] (il pedice 0 indica l’ambiente); e analoga significato
per n(t). Sia zj (t) il numero di particelle che sono presenti in j all’istante t e che sono provenute
dall’ambiente (compartimento 0); poniamo poi z(t) = [z1 (t), . . . , zM (t)]; sia z(0) = 0. Sia urj (t) il
numero di particelle in j al tempo t provenienti dal compartimento r, data una certa distribuzione
iniziale delle particelle n(0).
PM P
Con queste notazioni si deve avere nj (t) = r=1 urj (t) + zj (t) oppure n(t) = r ur (t) + z(t)
(cioé una particella in j o è venuta da uno dei compartimenti o dall’ambiente).
Chiamiamo ora X(t) l’indice del compartimento occupato da una particella all’istante t; e po-
niamo pjk (s, t) = P (X(t) = j|X(s) = k) (in termini frequentisti: pjk (s, t) é la frazione di particelle
che si trovavano in k all’istante s e che sono passate in j all’istante t).
Facciamo l’analisi nel caso [semplice] di z(t) = 0 (cioé non vi é input dall’ambiente).
PM
Si ha: E[nj (t)] = r=1 nr (0)pjr (0, t) e quindi in forma matriciale E[n(t)] = P(0, t)n(0), dove é
chira la definizione di P(s, t).
Vediamo come varia nel tempo ilPnumero di particelle in ciascun compartimento. A tale scopo
osserviamo che E[n
P j (t + dt)|n(t)] = r nr (t)pjr (t, t + dt). Da qui si ottiene, mediano ulteriormente,
E[nj (t + dt)] = r E[nr (t)]pjr (t, t + dt)
Infine si ricava:
X
E[nj (t + dt)] − E[nj (t)] = E[nr (t)]pjr (t, t + dt) − E[nj (t)]
r
= (pjj (t, t + dt) − 1)E[nj (t)]
X
+ E[nr (t)]pjr (t, t + dt)
r6=j

da cui dividendo per dt e passando al limite per dt → 0 otteniamo:


d X
E[nj (t)] = αjr (t)E[nr (t)] (1.23)
dt r

con:
pjj (t, t + dt) − 1
αjj (t) = lim
dt→0 dt
pjr (t, t + dt)
αjr (t) = lim
dt→0 dt

L’equazione 1.23 in forma matriciale diventa:


d
E[n(t)] = A(t)E[n(t)] (1.24)
dt

Nel seguito consideriamo αji (t) = αji di modo che il coefficiente frazionario di trasferimento
viene rimpiazzato dalle probabilitá di transizione: αji dt é la probabilitá ( = frazione di particelle )
di trasferimento di una particella dal compartimento i a quello j nell’intervallo di tempo (t, t + dt).

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 16


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.5. MODELLI COMPARTIMENTALI STOCASTICI

1.5.1 Evoluzione delle probabilitá di transizione


É possibile ricavare una equazione simile alla 1.24 per la evoluzione delle probabilitá di transizione.
Indichiamo le probabilitá degli stati con pi (t) = P (X(t) = i), mentre con pij (t1 , t2 ) = P (X(t2 ) =
j|X(t1 ) = i) le probabilitá di transizione. In generale vale la equazione di Chapman-Kolmogorov:
X
pij (t1 , t3 ) = pir (t1 , t2 )prj (t2 , t3 ) (1.25)
r

Se restringiamo la nostra attenzione P ai processi omogenei, per cui vale pij (t1 , t2 ) = pij (t2 − t1 ) =
pij (τ ) si puó scrivere pij (τ + ω) = r pir (τ )prj (ω). In forma matriciale avremo: P(τ + ω) =
{pij } = P(τ )P(ω). Indicando3 le derivate delle probabilitá ∂pij /∂ω|ω=0 = αij con A = {αij }
potremo scrivere Ṗ(τ ) = P(τ )A (simile alla 1.24). Si puó verificare per sostituzione che tale
equazione é soddisfatta da
P(t) = P(0)eAt . (1.27)
dove la condizione iniziale é P(0) = I.

1.5.2 Distribuzione dei tempi di transito per modelli stocastici


Vediamo ora che forma ha la distribuzione dei tempi di transito h(t).
Sia Q(N, n(0), t) la quantitá totale di tracciante al tempo t in un sistema composto da M
compartimenti in cui l’ammontare totale iniziale (t = 0) di tracciante sia pari ad N particelle, e sia
distribuito come n(0).
Consideriamo la variazione Q(N, n(0), t + dt) − Q(N, n(0), t) (cioé la variazione della quantitá
totale contenuta nel sistema di M compartimenti), il suo valore atteso sará:
X
E[Q(N, n(0), t + dt) − Q(N, n(0), t)|n(t)] = − α0j nj (t)dt (1.28)
j∈O

dove O indica l’insieme di tutti gli indici dei compartimenti, mentre α0j xj (t)dt é la quantitá di
tracciante espulso dal compartimento j (verso l’ambiente) nel tempo dt.
Dividendo per dt si ottiene il tasso di variazione atteso:
dQ(N, n(0), t) X
E[ |n(t)] = − α0j nj (t) (1.29)
dt
Effettuando la media su tutti i possibili n(t) si ha:

dQ(N, n(0), t) X X X
E[ ]=− α0j nj (t)p(n1 , . . . , nM , t) = − α0j µj (t) (1.30)
dt n ,...,nj∈O 1 n j∈O

dove p(n1 , . . . , nM , t) é la probabilitá dello stato (= distribuzione del tracciante nei vari comparti-
menti) al tempo t.
Essendo N − Q(N, n(0), t) il numero di particelle che ha lasciato il sistema al tempo t, allora:

N − Q(N, n(0), t)
F (t) = E[ ] (1.31)
N
é la frazione di particelle che (in media) ha lasciato il sistema fino al tempo t. Pertanto nella
notazione usata per il modello indicator dilution 1.2 la distribuzione dei tempi di transito (cioé la
3 in generale se f (x) g(τ ) e h(ω) sono tre funzioni che soddisfano f (τ + ω) = g(τ )h(ω), derivando entrambi i

membri rispetto ad ω avremo:


∂f (τ + ω) ∂f ∂h
= = g(τ ) (1.26)
∂ω ∂x ∂ω
x=τ +ω

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 17


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

frazione di particelle che lascia il sistema nell’intervallo (t, t + dt)) sará data da:
dF (t) 1 dQ(N, n(0), t) 1 X
h(t)dt = dt = − E[ ]dt = α0j µj (t) (1.32)
dt N dt N
j∈O

1.5.3 Tempi di transito medi


Consideriamo una variabile aleatoria ‘indicatore’ : Ij (τ ) = 1 se una particella si trova nel com-
partimento j all’istante τ , mentre Ij (τ ) = 0 altrimenti. Sia Ei [Ij (τ )] la media di tale variabile
aleatoria condizionata al fatto che la particella si trovi nel compartimento i all’state τ = 0. Si ha
Ei [Ij (τ )] = 1 · P (Ij (τ ) = 1|i) + 0 · P (Ij (τ ) = 0|i) = P (X(τ ) = j|X(0) = i) = pij (τ ), dove abbiamo
usato la notazione del paragrafo precedente.
Rt
La durata complessiva della permanenza in j fino all’istante t è 0 Ij (τ )dτ , per cui la permanenza
media in j é data da:
Z t  Z t Z t
θij = Ei Ij (τ )dτ = Ei [Ij (τ )]dτ = pij (τ )dτ. (1.33)
0 0 0

Sia P(τ ) = {pij }. Si puó vedere che (tenendo conto della 1.27 e diagonalizzando A):
P(t) = eAt = SeΛt S−1 . (1.34)
Pertanto per la durata della permanenza per t → ∞ si ha:
Z ∞ Z ∞ 
Θ = {θij } = P(t)dt = S e dt S−1 .
Λt
(1.35)
0 0

R∞
Per ciascun elemento della diagonale della matrice eΛt si ha che 0 eλk t dt = −1/λk (infatti gli
autovalori devono avere parte reale negativa e pertanto all’infinito l’integrando tende a zero) da cui:
Z ∞
eΛt dt = −Λ−1 (1.36)
0

Infine osservando che A = SΛS−1 implica A−1 = SΛ−1 S−1 si ha il seguente risultato che lega
la matrice compartimentale e i tempi di permanenza:
Z ∞ 
Θ=S eΛt dt S−1 = −Λ−1 (1.37)
0

1.6 Identificabilitá
Con il termine identificabilitá si intende la possibilitá di ricavare, usando i dati misurati da un
sistema biologico reale, le stime dei parametri di interesse del modello corrispondente.
In sintesi l’identificabilitá di un modello si puó valutare nel modo seguente: si ricava la relazione
ingresso-uscita; si trasforma tale relazione con Laplace; lo sviluppo in fratti di tale trasformata deve
presentare coefficienti univoci (per un teorema di algebra); e sono quelli valutabili mediante fitting
(regressione); infine si valutano le relazioni tra i parametri del modello ed i coefficienti valutabili :
se tali relazioni consentono di ricavare i parametri del modello allora il modello é identificabile.
Chiariamo il concetto di identificabilitá con un esempio. Consideriamo il modello compartimen-
tale a due compartimenti. Le equazioni sono le seguenti:

q˙1 = −(k01 + k21 )q1 (t) − k12 q2 (t) + u(t)

q˙2 = k21 q1 (t) − k12 q2 (t) (1.38)

y = q1 (t)/V1

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 18


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.7. MODELLI A PARAMETRI DISTRIBUITI

dove y é la misura della concentrazione del compartimento 1, e V1 é il volume di tale compartimento.


Trasformando secondo Laplace le equazioni, dopo una serie di manipolazioni algebriche otteniamo:

Y (s) (s + k12 )/V1 β2 s + β1


H(s) = = 2 = 2 (1.39)
U (s) s + s(k01 + k12 + k21 ) + k01 k12 s + sα2 + α1

dove i coefficienti α1 α2 β1 β2 sono univocamente determinati. Si trovano le seguenti relazioni:




 V1 = 1/β1

k = β /β
12 1 2
(1.40)


 k01 = α1 2 /β1
β
k21 = α2 − k01 − β1 /β2

da cui si evince che il modello é identificabile in quanto tutti i parametri possono essere ottenuti in
maniera univoca. Nel caso generale ció non sempre é possibile ed in tal caso il sistema fisiologico é
non univocamente identificabile.
Inoltre sviluppando in fratti semplici l’espressione 1.39:

A B
H(s) == + → h(t) = Aeλ1 t + Beλ2 t (1.41)
s + λ1 s + λ2

e si hanno le seguenti relazioni:




β2 = A + B

β = −(Aλ + Bλ )
1 2 1
(1.42)


α2 = −(λ1 + λ2 )
α1 = λ1 λ2

Per cui si puó procedere alla identificazione stimando prima i parametri del modello 1.41 e poi
successivamente con le relazioni 1.42 e 1.40 ottenere i parametri cinetici del modello 1.38

1.7 Modelli a parametri distribuiti

1.7.1 Modello di Bassingthwaighte

Come si vede dalla figura 1.7 il tracciante puó circolare nello spazio vascolare, in quello extra-
cellulare extra-vascolare ed eventualmente essere assorbito dall’ambiente intracellulare. In ciascuno
di tali compartimenti, il tracciante non puó distribuirsi istantaneamente per cui la ipotesi alla
base dei modelli compartimentali (compartimento ben miscelato ovvero distribuzione omogenea e
istantanea del tracciante) non é verificata. Infatti tale distribuzione istantanea dovrebbe avvenire
in base ai meccanismi della diffusione browniana (vedi appendice). Tuttavia i tempi necessari per
tale meccanismo sono lunghissimi rispetto ai tempi in gioco nei trasferimenti da n compartimento
all’altro.
É necessario pertanto tenere conto dei meccanismi di moto convettivo

1.7.2 Modello generale

Questo modello é stato sviluppato con particolare attenzione allo studio dei flussi del fluido cerebro-
spinale (CBF) da Johnson e Wilson nel 1966, e Sawada nel 1989. La discussione che segue è basata
su Larson 1987.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 19


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

Figura 1.7: Modello di Bassingthwaighte

1.7.3 Tissue homogeneity model


La discussione che segue è basata su Lawrence e Lee 1998.
Il cervello é diviso in due spazi principali IVS (intra vascular space) EVS (extra vascular space),
separati da una barriera ematoencefalica (blood-brain barrier). A differenza del modello di Kety,
la concentrazione di tracciante all’interno di IVS é una funzione del tempo e della distanza lungo
il capillare. Data il piccolo raggio dei capillari (circa 5 µm) la distribuzione radiale é considera-
ta costante ed i gradienti radiali sono trascurati. All’interno del EVs invece la concentrazione é
considerata costante ovvero é compartimentale. R é il raggio del capillare.
Con queste ipotesi e facendo riferimento alla figura 1.8 si ha:

EVS
CIVS(x,t)

IVS
F
S
AIVS

dx
AEVS

L
Figura 1.8: Tissue Homogeneity Model

• La massa di tracciante che si trova nel volume (x, x + dx) all’istante t é CIV S (x, t)AIV S dx
• La variazione della massa di tracciante nel volumetto (x, x + dx) nell’intervallo (t, t + dt) é
data da (CIV S (x, t + dt) − CIV S (x, t))AIV S dx,

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 20


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.8. UN ESEMPIO CONCRETO: DCE-MRI

• la massa che fuoriesce nell’intervallo (t, t+dt) dalla superficie laterale é (CIV S (x, t)−CEV S (t))P (dx2πR)dt
• quella che esce dalla sezione x + dx nell’intervallo (t, t + dt) é dtF · CIV S (x, t).
• quella che entra dalla sezione x nell’intervallo (t, t + dt) é dtF · CIV S (x − dx, t).

Per cui il bilancio di massa si scrive:

AIV S · (CIV S (x, t + dt) − CIV S (x, t))dx =


dtF · CIV S (x − dx, t)
−dtF · CIV S (x, t)
−(CIV S (x, t) − CEV S (t))P (dx2πR)dt
(1.43)

cioé, dividendo per dx e dt:


CIV S (x, t + dt) − CIV S (x, t)
AIV S =
dt
CIV S (x − dx, t) − CIV S (x, t)

dx
−(CIV S (x, t) − CEV S (t))P (2πR)
(1.44)

e facendo il limite per dx → 0e dt → 0:


∂CIV S (x, t) ∂CIV S (x, t)
AIV S = −F − (CIV S (x, t) − CEV S (t))P (2πR) (1.45)
∂dt ∂dx

Applicando ragionamenti simili si ha che la variazione di massa nella regione EVS nell’intervallo
(t, t + dt) é dovuta al flusso proveniente dalla regione IVS lungo tutta la lunghezza del capillare:

AEV S L(CIV S (t + dt) − CEV S (t + dt)) =


Z L
P (2πR)(CIV S (x, t) − CEV S (t))dx
0

1.8 Un esempio concreto: DCE-MRI


La DCE-MRI (Dynamic Contrast-Enhanced Magnetic Resonance Imaging) costituisce una moda-
litàá di studio con risonanza magnetica nucleare in grado di fornire informazioni accurate sulle
caratteristiche di vascolarizzazione delle lesioni tumorali. La DCE-MRI consiste nell’acquisizione
(con sequenze veloci) di una serie temporale di immagini: le immagini della serie devono essere
acquisite prima, durante e dopo la somministrazione (per via endovenosa) di un mezzo di con-
trasto paramagnetico. Successivamente si procede alla valutazione delle curve intensitá tempo
(time-intensity-curve, TIC) su una regione di interesse (Region Of Interest, ROI). L’analisi dei dati
DCE-MRI con l’ausilio di diversi approcci viene ampiamente usata nello studio dell’angiogenesi
tumorale e nello sviluppo di nuovi farmaci anti-agiogenici.
Le metodologie che possono essere usate per l’analisi TIC vanno dalla semplice ispezione visiva
ad una complessa analisi quantitativa con modelli cinetici.
La semplice ispezione visiva di ROI selezionate da radiologi esperti ha il vantaggio di esse-
re di facile uso (vedi fig. 1.9) ma anche lo svantaggio di produrre un alto livello di variabilitá
(inter-individuale, due radiologi differenti selezionano diverse ROI) e potenziali errori nella analisi.
Nonostante ció fino a pochi anni fa l’approccio piú usato per analizzare i dati dinamici era la valuta-
zione soggettiva delle TIC. Questo approccio, oltre allo svantaggio di essere operatore-dipendente,
non offre indicazioni sulle caratteristiche patofisiologiche dei tessuti di interesse.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 21


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

(a)

1 1
Measured Data Measured Data
0.9 Monoexponential Fitting 0.9 Model Fitting

0.8 0.8
Arterial Input Function [mmol/L]

Tissue Concentration [mmol/L]

0.7 0.7

0.6 0.6

0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Time [min] Time [min]

(b) (c)

Figura 1.9: a) ROI selezionate da un esperto radiologo su un arteria e sul tessuto di interesse; b) la
curva intensitá tempo della AIF; c) fitting usando il modello di Tofts.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 22


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.8. UN ESEMPIO CONCRETO: DCE-MRI

Tipo di analisi Vantaggi Svantaggi


Qualitativa Semplice operatore e protocollo di-
pendente; nessuna indicazio-
ne sulle caratteristiche dei
tessuti
Semi-quantitativa meno dipendente da operato- nessuna indicazione sulle ca-
re e protocollo ratteristiche dei tessuti
Quantitativa non dipendente da operato- molti modelli in letteratura:
re e protocollo; indicazioni su quale scegliere?
caratteristiche dei tessuti

Tabella 1.1: Svantaggi e vantaggi dei vari metodi per analisi di dati DCE-MRI.

Un approccio semi-quantitativo consiste nel calcolo di opportuni indici descrittivi della TIC. Tali
indici semi-quantitativi risultano meno sensibili alle variazioni tra protocolli di acquisizione e meno
dipendenti da altri fattori quali i parametri delle sequenze, hardware settings, la concentrazione di
mezzo di contrasto somministrata e la durata dell’acquisizione [32] rispetto ai parametri quantitativi;
tuttavia per loro natura non rispecchiano le caratteristiche fisiologiche dei tessuti.
Infine l’analisi quantitativa dei dati DCE-MRI puó essere fatta con modelli farmacocinetici
(proposti inizialmente da Tofts, Brix, Larson [33]). In questo modo é possibile stimare parametri
che sono direttamente correlati ai parametri fisiologici dei tessuti come la permeabilità endoteliale
dei vasi e il flusso. Per queste ragioni, l’analisi con modelli compartimentali si presta all’analisi del
decorso terapeutico di un paziente e al confronto tra studi di pazienti diversi. Purtroppo l’analisi
con modelli farmaco-cinetici (modelli compartimentali) soffre di una certa variabilitá in conseguenza
della numerositá dei modelli proposti in letteratura.
I vantaggi e gli svantaggi delle diverse tecniche di analisi sono riassunti in tabella 1.1.
In definitiva, la DCE-MRI unita all’uso di modelli compartimentali, si presenta come una pro-
mettente tecnica di imaging non-invasiva per la valutazione della microvascolaritá tumorale. Seb-
bene l’MRI convenzionale permetta una caratterizzazione tumorale morfologica-qualitativa, l’a-
nalisi dei dati DCE-MRI mediante modelli cinetici permette una caratterizzazione funzionale dei
cambiamenti della microvascolarità tumorale (es. angiogenesi tumorale) [36]. Pertanto le mappe
prodotte con DCE-MRI, opportunamene visualizzate in pseudocolore e sovrapposte alle immagini
morfologiche convenzionali, costituiscono delle vere e proprie immagini funzionali del tumore (fig.
1.10).

1.8.1 Analisi qualitativa

Un’analisi comunemente usata in DCE-MRI si basa sulla valutazione soggettiva della TIC. In tale
approccio ciascuna curva é classificata dall’operatore con il sistema di valutazione mostrato in
figura 1.11 adottato da [53]. La classificazione delle TIC, in accordo con questo schema, consente
di eseguire una differenziazione diagnostica tra tumori maligni e benigni: ció risulta di particolare
utilitá per le lesioni della mammella. La classificazione delle curve TIC è la seguente:

Tipo I la ROI non presenta nessun enhancement;

Tipo II la ROI presenta un lento e costante enhancement;

Tipo III la ROI presenta un veloce enhancement seguito da un lento e costante enhancement;

Tipo IV la ROI presenta un rapido enhancement seguito da un tratto costante;

Tipo V la ROI presenta un rapido enhancement seguito da un tratto decrescente.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 23


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

Le curve di tipo V corrispondono a lesioni aggressive; le curve di tipo IV a lesioni sospette; le


curve di tipo III a lesioni benigne; le curve di tipo II a tessuti normali o benigni [28].

(a)

1.8 4.5

1.6 4

1.4 3.5

1.2 3
Ktrans [min−1]

kep [min−1]
1 2.5

0.8 2

0.6 1.5

0.4 1

0.2 0.5

(b) (c)

16
0.9
14
0.8
12
0.7
10
AUC [s mmol/L]

0.6

8
ve

0.5

0.4 6

0.3
4
0.2
2
0.1
0
0

(d) (e)

Figura 1.10: Esempi di mappe parametriche. I parametri caratteristici della sequenza utilizzata
sono: TE/TR/FlipAngle=4.76ms/9.8ms/25◦ , pixel resolution 0.6 x 0.6 mm x mm, l’intervallo di
campionamento é 34 s. a) immagine T1 -pesata: la ROI scelta dal radiologo é racchiusa dal ret-
tangolo; b) mappa K trans ; c) mappa kep ; d) mappa ve . e) mappa dell’area under the Gd curve
(AUC);

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 24


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.8. UN ESEMPIO CONCRETO: DCE-MRI

Figura 1.11: Diversi tipi di curve intensitá tempo

1.8.2 Analisi semiquantitativa


Allo scopo di classificare i diversi tipi di curve, sono stati identificati parametri descrittivi della
cinesi del mezzo di contrasto (figura 1.12):

• il tempo compreso tra l’inizio dell’acquisizione dinamica e l’inizio dell’incremento del segnale;

• il tempo compreso tra l’inizio dell’enhancement ed il raggiungimento del picco di massima


intensità (TWI));

• il tempo compreso tra il picco dell’enhancement e il tempo alla fine dell’acquisizione (TWO);

• l’incremento dell’intensità di segnale compreso tra l’inizio dell’enhancement e il raggiungimen-


to del picco massimo di intensità diviso il tempo necessario al raggiungimento del picco stesso
(wash-in slope);

• il decremento del segnale dopo che ha raggiunto il picco diviso l’intervallo temporale corri-
spondente (wash-out slope);

• l’intercetta della regione del wash-in (WII);

• l’intercetta della regione del wash-out (WOI);

• la differenza tra il picco massimo di intensità e l’intensità di segnale basale (MSD);

• l’area sottesa alla curva (AUC);

• l’area sottosa alla fase del wash-in (AUCWI);

• l’area sottosa alla fase del wash-out (AUCWO);

I parametri sopra descritti possono anche essere rappresentati graficamente sotto forma di mappe
colorimetriche fuse con le corrispettive immagini contrastografiche di base, in modo tale da poter
riconoscere aree più calde dalle aree più fredde, in termini di vascolarizzazione. Infatti le aree più
calde, rappresentate in rosso sono quelle in cui i parametri sopra calcolati assumono i valori più
elevati, e le aree più fredde, rappresentate in blu sono quelle in cui i valori erano più bassi (vedi
figura ??).
Una serie di studi (Kaiser et al.1989, Boetes et al. 1994; Gilles et al. 1994) illustrano dei
potenziali problemi nell’uso delle curve intensità tempo per studiare la vascolarità maligna. Uno
dei problemi è che l’intensità del segnale è influenzato dalle differenze nei fattori di scala e di tuning
tra scanner diversi o anche tra sessioni dello stesso scanner [28].
Inoltre, si presenta una non linearità tra l’intensità del segnale e la concentrazione del mezzo di
contrasto somministrato.
A causa del primo problema è necessario effettuare una normalizzazione delle curve di enhance-
ment del contrasto, al fine di: ottenere stime valide della risposta del tumore, prima, durante e dopo

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 25


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

Figura 1.12: Analisi Semi-quantitativa:Parametri descrittivi della forma della TIC

il trattamento neo-adiuvante; confrontare esami DCE-MRI dello stesso paziente in diverse sessioni;
confrontare esami DCE-MRI di diversi pazienti con lo stesso o differenti scanner; effettuare studi
multicentrici [28].
Alcuni autori, per normalizzare l’intensità del segnale, suggeriscono di riferire l’intensità del
segnale all’interno lesione all’intensità del tessuto adiposo.
Invece il problema della non linearità può essere risolto mediante il calcolo di mappe T1 .
Tuttavia, l’incertezza dovuta alla non-linearità può essere trascurata, anche se il flip-angle è si-
gnificativamente inferiore a 90◦ quando il tempo di ripetizione TR è significativamente breve
[37].
Nonostante questi problemi le curve semiquantitative possono essere estremamente preziose,
particolarmente nelle applicazioni cliniche per la stadiazione o classificazione dei tumori.
Nonostante questa chiara utilità clinica le caratteristiche di queste tecniche di analisi soggettive
e semiquantitative hanno spinto allo sviluppo di tecniche di analisi quantitative più robuste.
Ci sono differenti ragioni per i quali gli approcci quantitativi hanno maggiori benefici. Princi-
palmente, l’abilitá di stimare parametri che riflettono la struttura fisiologica della microvascolaritá
del tumore e che sono anche indipendenti dall’acquisizione con lo scanner.

1.8.3 Analisi quantitativa


Come visto i modelli compartimentali rappresentano una classe di modelli strutturali maggiormente
utilizzata per descrivere processi di produzione e/o trasporto di sostanze, traccianti nei tessuti.
Tali modelli sono costituiti da un numero finito di variabili del tempo legate tra loro da equazioni
differenziali ordinarie. I modelli compartimentali sono stati usati per risolvere un ampio spettro
di problemi relativi alla cinetica di sostanze e farmaci nell’organismo vivente in ricerca, diagnosi e
terapia.
É consuetudine rappresentare il tessuto come costituito da tre compartimenti (vedi fig.1.13).
Questi compartimenti sono:

• lo spazio vascolare del plasma;

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 26


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.8. UN ESEMPIO CONCRETO: DCE-MRI

• lo spazio extracellulare extravascolare (EES);


• lo spazio intracellulare.

Da qui in avanti si userá una altra notazione in uso negli studi di DCE-MRI in cui le grandezze
che si riferiscono allo spazio interstiziale vengono indicate con il pedice e piuttosto che con la lettera
I ed inoltre le grandezze del plasma si indicano con il pedice p piuttosto che con P , ed anche le
grandezze del tessuto con t invece che con T ; le frazioni volumetriche si indicano con vp , ve e vt in
luogo di fP ,fI , fT ; e cosı̀ via.
Ciascuno di questi tre compartimenenti può essere espresso in termini assoluti o come frazioni
del volume di tessuto:

ve = Ve /Vt
vp = Vp /Vt
vi = Vi /Vt
1 = ve + v p + vi

dove Ve , Vp , Vi , Vt sono rispettivamente il volume occupato dallo spazio EES, dal plasma, dallo
spazio intracellulare e dal tessuto, ve è la frazione di volume occupata dal EES, vp è la frazione di
volume occupata dal plasma, e vi è la frazione di volume occupata dallo spazio intracellulare.

Figura 1.13: Modello a piú compartimenti:i cerchi piccoli rappresentano le molecole di mezzo di
contrasto che diffondono dall’ambiente vascolare all’ambiente EES senza poter entrare nell’ambiente
intracellulare (cerchi grandi) a causa delle dimensioni dei pori della mebrana cellulare

Molti traccianti e sostanze non possono passare nello spazio intracellulare del tessuto a causa
delle loro dimensioni e per tali motivi lo spazio intracellulare non viene considerato.
La maggior parte degli studi, pertanto, descrivono la distribuzione dei traccianti con un modello a
soli due compartimenti: un compartimento centrale, che è costituito dal plasma, e un compartimento
periferico, che è costituito dal tessuto di interesse ed è connesso al compartimento centrale [38]-
[39]. Il mezzo di contrasto, per prima cosa, diffonde nel compartimento centrale quindi arriva nel
compartimento periferico, poi fuoriuscire da questo ritornando nuovamente al plasma per essere
smaltito.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 27


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

Tabella 1.2: Notazioni per le grandezze fisiche usate nella modellazione compartimentale dei dati
DCE-MRI.
Grandezza Definizione Unità di misura
ve frazione di volume occupata dallo spazio EES adim
vp frazione di volume occupata dal plasma adim
vi frazione di volume occupata dallo spazio intracellulare adim
Ce Concentrazione del tracciante in EES [mmol/ml]
Cp Concentrazione del tracciante nel plasma [mmol/ml]
Ct Concentrazione del tracciante nel tessuto [mmol/ml]
Kin Costante di trasferimento in ingresso a vp [mmol/min]
Kel Costante di trasferimento in uscita da vp [min−1 ]
K trans
Costante di trasferimento tra plamsa verso EES [min−1 ]
kep Costante di trasferimento tra EES e plasma [min−1 ]
F Flusso per unità di massa del tessuto [mlmin−1 g−1 ]
D dose iniettata per unità di peso corporeo [mmol g−1 ]
PS permeabilità dell’area superficiale [mmolg−1 min−1 ]
EF frazione di estrazione [g ml−1 ]

Le grandezze attraverso le quali si descrive la diffusione dell’agente di contrato nei tessuti sono
riportate in tabella 1.2 con le rispettive unitá di misura.
K trans consiste nella frazione di quantitá di tracciante del compartimento vp che nell’unitá di
tempo passa da vp a ve .
kep consiste nella frazione di quantità di tracciante del compartimento ve che nell’unitá di tempo
passa da ve a vp .
K el consiste nella frazione di quantità di tracciante del compartimento vp che nell’unità di tempo
lascia lo spazio vp .
K in consiste nella quantità di tracciante che nell’unità di tempo arriva in vp .
Nel seguito si vedrá che esiste la seguente relazione:

K trans
k ep = .
ve

Per sviluppare il modello ricordiamo alcuni principi.

Bilancio di massa (principio di Fick)

Sia F un flusso [ml/min] di fluido che contiene una concentrazione C1 [mmol/ml] di una certa
sostanza. Se il fluido fluisce all’interno di un compartimento in cui la sostanza viene aggiunta ad
un tasso M [mmol/min], all’uscita del compartimento avremo:

M
F C2 = F C1 + M → C2 − C1 = .
F

Ad esempio il consumo di ossigeno [MO2 ] si puó ottenere dalla concentrazione di ossigeno nel
sangue arterioso [CA ], dalla concenrazione di ossigeno nel sangue venoso [CV ] e dal flusso sanguigno
[F ]:
F (CA − CV ) = MO2 .

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 28


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.8. UN ESEMPIO CONCRETO: DCE-MRI

Equazione di diffusione

I modelli cinetici compartimentali della distribuzione di un tracciante hanno il loro fondamento in


una semplice equazione che descrive il flusso del tracciante attraverso una membrana semipermea-
bile.
In generale, i meccanismi di trasporto si possono dividere in:

• trasporto diffusivo (sostanze liposolubili);


• trasporto attraverso i pori della membrana (sostanze idrosolubili).

Il trasporto diffusivo di una sostanza attraverso una membrana semipermeabile é determinato


dalla differenza di concentrazione della sostanza tra i due lati della membrana e dalla libertá con
cui la membrana permette alle molecole di diffondere da un lato all’altro.
L’ammontare di tracciante nell’unitá di tempo [mmol/min] che diffonde attraverso la membrana
(flusso diffusivo) Φd puó essere cosı̀ definito:

Φd = P A(C1 − C2 ), (1.46)

dove P [m/min] é il coefficiente di permeabilitá di transmembrana, A è l’area [m2 ] della sezione


trasversale al moto delle particelle e C1 e C2 [mmol/ml] sono le concentrazioni della sostanza ai due
lati della membrana.
Il processo sopra descritto governa il trasporto di sostanze liposolubili attraverso membrane
integre. Piccole molecole polari, idrosolubili come l’acqua, sono anche soggette ad un trasporto
diffusivo attraverso la membrana, ma in misura inferiore alle sostanze liposolubili.
In questo caso un secondo meccanismo di trasporto é importante da definire il quale avviene at-
traverso i pori della membrana. La velocitá di trasporto causata da questo effetto é influenzata dalla
differenza di pressione attraverso la membrana, ove la pressione interna e la pressione esterna della
membrana sono date dalla sovrapposizione della pressione idrostatica e della pressione osmotica.
Il sistema che si indaga usando traccianti in vivo é molto piú complesso di una singola membrana,
e l’equazione 1.46 é troppo semplicistica. Inoltre, dovendo considerare la presenza di meccanismi di
trasporto multipli, il modello di una singola membrana é ovviamente notevolmente semplicistico.
Fortunatamente é possibile usare l’equazione 1.46 facendo due assunzioni di base.
La prima assunzione é che i meccanismi di trasporto multipli araverso un singolo ostacolo (ad
es. trasporto diffusivo e osmotico attraverso una singola membrana) possono essere trattati come
un sistema di n permeabilitá diffusive in parallelo, ottenendo una permeabilitá totale al flusso delle
molecole pari a:

n
X
π= Pk . (1.47)
k=1

La seconda assunzione é che ostacoli multipli al trasporto (ad es. membrane sovrapposte)
possono essere considerati come N permeabilitá in serie:

N
1 X 1
=
PT πk
k=1

I definitiva il flusso totale ΦT é collegato alla permeabilitá totale PT :

ΦT = PT S(C1 − C2 ), (1.48)

dove S é l’area efficace della superficie.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 29


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

Frazione di estrazione (modello di Renkin-Crone)

Consideriamo l’estrazione di una sostanza dal sangue da parte di un tessuto (fig. 1.14).

Figura 1.14: Modello di Renkin-Crone

La frazione di estrazione é data da:


CA − CV
E=
CA
In prima approssimazione possiamo usare il seguente ragionamento per determinare una relazione
tra la frazione di estrazione e le caratteristiche della parete vaso/tessuto. Sempre con riferimento alla
fig. 1.14 sia L la circonferenza del vaso e consideriamo il vaso nel tratto (x, x + dx). All’inizio della
diffusione non esiste tracciante nello spazio extravasale e la quantitá di sostanza che fluisce verso
l’esterno attraverso la parete (di superficie Ldx) é, in prima approssimazione (per l’equazione di
diffusione), proporzionale alla concentrazione plasmatica presente nel tratto considerato, ed é data
da P Ldx(Cp (x) − Cest ) dove P é la permeabilitá del vaso giá incontrata nella sezione precedente
mentre Cest = 0. Usando una semplice equazione di bilancio di massa otteniamo (C(x) è la
concentrazione nel punto di ascissa x del vaso):

F (C(x) − C(x + dx)) = P LCp (x)dx

da cui, tenendo conto che:


M (x) M (x)VT C(x)VT C(x)
Cp (x) = = = =
Vp VT Vp (VT − VHct ) 1 − Hct
si ricava:
dC PL
=− dx
C F (1 − Hct)
e quindi integrando ambo i membri:
CV PS
ln =−
CA F (1 − Hct)
dove S é la superficie complessiva del vaso. Quindi in definitiva si ha:
CA − CV
E= = 1 − e−P S/F (1−Hct)
CA

Modello di Kety-Schmidt

Si tratta di un modello compartimentale semplificato in cui si considera in effetti il solo comparti-


mento extra-vasale che scambia con il plasma.
L’equazione di diffusione ci dice che il flusso di tracciante dal plasma verso EES attraverso la
parete del capillare, é proporzionale al gradiente di concentrazione ai lati della parete vasale:

P S(Cp (t) − Ce (t)) (1.49)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 30


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.8. UN ESEMPIO CONCRETO: DCE-MRI

Questo flusso va a variare la la concentrazione del tracciante in EES che puó essere descritta
considerando un equazione di bilancio di massa nell’unitá di volume di tessuto:

1 dMe PS
= (Cp (t) − Ce (t)) (1.50)
VT dt VT
dove Ce è la concentrazione dell’agente in Ve ; Cp è la concentrazione dell’agente in Vp .
Tenendo conto che:
1 dMe 1 dVe Ce dCe (t)
= = ve (1.51)
VT dt VT dt dt
e ponendo K trans = P S/VT , in definitiva quindi l’equazione che ci interessa é la seguente:
dCe (t) K trans
= (Cp (t) − Ce (t)) = kep (Cp (t) − Ce (t)), (1.52)
dt ve
L’equazione 1.52 è una semplice equazione differenziale del primo ordine in Ce (t) e può facilmente
essere risolta con il metodo di Laplace:

sCe (s) = kep (Cp (s) − Ce (s)) (1.53)

da cui:
Cp (s)
Ce (s) = kep (1.54)
s + kep
ed antitrasformando:

Ce (t) = Cp (t) ⊗ kep e−kep t (1.55)

La maggior parte dei modelli in letteratura sono un’estensione dell’equazione 1.55 che includono
la concentrazione dell’agente nel plasma, essendo Ct = vp Cp + ve Ce . Usando quest’ultima relazione
e l’equazione 1.55 si ottiene:
Z t
Ct (t) = vp Cp (t) + K trans Cp (τ )e−kep (t−τ ) dτ, (1.56)
0
che può essere espressa come:

Ct (t) = vp Cp (t) + Cp (t) ⊗ H(t), (1.57)


trans −kep t
dove H(t) = K e e ⊗ rappresenta l’operazione di convoluzione.
Nei tessuti normali, il volume del plasma è una frazione piccola del volume totale del tessuto
(approssivativamente il 5%), pertanto, generalmente si assume che la concentrazione del mezzo
di contrasto nel tessuto non è influenzata dalla concentrazione del mezzo di contrasto nel plasma
(Ct ≈ ve Ce ). Questa assunzione è accettabile nelle anormalità che non determinano un aumento
del volume di sangue, mentre non è valida in quei contesti che determinano un aumento del volume
di sangue (come ad es. nei tumori).

Relazione tra Extraction Fraction e K trans

Cerchiamo di ricavare l’equazione 1.52 in un altro modo. Scriviamo:


dCt
= α(Cp − Ce )
dt
dove α va determinato. Ricordando il principio di Fick, avremo:
dCt
= F (CA − CV ) = α(Cp − Ce )
dt

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 31


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

Trascurando il backflow (ritorno del tracciante verso il plasma) potremo ritenere Ce ≈ 0 e quindi:
CA
F (CA − CV ) = α(Cp − Ce ) ≈ αCp = α
1 − Hct
dove Hct é l’ematocrito cioé la frazione di volume del sangue occupata da globuli e non da plasma.
Dal primo e ultimo membro si ricava:
EF (1 − Hct) = α
Tenendo conto che Ct = ve Ce + vp Cp e trascurando vp in questa equazione (tale approssimazione
non é valida nei tumori):
dCt CT
= EF (1 − Hct)(Cp − )
dt ve
e quindi
EF (1 − Hct) = K trans

Considerazioni

Quando la permeabilità superficiale é alta rispetto al flusso (P S  F ) la EF é approssivativamente


pari ad 1 e K trans ≈ F,: in questo caso diremo che il comportamento della concentrazione del
mezzo di contrasto nel tessuto é limitata dal flusso.
Al contrario, quando la permeabilitá é bassa rispetto al flusso (P S  F ), la frazione di estrazione
é approssivativamente pari a PFS e K trans ≈ P S: in al caso diremo che il comportamento della
concentrazione del mezzo di contrasto nel tessuto é limitato dalla permeabilitá.
A partire da questo approccio una serie di modelli cinetici sono stati stimati in vivo da diversi
autori.
Questo non è dovuto al fatto che i modelli cinetici del mezzo di contrasto sono in dubbio, ma
piuttosto perché la farmacocinetica di quest’ultimo è complessa e l’utilizzo di un modello non ideale
potrebbe portare ad un’analisi istabile e inaffidabile.
La maggior parte di queste tecniche di analisi farmacocinetiche usano metodi di fitting delle
curve per stimare i parametri dei modelli cinetici. Il problema di questi metodi di fitting è che un
ampio range di soluzione possono essere trovate.
Quindi l’uso di un complesso modello multiparametrico che descrive tutte le caratteristiche fisio-
logiche che abbiamo elencato sopra porterà ad instabilità nell’analisi ed ad un crescente numero di
errori nella stima dei parametri. Questo ha portato allo sviluppo di un range di modelli semplificati
che combinano gli effetti di diversi parametri in uno allo scopo di ridurre il numero delle variabili
utilizzate nei metodi di fitting delle curve.
Molti lavori si sono concentrati sul calcolo della costante di volume di trasferimento K trans
([40]).
Un modello molto semplice è stato descritto da Tofts e Kermode nel 1991 che stimano solamente
due parametri, il primo di questi è la dimensione di EES (ve ) e il secondo è K trans il quale in questo
modello è influenzato dal flusso e dalla permeabilità endoteliale. Alti valori di K trans dunque si
potranno osservare quando c’è un alto flusso o una alta permeabilità endoteliale. Quindi attraverso
questa misura si avrà una misura quantitativa della struttura microvascolare dei tessuti.
Un maggiore livello di complessità nell’analisi è introdotta in altri modelli nei quali si separa
l’effetto della frazione di estrazione EF. Questi modelli calcolano la frazione di volume del plasma
(vp ), ve e K trans che è influenzata dal flusso, dalla permeabilità endoteliale e dall’area superficiale
dei capillari.
Comunque c’e una confusione tra i approcci, i quali differiscono per tre principali motivi:

• le procedure per la collezione dei dati sono diverse (la concentrazione del mezzo di contrasto
in alcuni è misurata in altri no; il protocollo utilizzato nell’iniezione del mezzo di contrasto;che
sequenze MRI sono usate);

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 32


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.8. UN ESEMPIO CONCRETO: DCE-MRI

• sia i modelli teorici che i parametri cinetici estratti cambiano. Differenti parametri sono
riportati, dei quali molti sono equivalenti. Molti modelli sono euristici e non forniscono alcuna
informazione fisiologica;

• i nomi e i simboli usati per descriveri i parametri sono diversi.

Tofts nel 1997 propone di riconciliare i vari modelli, di stabilire simboli di riferimento, di mostrare
le relazioni con le variabili fisiologiche [40].

Assunzioni generali in ogni modello

Tutti i modelli che verranno descritti in seguito hanno assunzioni di base comuni, che includono:

• esistono compartimenti che contengono il tracciante ben miscelato in una concentrazione uni-
forme che non può attraversare la membrana cellulare ed entrare all’interno delle cellule.
L’agente di contrasto diffonde tra lo spazio vascolare del plasma e lo spazio extracellulare
extravascolare;

• il flusso intercompartimentale è lineare: il flusso tra i due compartimenti è proporzionale alla


differenza di concentrazione tra gli stessi;

• l’invarianza temporale: i parametri che descrivono la cinesi del contrasto sono costanti durante
il tempo in cui i dati sono acquisiti;

Principali modelli cinetici

Le principali differenze tra i modelli riguardano come viene modellata la funzione di input arterioso,
se viene o meno considerato il contributo della concentrazione del mezzo di contrasto nel plasma e
quali parametri sono stimati (vedi figura 1.15).

Figura 1.15: Principali differenze dei modelli cinetici proposti in letteratura

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 33


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

Modello di Brix

Non considera il contributo della concentrazione dell’agente di contrasto nel plasma, la AIF segue
un modello mono-esponenziale , i parametri stimati sono K trans e ve . Durante l’infusione del mezzo
di contrasto la concentrazione nel tessuto è:
K trans
t
A (1 − e ve ) (1 − ekel t )
Ct = K trans
( K trans
− ),
kel − ve ve
kel

dove A è la pendenza iniziale della curva,kel è la costante di velocità di diffusione in uscita dall
spazio vascolare del plasma vp .

Modello di Tofts

In questo modello la concentrazione del mezzo di contrasto nel tessuto é data dalla somma di due
contributi. Infatti questo modello aggiunge il contributo della concentrazione del mezzo di contrasto
nel plasma Cp (t) che segue una funzione bi-esponenziale:

2
X
Cp (t) = ai e−mi t , (1.58)
1

dove gli ai e gli mi sono opportuni coefficienti da calcolare.


Nota la concentrazione del mezzo di contrasto in una arteria è possibile risalire alla concentra-
zione del tracciante nel tessuto risolvendo l’equazione ??:
a1 K trans a2 K trans
Ct (t) = K trans { K trans [e−m1 t − e− ve t ] + K trans
[e−m2 t − e− ve t ]} + vp Cp (t).
ve − m1 ve − m2

Tale modello può anche essere usato trascurando il termine relativo alla concentrazione del
mezzo di contrasto nel plasma (vp ≈ 0).

Modello di Lawrence

Anche in questo modello si considera il contributo della concentrazione nel plasma, la AIF è consi-
derata la somma di due esponenziali decrescenti, ma a differenza del precedente quest’ultimo stima
separatamente i parametri F (flusso), E (frazione di estrazione), ve , τ (tempo di transito del mezzo
di contrasto nei capillari) con la seguente equazione:
Z τ Z t
E·F
Ct (t) = F Cp (t − u)du + E · F Cp (u)e− ve (t−u−τ )
,
0 τ

vp
dove F è il flusso, E è la frazione di strazione e τ è il tempo medio di transito nei capillari (= F ).
Risolvendo l’integrale nel quale a Cp (t) sostituiamo l’equazione 1.58 si ottiene:

a1 −m1 (t−τ ) a2 −m2 (t−τ )


Ct (t) = F · [e − e−m1 t ] + F · [e − e−m2 t ]+
m1 m2
a1 E·F E·F
E·F E·F
[e ve τ −m1 t − e− ve (t−2τ )−m1 τ ]+
ve − m1
a2 E·F E·F
+E · F E·F
[e ve τ −m2 t − e− ve (t−2τ )−m2 τ ].
ve − m2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 34


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.9. STIMA DEI PARAMETRI CINETICI MEDIANTE ALGORITMI NON ITERATIVI

Modello di Larsson

Non considera il contributo della concentrazione del mezzo di contrasto nel plasma. La AIF è
assunta essere la somma di tre esponenziali decrescenti. Con queste assunzioni si ottiene:
K trans
3 3
X X Ai (e− ve t
− e−mi t )
Ct = f racĊ(t) Ai K trans
,
i=1 i=1
mi − ve

dove Ċ è la pendenza iniziale di Ct .

Modello di Simpson

In questo modello non si considera il contributo della concentrazione del mezzo di contrasto nel
plasma, si modella la curva AIF (andamento temporale di Cp ) usando l’equazione seguente:
Cp (t) = A · t · e−t·B + C[1 − e−t·D ] · e−t·E ,
dove A, B, C, D, E sono opportuni coefficienti da calcolare.
Nota la curca AIF è possibile modellare la curva Ct (t) come segue:
Z t
ep
Ct (t) = K trans Cp (t)e−k (t−τ ) dτ,
0

risolvendo l’integrale si ottiene:

A · t · eB·t C K trans
Ct (t) = K trans { K trans − K trans [e−B·t − e− ve t ]
ve −B ( ve − B)2
C K trans C K trans
+ K trans [e−E·t − e ve t
]− K trans
[e−(D+E)·t − e− ve t ]}.
ve −E ve −D−E

1.9 Stima dei parametri cinetici mediante algoritmi non ite-


rativi

1.9.1 Algoritmo di Horsfield e Morgan


L’algoritmo seguente é dovuto a Horsfield e Morgan, 2004. Consideriamo l’equazione della concen-
trazione del mezzo di contrasto nel tessuto:
Z t
trans K trans
Ct (t) = K Cp (t) exp(− (t − τ ))dτ
0 ve
con un cambio di variabili t = n∆t, τ = m∆t questa puó essere riscritta piú compattamente come
segue:
Z n∆t 0
0 K trans
Ct (n∆t) = K trans Cp (m) exp(− (n − m))dm (1.59)
0 ve
0
dove K trans = K trans ∆t. Questa puó essere scritta nella forma ricorsiva
Z n∆t 0
0 K trans
Ct (n) = Ct (n − 1)E + K trans Cp (m) exp(− (n − m))dm (1.60)
(n−1)∆t ve

Se Cp e Ct sono campionate regolarmente, in N istanti di tempo discreto equidistanti con un


intervallo di campionamento ∆t tra i campioni, la versione discreta dell’equazione 1.60 puó essere
riscritta come segue 0
Ctn = Ctn−1 E + K trans Cpn (1.61)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 35


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

per n = 2, ...., N , dove Ctn è l’n-simo campione della concentrazione del mezzo di contrasto nel
tessuto e Cpn é l’n-simo campione della concentrazione del mezzo di contrasto nel plasma. Questa
forma di discretizzazione é equivalente a modellare la funzione di input arterioso con una serie di
impulsi (Figura 1.16).
Dividendo i membri dell’equazione 1.60 per Cpn , abbreviando zn = Ctn /Cpn e sn = Ctn−1 /Cpn
si ottiene: 0
zn = sn E + K trans
per n = 2, ...., N . Comunque, modellare la AIF in questo modo puó essere non sempre efficiente
particolarmente con periodo di campionamento lunghi. Altri modi di modellare la AIF includono
un’approssimazione costante a tratti e lineare a tratti (Figura 1.16).

Figura 1.16: a. Schematizzazione della funzione AIF continua. Le tre forme di approssimazione
discreta sono la rappresentaimpulsiva b., la rappresentazione costante a tratti c., la rappresentazione
lineare a tratti d.

Eseguendo l’integrazione nell’equazione 1.60 si possono ottenere le due espressioni per la Ctn
rispettivamente per l’approssimazione costante a tratti e per l‘approssimazione lineare a tratti come
segue: √ √
trans0 Cpn ( E − 1) + Cpn−1 (E − E)
Ctn = Ctn−1 E + K [ ] (1.62)
log(E)
per n = 2, ...., N e:
0 Cpn (E − log(E) − 1) − Cpn−1 (E − Elog(E) − 1)
Ctn = Ctn−1 E + K trans [ ] (1.63)
log(E)2
per n = 2, ...., N . In tutti e due i casi la stima dei parametri cinetici puó essere fatta mediante una
regressione lineare non iterativa in cui vengono calcolate le costanti che moltiplicano Ctn−1 , Cpn e
Cpn−1 e successivamente estrapolati i parametri cinetici.

1.9.2 Algoritmo di Murase


Ripartiamo dal modello di Kety-Schmidt:
dCe
ve = K trans (Cp − Ce )
dt

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 36


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.9. STIMA DEI PARAMETRI CINETICI MEDIANTE ALGORITMI NON ITERATIVI

tenendo conto della relazione


Ct = ve Ce + vp Cp
si ottiene:
d[Ct − vp Cp ] Ct − vp Cp
= K trans (Cp − )
dt ve
Integrando ambo i membri di quest’equazione fino ad un istante tk si ottiene:
Z tk Z tk
trans
Ct (tk ) = vp Cp (tk ) + (K + kep vp ) Cp (τ )dτ − kep Ct (τ )dτ
0 0

considerando k = 1, . . . , N ed organizzando in forma matriciale otteniamo:


 
vp
Ct = [Cp , Ĉp , −Ĉt ]  K trans + kep vp 
kep

da cui si puó trovare la soluzione con il metodo OLS (Ordinary Least Squares).

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 37


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Tabella 1.3: Grandezze fisiche usate nel modello IDT.
Nome Definizione Unitá
F il flusso di plasma attraverso i vasi [ml/min]
VP volume del plasma [ml]

Universitá degli Studi ‘Federico II’di Napoli


VI volume interstiziale [ml]
VT volume complessivo del tessuto [ml]
VD volume di distribuzione tracciante (VD = VP + VI ) [ml]
-

A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco


fP frazione di tessuto vascolare (= VP /VT )
fI frazione di tessuto interstiziale (= VI /VT ) -
fD frazione della regione in cui il tracciante si distribuisce (= VD /VT = fP + fI ) -
CP concentrazione di tracciante nello spazio intravascolare [mmol/L]

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016


CI concentrazione di tracciante nello spazio interstiziale [mmol/L]
CT concentrazione di tracciante nel tessuto (= fP CP + fI CI ) [mmol/L]
CD concentrazione di tracciante nello spazio di distribuzione [mmol/L]
CA concentrazione di tracciante nella arteria di ingresso [mmol/L]
CV concentrazione di tracciante nella vena di uscita [mmol/L]
CB concentration within the blood (= CA (1 − HLV )) [mmol/L]
ρT densitá del tessuto [g/ml]
m massa del tessuto (= ρT VT ) [g]
HLV ematocrito del sangue nei grandi vasi (Large Vessels) (≈ 0.45) -
HSV ematocrito del sangue nei piccoli vasi (Small Vessels) (≈ 0.25) -
P P
rBV regional blood volume (volume del plasma) (= (1−HVSV )m
= (1−HfSV )ρT
) [g−1 ]
F F
rBF (= (1−HSV )m = (1−HSV )ρT VT ) [g−1 min−1 ]

38
Capitolo 1. Modelli per la cinetica dei traccianti
1.10. ESERCIZI

1.10 Esercizi

1.10.1 Esempio Matlab


In questo esempio supponiamo, a scopo puramente esemplificativo, che i tempi di transito abbiano
una distribuzione di tipo Fisher con certi specifici parametri. Supponiamo inoltre che la funzione
di AIF abbia anch’essa una forma di tipo Fisher (entrambe molto simili a quelle misurate speri-
mentalmente). Simuliamo la concentrazione attesa in uscita all’organo. Proviamo ad effettuare
una deconvoluzione mediante inversione della trasformata di Fourier, cioé partendo dalla CA e CV
cerchiamo di ricavare la h(t) e confrontiamola con quella usata per simulare i dati.

h
6 Ca
Cv
hr
5

4
a.u.

0
0 1 2 3 4 5
time [s]

Figura 1.17: Esempio di funzione di distribuzione dei tempi di transito, Concentrazione arteriosa e
venosa tipici. Ricostruzione della h(t) mediante deconvoluzione per inversione della trasformata di
Fourier.

% IDT

close all
clear all

% asse dei tempi


Ts = 0.01; % tempo in minuti
t = 0:Ts:5;

% distribuzione dei tempi di transito


% [min^-1]
h = fpdf(t,4,6);

% funzione di input arterioso


% [mmol/L]
Ca = 10*fpdf(t,3,5);

% concentrazione in uscita all’organo


% [mmol/L]
Cv = Ts*conv(h,Ca);

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 39


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

90 H
CA
CV
80
Hr

70

60

50

a.u.
40

30

20

10

0
0 0.05 0.1 0.15 0.2 0.25 0.3
frequency [Hz]

Figura 1.18: Esempio di trasformate di Fourier della funzione di distribuzione dei tempi di transito,
Concentrazione arteriosa e venosa tipici.

Cv = Cv(1:length(t));

% processo di deconvoluzione
CA = fft(Ca);
CV = fft(Cv);
Hr = CV ./ CA /Ts;
hr = ifft(Hr);

% trasformata reale di h per confronto con hr


H = fft(h);

% asse frequenze
fax = (0:length(H)-1)/length(H) /Ts / 60; % in Hz

figure
plot(t,h,’r’,t,Ca,’b’,t,Cv,’k--’,t,real(hr),’c’)
legend(’h’,’Ca’,’Cv’,’hr’)
xlabel(’time [s]’)
ylabel(’a.u.’)
axis([0 t(end) 0 max(Ca)])

figure
plot(fax,abs(H),’r’,...
fax,abs(CA),’b’,...
fax,abs(CV),’k--’,...
fax,abs(Hr),’g-.’)
legend(’H’,’CA’,’CV’,’Hr’)
xlabel(’frequency [Hz]’)
ylabel(’a.u.’)
axis([0 20/60 0 max(abs(H))])

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 40


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.10. ESERCIZI

Spunto di riflessione: perché la h(t) ottenuta per deconvoluzione non é identica a quella
usata per simulare i dati?

1.10.2 Esempio: modello a due compartimenti


É interessante considerare il modello a due compartimenti illustrato in figura 1.19. Per esso potremo
scrivere le seguenti equazioni:

q̇1 (t) = −g21 q1 (t) − g01 q1 (t) + g12 q2 (t) + b10 (t) (1.64)
q̇2 (t) = g21 q1 (t) − g12 q2 (t) (1.65)

che si puó riscrivere:


      
q̇1 −(g21 + g01 ) g12 q1 (t) b10 (t)
= + (1.66)
q̇2 g21 −g12 q2 (t) 0

Figura 1.19: Un esempio di modello a due compartimenti.

Si puó verificare che la matrice A é di tipo compartimentale. Gli autovalori possono essere
trovati usando l’equazione caratteristica:


−(g21 + g01 ) − λ g12 = λ2 + λ(g12 + g21 + g01 ) + g12 g21

|A − λI| = (1.67)
g21 −g12 − λ

Indichiamo con λ1 e λ2 le due soluzioni.Si ha λ1 + λ2 = −(g12 + g21 + g01 ) e λ1 λ2 = g12 g01


Consideriamo la soluzione nel caso di iniezine di un bolo. Ció equivale a considerare q(0) =
q0 = [q0 , 0]T e b(t) = 0. Pertanto si avrá q(t) = eAt q0 .
Facendo l’ipotesi di autovalori distinti la matrice A é diagonalizzabile: A = SΛS−1 . Tenendo
conto che An = SΛn S−1 allora la eq. (1.18) si puó riscrivere

2
X
q(t) = eAt q0 = SeΛt S−1 q(0) = sk s−
k q0 e
λk t
(1.68)
k=1

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 41


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

dove
S = [s1 s2 ]
e
s−
 
S−1 = 1
s−
2

Ponendo poi:  
a b
S= (1.69)
c d
si ottiene:
q0
q1 (t) = (adeλ1 t − bceλ2 t ) (1.70)
ad − bc
q0 cd
q2 (t) = (eλ1 t − eλ2 t ) (1.71)
ad − bc

La risposta ad una infusione costante si puó ottenere ponendo q0 = 0 e b(t) = b0 = [b10 0]T per
t > 0. Dalla 1.17 si ha:
2
X 1
q(t) = sk s−
k b0 (1 − e
λk t
) (1.72)
|λk |
k=1

usando la 1.69 si ottiene:


 
b10 ad bc
q1 (t) = (1 − eλ1 t ) − (1 − eλ2 t ) (1.73)
ad − bc |λ1 | |λ2 |
λ1 t
1 − eλ 2 t
 
b10 cd 1−e
q2 (t) = + (1.74)
ad − bc |λ1 | |λ2 |

1.10.3 Esercizio
Dimostrare le 1.17,1.68, 1.72,1.70 e le 1.73.

1.10.4 Esempio Matlab


I risultati del seguente codice sono visualizzati nella figura 1.20

% modello a due compartimenti


clear all
close all

% iniezione di bolo
b10 = 0.1; % mmol/min
q0 = [b10 0]’;

% coefficenti di trasferimento frazionale


g01 = 0.6; % min^{-1}
g12 = 0.3; % min^{-1}
g21 = 0.7; % min^{-1}

% matrice compartimentale
A = [ -(g21 + g01) g12; g21 -g12];

% polinomio caratteristico
p = poly(A);

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 42


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.10. ESERCIZI

% autovalori
lambda = roots(p);

% metodo alternativo
[S,D]=eig(A);

% asse dei tempi


Ts = 0.1; % in minuti
t = (0:Ts:50)’; % durata totale

S_ = inv(S);
q = zeros(2,length(t));
for k=1:2
q = q + ...
((S(:,k)*S_(k,:)*q0) * ones(1,length(t))) .* ...
(ones(2,1)*exp(lambda(k)*t’));
end
q = q’;

figure
plot(t,q(:,1),’r’,t,q(:,2),’c’)
xlabel(’time [min]’)
ylabel(’quantità di tracciante [mmol]’)
title(’iniezione di un bolo’)
legend(’q_1’,’q_2’)
axis([0 t(end) 0 b10])

% infusione costante
b0 = [b10 0]’;

q = zeros(2,length(t));
for k=1:2
q = q + ...
(1/abs(lambda(k)))*((S(:,k)*S_(k,:)*b0) * ones(1,length(t))) .* ...
(ones(2,length(t))-(ones(2,1)*exp(lambda(k)*t’)));
end
q = q’;

figure
plot(t,q(:,1),’r’,t,q(:,2),’c’)
line([0 t(end)],[ b10 b10])
xlabel(’time [min]’)
ylabel(’quantità di tracciante [mmol]’)
title(’infusione costante’)
legend(’q_1’,’q_2’,’b_{10}’)
axis([0 t(end) 0 max(q(:))])

1.10.5 Esercizio

Provare a modificare i vari coefficienti nel codice illustrato ed osservare come cambiano le curve di
assorbimento nel tempo.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 43


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

iniezione di un bolo
0.1
q1
0.09 q2

quantità di tracciante [mmol] 0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0
0 10 20 30 40 50
time [min]

(a)

infusione costante

q
1
0.35 q
2
b
10
0.3
quantità di tracciante [mmol]

0.25

0.2

0.15

0.1

0.05

0
0 10 20 30 40 50
time [min]

(b)

Figura 1.20: Risultato del codice Matlab.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 44


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
1.10. ESERCIZI

1.10.6 Esempio Matlab


% Algoritmi non iterativi
clear all
close all

Ts = 0.01; %minuti
t = (0:Ts:10)’;

% AIF di Weinmann
a1 = 3.99; %[kg/L]
a2 = 4.78; %[kg/L]
m1 = 0.144; % [min^-1]
m2 = 0.0111; % [min^-1]
D = 0.1; % [mmol/kg] [dose somministrata]

Ktrans = 0.8;
ve = 0.6;
kep = Ktrans / ve;

Ct = D * Ktrans * (a1 * (exp(-m1*t)-exp(-kep*t))./(kep-m1) + ...


a2 * (exp(-m2*t)-exp(-kep*t))./(kep-m2));
Cp = D * (a1 * exp(-m1*t) + a2 * exp(-m2*t));

figure
plot(t,Ct,’r’)
xlabel(’time [min]’)
ylabel(’Ct [mmol/L]’)

% algoritmo di Horsfield & Morgan


deltaT = t(2)-t(1);
z = Ct(2:end) ./ Cp(2:end);
s = Ct(1:end-1) ./ Cp(2:end);
P = [s ones(length(s),1)] \ z;
E = P(1);
Ktrans_est = P(2)/deltaT;
kep_est = -log(E) /deltaT;

% algoritmo di Murase
A = [Cp cumsum(Cp)*deltaT -cumsum(Ct)*deltaT];
P2 = A \ Ct;
kep_est2 = P2(3);
Ktrans_est2 = P2(2)-P2(3)*P2(1);

1.10.7 Esercizio
Dimostriamo la 1.21. Per il compartimento n-simo possiamo scrivere:

q̇n = kqn−1 − kqn

Ricordando che la trasformata di Laplace della derivata è L(q̇) = sL(q) − q(0), e assumendo che il
tracciante viene iniettato nel compartimento 1 e quindi qn (0) = 0 per n 6= 1, si ha:

kqn−1 (s)
qn (s) =
s+k

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 45


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 1. Modelli per la cinetica dei traccianti

che applicata iterativamente da:


k n−1 q1 (s)
qn (s) =
(s + k)n−1
q1 (0)
Essendo q1 (s) = s+k si ha:
k n−1 q1 (0)
qn (s) =
(s + k)n
R∞
Ora ricordiamo la trasformata L(tn ) = 0
tn e−st dt = n!/sn+1 e la trasformata L(e−αt q(t)) =
q(s + α) per cui si ha:
k n−1 q1 (0)tn−1 −kt
qn (t) = e
(n − 1)!

1.10.8 Esercizio
Con riferimento all’algoritmo di Murase, usare approssimazioni migliori dell’integrale. Aggiungere
rumore ai dati e ricalcolare le stime dei parametri.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 46


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 2

Modello del segnale


elettromiografico (EMG)

Per una descrizione esauriente della fisiologia neuromuscolare si rimanda a testi appositi (ad es.
[20]), in questo paragrafo si ricordano i principali aspetti utili per la modellazione.
Come é noto si definisce unitá motoria (MU, motor unit) la struttura fisiologica costituita da un
motoneurone delle corna anteriori e dalle fibre muscolari che esso innerva (fig. 2.1, 2.3). Il numero di
fibre muscolari per motoneurone é noto come rapporto di innervazione. Muscoli di grosse dimensioni
possono avere un rapporto di innervazione dell’ordine delle centinaia; muscoli per movimenti fini
invece hanno un rapporto di qualche decina.
Si definisce potenziale d’azione di singola unitá motoria (Single Motor Unit Action Potential,
SMUAP) l’attivitá elettrica di una singola unitá motoria. Le SMUAP possono esser tipicamente
bi-fasiche o tri-fasiche, della durata di circa 3 − 15ms e di ampiezza di 100 − 300µV , con una
frequenza di scarica di circa 6 − 30Hz.
Il segnale elettro-miografico (EMG) é una manifestazione della attivitá elettrica muscolare com-
plessiva di tutte le MU attive in un certo intervallo di tempo; puó essere prelevato con elettrodi di
superficie o percutanei.
Nel seguito si descrivono alcuni modelli di tale segnale che si ispirano alla fisiologia neuro-
muscolare.

Figura 2.1: Organizzazione delle unitá motorie

47
Capitolo 2. Modello del segnale elettromiografico (EMG)

Figura 2.2: Prelievo del segnale EMG da una singola MUAP. [de Luca 1979, IEEE transactions on
Biomedical Engineering]

2.1 Singola unitá motoria


Il modello che sará illustrato nel seguito é stato proposto da Agarwal et al. [19]. Sia h(t) la risposta
della MU ad un impulso proveniente dal moto-neurone (vedi fig. 2.2, 2.4).
Quest’ultimo emette impulsi con cadenza aleatoria: l’intervallo τ tra un impulso e l’altro (Inter
Pulse Interval, IPI; oppure Inter Spike Interval, ISI) puó essere schematizzato con una successione
di v.a. gaussiane i.i.d. di media pari alla frequenza media di scarica µ e varianza σ 2 .
É stata trovata una relazione tra la media e la varianza della ISI: ad esempio per il bicipite
brachiale umano si é trovata la relazione (2.1)

σ = 9.1 × 10−4 µ2 + 4msec (2.1)

Consideriamo un intervallo finito di osservazione in cui il moto-neurone emette N + 1 scariche.


Pertanto la risposta della MU sará data da

N
X
y(t) = h(t) ∗ δ(t − tk ) = h(t) ∗ x(t) (2.2)
k=0

dove tk , é il k-esimo istante di scarica ed x(t) é il treno di impulsi in ingresso al motoneurone.


Si ha tk = t0 + (t1 − t0 ) + ... + (tk − tk−1 ) = t0 + τ1 + τ2 + ... + τk dove ogni intervallo τi é una
v.a. gaussiana; t0 é il primo istante di scarica. Senza perdere in generalitá possiamo porre t0 = 0.
Pertanto in definitiva si ha: E[tk ] = kµ e E[(tk − kµ)2 ] = kσ 2 .
Calcoliamo ora la trasformata di Fourier del treno di impulsi x(t):

N
Z X N
X
X(ω) = δ(t − tk )e−jωt dt = e−jωtk
k=0 k=0

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 48


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
2.1. SINGOLA UNITÁ MOTORIA

Figura 2.3: Anatomia, modello fisiologico e prelievo da un insieme di MU. [de Luca 1979, IEEE
transactions on Biomedical Engineering]

Essendo tk una variabile aleatoria, anche X(ω) é una variabile aleatoria. Per calcolarne la media
si puó procedere come segue, sfruttando la linearitá dell’operatore di media statistica:
N N N
(tk −kµ)2
Z
X X X 1
E[X(ω)] = E[ e −jωtk
]= −jωtk
E[e ]= √ e−jωtk e− 2kσ 2 dtk
k=0 k=0 k=0
2πkσ 2

ponendo tk − kµ = r otteniamo:

r2
Z
−jωtk 1
E[e ]= √ exp(−jωkµ) exp(− ) exp(−jωr)dr
2πkσ 2 2kσ 2

Ricordando che la trasformata di Fourier di:


t2
exp(− ) (2.3)
2σ 2

√ σ2 ω2
σ 2π exp(− ), (2.4)
2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 49


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 2. Modello del segnale elettromiografico (EMG)

Figura 2.4: Modello di Agarwal. Un treno di impulsi stimola la fibra muscolare. A ciascun impulso
corrisponde un potenziale d’azione bifasico.

e ricordando la (2.2) otteniamo:

N
X kσ 2 ω 2
E[X(ω)] = exp(−jωkµ) exp(− )
2
k=0
E[Y (ω)] = E[X(ω)]H(ω)

2.1.1 Esempio in Matlab


I risultati corrispondenti a questa simulaizone sono riportate in fig. 2.5.

% Modello di Agarwal
close all
clear all

% generiamo una risposta h(t) bifasica


len = 0.020; % secondi, lunghezza di una risposta
A = 100; % microvolt
Ts = len/100; % campionamento
t1 = (Ts:Ts:len)’;
h = A*sin(2*pi*1/len*t1);

% generiamo un treno di impulsi


% separato da intervalli casuali
mu = 0.020; % intervallo medio in secondi
sd = 9.1*10^-4 * mu^2+0.004; % variabilità in secondi
N = 20; % numero di impulsi
M = 50; % numero di MU
tau = randn(N,M)*sd + mu; % inervalli tau
interv = round(tau / Ts); % conversione in campioni 1ms == 1 campione

L = 1600; % consideriamo un intervallo di uguale durata per tutte le MU


treni = [];
for m = 1:M
treno = [];
for k=1:N
treno = [treno; zeros(interv(k,m),1); 1];
end
treno = treno(1:L);

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 50


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
2.1. SINGOLA UNITÁ MOTORIA

treni(:,m) = treno;
end

t = (0:L-1)’ * Ts;

% genera le SMUAP
for m = 1:M
dum = conv(h,treni(:,m));
smuap(:,m) = dum(1:L);
end
smuap = sum(smuap’)’;

% Spettro reale
SMUAP = abs(fft(smuap));
fax = (0:length(SMUAP(:,1))-1)’ /length(SMUAP(:,1))/(Ts);

% spettro teorico
w = fax * 2 * pi;
Pw = zeros(size(w));
for n = 1:N
Pw = Pw + exp(-j * w.^2 * sd^2 / 2 ) .* exp(-j * w * n * mu);
end
Hw = fft(h,L);
PH = abs(Pw .* Hw) * sqrt(M);

% Figure
figure
plot(t1,h)
title(’Single Motor Unit Action Potential’)
xlabel(’time [s]’)
ylabel(’Amplitude [\mu V]’)

figure
plot(t,smuap)
title(’EMG sintetico’)
xlabel(’time [s]’)
ylabel(’Amplitude [\mu V]’)

figure
plot(fax,SMUAP,’r’,fax,PH,’k’)
title(’spettro teorico e reale’)
xlabel(’frequency [Hz]’)
ylabel(’Amplitude’)
legend(’Spettro dell’’EMG sintetico’,’Spettro teorico’)
axis([0 500 0 max(abs(PH))])

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 51


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 2. Modello del segnale elettromiografico (EMG)

Single Motor Unit Action Potential


100

80

60

40

Amplitude [µ V]
20

−20

−40

−60

−80

−100
0 0.005 0.01 0.015 0.02
time [s]

(a)

EMG sintetico
3000

2500

2000

1500
Amplitude [µ V]

1000

500

−500

−1000

−1500

−2000
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
time [s]

(b)

5 spettro teorico e reale


x 10
7
Spettro dell’EMG sintetico
Spettro teorico
6

5
Amplitude

0
0 100 200 300 400 500
frequency [Hz]

(c)

Figura 2.5: (a) Potenziale bifasico simulato. (b) EMG sintetico. (c) Spettro teorico e reale dell’EMG
sintetico.

2.2 Insieme di unitá motorie


Il seguente modello é stato proposto da Shwedik et al. [12].

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 52


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
2.2. INSIEME DI UNITÁ MOTORIE

Figura 2.6: Modello di shwedik

Con riferimento allo schema di fig. 2.6 facciamo le seguenti assunzioni (vedi [12]):

• il segnale EMG e(t) é dato dalla somma delle risposte delle singole unitá motorie

• la j-sima unitá motoria é guidata da unaP


serie di impulsi che costituiscono la derivata di un

processo aleatorio di Poisson (vedi A.13) m=−∞ δ(t − tjm ), di media ka

• la risposta impulsiva della j-sima unitá motoria é hj (t)

• i coefficienti di peso kj sono tratti da una variabile aleatoria che tiene conto della disposizione
degli elettrodi (E[kj ] = k̄)

• all’istante t vi sono n(t) unitá motorie attive

Pertanto il segnale EMG ha la seguente espressione:

n(t) ∞
X X
e(t) = kj [hj (t) ⊗ δ(t − tjm )] (2.5)
j=1 m=−∞

Per semplificare la trattabilitá matematica possiamo supporre che tutte le unitá motorie abbiano
la medesima risposta impulsiva h(t), pertanto l’eq 2.5 diventa, essendo l’operatore di convoluzione
lineare:

n(t) ∞
X X
e(t) = h(t) ⊗ kj δ(t − tjm )
j=1 m=−∞

Per caratterizzare il processo aleatorio e(t) calcoliamone media e varianza. Tenendo conto della
linearitá dell’operatore di media statistica, ePconsiderando che kj (disposizione degli elettrodi) sono

indipendenti tra loro e rispetto al processo m=−∞ δ(t − tjm ) (treni di impulsi):

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 53


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 2. Modello del segnale elettromiografico (EMG)

Figura 2.7: Tipico MUAP del muscolo brachiale [Shwedik 1977 IEEE Biomedical Engineering]

n(t) ∞
X X
µe (t) = E[e(t)] = h(t) ⊗ E[ kj δ(t − tjm )] =
j=1 m=−∞
X∞
= h(t) ⊗ n(t)E[kj ]E[ δ(t − tjm )]
m=−∞

adesso basta ricordare che la media della derivata del processo di Poisson é uguale a ka per ogni j
e si ottiene:

µe (t) = h(t) ⊗ n(t)k̄ka

Dal momento che, per via sperimentale [12] si vede che n(t) e h(t) occupano bande di frequenze
differenti, questo valore medio é zero: µe (t) = 0.
La varianza del segnale e(t) é:

σe2 (t) = E[e2 (t)]


   
n(t) ∞ n(t) ∞
X X X X
= E h(t) ⊗ kj δ(t − tij ) · h(t) ⊗ kl δ(t − tlm )
j=1 i=−∞ l=1 m=−∞
 
Z n(τ ) ∞ Z n(λ) ∞
X X X X
= E  h(t − τ ) kj δ(τ − tij )dτ h(t − λ) kj δ(λ − tij )dλ
j=1 i=−∞ j=1 i=−∞
Z Z
= dλdτ h(t − τ )h(t − λ)E[kj2 ] min[n(λ), n(τ )]φ(τ − λ)

con φ(τ ) = ka δ(τ ) + ka2 funzione di autocorrelazione del processo di Poisson con trasformata di
Fourier Φ(ω) = ka + ka2 δ(ω)].
Da dati sperimentali si osserva che:

• Un tipico MUAP del bmuscolo brachiale umano (h(t)) é presentato in figura 2.7

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 54


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
2.2. INSIEME DI UNITÁ MOTORIE

Figura 2.8: Spettro del MUAP brachiale di figura 2.7 [Shwedik 1977 IEEE Biomedical Engineering]

• Il contenuto frequenziale del MUAP (H(ω)) è praticamente nullo al di sotto di circa 40 Hz


(vedi fig. 2.8)
• H(ω)⊗H(ω) é praticamente costante nel range di frequenza in cui F [σ(t)] é apprezzabilmente
6= 0
• Φ(ω) é costante nel range di frequenze in cui H(ω) é apprezzabilmente 6= 0

tenendo cono delle considerazioni precedenti, trasformando secondo Fourier ed effettuando alcune
semplificazioni, e quindi antritrasformando si ottiene:

n(t) = σe2 (t)/K

Quindi il segnale EMG può essere modellato come e(t) = [Kn(t)]1/2 w(t) dove w(t) é un processo
stazionario a media zero e varianza unitaria.
Problema Generare un processo derivata di poisson in Matlab. Usando tale processo ed una
n(t) sinusoidale con frequenza 1 Hz generare un EMG sintetico e confrontaro con l’EMG di figura
2.5(b). [suggerimento: usare i risultati della sezione A.13]

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 55


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 2. Modello del segnale elettromiografico (EMG)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 56


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 3

Modello della Heart Rate


Variability (HRV)

La frequenza cardiaca non é costante ma varia in conseguenza delle esigenze dell’organismo [20].
Come noto la frequenza cardiaca é controllata dal nodo del seno il quale risente dell’azione dei sistemi
vago e simpatico (vedi fig. 3.1). Secondo linee guida internazionali la analisi della variabilitá della
frequenza cardiaca (Heart Rate Variability) fornisce informazioni su tale sistema di controllo [16].
La attivitá dei due sistemi simpatico e parasimpatico puó essere quantificata mediante l’analisi delle
componenti frequenziali del segnale HRV.
La frequenza cardiaca puó essere ricavata dall’ECG. Nel seguito si esaminano tecniche di mo-
dellazione del HRV e metodiche di elaborazione correlate all’analisi dell’HRV: un algoritmo per la
rilevazione dei complessi QRS dall’ECG; algoritmi per la riduzione dell’errore nella determinazione
dell’onda R; definizione della HRV.

3.1 Modello Integral Pulse Frequency Modulation (IPFM)


Si tratta di un modello deterministico (vedi fig. 3.2), in cui (vedi fig. 3.3) detti tk e tk−1 gli istanti di
occorrenza del k-simo e k − 1-simo battiti, l’intervallo RR tra di essi soddisfa la seguente relazione:

Z tk
T0 = [1 + m(t)]dt (3.1)
tk−1

Figura 3.1: Influenza dei sistemi simpatico e parasimpatico sul nodo del seno.

57
Capitolo 3. Modello della Heart Rate Variability (HRV)

Figura 3.2: Modello IPFM: schema a blocchi

dove T0 é l’intervallo RR medio che é una costante fissata; m(t) é un segnale modulante che sup-
poniamo |m(t)| < 1 e senza componente continua. Se m(t) = 0 allora l’intervallo RR k-simo
é dato da T0 ; se m(t) → 1 =⇒ [1 + m(t)] → 2 e quindi la distanza (tk − tk−1 ) → T0 /2; se
m(t) → −1 =⇒ [1 + m(t)] → 0 e quindi (tk − tk−1 ) → ∞.
Per capire le proprietá di tale modello, analizziamone lo spettro nel caso in cui il segnale
modulante sia una sinusoide m(t) = mcos(ωm t).
Sommando l’eq. (3.1) su N intervalli e ponendo t0 = 0 si ha:

N
X N Z
X tk
N T0 = T0 = [1 + m(t)]dt
k=1 k=1 tk−1
Z tN
m
= [1 + mcos(ωm t)]dt = tN + sin(ωm tN ) (3.2)
0 ωm

Supponiamo che ogni impulso sia rettangolare di ampiezza a. Tale impulso é caratterizzato
da un fronte di salita ed uno di discesa. Il fronte di salita occorre negli istanti tN che soddisfano
la relazione precedente. Pertanto, definendo una nuova variabile tempo t+ = t + ωmm sin(ωm t), e
tenendo conto della relazione precedente, l’N − simo fronte di salita é rappresentato dalla funzione
gradino u(t+ − N T0 ).
Gli istanti di occorrenza dei fronti di discesa possono essere determinati traslando l’asse dei
tempi di a e definendo una nuova variabile t− = (t − a) + ωmm sin(ωm (t − a)), pertanto i fronti di
discesa sono rappresentati da u(t− − N T0 )
In definitiva la successione degli impulsi ha la seguente espressione:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 58


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
3.1. MODELLO INTEGRAL PULSE FREQUENCY MODULATION (IPFM)

Figura 3.3: Modello IPFM: relazione tra ingresso ed uscita


X
u(t+ − N T0 ) − u(t− − N T0 ) (3.3)
N =−∞

1
Usando la formula di Poisson si puó pertanto scrivere:

∞ ∞
X 1 X 1 + −
u(t+ − N T0 ) − u(t− − N T0 ) = (ejN ω0 t − ejN ω0 t ) (3.4)
T0 jω0 N
N =−∞ N =−∞

e sostituendo le variabili t+ e t− per esteso:


X 1 m m
(ejN ω0 (t+ ωm sin(ωm t)) − ejN ω0 [(t−a)+ ωm sin(ωm (t−a))] ) (3.5)
j2πN
N =−∞

2
Questa espressione si semplifica tenendo conto della relazione di Bessel
La singolarità della sommatoria nel punto N = 0 può essere risolta usando il teorema dell’Ho-
pital:

1 ω0 m ω0 m
· j(ω0 t + sin(ωm t) − ω0 (t − a) − sin(ωm (t − a)))
j2π ωm ωm
1 ω0 m
= · (ω0 a + 2cos(ωm (t − a/2))sin(ωm a/2)) (3.6)
2π ωm

quindi possiamo scrivere, per N 6= 0, e tenendo conto delle proprietà di simmetria delle funzioni di
Bessel:

1
P∞Data una funzione1 qualunque
P∞ φ(t) e la sua trasformata di Fourier Φ(ω) la formula di Poisson é la seguente:
jkω0 t Φ(kω ) con ω = 2π .
k=−∞ φ(t + kT ) = T k=−∞ e 0 0 T
1 1
2
P∞La relazione di Bessel riguarda lo sviluppo in serie di Laurent P∞ della seguente funzione: e 2 β(z− z ) =
k jωt jβsin(ωt) jkωt
k=−∞ Jk (β)z . In particolare se z = e si ha: e = k=−∞ Jk (β)e . Alcune proprietá della
funzione di Bessel Jn (β) sono: J0 (0) = 1, Jn (0) = 0, J−n (β) = (−1)n Jn (β), Jn (−β) = (−1)n Jn (β)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 59


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 3. Modello della Heart Rate Variability (HRV)

Figura 3.4: Spettro del modello IPFM


1 X 1 jN ω0 t jNωω0 m sin(ωm t) jN ω0 m
e (e m − e−jN ω0 a e ωm sin(ωm (t−a)) )
j2π N
N =−∞
∞ ∞ ∞
1 X 1 jN ω0 t X X
= e ( Jk (N β)ejkωm t − e−jN ω0 a Jk (N β)ejkωm (t−a) )
j2π N
N =−∞ k=−∞ k=−∞
∞ ∞
1 X 1 jN ω0 t X
= e ( Jk (N β)ejkωm t (1 − e−jN ω0 a e−jkωm a )) (3.7)
j2π N
N =−∞ k=−∞
(3.8)

pertanto in definitiva:

aω0 aω0 m sin(aωm /2)


+ cos(ωm (t − a/2))+
2π 2π aωm /2
∞ ∞
X X sin((N ω0 + kωm )a/2)
+ aω0 Jk (N β) cos[(N ω0 + kωm )(t − a/2)]
N ω0 a/2
N =1 k=−∞

Lo spettro che si ottiene ha le seguenti caratteristiche (vedi fig. 3.4):

• il primo termine rappresenta la componente continua


• il secondo termine rappresenta il segnale modulante
• gli altri temrini appaiono alle frequenze multiple di ω0 con bande laterali costituite da multipli
della ωm

Pertanto in linea di principio é possibile isolare la componente di modulante mediante un


filtraggio passa basso.

3.1.1 Esempio Matlab


% IPFM
close all
clear all

% tempi
Ts = 0.01; % secondi

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 60


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
3.1. MODELLO INTEGRAL PULSE FREQUENCY MODULATION (IPFM)

L = 5*60; % durata totale in secondi


tempo = 0:Ts:L;

fm1 = 0.05;
m1 = 0.1*cos(2*pi*fm1*tempo+pi/3);
fm2 = 0.04;
m2 = 0.3*cos(2*pi*fm2*tempo);
fm3 = 0.02;
m3 = 0.4*cos(2*pi*fm3*tempo);
m = m1+m2+m3;
%m = zeros(size(tempo));

T0 = .7; % secondi

k=1;
occorrenze = [];
while(k<length(m))
integrale = 0;
while(integrale<T0 & k<length(m))
integrale = integrale + (1 + m(k))*Ts ;
k = k+1;
end
occorrenze = [occorrenze ; k];
integrale = 0;
end
occorrenze(end)=[];

segnale = zeros(size(tempo));
segnale(occorrenze) = ones(size(occorrenze));

figure
plot(tempo,m,’r’)%,tempo(occorrenze),ones(size(occorrenze)),’o’)
xlabel(’time [s]’)
ylabel(’Segnale modulante m(t) [a.u.]’)

figure
plot(tempo,segnale,’r’,tempo,m,’--’)
axis([25 60 -0.5 1.5])
xlabel(’time [s]’)
ylabel(’Occorrenze dell’’RR’)
legend(’ocorrenze’,’modulante’)

figure
S = abs(fft(segnale));
fax = (0:length(tempo)-1)/length(tempo)/Ts;
plot(fax,S)
axis([0 0.1 0 max(S)])
xlabel(’frequency [Hz]’)
ylabel(’Spettro [a.u.]’)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 61


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 3. Modello della Heart Rate Variability (HRV)

Figura 3.5: IPFM. Segnale modulante.

3.2 Poincare plot

Il plot di Poincare é una modalitá di rappresentazione dell’HRV costituita da uno scatter plot
dell’intervallo RRk rispetto a quello precedente RRk−1 . Il plot fornisce informazioni globali ed
informazioni battito battito.
I punti al di sopra della linea identitá indicano intervalli che sono piú lunghi del precedente. I
punti al di sotto della linea identitá indicano intervalli piú brevi del precedente. Conseguentemente
la dispersione dei punti perpendicolarmente alla linea identitá riflette la variabioitá a medio termine.
La deviazione dei punti lungo al linea di identitá (lunghezza) riflette la variabilitá degli intertvalli
RR.

1.5
ocorrenze
modulante
integrale

1
Occorrenze dell’RR

0.5

−0.5
25 30 35 40 45 50 55 60
time [s]

Figura 3.6: IPFM. Sequenza di impulsi.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 62


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
3.2. POINCARE PLOT

400

350

300

Spettro [a.u.]
250

200

150

100

50

0
0 0.02 0.04 0.06 0.08 0.1
frequency [Hz]

Figura 3.7: IPFM. Spettro.

3.2.1 Esempio in Matlab


Visualizziamo il diagramma di Poicare del segnale ottenuto con modello IPFM nell’esempio prece-
dente.

RR = diff(occorrenze*Ts);

figure
plot(RR(2:end),RR(1:end-1),’.’)
axis equal
axis([0.2 2*T0 0.2 2*T0])
xlabel(’RR_{k-1} [s]’)
ylabel(’RR_{k} [s]’)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 63


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 3. Modello della Heart Rate Variability (HRV)

1.2

1
RR [s]

0.8
k

0.6

0.4

0.2
0.2 0.4 0.6 0.8 1 1.2 1.4
RRk−1 [s]

Figura 3.8: Poincare plot. Diagramma del segnale di fig. 3.6

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 64


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
3.3. RILEVAZIONE DEI COMPLESSI QRS

50

Magnitude (dB)
0

−50

−100
0 20 40 60 80 100
Frequency (Hz)

Phase (degrees)
−200

−400

−600

−800

−1000
0 20 40 60 80 100
Frequency (Hz)

Figura 3.9: Risposta in frequenza e in fase del filtro passa basso.

3.3 Rilevazione dei complessi QRS

Nel seguito si illustra un semplice algoritmo per la rilevazione dei complessi QRS proposto da [15].
Il segnale ECG é filtrato con un filtro analogico con taglio a 50Hz ed in seguito campionato a
200Hz. In seguito il segnale digitale viene elaborato per estrarre i complessi QRS.
Il primo filtro é un passa banda il cui scopo é di ridurre le interferenze della 60Hz 3 , del rumore
muscolare, delle oscillazioni della linea di base. La banda desiderata é 5-15Hz. Il filtro é ottenuto
come cascata di un low-pass e di un high-pass. Il secondo filtro é un derivatore il cui scopo é
prelevare informazioni sulla pendenza del complesso QRS. Il terzo filtro effettua il quadrato del
segnale effettuando cosı́ un filtraggio non lineare che esalta le alte frequenze (quelle del QRS). Il
quarto filtro é un integratore di tipo moving average il cui scopo é fornire ulteriori informazioni
sulla forma d’onda R. Vi é infine un algoritmo di identificazione dei picchi QRS.
Il fiducial mark, cioé il punto che identifica l’occorrenza temporale del QRS é costituito dal
massimo dell’onda R.

Low-pass

Scriviamo di seguito la funzione di trasferimento, la risposta in frequenza (vedi fig. 3.9) e l’equazione
alle differenze del filtro (T é il periodo di campionamento):

(1 − z −6 )2
H(z) =
(1 − z −1 )2
sin2 (3ωT )
|H(ωT )| =
sin2 (ωT /2)
y(n) = 2y(n − 1) − y(n − 2) + x(n) − 2x(n − 6) + x(n − 12)

quesito: trovare la frequenza di taglio, il guadagno e il ritardo del filtro.

3 nei paesi anglosassoni é la frequenza della rete elettrica di alimentazione

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 65


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 3. Modello della Heart Rate Variability (HRV)

20

Magnitude (dB)
0

−20

−40

−60
0 20 40 60 80 100
Frequency (Hz)

1000

Phase (degrees)
0

−1000

−2000

−3000
0 20 40 60 80 100
Frequency (Hz)

Figura 3.10: Risposta in frequenza e in fase del filtro passa alto.

High-pass

Scriviamo di seguito la funzione di trasferimento, la risposta in frequenza e l’equazione alle differenze


del filtro (vedi fig. 3.10):
−1 + 32z −16 + z −32
H(z) =
1 + z −1
(256 + sin2 (16ωT ))1/2
|H(ωT )| =
cos(ωT /2)
y(n) = 32x(n − 16) − [y(n − 1) + x(n) − x(n − 32)]
quesito: trovare la frequenza di taglio, il guadagno e il ritardo del filtro.

Derivata

Scriviamo di seguito la funzione di trasferimento, la risposta in frequenza e l’equazione alle differenze


del filtro (vedi fig. 3.11):
H(z) = (1/8T )(−z −2 − 2z −1 + 2z 1 + z 2 )
|H(ωT )| = (1/4T )[sin(2ωT ) + 2sin(ωT )]
y(n) = (1/8T )(−x(n − 2) − 2x(n − 1) + 2x(n + 1) + x(n + 2))
quesito: trovare la frequenza di taglio, il guadagno e il ritardo del filtro.

Quadratore

L’operazione é la seguente:
y(n) = [x(n)]2

Moving average

Il numero di punti della finestra deve essere approssimativamente uguale alla larghezza del complesso
QRS. Se troppo ampia l’integratore fonderá il complesso QRS con il successivo T; se troppo stretta
alcuni QRS possono provocare diversi picchi. La larghezza si determina empiricamente.

x(n) + x(n − 1) + ... + x(n − N + 1)


y(n) =
N

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 66


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
3.4. ERRORI NELLA DETERMINAZIONE DELLA POSIZIONE DEL PICCO R

Magnitude (dB)
−20

−40

−60

−80
0 20 40 60 80 100
Frequency (Hz)

100

Phase (degrees)
0

−100

−200
0 20 40 60 80 100
Frequency (Hz)

Figura 3.11: Risposta in frequenza e in fase del filtro derivatore.

Algoritmo a soglia

Un picco é un massimo locale definito dal fatto che il segnale cambia direzione in un certo intervallo
di tempo. L’algoritmo di identificazione del QRS prevede una soglia che si adatta nel tempo a
seconda della potenza di segnale e di rumore. Se un picco supera la soglia allora viene classificato
come picco QRS. Il meccanismo della soglia si applica sia al segnale in uscita al secondo filtro
sia al segnale in uscita dall’integratore: se un picco é classificato come QRS in entrambi allora la
classificazione viene ritenuta affidabile.
Si usa la seguente notazione:

SPK é la stima corrente dell’ampiezza dei picchi QRS


NPK é la stima corrente dell’ampiezza dei picchi che non sono correlai al QRS ad es. onde T
PEAK é l’ampiezza del picco corrente
THRESHOLD é l’ampiezza della soglia

le soglie sono variate con il seguente algoritmo:

SP K = 0.125P EAK + 0.875SP K


N P K = 0.125P EAK + 0.875N P K
T HRESHOLD = N P K + 0.25(SP K − N P K)

3.4 Errori nella determinazione della posizione del picco R


Si vede facilmente che la posizione del picco R stimata con il metodo precedente é affetta da un
errore dipendente dalla frequenza di campionamento. Ció é particolarmente importante nel caso in
cui la frequenza di campionamento dell’ECG sia bassa (ad es. Holter).
Piú precisamente detto tk l’istante del k-simo picco R reale, t̂k la posizione stimata, l’errore é
dato da ek = tk − t̂k . Possiamo supporre che le ek siano variabili aleatorie i.i.d. uniformemente
distribuite tra −T /2 e T /2 ed incorrelate (rumore bianco). Pertanto la varianza sará T 2 /12 mentre
2
l’autocorrelazione Ree (m) = T12 δ(m) é impulsiva.
Si puó valutare anche l’errore introdotto nella stima dell’HRV. Infatti l’intervallo RR k-simo
vero e quello misurato sono dati da:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 67


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 3. Modello della Heart Rate Variability (HRV)

xt (k) = tk − tk−1
xm (k) = t̂k − t̂k−1 = tk − ek − (tk−1 − ek−1 ) = xt (k) − (ek − ek−1 ) = xt (k) − dk
Rxm (m) = Rxt (m) + Rd (m)

dove si é supposto che xt (k) ed dk siano incorrelati, l’indice t in xt non indica il tempo ma la parola
true.
Si hanno le seguenti relazioni:

E[dk ] = E[ek ] − E[ek−1 ] = 0


E[d2k ] = E[e2k ] + E[e2k−1 ] − 2E[ek ]E[ek−1 ] = 2σe2
Rdd (m) = E[dk dk−m ] = E[(ek − ek−1 )(ek−m − ek−m−1 )] =
T2 T2
= 2Ree (m) − Ree (m + 1) − Ree (m − 1) = δ(m) − (δ(m − 1) + δ(m + 1))
6 12

3.4.1 Interpolazione mediante DFT

La tecnica dello zero-padding consiste nel estendere la lunghezza di una serie di numeri aggiungendo
degli zeri. Computando la DFT di una serie trattata in questo modo otterremo una trasformata di
Fourier con campioni aggiuntivi interpolati rispetto al caso senza zero-padding. In generale dopo
zero-padding lo spettro é piú smussato.
Analogamente se lo spettro del segnale ECG viene trattato con zero-padding, la trasformata
inversa IDFT conterra’ campioni aggiuntivi interpolati.

3.5 Smoothing

Nel contesto dell’elaborazione del segnali biomedici tra le operazioni piú frequenti troviamo lo
smoothing e la derivazione.
Lo smoothing consiste nel tracciare una linea che si ’adatta’ ai dati rumorosi. Puó essere
considerato equivalente ad un filtraggio passa-basso. Se si considera il segnale acquisito come somma
del segnale effettivamente desiderato e di un segnale rumore, lo smoothing tende ad attenuare le
rapide variazioni dovute al rumore.
Un esempio di smoothing é il filtro moving-average, in cui la media locale sostituisce il campione
corrente del segnale. Si puó pensare in tal caso ad una interpolazione di ordine zero.
Un approccio che generalizza il precedente é quello del filtro di Savitzky-Golay trattato nel
paragrafo che segue.
Il filtro di Savitzky-Golay risolve elegantemente anche un altro problema: quello della deriva-
zione. L’operazione di derivazione é fortemente influenzata dalla presenza di rumore. In termini di
risposta in frequenza un filtro derivatore amplifica le alte frequenze pertanto se il segnale é corrotto
da rumore in alta frequenza, il segnale derivato presenta tali frequenze maggiormente amplificate.
Pertanto prima di derivare un segnale bisognerá porre attenzione nel filtrarlo opportunamente per
diminuire l’apporto di alte frequenze rumorose.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 68


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
3.5. SMOOTHING

3.5.1 Filtro di Savitzky-Golay


In questo filtro (proposto in [14]) l’idea é quella di generalizzare la procedura di moving-average,
usando il polinomio che minimizza l’errore quadratico medio rispetto ai dati.
Piú precisamente denotiamo con x(n) il campione n-simo del segnale x. Consideriamo N cam-
pioni prima e dopo l’istante n. Abbiamo dunque 2N + 1 campioni di x centrati intorno all’istante
n. Vogliamo determinare i coefficienti di un polinomio (di grado j ≤ 2N + 1) che minimizzi l’errore
quadratico medio:

N
X
e= (x(n + k) − p(k))2
k=−N

con

p(k) = a0 + a1 k + a2 k 2 + ... + aj k j

A questo punto per ’smussare’ x potremo sostituire al campione n-simo il valore p(0). Come
vedremo tra breve p(0) é una combinazione lineare dei valori x(n − N )...x(n + N ) pertanto si puó
interpretare p(0) come l’uscita di un filtro lineare (non causale poiché sono contenuti anche i valori
futuri di x(n)).
Vediamo come si possono ottenere i coefficienti del polinomio. sia a = [a0 , ..., aj ]T e p =
[p(−N ), ..., p(N )]T abbiamo:

(−N )2 (−N )j
 
1 −N ...
 1 (−N + 1) (−N + 1)2 ... (−N + 1)j 
p=
 .
 a = Na
. . . . 
1 N N2 ... Nj

Inoltre ponendo x(n) = [x(n − N ), ..., x(n + N )]T , l’errore quadratico sará:

e = (x(n) − p)T (x(n) − p) = xT (n)x(n) + pT p − xT (n)p − pT x(n)


= xT (n)x(n) + aT NT Na − xT (n)Na − aT NT x(n)

pertanto derivando rispetto ad a ed uguagliando a zero si ha:

NT Na − NT x(n) = 0 → a = (NT N)−1 NT x(n)

In definitiva possiamo ottenere una versione filtrata di x(n) usando il valore

x(n) ≈ p(0) = a0

Per quanto riguarda la derivata prima di x(n) si puó usare la versione smussata:
dx dp
≈ |k=0 = a1
dn dk
e per la derivata seconda
d2 x d2 p
≈ |k=0 = 2a2
dn2 dk 2
ed in generale per la derivata m-sima :
dm x dm p
≈ |k=0 = m!am
dnm dk m

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 69


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 3. Modello della Heart Rate Variability (HRV)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 70


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 4

Modello per Magnetic Resonance


Spectroscopic Imaging

4.1 Modello del segnale


Come noto, quando i nuclei di idrogeno con spin-1/2 sono posti in un campo magnetico omogeneo
statico, i nuclei popolano due stati energetici - uno stato a piú bassa energia, detto parallelo al
campo, ed uno stato ad alta energia, detto antiparallelo. Usando la relazione di Boltzmann si vede
che c’è un leggero eccesso di nuclei parallei 1 .
La differenza energetica tra i due livelli é data da ∆E = hf dove h é la costante di Planck.
L’applicazione di una radiofrequenza, consente di ruotare il vettore di magnetizzazione nel piano
trasverso (vedi equazioni di Bloch[]). Rimuovendo l’eccitazione i nuclei tendono a tornare nello stato
di rilassamento emettendo l’energia acquisita in seguito all’impulso di eccitazione.
Il segnale ricevuto, se tutti i nuclei risuonassero alla stessa frequenza, dovrebbe contenere
appunto solo tale frequenza.
In realtá il segnale contiene molte frequenze a causa dell’effetto detto chemical shift. Infatti
ogni nucleo percepisce il campo magnetico totale intorno a se’ come la somma del campo statico
omogeneo piú il campo magnetico prodotto dall’ambiente molecolare che lo circonda. In particolare
ogni molecola ha un suo particolare campo magnetico per cui nello spettro complessivo, si possono
distinguere vari picchi la cui frequenza dipende dalla particolare molecola, mentre l’ampiezza dal
numero di tali molecole. Infine bisogna considerare che il segnale decade esponenzialmente a causa
dei processi T1 e T2 pertanto bisogna introdurre un opportuno fattore di attenuazione (damping
factor).
Sfruttando opportunamente i gradienti di selezione, é possibile eccitare selettivamente singoli
voxels i modo da ottenere mappe di distribuzione delle varie molecole (ad es. per ricavare la mappa
di distribuzione dei principali metaboliti cerebrali NAA, Cholina e Creatina).
Per poter ”quantificare” le varie molecole (cioé misurare le concentrazioni) é necessario elaborare
il segnale ricevuto. Tale segnale (Spettroscopia con risonanza Magnetica) ha la seguente forma:

K
X
sn = s(n) = ck ζkn + (n)
k=1

dove ck = ak ejφk , ζk = e−αk +j2πνk , (n) è il rumore.


A partire dai dati acquisiti si può costruire una matrice dei dati con struttura Hankel:
1 La relazione di Boltzmann esprime la probabilità di trovare un oggetto microscopico in un certo stato energetico.

71
Capitolo 4. Modello per Magnetic Resonance Spectroscopic Imaging

 
s0 s1 s2 ... sM −1
 s1 s2 s3 ... sM 
S=
 
.. .. .. .. 
 . . . ... . 
sL−1 sL sL+1 ... sN −1

Se il segnale fosse costituito solo da sinusoidi senza rumore avremmo una matrice dei dati con
rango K. La presenza del rumore fa sı̀ che il rango della matrice sia pieno pari al min(L, M ).
Un modo per effettuare una analisi del rango consiste nella Singular Value Decomposition (SVD).
Graficando i valori singolari in ordine decresecente si osserva in genere una netta discontinuità tra
i valori songolari corrispondneti al segnale ed i valori corrispondenti al rumore.

4.2 Singular Value Decomposition


Una qualunque matrice X reale N × M di rango r può essere scritta come:

X = UΣVH

dove U è un matrice unitaria N × N , V è un matrice unitaria M × M , e Σ è una matrice N × M


diagonale con Σii = σi per i = 1, ..., r. I numeri σi sono i valori singolari. Di solito sono arrangiati
in ordine decrescente σ1 > σ2 > ... > σr .
Infatti la matrice XH X è semidefinita positiva pertanto i suoi autovalori sono non negativi chia-
miamoli σ12 , σ22 , ..., σM
2
. Poichè il rango è r i primi r autovalori saranno non negativi mentre i restanti
M − r sarano 0. Se v1 , v2 , ..., vM , sono gli autovalroi corrispondenti, consideriamo l’arrangiamento
seguente V = [V1 , V2 ] dove V1 consiste nelle prime r colonne di V. Ponendo Σr = diag(σ1 , ..., σr )
sia ha V1H XH XV1 = Σ2r .
Pertanto Σ−1 H H
r V1 X XV1 Σr
−1
= I. Inoltre V2H XH XV2 = 0 implica che XV2 = 0. Ponendo
−1 H
U1 = XV1 Σr abbiamo U1 U1 = I. E’ possibile costruire la matrice unitaria U = [U1 , U2 ]
scegliendo opportunamente U2 , avremo quindi:

UH UH UH
     
1 XV1 1 XV2 Σr 0
UH XV = 1
X[V1 V2 ] = =
UH
2 UH
2 XV1 UH
2 XV2 0 0

essendo UH H
2 XV1 = U2 U1 Σr = 0 per la definizione di U

4.3 Linear Prediction SVD


Se il segnale di spettroscopia non presenta rumore sovrapposto, si può vedere che soddisfa la seguente
equazione (predizione lineare all’indietro):

ŝn = q1 sn+1 + q2 sn+2 + ... + qM sn+M (4.1)

dove i qk sono i coefficienti del modello a predizione lineare. Quando nel segnale è presente rumore,
l’equazione 4.1 no è esattamente verificata; in tal caso è opportuno scegliere M ≫ K in modo che
le componenti di rumore siano tenute in conto dai coefficienti aggiuntivi.
In termini matriciali si puiò scriver ela seguente equazione:

ŝ = Sq (4.2)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 72


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
4.3. LINEAR PREDICTION SVD

con ŝ = [ŝ0 , ..., ŝN −M −1 ] e q = [q1 , ..., qM ]. Poichè S = UH ΣV, e tenendo conto che i valori singolari
del rumore sono prossimi a zero si può ottenere una pulizia del rumore ponendo i valori songlari del
rumore esattamente uguali a zero. In questo modo si ottiene una nuova Ŝ pulita, ma che non ha
più la struttura di matrice di Henkel. Tale struttura può essere ripristinata effettuando ponendo su
ciascuna antidiagonale il valor medio dei temrin isu quella diagonale. Succesisvamente si ricava la
soluzione dell’equaiozne 4.2 usano solo la pseudo inversa di Ŝ.
A questo punto per calcolare le componenti armoniche presenti nel segnale si procede calcolando
i poli che sono locati all’esterno del cerchio unitario.
Un metodo alternativo è quello proposto da Kumaresan te al. nel 1982 [R. Kumaresan, D. W.
Tufts IEEE Trans. Acoust. Speech Signal Processing vol. ASSP-30, 837-840, 1982]. Arrangiamo
il segnale nel modo ’backward direction’ con un modello di predizione lineare, secondo la seguente
equazione:
−s∗0 b1 s∗1 bL s∗L
 
= ...
 −s∗1 = b1 s∗2 . . . bL s∗L+1 
 
 .. .. .. .. 
 . = . . . 
−s∗N −L = b1 s∗N −L+1 ... bL s∗N −1
che puó essere riscritta come:
−h = Ab
dove si è posto:

h = [s∗0 , s∗1 , . . . , s∗N −L ]T


b = [b1 , b2 , . . . , bL ]T
s∗1 s∗2 s∗L
 
...

 s2 s∗3 ... s∗L+1 
A =
 
 .. .. .. 
 . . . 
s∗N −L+1 s∗N −L+2 ... s∗N −1

e che in forma ’aumentata’ si puó scrivere:


 
1
[h, A] = Ãb̃ = 0
b

Osserviamo che le righe della matrice à si possono scrivere come combinazioni lineari del vettore:
∗ ∗ ∗
fk = [1, e−rk , e−2rk , . . . , e−Lrk ]

dove rk∗ = (−αk + j2πνk )∗ .


Consideriamo ora il polinomio:
L
X
B(z) = bk z −m
m=0
PL ∗
con b̃ = [1, b1 , . . . , bL ]T . Poiché b̃ appartiene allo spazio nullo di à allora fk b̃ = 0 → m=0 bm e−mrk =

0 e quindi il polinomio B(z) ha come radici erk . Quindi una volta determinato B(z) e le sue radici
possiamo calcolare la frequenza e il damping factor delle varie componenti sinusoidali presenti nel
segnale.
Per determinare b̃ si puó usare un approccio Ordinary Least Square (OLS):

A = UΣVH
b = −VΣ−1 UH h

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 73


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 4. Modello per Magnetic Resonance Spectroscopic Imaging

Infine si puó dimostrare [Cadzow , 1988, ITT TRans Acoutsic Speech n6, pp. 833] che nello
spazio delle matrici di rango K la matrice che ha distanza di Frobenius2 minore da quella dei dati
reali misurati (affetti da rumore) è quella che si ottiene usando in Σ solo i primi K valori singolari.
Per la determinazione dell’ampiezza e fase delle sinusoidi si veda il seguente esempio.

4.4 Esempio Matlab


% LPSVD
% Linear Prediction Singular Value Decomposition

clear all
close all

c1 = 1 * exp(j*pi/3);
c2 = 2 * exp(j*pi/4);
f1 = 10; %Hz
f2 = 20; %Hz
a1 = 1;
a2 = 5;
Ts = 1e-3; % ms
N = 500;
tempo = (0:N)*Ts;
s1 = c1 * exp((-a1 + j*2*pi*f1)*tempo);
s2 = c2 * exp((-a2 + j*2*pi*f2)*tempo);
s = s1+s2;

% senza rumore
para = lpsvd(s,2)
para(:,1:2) = para(:,1:2)/Ts;

% con rumore
para = lpsvd(sn,2)
para(:,1:2)/Ts

% aggiungo rumore
sd = 0.5;
sn = s + 0.5*(randn(size(s)) + j*randn(size(s)));

figure
plot(tempo,real(s1),’r’,tempo,real(s2),’b’,tempo,real(s),’g’)
legend(’s1’,’s2’,’s’)
xlabel(’time [s]’)
ylabel(’a.u.’)

figure
plot(tempo,real(s),’r’,tempo,real(sn),’b’)
legend(’s’,’sn’)
xlabel(’time [s]’)
ylabel(’a.u.’)

function [para]=lpsvd(y,M)
hP P i1/2
2 la distanza di Frobenius di due matrici xij e yij é data da |xij − yij |2
i j

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 74


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
4.4. ESEMPIO MATLAB

% LPSVD linear prediction with singular value decomposition


% function [para]=lpsvd(y,M)
% reference: R. Kumaresan, D. W. Tufts IEEE Trans. Acoust. Speech
% Signal Processing
% vol. ASSP-30, 837-840, 1982.
% arguments:
% y: complex vector, NMR FID time series
% M: real scalar, number of signals or effective matrix rank
% para: real M*4 matrix, estimated damping factor, frequency,
% amplitude, phase
y=y(:);
N=length(y); % # of complex data points in FID
L=floor(N*3/4); % linear prediction order L = 3/4*N
% backward prediction data matrix
A=hankel(conj(y(2:N-L+1)),conj(y(N-L+1:N)));
h=conj(y(1:N-L)); % backward prediction data vector
[U,S,V]=svd(A); % singular value decomposition
clear A;
S=diag(S);
% prediction polynomial coefficients
b=-V(:,1:M)*(diag(1./(S(1:M)))*(U(:,1:M)’*h));
% polynomial rooting
s=conj(log(roots([b(length(b):-1:1);1])));
% extract true signal poles
s=s(find(real(s)<0));
Z=zeros(N,length(s));
for k=1:length(s)
Z(:,k)=exp(s(k)).^[0:N-1].’;
end;
% linear least squares analysis
a=Z\y;
para=[-real(s) imag(s)/2/pi abs(a) imag(log(a./abs(a)))];
return

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 75


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 4. Modello per Magnetic Resonance Spectroscopic Imaging

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 76


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5

Stima dei parametri mediante


regressione

5.1 Regressione lineare


Siano t1 , . . . , tN degli istanti di tempo in cui osserviamo una grandezza y(t). Siano y1 , . . . , yN tali
PP
osservazioni. Supponiamo che il modello generativo dei dati sia del tipo y(t) = p=1 θp φp (t) dove
θp sono dei parametri e φp (t) son funzioni qualsiasi del tempo. Per ciascuna osservazione potremo
PP
scrivere un equazione del tipo: yk = p=1 θp φp (tk ) = θ1 φ1 (tk ) + θ2 φ2 (tk ) + . . . , θP φP (tk ). In forma
matriciale:

y1 = θ1 φ1 (t1 ) θ2 φ2 (t1 )
. . . θP φP (t1 )
y2 = θ1 φ1 (t2 ) θ2 φ2 (t2 )
. . . θP φP (t2 )
.. .. .... ..
. . . . .
yN = θ1 φ1 (tN ) θ2 φ2 (tN ) . . . θP φP (tN )

cioé

       
y1 φ1 (t1 ) φ2 (t1 ) φP (t1 )
 y2   φ1 (t2 )   φ2 (t2 )   φP (t2 ) 
=  θ1 +   θ2 + . . . +   θP
       
 .. .. .. ..
 .   .   .   . 
yN φ1 (tN ) φ2 (tN ) φP (tN )

oppure

 
θ1
 θ2 
y = [φ1 , φ2 , . . . , φP ]   = Xθ (5.1)
 
..
 . 
θP

Chiamiamo ora θ ∗ il valore vero dei parametri e di consenguenza y∗ = Xθ ∗ sará il valore vero
del vettore delle osservazioni.
I vari elementi del vettore delle misure y sono in genere affetti da rumore approssimabile come
variabili aleatorie k i.i.d a media nulla, sia  = [1 , . . . , N ]. Per cui avremo:

y = Xθ ∗ +  (5.2)

77
Capitolo 5. Stima dei parametri mediante regressione

5.2 Ordinary Least Squares


L’obiettivo della regressione lineare é trovare un vettore di parametri θ̂ che sia una stima di θ ∗
ottima secondo un qualche criterio. In genere il criterio piú usato é l’Ordinary Least Square (OLS).
Secondo uesto criterio il vettore θ̂ deve soddisfare el seguente relazione:

θ̂ = arg min ky − Xθk2 (5.3)


θ

cioé deve rendere minima la distanza tra le misure y e le previsioni del modello Xθ.
Usando il calcolo matriciale si puó scrivere:

ky − Xθk2 = (y − Xθ)T (y − Xθ)

da cui svolgendo i prodotti:

S(θ) = ky − Xθk2 = yT y + θ T XT Xθ − yT Xθ − θ T XT y

e tenendo conto che gli ultimi due termini sono scalari (uguali ciascuno al trasposto dell’altro)
potremo scrivere
S(θ) = yT y + θ T XT Xθ − 2yT Xθ
Poichè siamo interessati a cercare il valore θ̂ che minimizza la 5.3 sará sufficiente effettuare il
gradiente rispetto a θ ed eguagliarlo a zero:
∂S
= 2XT Xθ − 2yT X = 2XT Xθ − 2XT y = 0
∂θ
da cui, moltiplicando a sinistra per (XT X)−1 si ottiene la soluzione Ordinary Least Squares (OLS):

θ̂ = (XT X)−1 XT y (5.4)

5.3 Proprietá statistiche della soluzione OLS


Supponiamo che il rumore  sia a media nulla E[] = 0 e con matrice di covarianza E[T ] = σ 2 I.
In tal caso si puó vedere facilmente che:

E[θ̂] = E[(XT X)−1 XT y] = (XT X)−1 XT E[y]

ma considerando la 5.2

E[θ̂] = (XT X)−1 XT E[y∗ + ] = (XT X)−1 XT Xθ ∗ + 0 = θ ∗

e quindi la stima é non polarizzata (unbiased). Calcoliamo ora la matrice di covarianza:

E[(θ̂ − θ ∗ )(θ̂ − θ ∗ )T ] = (XT X)−1 XT E[T ]X(XT X)−T

ma essendo E[T ] = σ 2 I si ha (tenendo anche conto che (XT X) é simmetrica e che la inversa di
una matrice simmetrica é anch’essa simmetrica):

E[(θ̂ − θ ∗ )(θ̂ − θ ∗ )T ] = σ 2 (XT X)−1

Fiora non abbiamo fatto ipotesi sulla particolare distribuzione statistic del rumore. Se assumiamo
da ora in poi che il rumore sia gaussinao, anche θ̂ é gaussiana.
In particolare (diamo i prossimi risultati senza dimostrazione) sia ha che la seguente quantitá si
distribuisce come una v.a. di Fisher di parametri P e N − P :

(θ ∗ − θ̂)T XT X(θ ∗ − θ̂)


∼ FP,N −P
P s2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 78


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.4. LA TRASFORMATA DI FOURIER DISCRETA COME PROBLEMA LS

dove
S(θ̂) ky − Xθ̂k2
s2 = =
N −P N −P
Inoltre si ha che la seguente quantitá si distribuisce come una variabile T di Student di parametro
N − P:
θ∗ − θˆk
p k ∼ TN −P
s {(X T X)−1 }kk

Infine anche la seguente quantitá si distribuisce come T di Student di parametro N − P :

aT (θ ∗ − θ̂)
∼ TN −P
saT (X T X)−1 a

5.4 La trasformata di Fourier discreta come problema LS


Consideriamo N campioni di un segnale x(n) con n = 0, . . . , N − 1 e raccogliamoli in un vettore
x = [x0 , . . . , xN −1 ]T . Vogliamo determinare i coefficienti del modello LS usando le seguenti N
funzioni φk (n) con k = 0, . . . , N − 1:
kn
φk (n) = ej2π N (5.5)
Ponendo k(N −1)
k0 k1
ek = [ej2π N , ej2π N , . . . , ej2π N ]T (5.6)
possiamo costruire la matrice X in questo modo (vedi la 5.1):

X = [e0 , e1 , . . . , eN −1 ] (5.7)

Ora si ha (nel caso di segnali complessi sostituiamo l’operatore di trasposizione con quello di
Hermitiano ):
eH
 
0
 eH 1

XH X =   [e0 , e1 , . . . , eN −1 ] (5.8)
 
..
 . 
eH
N −1

cioé
eH eH eH
 
0 e0 0 e1 ... 0 eN −1
 eH
1 e0 eH
1 e1 ... eH
1 eN −1

XH X = 
 
.. .. .. .. 
 . . . . 
eH
N −1 e0 eH
N −1 e1 ... eH
N −1 eN −1
ma
N −1 N −1
X kq kr
X k(q−r)
eH
q er = e−j2π N ej2π N = e−j2π N

k=1 k=1

e ricordando che
N −1
X 1 − zN
zk =
1−z
k=0
2π(q−r)
ponendo z = ej N si ha: (
N se q = r
eH
q er =
0 6 r
se q =

in quanto z N = ej2π(q−r) = 1 per q 6= r. Pertanto in definitiva:

XH X = N IN

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 79


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

dove IN é la matrice identica di ordine N . La soluzione LS del problema diventa


1 H
θ̂ = (XH X)−1 XH x = X x
N
e per il p-simo parametro (p = 0, . . . , N − 1) si ha:
N −1
1 H 1 X 2π
θ̂p = ep x = x(k)e−j N kp
N N
k=0

che é la trasformata di fourier discreta (DFT) della sequenza x.

5.5 Criteri di ottimo


Fino ad ora il criterio di ottimo usato é stato la minimizzazione dello scarto quadratico. Si tratta
di un criterio intuitivo di facile trattabilitá matematica.
Un altro criterio molto usato é la massimizzazione della verosimiglianza (Maximum Likelihood,
ML).
Consideriamo una singola estrazione di un campione x da una variabile aleatoria gaussiana
di parametri (ignoti) µ e σ. Il nostro obiettivo é stimare i parametri della distribuzione dalla
osservazione di questa singola estrazione. Si puó ritenere intuitivamente che la scelta piú plausibile
per i parametri sia quella che rende massima la probabilitá che x sia stato estratto proprio da quella
distribuzione. Sia p(x; µ, σ) tale probabilitá, chiameremo verosimiglianza la quantitaá L(µ, σ) =
p(x; µ, σ) cioé la probabilitá di x ma considerata come funzione dei parametri (osserviamo che la
verosimiglianza non é normalizzata ad 1 mentre la pdf lo é).
Nel caso di N estrazioni dalla stessa distribuzione x1 , . . . , xN il ragionamento é identico salvo che
la quantitá da massimizzare é la probabilitá congiunta delle estrazioni L(µ, σ) = p(x1 , . . . , xN ; µ, σ),
QN
che nel caso di estrazioni indipendenti si riduce al prodotto delle probabilitá L(µ, σ) = k=1 p(xk ; µ, σ).
Nel caso di una distribuzione con P parametri θ = [θ1 , . . . , θP ]T avremo L(θ) = p(x1 , . . . , xN ; θ)
QN
che si riduce a L(θ) = k=1 p(xk ; θ) nel caso di indipendenza.
Tipicamente, per questioni legate alla trattazione matematica, in luogo della verosimiglianza si
preferisce massimizzare il suo logaritmo log L(θ).
Il discorso fatto vale per qualunque tipo di distribuzione (anche non gaussiana).
Nel caso particolare di variabili gaussiane si ha il seguente interessante risultato:
N
Y 1 1
log L(θ) = log exp(− (x − µ)T Σ−1 (x − µ)) (5.9)
k=1
(2π)N/2 |Σ|1/2 2

dove x = [x1 , . . . , xN ]T e θ = [µ1 , . . . , µP , σ11 , σ12 , . . . , σP P ].


da cui ricordano che il logaritmo di un prodtto é la somma dei logaritmi:
N
X N 1 1
log L(θ) = − log(2π) − log |Σ| − (x − µ)T Σ−1 (x − µ) (5.10)
2 2 2
k=1

da cui, per variabili gaussiane i.i.d (cioé matrice di covarianza Σ = σ 2 I) si ottiene:


N
X 1 N N
log L(θ) = − (x − µ)T (x − µ) − log(2π) − log σ 2
2σ 2 2 2
k=1

ovvero
N
X 1 N N
log L(θ) = − 2
kx − µk2 − log(2π) − log σ 2
2σ 2 2
k=1

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 80


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.5. CRITERI DI OTTIMO

Applichiamo
PP ora la massima verosimiglianza al modello 5.2. In questo caso le estrazioni sono
yk = p=1 φp (tk )θp∗ + k . Se ipotizziamo che il rumore sia di tipo gaussiano a media nulla e i.i.d
avremo che il vettore y é congiuntamente gaussiano a media Xθ ∗ e matrice di covarianza σ 2 I.
Pertanto potremo scrivere il logaritmo della verosimiglianza delle nostre osservazioni:
1 N N
log L(θ, σ) = − 2
ky − Xθk2 − log σ 2 − log(2π) (5.11)
2σ 2 2
per cui si riconosce che (nel caso in cui la varianza σ sia nota a priori) la massimizzazione della
verosimiglianza coincide con la minimizzazione dello scarto quadratico 5.3.
Nel caso in cui la varianza non sia nota é necessario effettuare il gradiente dell verosimiglianza
ed eguagliarlo a zero:
∂ log L
= 0
∂θ
∂ log L
= 0
∂σ 2
Dalla prima equazione si ricava esattamente la stessa soluzione OLS; dalla seconda si ricava:
1 N
4
ky − Xθk2 − 2 = 0
2σ 2σ
ovvero
ky − Xθk2
σ2 =
N

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 81


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

5.6 Regressione Non Lineare


Consideriamo un insieme di osservazioni [y1 , . . . , yN ]T = y, corrispondenti a certi istanti temporali
[x1 , . . . , xN ]T = x, e soggetti ad un rumore [1 , . . . , N ]T =  e supponiamo di conoscere a priori
che i punti debbano soddisfare ad una relazione del tipo:

y = f (x, θ) + i (5.12)

dove θ = [θ1 , . . . , θp ] sono dei parametri che caratterizzano la relazione tra x ed y. Si intende con il
termine regressione non lineare l’operazione di determinare i valori dei parametri che garantiscono
il miglior fitting dei dati. L’aggettivo non-lineare caratterizza la relazione f . Chiaramente la bontá
del fitting deve essere misurata con una funzione di costo. Come al solito la funzione costo piú
comunemente scelta é:
S(θ) = ky − f (x, θ)k2 = kk2 (5.13)
e pertanto il metodo consiste nella ricerca dei parametri θ che minimizzano la somma dei quadrati
(Minimum Least Squares).

5.7 Differenze rispetto alla stima nel caso non-lineare


Nel caso non-lineare invece vi possono essere minimi locali e non é possibile trovare una formula
chiusa. Pertanto si deve ricorrere a procedure iterative che cercano il valore ottimo dei parametri.
Chiaramente l’algoritmo di ricerca determina la precisione della stima dei parametri ottimi, e il
tempo di convergenza.
Si deve notare che se l’errore  additivo a media nulla e a varianza σ 2 é distribuito normalmente,
la soluzione θ̂ che minimizza la somma dei quadrati é la stima a massima verosimiglianza di θ.
La regressione non lineare puó essere vista come una forma di smoothing. Questo metodo va
distinto dall’interpolazione dove si richiede che la funzione calcolata passi esattamente per i punti
dati.

5.8 Generalitá sulla ottimizzazione di funzioni


Consideriamo una funzione scalare (reale) f (θ) di p variabili θ = [θ1 , . . . , θp ]T . Ci soffermiamo solo
sulla minimizzazione in quanto la massimizzazione di f (θ) implica la minimizzazione di −f (θ). In
generale possiamo distinguere tra minimi locali e globali. Un valore θ̂ é un minimo locale se

∃δ > 0 : kθ̂ − θk < δ ⇒ f (θ) > f (θ̂) = 0

Ricordiamo le condizioni sufficienti affinché θ̂ sia un minimo locale:

∂f (θ)
g = =0
∂θ θ=θ̂

 ∂ 2 f (θ) ∂ 2 f (θ)

∂θ ∂θ ... ∂θ1 ∂θp
 1. 1 . .. 
H(θ̂) = 
 .. .. .
>0

2
∂ f (θ) ∂ 2 f (θ)
∂θp ∂θ1 ... ∂θp ∂θp

cioé: il gradiente devee essere nullo in θ̂, mentre l’Hessiano deve ivi essere definito positivo.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 82


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.9. ALGORITMO DI NEWTON

Queste condizioni possono essere intuitivamente comprese considerando una forma quadratica
in uno spazio n-dimensionale:
1
f (θ) = a + bT x + θ T Cθ
2
dove f (θ) é una funzione scalare di n variabili, a é uno scalare, b é un vettore, C é una matrice
simmetrica, non singolare, definita positiva.
Il gradiente é:
∂f (θ)
g= = b + Cθ (5.14)
∂θ
per cui la condizione di punto di minimo é:

θ̂ = −C−1 b (5.15)

Nel caso della forma quadratica considerata si ha:

H(θ̂) = C (5.16)

Ora chiamiamo λ1 , . . . , λp gli autovalori (positivi) dell’Hessiano e chiamiamo u1 , . . . , up i corri-


spondenti autovettori ortonormali. Possiamo scrivere:

1
f (θ̂ + αuk ) = a + bT (θ̂ + αuk ) + (θ̂ + αuk )T C(θ̂ + αuk )
2
1 T 1 1 T 1
= a + b θ̂ + θ̂ Cθ̂ + αbT uk + αuTk Cθ̂ + αθ̂ Cuk + α2 uTk Cuk
T
2 2 2 2
1 2
= f (θ̂) + α λk
2
in quanto Cuk = λk uk .
Quindi si vede che partendo da θ̂ e muovendosi in direzione uk il valore di cui si incrementa f
dipende dal segno dell’autovalore λk . Pertanto se tutti gli autovalori sono positivi la funzione cresce
in ogni direzione intorno a θ̂ che risulta in punto di minimo.

5.9 Algoritmo di Newton


Come é giá detto nel caso di regressione non-lineare é necessario effettuare una ricerca iterativa del
punto di minimo. Se indichiamo con θ (n) il valore trovato alla n-sima iterazione, si ipotizza che sia
possibile trovare una successione di valori θ (1) , θ (2) , . . . , θ (n) , . . .) che converge al valore ottimo. In
genere gli algoritmi calcolano il valore di θ (n+1) sulla base di θ (n) :

θ (n+1) = θ (n) + δ (n)

il criterio con cui va scelto δ (n) é il punto critico degli algoritmi. Una considerazione generale ci
fa pensare che la direzione di δ (n) debba essere una direzione lungo cui la funzione f (θ) abbia un
decremento, cioé la derivata direzionale lungo δ (n) deve essere negativa:

∂ ∂f (n)
f (θ (a) + ρδ (n) ) = δ = gT δ (n) < 0
∂ρ ∂θ T

Scegliendo δ (n) = −Rg con R definita positiva si ha la certezza di avere una direzione di
decremento: gT δ (n) = −gT Rg < 0.
La direzione di massima discesa δ (n) = −g (che corrisponde a R = I) in genere non é una
buona soluzione poiché dipende dallo scaling delle variabili θ. Una soluzione migliore si ottiene

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 83


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

considerando che nei pressi del punto di minimo θ̂ la funzione f si puó approssimare con al sua
serie di Taylor al secondo ordine e quindi si ha :

θ̂ = −C−1 b
= −H−1 (g(n) − Hθ (n) )
= −H−1 g(n) + θ (n)

−1 (n)
Pertanto viene naturale scegliere come direzione δ (n) = −H(n) g che viene chiamato il passo
di Newton o la direzione di Newton.
Si puó dimostrare che la direzione di Newton é invariante per cambiamenti di scala delle variabili
θ. Infatti, sia
φ = Aθ (5.17)
una trasformazione invertibile dei parametri, verifichiamo che la direzione di Newton ottenuta nelle
variabili φ coincide, a meno della trasformazione inversa A−1 , con la direzione di Newton calcolata
nelle variabili θ.
La funzione di costo da minimizzare é:

Sφ (φ) = Sφ (Aθ) = Sθ (θ)

Esprimiamo la trasformazione 5.17 in notazione di Einstein:

φk = akm θm

Il gradiente di Sθ sará:
∂Sθ ∂Sφ (Aθ) ∂Sφ ∂φm ∂Sφ
= = = amk
∂θk ∂θk ∂φm ∂θk ∂φm
dove vale la notazione con indici ripetuti. In forma matriciale avremo:
∂Sθ ∂Sφ
gθ = = AT = AT gφ
∂θ ∂φ

Per quanto riguarda l’Hessiano si ha:


∂ 2 Sθ
   
∂ ∂Sθ ∂ ∂Sφ ∂φj
= =
∂θk ∂θm ∂θk ∂θm ∂θk ∂φj ∂θm
∂Sφ ∂ 2 φj
 
∂ ∂Sφ ∂φj
= +
∂θk ∂φj ∂θm ∂φj ∂θk ∂θm
∂ 2 Sφ ∂φp ∂φj
= +0
∂φp ∂φj ∂θk ∂θm

che i forma matriciale diventa:


2
Sθ T ∂ Sφ
Hθ = = A A = AT Hφ A
∂θ∂θ T ∂φ∂φT

Pertanto detta δφ la direzioen di Newton calcolata usando le variabili φ si ha:

δφ = −H−1
φ gφ

= −(A−T Hθ A−1 )−1 A−T gθ


= −AH−1 T −T
θ A A gθ
= −A(H−1
θ gθ ) = Aδθ

e quindi la direzione di Newton risulta indipendente dalla trasformazione delle variabili.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 84


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.10. ALGORITMO DI GAUSS-NEWTON

5.10 Algoritmo di Gauss-Newton


Le considerazioni precedenti valgono per l’ottimizzazione di funzioni di tipo generale.
Nel caso particolare di regressione lineare, cioé quando consideriamo la minimizzazione della
funzione di costo:
XN
S(θ) = ky − f (θ)k2 = ri2 (θ)
k=1

dove ri (θ) = yi − f (i, θ), la espressione del gradiente di S(θ) diventa:

N
∂S(θ) X ∂ri
g(θ) = =2 ri (θ) = 2J(θ)r(θ)
∂θ i=1
∂θ

dove abbiamo posto:


∂ri
J(θ) = Jji =
∂θj

Per quanto riguarda l’hessiano si ha:

N N
∂S(θ) X ∂ri ∂ri X ∂ 2 ri
H(θ) = T
= 2 T
+ 2 ri (θ) T
= 2(JT J + A)
∂θ∂θ ∂θ ∂θ ∂θ∂θ
k=1 k=1

Il passo di Newton diventa:

−1 (a) T
δ (a) = −H(a) g = −(J(a) J(a) + A(a) )−1 J(a) r(a) (5.18)

Il termine A tiene conto delle non-linearitá di secondo ordine della expectation surface. Se A
puó essere ignorato (la funzione é abbastanza lineare in θ nei dintorni del valore corrente θ (a) )
allora il passo di Newton diventa:

−1 (a) T
δ (a) = −H(a) g = −(J(a) J(a) )−1 J(a) r(a) (5.19)

che corrisponde alla risoluzione del problema LS linearizzato approssimando f al primo ordine:

(a) ∂f (t, θ (a) ) (a)


f (t, θ) = f (t, θ̂ )+ (θ − θ (a) ) = f (t, θ̂ ) − J(a) (θ − θ (a) )
∂θ

5.11 Algoritmo di Levenberg-Marquardt


Il calcolo di A é dispendioso pertanto, se non é possibile ignorare il termine A (questo accade se il
residuo r non é trascurabile oppure se il modello non é abbastanza lineare) allora si puó usare la
formula (approssimativamente invariante per scala dei parametri):

T
δ (a) == −(J(a) J(a) + η (a) D(a) )−1 J(a) r(a) (5.20)

dove D(a) é una matrice diagonale con gli elementi diaognali uuali a quelli di JT J. Inizialmente
η (1) vale un numero piccolo (ad es. 0.01); se il passo δ (a) riduce S(θ) allora η viene diviso per 10
(in modo che il passo si avvicina all’algoritmo di Gauss-Newton); se il passo δ (a) non riduce S(θ)
allora η viene moltiplicato per 10 finché non si raggiunge una riduzione per S(θ).

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 85


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

5.12 Algoritmo VARiable PROjection


Se la funzione f é lineare rispetto ad alcuni parametri α = [α1 , . . . , αm ] ad es.:

f (α, θ) = K(θ)α

dove f = [f (t1 ), . . . , f (tN )]T e K = [k1 , . . . , km ] sono m funzioni di θ. La funzione costo diventa:

S(θ) = ky − f (α, θ)k2 = ky − K(θ)αk2 (5.21)

per cui se θ é fissato ad un valore θ (a) allora la souzione ottima per α é data dalla formula per il
Least Squares:
αopt = (KT (θ (a) )K(θ (a) ))−1 KT (θ (a) )y
inserendolo nella 5.22 si ha la nuova funzione di costo:

S(θ) = ky − K(θ (a) )(KT (θ (a) )K(θ (a) ))−1 KT (θ (a) )yk2 (5.22)

L’uso di questa funzione di costo si dimostra essere piú veloce ed accurato.

5.13 Criteri per valutare la bontá di uno stimatore


Un criterio spesso usato per valutare le prestazioni di uno stimatore é l’errore quadratico medio
definito come momento del secondo ordine dell’errore di stima. Poiché in molti problemi di stima,
quando si ha a che fare con modelli non lineari e/o non Gaussiani, risulta impossibile determinare
analiticamente lo stimatore ottimo (a minimo errore quadratico medio, minimum mean square error,
MMSE) si deve fare ricorso a stimatori approssimati e, quindi, sub-ottimi. In tal caso, é di grande
importanza pratica valutare l’entitá dell’approssimazione introdotta. Nonostante l’impossibilitá di
determinare in forma chiusa lo stimatore MMSE, risulta possibile valutare un limite teorico, detto
limite inferiore di Cramer-Rao (Cramer Rao Lower Bound) al di sotto del quale l’errore quadratico
medio di un qualunque stimatore non puó scendere.
In questo paragrafo si pone l’attenzione sul problema della stima di un vettore di parametri
θ ∈ RP sulla base di un’osservazione y ∈ RN della variabile aleatoria Y. Si definisce stimatore di
θ una funzione θ̂(Y) della variabile aleatoria Y (cioé una operazione che dalle osservazioni ci porti
alla stima) e, data l’osservazione y di Y, si dice che θ̂(y) é la corrispondente stima (cioé il valore
numerico ottenuto dall’operazione di stima).
Detto θ il valore vero del vettore di parametri, uno stimatore θ̂(Y) di θ si dice non polarizzato
se E[θ̂(Y)] = θ o, equivalentemente, definito l’errore di stima θ̃ = θ − θ̂(Y), E[θ̃] = 0. Assumendo
che, in generale, lo stimatore possa essere polarizzato cioé E[θ̂(Y)] = γ(θ) vale il seguente risultato
fondamentale noto come disuguaglianza di Cramer-Rao. Qualunque sia lo stimatore θ̂(Y), il
suo errore quadratico medio (mean square error, MSE) definito come

M SE(θ̂(Y)) ≥ E[(θ − θ̂(Y))(θ − θ̂(Y))T ] (5.23)

soddisfa la seguente disuguaglianza matriciale:

∂γ(θ) −1 ∂γ(θ)
M SE(θ̂(Y)) ≥ J (θ) (5.24)
∂θ ∂θ T
dove J(θ), detta matrice di informazione di Fisher (Fisher Information Matrix, FIM), é definita nel
seguente modo:

∂2
   
∂ ∂
J(θ) = E ln p(y|θ) T ln p(y|θ) = −E ln p(y|θ) (5.25)
∂θ ∂θ ∂θ∂θ T

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 86


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.13. CRITERI PER VALUTARE LA BONTÁ DI UNO STIMATORE

Nel seguito verrá illustrata la dimostrazione.


Per comoditá di scrittura si definisce la funzione

Φ(θ, y) , ln p(y|θ) (5.26)
∂θ

da cui J = E[Φ(θ, y)ΦT (θ, y)]


Si noti che, per la derivata delle funzioni composte:
∂ ∂ 1 ∂
Φ(θ, y) = [ln p(y|θ)] p(y|θ) = p(y|θ) (5.27)
∂p ∂θ p(y|θ) ∂θ

per cui


p(y|θ) = Φ(θ, y)p(y|θ). (5.28)
∂θ
Poiché p(y|θ) é una densitá di probabilitá, si deve avere
Z
p(y|θ)dy = 1 (5.29)

Inoltre, si ha Z
γ(θ) = E[θ̂(Y)] = θ̂(y)p(y|θ)dy (5.30)

Differenziando la 5.29 rispetto ad x, assumendo condizioni di regolaritá tali da poter differenziare


sotto il segno di integrale, ed usando la 5.28 si ottiene:
Z Z

0= p(y|θ)dy = Φ(θ, y)p(y|θ)dy = E[Φ(θ, y)] (5.31)
∂θ
Analogamente differenziando la 5.30 rispetto a ad x, si ha

Z Z
∂γ ∂
(θ) = θ̂(y)[ p(y|θ)]T dy = θ̂(y)ΦT (θ, y)p(y|θ)dy = E[θ̂(y)ΦT (θ, y)] (5.32)
∂θ ∂θ

Sottraendo 5.31 e 5.32 membro a membro, si ottiene

∂γ
(θ) = E[(θ̂(y) − θ)ΦT (θ, y)] (5.33)
∂θ
Si consideri adesso la matrice di covarianza semidefinita positiva:

∂γ
θ̂(y) − θ M SE(θ̂) ∂θ (θ)
E[ ][ (θ̂(y) − θ)T ΦT (θ, y) ] = [ ∂γ T
]≥0 (5.34)
Φ(θ, y)
∂θ (θ) J

dove si é fatto uso di 5.33 e del fatto che E[Φ(θ, y)ΦT (θ, y)] coincide con la FIM definita in
precedenza.
1
Applicando il seguente risultato
1 Dire che 5.35 é semidefinita positiva significa dire che ∀ (u, v)
  
A B u
(uT , vT ) T = uT Au + 2uT Bv + vT Cv ≥ 0.
B C v
In particolare fissato un certo u la disuguaglianza dovrá valere per tutti gli v ed in quindi anche per v =
arg minv uT Au + 2uT Bv + vT Cv = −C−1 BT u (essendo una forma quadratica la posizione del minimo si puó
trovare facilmente). Sostituendo quest’ultima espressione in quella precedente si ricava uT Au − 2uT BC−1 BT u +
uT BC−1 CC−1 BT u ≥ 0 da cui si ricava l’espressione 5.35.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 87


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

 
A B
≥ 0 ⇒ A − BC−1 BT ≥ 0 (5.35)
BT C

si ottiene la diseguaglianza di Cramer-Rao 5.24.


Differenziando 5.31 rispetto ad θ si ottiene

Z
∂ T ∂
0= [ Φ (θ, y) + Φ(θ, y)ΦT (θ, y)]p(y|θ)dy = E[ ΦT (θ, y) + Φ(θ, y)ΦT (θ, y)] (5.36)
∂θ ∂θ

che implica J = E[Φ(θ, y)ΦT (θ, y)] = −E[ ∂θ ΦT (θ, y)] da cui si deduce immediatamente la 5.25.
Nel caso di stimatori non polarizzati, si ha

∂γ
γ(θ) = θ ⇒ (θ) = I
∂θ
Quindi la disuguaglianza di Cramer-Rao si riduce semplicemente a

M SE(θ̂) ≥ J−1

E’ opportuno osservare che sia M SE(θ̂) sia la J−1 sono simmetriche, ed inoltre che gli elementi
della diagonale della matrice M SE(θ̂) − J−1 devono essere tutti positivi 2 , pertanto l’elemento (i, i)
della matrice J−1 rappresenta il limite inferiore della varianza della stima della componente i-esima
del vettore di parametri x.

5.14 Un approccio geometrico


Il problema della ricerca del minimo della funzione di costo puó essere interpretato in maniera
geometrica grazie all’introduzione di alcuni concetti di geometria delle superfici.
Consideriamo prima di tutto la cosa nello spazio dei parametri. La funzione di costo S(θ) =
|r|2 = |yi − f (ti , θ)|2 é una funzione scalare che generalmente presenta un minimo globale θ ∗ nello
spazio dei parametri (sorprendentemente non sono comuni i casi di minimi locali multipli). Partendo
da una stima iniziale θ 0 bisogna individuare in che direzione muoversi per andare verso il minimo
globale. Quale direzione scegliere? Il concetto di gradiente di funzione ci dá una prima risposta.
Come noto il gradiente ∇S = JT r é ortogonale alle curve isolivello ed individua la direzione di
massima crescita della funzione; pertanto la direzione −∇S individua la massima decrescita. Tale
direzione non é sempre efficiente nella ricerca, poiché non punta verso il minimo globale ma solo
in direzione ortogonale alle isolivello. Infatti se la funzione di costo é ’sloppy’ sono necessari molti
piccoli passi all’interno dello spazio dei parametri per giungere al minimo.

5.15 Misure di non linearitá: Curvatura Relativa


La stima a minimima quadrati di modelli non lineari (Non Linear Least Squares, NLLS) puó essere
usata nell’analisi di un set di dati {yi } con i = 1, . . . , N misurati negli istanti ti . Posto che tali dati
debbano soddisfare al modello:
yi = f (ti , θ) + i
dove i é un termine di rumore con media nulla, la risposta attesa, per un dato valore dei parametri
é la seguente:
ηi (θ) = E[yi |θ] = f (ti , θ)
2 basta osservare che la positivitá implica eT (M SE(θ̂) − J−1 )e ≥ 0, dove e sono i vettori della base naturale in
R nx

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 88


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.15. MISURE DI NON LINEARITÁ: CURVATURA RELATIVA

e in forma vettoriale:
η(θ) = E[y|θ] = f (θ)
dove
η(θ) = (η1 (θ), η2 (θ), . . . , ηN (θ))T .

Osserviamo che θ é un vettore p-dimensionale e η é un vettore ad N dimensioni; pertanto, η


descrive una superficie p-dimensionale al variare di θ. Tale superficie, immersa (embedded ) nello
spazio ad N dimensioni, é chiamata expectation-surface.
Osserviamo anche che la funzione di costo puó essere scritta come:
S(θ) = ky − η(θ)k2
e che quindi S(θ) puó essere interpretato geometricamente come la distanza tra i vettori y e η(θ)
in uno spazio N -dimensionale.
Molti algoritmi per calcolare la stima θ̂ ai minimi quadrati e molti metodi di inferenza statistica
per modelli non lineari sono basati, come anche detto precedentemente, su un’approssimazione
lineare del modello. In un intorno sufficientemente piccolo di un fissato valore dei parametri θ̂ la
funzione del modello é approssimata da
∂f
f (θ) ≈ f (θ̂) + (θ − θ̂)
∂θ |θ=θ̂

Questa relazione si puó riscrivere anche nella forma:


η(θ) ≈ η(θ̂) + J(θ − θ̂)
dove J é lo Jacobiano di f .
L’effetto di questa approssimazione consiste nel rimpiazzare la expectation-surface con il suo
piano tangente a η(θ̂), e simultaneamnte imporre un sistema di coordinate sul piano tangente.
Le espressioni che indicano l’adeguatezza di un’approssimazione lineare e i suoi effetti sulle
inferenze sono chiamate misure di non linearitá. Possibili misure di non linearitá sono basate sul
concetto geometrico di curvatura che é riportato nel seguito.
Una linea retta arbitraria nello spazio dei parametri p-dimensionale passante per θ̂ puó essere
espressa usando un parametro b:
θ(b) = θ̂ + bh
dove h = (h1 , . . . , hp )T é un vettore non nullo che rappresenta la direzione della retta considerata.
A questa linea retta corrisponde una curva η h (b) sulla expectation-surface:
η h (b) = η(θ̂ + bh).

La tangente alla curva η h (b) a b = 0 é


p p
dη h X ∂η dθi X
η̇ h (θ) = = = vi hi = V̇h
db |b=0 i=1
∂θi |θ db |b=0 i=1
i =θ̂i

dove la matrice V̇ ha dimensione N × p che ha disposti per colonna i vettori vi .


Il vettore tangente η̇ h (che puó essere assimilato ad una velocitá sulla traiettoria η h (b) con
parametro temporale b) é dunque una combinazione lineare dei vettori vi e il set di tutte queste
combinazioni lineari é il piano tangente alla expectation-surface in η(θ̂).
L’accelerazione lungo la traiettoria η̈ h é anch’essa una combinazione lineare dei vettori deter-
minati dai parametri del modello. Infatti la derivata seconda alla curva η h (b) in b = 0 puó essere
scritta come segue:
dη̇ h X ∂ X dθj X X ∂vi
η̈ h = = ( vi hi ) = hi hj = hT V̈h
db |b=0 j
∂θj | i
db |b=0
i j
∂θj
θj =θ̂j

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 89


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

Figura 5.1: Interpretazione fisica del vettore tangente della expectation-surface

dove abbiamo definito la matrice p × p × N :

∂vi ∂2η
V̈ = =
∂θj ∂θj ∂θi

I vettori η̇ h e η̈ h hanno quindi un interpretazione fisica se noi immaginiamo un punto muoversi


attraverso lo spazio ad N dimensioni cosı́ che al tempo b esso si trova in η h (b) (vedi fig. 5.1). La
tangente η̇ h é la velocitá istantanea e η̈ h é l’accelerazione istantanea per b = 0.
In generale il vettore accelerazione puó essere scritto come somma di tre componenti: una
normale al piano tangente (η̈ N
h ); due appartenenti al piano tangente di cui una parallela alla velocitá
(η̈ P G
h ) e l’altra η̈ h :
η̈ h = η̈ N P G
h + η̈ h + η̈ h .

Il vettore velocitá ed il vettore accelerazione sono coinvolti nello sviluppo in serie di Taylor della
expectation-surface:

∂η ∂2η
η(θ) ≈ η(θ̂) + (θ − θ̂) + (θ − θ̂)T (θ − θ̂)
∂θ ∂θ∂θ T
1
= η(θ̂) + V̇(θ − θ̂) + (θ − θ̂)T V̈(θ − θ̂)
2

Pertanto le misure di non linearitá mirano a valutare l’entitá di V̇ rispetto a V̈. Si puó dimostrare
che tali misure coincidono con la misura di curvatura della expectation surface (vedi Seber and Wild,
2003). Una prima misura detta curvatura normale nella direzione h é data da:

kη̈ N
h k
K̈N
h =
kη̇ h k2
Tale curvatura é anche detta curvatura intrinseca poiché dipende solamente dal modello matematico
utilizzato, essa é una proprietá intrinseca della expectation-superficie.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 90


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.15. MISURE DI NON LINEARITÁ: CURVATURA RELATIVA

La componente tangenziale dell’accelerazione data da:

η̈ Th = η̈ P G
h + η̈ h

puó essere usata per calcolare la curvatura tangenziale anche detta parameters-effect curvature che
tiene conto degli effetti dei parametri nella direzione h.

kη̈ Th k
K̈Th = .
kη̇ h k2

A differenza della curvatura intrinseca, tale curvatura dipende dalla particolare parametrizza-
zione scelta: pertanto una ri-parametrizzazione del modello puó cambiare considerevolmente tale
curvatura.
Le due misure suddette K̈N T
h e K̈h rappresentano l’intrinseca non linearitá della expectation-
surface e la non linearitá apparente causata dalla parametrizzazione del modello.
Quindi con tali misure possiamo quantificare la non linearitá e capire se l’approssimazione lineare
del modello nella risoluzione della stima a minimi quadrati é applicabile. In fatti, se la curvatura é
bassa la expectation-surface é praticamente piatta e l’approssimazione lineare puó essere ritenuta
valida, al crescere della curvatura lo spazio non sará piú piatto e pertanto l’approssimazione lineare
potrebbe non essere valida.

5.15.1 Esempio Matlab


In questo esempio vogliamo mostrare come si puó studiare con Matlab una forma quadratica,
per comprenderne le proprietá, con particolare riferimento alle direzioni principali (autovettori ed
autovalori dell’Hessiano della forma) delle curve iso-livello sullo spazio dei parametri. Per semplicitá
di rappresentazione grafica si limita lo studio al caso di una coppi adi parametri. I risultati del
codice sono mostrati in figura 5.2

% Studio di una forma quadratica


clear all
close all
x = (-10:0.1:20)’;
y = (-10:0.1:10)’;
[X,Y] = meshgrid(x,y);
b = [1;2];
CC = [3 2; 2 4];
[V,D]=eig(CC);
for k1 = 1:length(y)
for k2 = 1:length(x)
teta = [x(k2);y(k1)];
S(k1,k2) = b’*teta + teta’*CC*teta;
end
end
[dum,dum_pos_k1]=min(S);
[dum,pos_k2]=min(dum);
pos_k1 = dum_pos_k1(pos_k2);

[C,h]=contour(x,y,S,(10:20:100));
axis equal
clabel(C,h);
hold on
plot(x(pos_k2),y(pos_k1),’x’)
x0 = x(pos_k2);

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 91


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

10

70 0
9
50
30 90
70
10

30
0

10
70

50
50

30
90

−5 70

90
−10

−10 −5 0 5 10 15 20

Figura 5.2: Curve isolivello di una forma quadratica nello spazio dei parametri e loro relazione con
gli autovalori dell’Hessiano.

y0 = y(pos_k1);
quiver(x0,y0,V(1,1),V(2,1),sqrt(30)/sqrt(D(1,1)))
quiver(x0,y0,V(1,2),V(2,2),sqrt(30)/sqrt(D(2,2)))

5.16 Funzioni di costo


Finora abbiamo considerato un approccio Non Linear Least Squares (NLLS) basato su una funzione
di costo del tipo:
S(θ) = ky − f (θ)k2 ,
in questa sezione vogliamo esaminare altri approcci per la scelta della funzione di costo.
In un approccio di tipo Bayesiano viene naturale considerare la seguente probabilitá:
p(y|θ)p(θ)
p(θ|y) =
p(y)
in cui p(θ) é la probabilitá a priori (prima di effettuare le misure y) che i parametri abbiamo un
determinato valore, p(θ|y) é la probabilitá a posteriori (dopo aver effettuato le misure y), p(y) é la
probabilitá dei dati (che in genere viene assunta uniforme), ed infine p(y|θ) é la verosimiglianza dei
dati. In questo contesto viene naturale scegliere la probabilitá a posteriori come funzione di costo,
massimizzare, cioé, la probabilitá che i parametri abbiano un certo valore a fronte di certe misure.
Per quanto riguarda la probabilitá a priori dei parametri, questa non é facilmente conoscibile se non
in casi particolari: puó essere ad esempio, valutata sulla base dell’esperienza precedente, oppure da
considerazioni di carattere generale.
Nonostante il maggiore rigore dell’approccio Bayesiaio, date le difficoltá nella conoscenza della
probabilitá a priori, spesso si preferisce considerare la probabilitá a priori come uniforme. In tal
caso la funzione di costo da massimizzare diventa:
p(θ|y) ∝ p(y|θ)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 92


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.17. SCELTA DELL’ORDINE DEL MODELLO

cioé massimizzare la probabilitá a posteriori é equivalente a massimizzare la verosimiglianza.


Nel caso particolare di errori di tipo Gaussiano a media nulla indipendenti ed identicamente
distribuiti con varianza σ 2 su vari campioni misurati la verosimiglianza diventa:
N
Y 1 [yk − f (tk , θ)]2 1 ky − f (θ)k2
p(y|θ) = √ exp(− 2
)= exp(− )
2πσ 2 2σ (2πσ 2 )N/2 2σ 2
k=1

e quindi il suo logaritmo (log-likelihood ):


ky − f (θ)k2
log p(y|θ) = − +c
2σ 2
dove c é una costante che non dipende dai parametri. Si vede che quindi massimizzare la verosimi-
glianza coincide con la minimizzazione dell’errore quadratico. Quest’ultima osservazione giustifica
l’enorme quantitá di ricerca sul metodo dei minimi quadrati che esiste nella letteratura scientifica.

5.17 Scelta dell’ordine del modello


La bontá di un modello é data dalla sua capacitá di ’fitting’ cioé di avvicinarsi ai dati misurati. In
generale si puó immaginare che aumentando il numero di parametri di un certo modello si puó fare
in modo da avvicinarsi indefinitamente ai dati fino ad ottenere errore nullo.
Pertanto non é possibile basare la scelta di un modello unicamente sul fitting. In letteratura
sono stati proposti diversi approcci per determinare un criterio di scelta.
In genere si segue l’approccio basato sulla verosimiglianza.
Consideriamo delle osservazioni yi che sono funzione di una certa variabile indipendente xi
(i = 1 . . . N ) mediante una certa funzione f che dipende dai k parametri θ. Supponiamo che i
residui yi − f (xi , θ) = i siano i.i.d. con una distribuzione normale di media zero e varianza σ 2 . La
probabilitá di osservare i é data da:
2
 
1
p(i |θ) = √ exp − i 2
2πσ 2σ
Pertanto la probabilitá congiunta di osservare gli N residui é:
N
2i
 
Y 1
g(|θ) = L(θ|) = √ exp − 2
i=1
2πσ 2σ

dove L(θ|) é la verosimiglianza e si ottiene semplicementeconsiderando la probabilitá come funzione


dei parametri.
Ora il valore di θ che massimizza la L(θ|) (Maximum Likelihood, ML) é lo stesso che massimizza
la:
X 2
i

log L(θ|) = − 2
− N log σ + N log 2π

P 2
Denotiamo il valore minimo di RSS = ˆi la Residual Sum of Squares cioé la somma dei
residui al quadrato quando i parametri sono tali da massimizzare la verosimiglianza (si tenga conto
che anche σ é un parametro). Derivando la log-likelihood rispetto a σ ed eguagliando a zero si ha
che la stima ML é:
RSS
σ̂ 2 =
N
Quindi possiamo calcolare il valore della verosimiglianza quando i parametri sono tali da massimiz-
zarla (in tal caso bisogna sostituire σ̂ in luogo di σ ):
N N √
log L(θ̂|) = − − log σ̂ 2 − N log 2π
2 2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 93


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

5.17.1 Criterio di Akaike

Il criterio di Aklaike é sicuramente il piú diffuso criterio di scelta. La formula da applicare é


semplicemente:
AIC(k) = −2 · log L(θ̂|y) + 2k

dove k é il numero dei parametri del modello (incluso σ), y = {yi } sono i dati osservati, θ̂ é la stima
a massima verosimiglianza dei parametri.
Il punto di partenza di questo criterio é la divergenza di Kullback-Leibler:
Z  
f (x)
I(f, g) = f (x) log dx
g(x|θ)

che é l’informazione persa quando g é usata per approssimare f : g ed f sono due distribuzioni, f é la
veritá (che non conosciamo, e da cui sono estratti i dati osservati) mentre g é una approssimazione
di f di cui stiamo cercando i parametri per avere la migliore approssimazione ai dati osservati. Si
tratta di una ’distanza’ asimmetrica tra g e f , infatti se inveritmao g con f otteniamo una formula
diversa. É sempre positiva ed é zero se e solo se f = g.
Akaike ha dimostrato che il punto chiave per ricavare il suo criterio é calcolare:

Ey Ex [log g(x|θ̂(y))]

dove θ̂ é la stima a massima verosimiglianza del vettore dei parametri ottenuta a partire dalle
osservazioni y, le medie sono prese rispetto ad f , ed x, y sono osservazioni indipendenti dalla stessa
distribuzione f . Per campioni molto grandi (un gran numero di osservazioni) si puó approssiamre
con:
log L(θ̂|dati) − k

dove k é il numero di parametri da stimare, L(θ̂) é la verosimiglianza dei dati.


Nel caso di rumore gaussiano i.i.d la massima versoimiglianza coincide con i minimi quadrati e
il criterio si scrive:
AIC(k) = N · log(σˆ2 ) + 2 · k

N é il numero di osservazioni e σˆ2 é la stima ML della varianza.


Vediamo ora come si arriva al criterio AIC. Partiamo dalla divergenza di Kullback-Leibler:
Z
f (x)
I(f, g) = f (x) log dx
g(x|θ)

che é una misura, molto usata, della distanza tra due distribuzioni. Tuttavia bisogna osservare
che é improprio parlare di distanza in quanto non é simmetrica e non soddisfa la disuguaglianza
triangolare, ma é uguale a zero se e solo se f = g, altrimenti é > 0.
Sia y un campione di N osservazioni. Sia θ 0 il valore ’reale’ dei parametri [cioé sia f (x) =
g(x|θ 0 )] e sia θ̂(y) la stima di θ 0 ottenibile da y. Per la divergenza KL si deve avere I(f, g(•|θ 0 )) = 0
e I(f, g(•|θ̂(y))) > 0. Nell’ottica di fare una stima ottima di θ 0 il mio obiettivo é di minimizzare
(renderla il piú possibile vicina allo zero) la seguente quantitá:
Z
Ey [I(f, g(•|θ̂(y)))] = f (y)I(f, g(•|θ̂(y)))dy (5.37)

tenendo conto della definizione di KL, il primo membro si puó riscrivere:


Z Z
Ey [ f (x) log f (x)dx] − Ey [ f (x) log g(x|θ(y))dx] (5.38)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 94


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.18. ESEMPI ED ESERCIZI

5.18 Esempi ed esercizi

5.18.1 Esempio: uso dell’algoritmo di Levenberg-Marquardt


I risultati dell’esempio sono mostrati in figura 5.3.

% Levenberg-Marquardt

clear all
close all

Ts = 0.5; %minuti
t = (0:Ts:10)’;

% parametri reali
Ktrans = 0.8;
ve = 0.6;
kep = Ktrans / ve;

Ct = tofts([Ktrans, kep],t);
sdn = 0.05; %rumore
Ctn = Ct + sdn * randn(size(Ct));

% stima iniziale
Ktrans0 = 0.5;
kep0 = 2;

FUN = @tofts;
X0 = [Ktrans0, kep0];
XDATA = t;
YDATA = Ctn;
OPTIONS = optimset(’algorithm’,’levenberg-marquardt’);
LB = [];
UB = [];
[X,RESNORM,RESIDUAL,EXITFLAG,OUTPUT,LAMBDA] = ...
LSQCURVEFIT(FUN,X0,XDATA,YDATA,LB,UB,OPTIONS);

Ct_est = tofts(X,t);

figure
plot(t,Ct,’r’,t,Ctn,’bo’,t,Ct_est,’--’)
xlabel(’time [min]’)
ylabel(’Ct [mmol/L]’)
legend(’Ct simulata’,’Ct + noise’,’Ct stimata’)

dove la funzione tofts.m é definita da:

function Ct = tofts(p,t)
% AIF di Weinmann
a1 = 3.99; %[kg/L]
a2 = 4.78; %[kg/L]
m1 = 0.144; % [min^-1]
m2 = 0.0111; % [min^-1]
D = 0.1; % [mmol/kg] [dose somministrata]

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 95


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

0.7
Ct simulata
Ct + noise
0.6 Ct stimata

0.5

Ct [mmol/L]
0.4

0.3

0.2

0.1

0
0 2 4 6 8 10
time [min]

Figura 5.3: Risultato dell’applicazione dell’algoritmo di Levenberg-Marquardt

Ktrans = p(1);
kep = p(2);
Ct = D * Ktrans * (a1 * (exp(-m1*t)-exp(-kep*t))./(kep-m1) + ...
a2 * (exp(-m2*t)-exp(-kep*t))./(kep-m2));

5.18.2 Esercizio: implementazione del metodo VARPRO

Implementare in Matlab la funzione di costo VARPRO usando come metodo di ottimizzazione


Levenberg-Marquardt.

5.18.3 Esempio: applicazione del teroema di Cramer-Rao ad una varia-


bile gaussiana

Consideriamo y1 , . . . , yN estrazioni indipendenti da una variabile aleatoria di tipo


PNgaussiano di media
µ e varianza σ. Valutiamo la bontá dello stimatore della media x̂(Y ) = N1 k=1 yk . Osserviamo
che lo stimatore é non polarizzato infatti:

N N
1 X 1 X 1
E[x̂(Y )|µ] = E[ yk ] = E[yk ] = N µ = µ
N N N
k=1 k=1

pertanto nel teorema di Cramer-Rao γ(µ) = µ. Inoltre:

− µ)2
P
1 k (yk
p(y|µ) = exp(− ).
(2π)N/2 σ N 2σ 2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 96


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.18. ESEMPI ED ESERCIZI

Calcoliamo la matrice di Fisher in questo caso:


J = E{[ ln p(y|µ)]2 } =
∂µ
" PN !#2
2
∂ k=1 (yk − µ) N/2 N
= E{ − − ln((2π) σ ) }=
∂µ 2σ 2
P 2 P 2
k (yk − µ) k E[(yk − µ) ]
= E[ ] = =
σ2 σ4
P 2
kσ N
= = 2
σ4 σ
pertanto l’inversa sará J−1 = σ 2 /N , che quindi é il limite inferiore della varianza dello stimatore.
Valutiamo ora la varianza dello stimatore:
N N
1 X 1 X
E[(x̂(Y ) − µ)2 ] = E[( yk − µ)2 ] = E[( (yk − µ))2 ]
N N
k=1 k=1
N 2
1 X σ
= E[(yk − µ)2 ] =
N2 N
k=1

Come si vede la varianza dello stimatore coincide con il limite inferiore di Cramer-Rao e quindi lo
stimatore considerato é ottimo.

5.18.4 Esercizio: Cramer-Rao per variabile gaussiana con due parametri


Calcolare la matrice di Fisher nelle stesse condizioni del caso precedente, ma considerando sia il
parametro µ sia il parametro σ 2 .

5.18.5 Esempio: metodo Monte Carlo


In questo esempio introduciamo il metodo Monte Carlo usato nell’inferenza statistica. L’inferenza
statistica é una scienza che studia le proprietá statistiche di una popolazione e consente di trarre
delle informazioni sulla popolazione intera basandosi su un campione estratto a caso. Tipicamente
é di interesse stimare parametri di popolazione quali la media la varianza etc. Tale stima é tipi-
camente basata su un campione estratto dalla popolazione e non sulla popolazione intera. Inoltre
é di interesse valutare l’affidabilitá della stima effettuata, cioé ad esempio calcolare intervalli di
confidenza.
Valutare l’affidabilitá di una stima di un parametro in genere richiede una conoscenza della
distribuzione statistica che si sta studiando. In casi semplici, quali la media di un campione estratto
da una popolazione gaussiana tale analisi puó essere effettuata agevolmente per via analitica. In
casi piú complessi é necessario ricorrere alla simulazione Monte Carlo [Von Neumann 1940].
L’idea di base del metodo Monte Carlo consiste nell’estrazione ripetuta (mediante generazione di
numeri casuali con il computer) di campioni da una popolazione e nell’applicazione del modello per
stimare il parametro di interesse. Le stime ripetute consentono di studiare le proprietá statistiche
della stima.
L’esempio seguente mostra come stimare le proprietá dello stimatore della media. I risultati
sono mostrati in figura 5.4.

% Metodo Monte Carlo


% da una popolazione gaussiana
% estraiamo N elementi (campione di popolazione)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 97


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

% per M volte e per ciascuna estrazione calcoliamo la media;


% la varianza di tale stima approssima il limite di cramer-rao

clear all
close all

N=100; % numero di elementi in un campione


M = 10000; % numero estrazioni

mu = 1;
sigma = 3;

X = sigma*randn(N,M)+mu;
medie = mean(X);

% varianza stimata
std(medie)

% CRLB
sqrt(sigma^2/N)

figure
hist(X(:),100)
title(’Distribuzione delle popolazione studiata’)

figure
hist(medie,100)
title(’Distribuzione statistica della media del campione’)

5.18.6 Esempio: applicazione del teorema di Cramer-Rao nel caso di


modello non-lineare con rumore gaussiano

Consideriamo un modello non lineare yk = f (tk , θ1 , . . . , θp )+k dove k sono variabili gaussiane i.i.d.
a media nulla e varianza σ 2 . Valutiamo il limite inferiore di Cramer-Rao nella stima dei parametri
θ1 , . . . , θp . In forma matriciale scriveremo y = [y1 , . . . , yN ]T ,  = [1 , . . . , N ]T , θ = [θ1 , . . . , θN ]T ,
f (θ) = [f (t1 , θ), . . . , f (tN , θ)]T , y = f (θ) + . Osserviamo che:

pY (y|θ) = p (y − f (θ))

Essendo le k congiuntamente gaussiane avremo che:

1 1
p() = exp(− 2 T )
(2πσ 2 )N/2 2σ

pertanto:
1 T 1
ln pY (y|θ) = −   + c = − 2 (y − f (θ))T (y − f (θ)) + c
2σ 2 2σ
dove c é una costante indipendente da θ. Ora si ha:

∂ 1 ∂f
ln pY (y|θ) = 2 (y − f (θ))
∂θ σ ∂θ

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 98


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.18. ESEMPI ED ESERCIZI

4 Distribuzione delle popolazione studiata


x 10
4

3.5

2.5

1.5

0.5

0
−15 −10 −5 0 5 10 15 20

(a)

Distribuzione statistica della media del campione


400

350

300

250

200

150

100

50

0
−0.5 0 0.5 1 1.5 2 2.5

(b)

Figura 5.4: Metodo Monte Carlo. (a) Distribuzione della popolazione. (b) Distribuzione dello
stimatore della media.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 99


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

e quindi:
 
∂ ∂
J = E ln pY (y|θ) T ln pY (y|θ)
∂θ ∂θ
"
T
T #
1 ∂f T

1 ∂f
= E (y − f (θ)) 2 (y − f (θ)) =
σ 2 ∂θ σ ∂θ
 T 
1 ∂f T ∂f
= E (y − f (θ))(y − f (θ))
σ4 ∂θ ∂θ T
1 ∂f T  T  ∂f
= E  =
σ 4 ∂θ ∂θ T
1 ∂f T 2 ∂f
= σ I T
σ 4 ∂θ ∂θ
T
1 ∂f ∂f
=
σ 2 ∂θ ∂θ T
dove:  ∂f (t1 ) ∂f (t2 ) ∂f (tN ) 
∂θ1 ∂θ1 ... ∂θ1
∂f (t1 ) ∂f (t2 ) ∂f (tN )
∂f T ...
 
 ∂θ2 ∂θ2 ∂θ2 
= .. .. .. .. 
∂θ 
 . . . .


∂f (t1 ) ∂f (t2 ) ∂f (tN )
∂θp ∂θp ... ∂θp

5.18.7 Esempio: applicazione del metodo Monte Carlo


Usiamo il metodo Monte Carlo per studiare il limite teorico di Cramer-Rao nel caso del modello di
Tofts. I risultati del codice sono mostrati nella figura 5.5.

% Modello di Tofts
% CRLB confronto tra il valore teorico e l’analisi Monte Carlo

close all
clear all

Ktrans = 0.8;
ve = 0.5;
kep = Ktrans/ve;

Ts = 0.1;
t = (0:Ts:10)’;

[Ct,Dkt,Dke] = tofts([Ktrans kep],t);

% rumore
v = 0.1; % deviazione standard

% CRLB
A = [Dkt,Dke]’;
J = A*A’;
s = v^2 * inv(J)

% Monte Carlo
M = 1000;
Ktrans0 = 0.5;

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 100


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.18. ESEMPI ED ESERCIZI

kep0 = 2;
FUN = @tofts;
X0 = [Ktrans0, kep0];
XDATA = t;
options = optimset(’algorithm’,’levenberg-marquardt’,’display’,’off’);
X = zeros(M,2);
for k=1:M
YDATA = Ct + randn(size(Ct))*v;
[X(k,:),RESNORM,RESIDUAL,EXITFLAG,OUTPUT,LAMBDA] = ...
LSQCURVEFIT(FUN,X0,XDATA,YDATA,[],[],options);
end

% varianza stimata da confrontare con CRLB


var(X)
p = mean(X);
Ktrans_m = p(1);
kep_m = p(2);

figure
hist(X(:,1),100)
title(’Distribuzione delle stime di K^{trans}’)
xlabel(’K^{trans} [min^{-1}]’)
h = line([Ktrans Ktrans],[0 40]);
set(h,’color’,’r’)
h = line([Ktrans_m Ktrans_m],[0 40]);
set(h,’color’,’g’)
legend(’distribuzione’,’K^{trans} reale’,’K^{trans} medio’)

figure
hist(X(:,2),100)
title(’Distribuzione delle stime di k_{ep}’)
xlabel(’k^{ep} [min^{-1}]’)
h = line([kep kep],[0 40]);
set(h,’color’,’r’)
h = line([kep_m kep_m],[0 40]);
set(h,’color’,’g’)
legend(’distribuzione’,’k_{ep} reale’,’k_{ep} medio’)

In questo caso la funzione tofts.m é stata modificata in modo da includere il calcolo delle derivate.

function [Ct, Dktrans, Dkep]= tofts(p,t)


% AIF di Weinmann
a1 = 3.99; %[kg/L]
a2 = 4.78; %[kg/L]
m1 = 0.144; % [min^-1]
m2 = 0.0111; % [min^-1]
D = 0.1; % [mmol/kg] [dose somministrata]

Ktrans = p(1);
kep = p(2);
Ct = D * Ktrans * (a1 * (exp(-m1*t)-exp(-kep*t))./(kep-m1) + ...
a2 * (exp(-m2*t)-exp(-kep*t))./(kep-m2));

% derivata di Ct rispetto a Ktrans

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 101


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

Dktrans = D * (a1 * (exp(-m1*t)-exp(-kep*t))./(kep-m1) + ...


a2 * (exp(-m2*t)-exp(-kep*t))./(kep-m2));

% derivata di Ct rispetto a kep


Dkep = D * Ktrans * (...
a1 * (t.*exp(-kep*t).* (kep-m1) - (exp(-m1*t)-exp(-kep*t)))./(kep-m1)^2 + ...
+ a2 * (t.*exp(-kep*t).* (kep-m2) - (exp(-m2*t)-exp(-kep*t)))./(kep-m2)^2);

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 102


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
5.18. ESEMPI ED ESERCIZI

Distribuzione delle stime di Ktrans


70
distribuzione
Ktrans reale
60
Ktrans medio

50

40

30

20

10

0
0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2
Ktrans [min−1]

(a)

Distribuzione delle stime di k


ep
60
distribuzione
k reale
ep
50 kep medio

40

30

20

10

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
kep [min−1]

(b)

Figura 5.5: Simulazione Monte Carlo applicata al modello di Tofts. (a) Distribuzione delle stime
di K trans . (b) Distribuzione delle stime di kep .

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 103


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 5. Stima dei parametri mediante regressione

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 104


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Parte II

Introduzione all’uso di tecniche di


Pattern Recognition per modelli
fisiologici

105
Capitolo 6

Introduzione al pattern recognition

6.1 Il problema del pattern recognition


Supponiamo di essere il portiere di un albergo in cui si svolgano contemporaneamente due congressi:
uno dei giocatori di basket, e l’altro dei giocatori di ping-pong. Il nostro compito é quello di
indirizzare alla corretta sala ciascun visitatore. Quando ci si presenterá il primo visitatore gli
chiederemo se é interessato all’uno o all’altro congresso e lo indirizzeremo opportunamente. Nel
frattempo noteremo che le caratteristiche fisiche dei giocatori di basket sono diverse da quelle dei
giocatori di ping-pong: prevalentemente alti e pesanti gli uni e prevalentemente bassini e leggeri
gli altri. In questo modo dopo un certo numero di visitatori non avremo piú bisogno di chiedere a
quale congresso sono diretti, ma ci basterá guardarli per individuare la categoria di appartenenza.
Il problema del Pattern Recognition é esattamente quello di classificare gli individui di una
popolazione in base a certe ‘features’.
Si puó procedere alla classificazione in diversi modi a seconda se si abbia o meno una conoscenza
priori delle caratteristiche della popolazione.

6.2 Principi della classificazione


Le considerazioni seguenti sono basate su [70].
Un individuo possede determinate caratteristiche (o features) che possono essere raccolte in
un pattern x = [x1 , x2 , ..., xN ]T . L’insieme di tutti i possibili pattern costituisce uno spazio N -
dimensionale chiamato lo spazio dei pattern X (o spazio delle misure).
L’idea di fondo é che individui simili (ad es. soggetti affetti da una determinata patologia)
abbiano caratteristiche simili e quindi nello spazio dei pattern siano rappresentati da pattern vicini.
Diremo che oggetti vicini formano una classe o cluster. I cluster possono occupare varie regioni
all’intero dello spazio dei pattern. Se i cluster possono essere separati da iper-superfici allora
parleremo di classi separabili; in particolare, se la separazione puó avvenire con degli iper-piani
allora diremo che i cluster sono linearmente separabili.
Supponendo che gli individui possano appartenere ad una fra R classi, un classificatore é un
dispositivo al cui ingresso viene presentato il pattern relativo ad un certo individuo x e fornisce in
uscita un identificatore ωr {ω1 , ...ωR } della classe di appartenenza di x.
La funzione d(x) = ωr che assegna a ciascun pattern la classe di appartenenza si chiama regola
di decisione. La regola di decisione divide lo spazio dei pattern in R regioni disgiunte {Kr },
r = 1, . . . , R. Ad es. le iper-superfici di separazione tra le regioni possono essere definite da R
funzioni scalari (discriminanti ) g1 (x), ..., gR (x), scelte in modo tale che se xKr allora gr (x) ≥ gs (x)

107
Capitolo 6. Introduzione al pattern recognition

per tutti gli s 6= r. La regola di decisione puó essere scritta in termini delle funzioni discriminanti:

d(x) = ωr ⇔ gr (x) = max gs (x)


s=1,...,R

Un classificatore lineare é caratterizzato da funzioni discriminanti lineari:

gr (x) = qr0 + qr1 x1 + qr2 x2 + .... + qrN xN = qTr · x

Un altro modo di costruire un classificatore é basato sul principio della minima distanza o
nearest neighbor (si tratta di un caso particolare del precedente metodo delle funzioni discriminanti).
Supponiamo di avere R esemplari (detti template) v1 , ..., vR dei pattern che stiamo analizzando. Il
classificatore di tipo nearest neighbor assegnerá il pattern x in base all’esemplare piú vicino:

d(x) = ωr ⇔ |vr − x| = min |vs − x|


s=1,...,R

6.3 Concetti di base


Il problema del pattern recognition coinvolge essenzialmente tre aspetti:

• acquisizione dei dati e preprocessing


• rappresentazione dei dati
• decision making

6.3.1 Acquisizione dei dati e preprocessing


Questo aspetto é caratteristico di ciascuna applicazione e non puó essere trattato in modo generale.
Ad es. si puó acquisire il segnale ECG, poi rilevare gli eventi QRS e dall’analisi di features mor-
fologiche o di tempificazione, si possono classificare le aritmie o le patologie cardiache; nel caso di
indagini con DCE-MRI si possono acquisire i valori della concentrazione di Gd nel corso del tempo
ed associare a ciascun voxel il vettore di features corrispondente per separare voxel sospetti da voxel
sani o benigni; nell’analisi di immagini PET si puó usare il SUV (Standard Uptake Value) come
feature per classificare i voxel che fanno parte del Gross Tumor Volume (GTV) che sará irradia-
to durante la radio-terapia; gli esami di laboratorio forniscono un vettore di features (ematocrito,
etc.) che puó servire ad individuare situazioni di rischio per determinati soggetti. É possibile fare
moltissimi altri esempi nell’ambito delle applicazioni biomedicali.
Spesso le grandezze misurate direttamente dai soggetti non possono essere subito adoperate
come features per la classificazione, ma devono subire un trattamento (pre-processing) che ha lo
scopo di estrarre features opportune (si pensi al caso dell’ECG da cui si estraggono i QRS).

6.3.2 Rappresentazione dei dati


Spesso esistono delle scelte ovvie che consentono di estrarre le caratteristiche salienti del fenomeno
di interesse ma in altri casi non é ben chiaro quali siano le features migliori per la classificazione.
Per risolvere questo problema, in genere si individuano due attivitá: una di feature selection e
l’altra di features extraction. Nella feature selection si cerca di selezionare tra le varie features
disponibili quelle che hanno il potere di rendere ottima la classificazione (in un senso che sará
chiarito nel seguito). In particolare, le features non vengono manipolate ma conservano il loro
significato fisiologico. La features extraction invece é un attivitá in cui si cerca di combinare le
feature disponibili per ottenere nuove features mediante le quali la classificazione sia ottima. In
questo caso le feature ottenute perdono una diretta interpretazione fisiologica.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 108


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
6.3. CONCETTI DI BASE

6.3.3 Decision making

Il processo di decision making si basa sulle seguenti considerazioni. Il pattern x appartenente alla
classe ωj é visto come una osservazione estratta dalla pdf condizionata p(x|ωj ). Supponiamo di
conoscere le probabilitá a priori di occorrenza di ciascuna classe p(ωr ), r = 1, . . . , R. Osserviamo
PR
che p(x) = k=1 p(ωr )p(x|ωr ).
Cerchiamo di individuare la regola di decisione ottima in questo caso. Per semplicitá consi-
deriamo innanzitutto il caso di due classi soltanto. La probabilitá a posteriori che l’individuo
caratterizzato dal pattern x appartenga alla classe ω1 é data da p(ω1 |x). É naturale in questo caso
decidere che l’individuo appartiene alla classe ω1 se p(ω1 |x) > p(ω2 |x). Usando il teorema di Bayes
avremo:
p(x|ω1 )p(ω1 ) p(x|ω2 )p(ω2 )
p(ω1 |x) > p(ω2 |x) ⇐⇒ >
p(x) p(x)

e quindi:
p(x|ω1 ) p(ω2 )
x ∈ ω1 ⇐⇒ > (6.1)
p(x|ω2 ) p(ω1 )

Vediamo quale é la probabilitá di errore detta anche probabilitá di mis-classification. Se abbiamo


deciso per la classe ω1 allora p(ω1 |x) > p(ω2 |x). Pertanto una misura dell’errore dovuto a questa
regola di decisione é r(x) = p(ω2 |x). Analogamente, in base alla regola che abbiamo scelto se
avessimo deciso per ω1 allora p(ω2 |x) > p(ω1 |x) e quindi una misura dell’errore sarebbe stata
r(x) = p(ω2 |x). Quindi per un generico pattern x l’errore che commettiamo usando la regola di
decisione 6.1 é dato da r(x) = min[p(ω2 |x), p(ω1 |x)]. L’errore medio é pertanto:
Z Z
E[r(x)] = r(x)p(x)dx = min[p(ω2 |x), p(ω1 |x)]dx
Z
= min[p(ω2 )p(x|ω2 ), p(ω1 )p(x|ω1 )]dx
Z Z
= p(ω2 ) p(x|ω2 )dx + p(ω1 ) p(x|ω1 )dx
L1 L2
= p(ω2 )ε2 + p(ω1 )ε1

dove L1 é la regione di in cui decidiamo che il vettore appartiene alla classe ω1 ed L2 é la regione
di in cui decidiamo che il vettore appartiene alla classe ω2 ; ε2 é l’errore di assegnare erroneamente
x alla classe ω1 e ε1 é l’errore di assegnare erroneamente x alla classe ω2 . L’errore totale é una
somma pesata dei due errori.
Abbiamo pertanto determinato sia la regola di decisione ottima sia l’errore medio che si com-
mette con tale regola di decisione.
Il criterio adottato finora assegna a tutti gli errori la stessa importanza. Tuttavia possiamo
pensare ad un altro criterio decisionale che include un costo per la decisione. Introduciamo pertanto
il concetto di costo cij legato alla decisione ωi quando la classe vera é ωj . Dato un certo vettore x
il costo ri (x) di decidere per la classe ωi sará dato da:

ri (x) = ci1 p(ω1 |x) + ci2 p(ω2 |x)

In questo caso la regola di decisione tende a minimizzare il costo:

x ∈ ω1 ⇐⇒ r1 (x) < r2 (x)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 109


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 6. Introduzione al pattern recognition

Il costo della decisione sará dato pertanto da r(x) = min[r1 (x), r2 (x)]. E quindi il costo medio
sará, analogamente al caso precedente:
Z
E[r(x)] = min[r1 (x), r2 (x)]p(x)dx
Z
= c11 p(ω1 )p(x|ω1 ) + c12 p(ω2 )p(x|ω2 )dx +
L1
Z
c21 p(ω1 )p(x|ω1 ) + c22 p(ω2 )p(x|ω2 )dx
L2

I ragionamenti precedenti possono essere estesi al caso di R classi. La regola di decisione di


Bayes sará data da:
x ∈ ωk ⇐⇒ p(ωk |x) = max p(ωi |x)
i

mentre l’errore di Bayes sará:


X
r(x) = p(ωj |x) = 1 − p(ωk |x)
j6=k

Quando consideriamo le funzioni di costo invece avremo:

x ∈ ωk ⇐⇒ rk (x) = min ri (x)


i

dove: X
ri (x) = cik p(ωk |x)
k

Esempio Matlab

In questo esempio si vuole mostrare come generare dei dati artificiali estratti da distribuzioni
gaussiane con certe caratteristiche. Inoltre si verifica il funzionamento del classificatore a minima
distanza euclidea (vedi fig. 6.1).

% generiamo dati corrispondenti a 3 classi


% gaussiane con stessa covarianza e diversa media

clear all
close all

P = [1/3 1/3 1/3];% probabilità a priori delle classi

N = 100; % totale estrazioni


SIGMA = [1 0;0 1];
MU = [
0 4 0
0 0 5
];
R = [];
for k = 1: length(P)
R = [R; MVNRND(MU(:,k),SIGMA,round(N*P(k))) ...
k*ones(round(N*P(k)),1)];
end

% classificatore a minima distanza


% nelle ipotesi di classi gaussiane con medesima covarianza

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 110


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
6.3. CONCETTI DI BASE

% diagonale e equiprobabili
% il classificatore Bayesiano è equivalente al classificatore
% a minima distanza

lab = zeros(length(R),length(P));
for k = 1: length(P)
lab(:,k) = diag(sqrt((R(:,1:2)-ones(length(R),1)*MU(:,k)’) * ...
(R(:,1:2)-ones(length(R),1)*MU(:,k)’)’));
end

[dum,classi] = min(lab’);

errori = not(classi’==R(:,3));

% Invece di usare i valori veri delle medie


% usiamo le stime
MU2 = [mean(R(R(:,3)==1,1:2))’ mean(R(R(:,3)==2,1:2))’ ...
mean(R(R(:,3)==3,1:2))’];

lab2 = zeros(length(R),length(P));
for k = 1: length(P)
lab2(:,k) = diag(sqrt((R(:,1:2)-ones(length(R),1)*MU2(:,k)’) * ...
(R(:,1:2)-ones(length(R),1)*MU2(:,k)’)’));
end

[dum,classi2] = min(lab2’);

errori2 = not(classi2’==R(:,3));

colori = [’r’,’g’,’b’];
figure
hold on
for k = 1:length(P)
plot(R(R(:,3)==k,1),R(R(:,3)==k,2),[’+’ colori(k)],’markersize’,2)
plot(MU(1,k),MU(2,k),’*M’)
plot(MU2(1,k),MU2(2,k),’V’)
end
axis equal
plot(R(errori,1),R(errori,2),’o’)
plot(R(errori2,1),R(errori2,2),’d’)

6.3.4 Criteri di separabilitá tra classi

Vogliamo individuare degli indici che ci diano un idea della separabilitá tra le classi. A tale scopo
consideriamo la matrice di dispersione intra-classe (within-class scatter matrix):

R
X
Sw = p(ωr )Sr
r=1

dove Sr é la matrice di covarianza della classe ωr :

Sr = E[(x − µr )(x − µr )T ]

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 111


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 6. Introduzione al pattern recognition

−1

−2
−2 0 2 4 6

Figura 6.1: Risultati del classificatore a minima distanza.

inoltre consideriamo la matrice di dispersione tra classi (between-class scatter matrix):


R
X
Sb = p(ωr )(µr − µ0 )(µr − µ0 )T
r=1

dove µ0 é il vettore globale della media:


R
X
µ0 = p(ωr )µr
r=1

Infine consideriamo la matrice di dispersione mista (mixture scatter matrix):

Sm = E[(x − µ0 )(x − µ0 )T ]

Osserviamo che tr{Sw } é una misura della varianza delle features mediata su tutte le classi;
inoltre tr{Sb } é una misura (mediata su tutte le classi) della distanza della media di ciascuna classe
dalla media globale; Sm é la matrice di covarianza del vettore delle features rispetto alla media
globale: tr{Sm } é la somma delle varianze delle features rispetto alla media globale.
Vale la seguente relazione:
Sm = Sw + Sb

Da queste definizioni si vede che:


tr{Sm }
J1 =
tr{Sw }
assume valori elevati se le singole classi hanno una varianza piccola (sono concentrate ciascuna
intorno al proprio valore medio) mentre le varie classi sono bene separate (le medie di ciascuna
classe sono distanti dalla media globale). Al posto di Sm si puó usare Sb .
Analogamente si vede che:
|Sm | −1
J2 = = |Sw Sm |
|Sw |
−1
J3 = tr{Sw Sm }

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 112


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
6.3. CONCETTI DI BASE

Figura 6.2: esempio di curva ROC.

hanno le stesse caratteristiche di J1 .


Nel caso di spazio delle features mono-dimensionale e due classi si ha:

|Sb | ∝ (µ1 − µ2 )2
|Sw | ∝ σ12 + σ22

e quindi il criterio J1 diventa il Fisher Discriminant Ratio (FDR):


(µ1 − µ2 )2
F DR =
σ12 + σ22

Nel caso multiclasse si ha:


X X (µi − µj )2
F DRm =
i j6=i
σi2 + σ2j

Un altro criterio usato é la curva Receiver Operating Characteristic (ROC). Supponiamo di avere
due classi con certe distribuzioni. Immaginiamo di spostare la soglia di decisione e di calcolare per
ciascun valore della soglia gli errori di mis-classificazione (in questo contesto tali errori sono chiamati
α e β). Andando a visualizzare la curva che ah come ascisse e ordinate rispettivamente α e β si
ottiene qualcosa di simile a quanto raffigurato in fig. 6.2. Se le due distribuzioni fossero uguali allora
avremmo α = 1 − β cioé la retta in figura. Se le due distribuzioni si allontanano allora la curva si
discosta dalla retta. L’area compresa tra la curva e la retta pertanto rappresenta una misura della
separabilitá delle due classi: per completa separabilitá si ottiene che l’area é uguale ad 1/2.

6.3.5 Feature selection


Come giá osservato spesso é necessario selezionare le features che rendono ottima la classificazione
(cioé minimizzano l’errore di Bayes). In generale le features ottime per un certo tipo di classificatore
(ad es. un classificatore con iper-superfici di separazione lineare) potrebbero non essere ottime per
un altro tipo di classificatore (ad es. con iper-superfici di separazione di tipo quadratico). Pertanto
nel ragionamento seguente per fissare il tipo di classificatore faremo riferimento al classificatore
Bayesiano.
Un primo passo consiste nel guardare alle varie features indipendentemente l’una dall’altra,
Questo puó aiutare ad individuare le features ’cattive’. Come criterio si puó usare il FDR: il criterio
C(k) viene valutato per ciascuna feature k, le feature vengono ordinate in ordine decrescente di C(k)
e si scelgono le prime features.

6.3.6 Feature extraction


Nella feature selection, come visto, le features vengono analizzate separatamente per esaminare la
capacitá di ottenere la desiderata separazione i classi usando un sottoinsieme di tutte le features
possibili.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 113


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 6. Introduzione al pattern recognition

Un altra possibilitá consiste nel manipolare le features per ottenere delle features ottime. Spesso
tale trasformazione é di tipo lineare e corrisponde a ruotare gli assi di riferimento dello spazio
multidimensionale delle features misurate.
Poiché tale operazione presenta interesse anche in altri contesti ed inoltre di per se stessa con-
sente di ottenere informazioni sulla struttura dei dati, sará trattata nei capitolo seguenti (Principal
Component Analysis, Independent Component Analysis).

6.3.7 Supervised learning

Il progetto del classificatore deve essere effettuato sulla base della conoscenza delle caratteristi-
che della distribuzione dei dati. Il processo con cui tale conoscenza viene acquisita si chiama
apprendimento o addestramento (’learning’).
Il classificatore puó esser visto come una macchina ’adattativa’ che apprende dalla propria
esperienza cosı́ come fanno gli esseri umani. In particolare un classificatore di questo tipo avrá
una struttura dipendente da alcuni parametri ed il processo di apprendimento consiste nel trovare
i valori i ottimi di tali parametri in termini di errore di classificazione. Le reti neurali costituiscono
un esempio di classificatori di tipo adattativo ed alcuni aspetti saranno esaminati in un capitolo
successivo.
Possiamo immaginare una situazione in cui un ’teacher’ che conosca la classe di appartenenza di
ogni individuo esaminato osservi il risultato della classificazione da perte del classificatore adatta-
tivo: se il classificatore commette un errore il teacher lo comunica alla machcina che aggiusta i suoi
parametri interni per ridurre l’errore. La procedeura descritta prende il nome di apprendimento
supervisionato (supervised learning)

6.3.8 Unsupervised learning

Si puó immaginare anche un altra situazione in cui non si conosce la classe di appartenenza degli
individui ma si vuole cercare di suddividere i dati in gruppi o ’cluster’ tali che soddisfino certi criteri
ragionevoli di saparabilitá tra gruppi.
Tale processo estremamente complesso puó essere supportato da certe metodologie ed algortimi
che saranno trattati in un capitolo seguente.

6.3.9 Prestazioni del classificatore

Le prestazioni del classificatore coincidono con l’errore di mis-classification. Il classificatore Baye-


siano costituisce il classificatore ottimo per cui la valutazione delle sue prestazioni é il primo passo
per misurare la possibilitá di classificare correttamente i dati. Poiché la valutazione dell’errore
bayesiano é possibile solo in casi particolari, sono state proposte delle procedure per stimare i limiti
di tale errore (lower bound, upper bound).
La procedura resubstituion consente di stimare il lower bound dell’errore bayesiano. Tale pro-
cedura consiste nell’usare l’intero insieme di dati a disposizione per progettare il classificatore
(supervised learning) e poi nell’usare lo stesso insieme di dati per testare il classificatore.
La procedura di leave-one-out consente invece di valutare l’estremo superiore. In questa pro-
cedura un campione xi viene eliminato dagli N dati ed il classificatore viene progettato sulla base
degli N − 1 dati rimanenti, ed il classificatore viene testato sul campione xi . La procedura di
progettazione-testing viene ripetuta per tutti i campioni xi , i = 1, . . . , N . Il numero di mis-
classification consente di valutare il limite superiore della proabbilitá di errore del classificatore
bayesiano.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 114


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
6.4. ESEMPI ED ESERCIZI

6.4 Esempi ed esercizi

6.4.1 Esempio: stima a massima verosimiglianza dei parametri di distri-


buzioni gaussiane multivariate
Siano {xn } un insieme di N osservazioni tratte da K classi con distribuzioni gaussiane di medie
µk e matrici di covarianza Σk e probabilitá a priori πk . Sia tn il vettore che codifica la label della
osservazione xn , costruito nel modo seguente: tnj = 1 se j coincide con la classe di appartenenza,
tnj = 0 in caso contrario. Pertanto i vettori avranno la forma tn = [0, . . . , 1, . . . , 0]T .
Se le varie osservazioni sono indipendenti tra loro, la probabilitá di osservare l’intero insieme
{xn , tn } sará data da:
N
Y N Y
Y K  tnj
p({xn , tn }) = p(xn , tn ) = p(xn |tn )p(πk ) (6.2)
n=1 n=1 j=1

Questa quantitá coincide con la verosimiglianza dei parametri l(µk , Σk , πk ). Considerandone,


come al solito, il logaritmo L si ha:
N X
X K
L= tnj (log(p(xn |tn )) + log πj ) (6.3)
n=1 j=1

Per stimare
PK i parametri delle distribuzioni, dobiamo massimizzare tale quantitá soggetto al
vincolo che k=1 πk = 1. Per cui dobbiamo considerare la lagrangiana:
N X
X K K
X
L= tnj (log(p(xn |tn )) + log πj ) − λ( πk − 1) (6.4)
n=1 j=1 k=1

Effettuando la derivata parziale rispetto alle probabilitá a priori ed eguagliandola a zero:


N
∂L X 1
= tnk −λ=0 (6.5)
∂πk n=1
πk

da cui si ricava:
Nk
πk = (6.6)
λ
P
dove Nk = n tnk é il numero di osservazioni appartenenti alla classe k. Sostituendo λ = Nk /πk
all’interno della 6.4 e derivando rispetto a λ si ottiene:
N X K
∂L X 1
=− tnj + 1 = 0 (6.7)
∂λ n=1 j=1
λ

da cui λ = N . Quindi in definitiva:


Nk
πk = (6.8)
N
che é un risultato intuitivamente accettabile.
Fino ad ora non abbiamo usato il fatto che le distribuzioni sono gaussiane. Sostituiamo l’espres-
sione delle gaussiane all’interno della 6.4, e trascuriamo i termini che non dipendono dalle µk , e le
costanti moltiplicative, dato che scompariranno nella derivazione rispetto a µk e nell’eguaglianza a
zero:
XN X K
L= tnj (xn − µj )T Σj (xn − µj ) (6.9)
n=1 j=1

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 115


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 6. Introduzione al pattern recognition

derivando rispetto a µk :
N
∂L X
= tnk (xn − µk )T Σk = 0 (6.10)
∂µk n=1

da cui, moltiplicando per Σ−1


k si ricava:

N
X N
X
tnk xn = µk tnk = µk Nk (6.11)
n=1 n=1

e quindi: P
n∈Ck xn
µk = (6.12)
Nk
anche questo risultato é intuitivo.

6.4.2 Esercizio
Ricavare un espressione per la stima a massima verosimiglianza della matrice di covarianza usando
metodi simili a quelli dell’esempio 6.4.1.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 116


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7

Principal component Analysis

L’idea principale nell’analisi delle componenti principali é ridurre la dimensionalitá di un set di dati
costituito da un gran numero di variabili correlate, lasciando inalterato il contenuto informativo.
Tale operazione é possible dal momento che le variabili originarie sono correlate tra loro. Pertanto
é ragionevole supporre che una loro combinazione lineare possa essere ugualmente rappresentativa
dei dati a patto di scegliere opportunamente tale combinazione.
Un esempio puó essere utile a chiarire il concetto. Consideriamo per semplicitá due variabili
aleatorie x1 e x2 . Una loro realizzazione possibile è mostrata in fig. 7.1. Si vede chiaramente
che le realizzazioni sono allineate lungo una retta. Effettuando una rotazione degli assi coordinati
(=combinazione lineare di x1 e x2 ) si ottiene la fig. 7.2: si vede chiaramente che lungo la nuova
variabile z2 i dati hanno varianza minima, ció significa che tale variabile non porta informazione:
i dati sono quasi costanti rispetto a questa variabile. Al contrario la variabile z1 porta nuova
informazione consentendo di discriminare le osservazioni, avendo varianza massima.
La riduzione del numero di variabili avviene tramite una trasformazione lineare delle variabili
che proietta quelle originarie in un nuovo sistema cartesiano nel quale la nuova variabile avente
varianza massima vine proiettata sul primo asse, la nuova variabile seconda per dimensione della
varianza sul secondo asse e cosı́ via. La riduzione della complessitá avviene limitandosi ad analizzare
le principali (con varianza piú elevata) tra le nuove variabili. Sono gli stessi dati che determinano
i vettori di trasformazione. I dati originali sono poi proiettati nello spazio vettoriale ridotto.
Supponiamo di avere un vettore x di p variabili aleatorie

x = [x1 , . . . , xp ]T

Le componenti principali si desiderano essere combinazione lineare delle variabili di x con varianza
massima. Pertanto il primo step è calcolare la prima componente principale come segue

z1 = aT1 x

con a1
a1 = [a11 , . . . , a1p ]T
e poi massimizzare la varianza di tale componente

var[aT1 x] = E[aT1 (x − mx )(x − mx )T a1 ] = aT1 Cx a1

dove mx é il vettore delle medie e dove si é posto Cx = E[(x − mx )(x − mx )T ]. Per massimizzare
questa quantità si introduce un vincolo su a1 ovvero che abbia modulo unitario aT1 a1 = 1, pertanto
utilizzando il metodo dei moltiplicatori di Lagrange si deve ricercare un punto stazionario della
seguente funzione Lagrangiana:

L(a1 , λ) = aT1 Cx a1 − λ(aT1 a1 − 1)

117
Capitolo 7. Principal component Analysis

Figura 7.1: Una realizzazione delle variabili x1 e x2

Figura 7.2: Le variabili x1 e x2 dopo una rotazione

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 118


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Effettuando la derivata di tale funzione rispetto ad a1 e ponendola uguale a zero otteniamo:
Cx a1 = λa1
Ovvero a1 é un autovettore della matrice Cx . Osserviamo che é l’autovettore di Cx associato
all’autovalore massimo, infatti:
aT1 Cx a1 = λaT1 a1 = λ
Adesso occorre calcolare la seconda componente principale che deve essere incorrelata con la prima
e deve avere varianza massima appena inferiore alla varianza associata alla prima componente
principale:
z2 = aT2 x
con a2
a2 = [a21 , . . . , a2p ]T
var[aT2 x] = aT2 Cx a2
In questo caso abbiamo due condizioni di vincolo:

aT2 a2 = 1
cov[aT1 x, aT2 x] = E[aT2 (x − mx )(x − mx )T a1 ]
= aT2 Cx a1 = aT1 Cx a2
= λmax aT2 a1 = λmax aT1 a2
= 0

Utilizzando ancora i moltiplicatori di lagrange il massimo si ha dove si annulla la derivata rispetto


a a2 della Lagrangiana:
aT2 Cx a2 − λ1 (aT2 a2 − 1) − λ2 (λmax aT2 a1 )
cioé:
Cx a2 − λ1 a2 − λ2 λmax a1 = 0
e moltiplicando per aT1 ambo i membri:
aT1 Cx a2 − aT1 λ1 a2 − λ2 λmax aT1 a1 = 0

Il primo ed il secondo termine della precedente espressione sono nulli per il vincolo di incorrela-
zione ed inoltre essendo aT1 a1 = 1 si deve avere necessariamente λ2 = 0. Sostituendo questo valore
nella espresisone della Lagrangiana si ottiene una espressione foralmente identica a quella ottenuta
in precedenza per la prima componente principale. Ripetendo lo stesso procedimento i passaggi
algebrici sono del tutto analoghi a quelli fatti per il calcolo della prima componente principale.
Otteniamo anche in questo caso:
Cx a2 = λa2
aT2 Cx a2 = λaT2 a2 = λ
Ovvero a2 è l’autovettore di Cx associato all’autovalore immediatamente inferiore a λmax .
Iterando questo ragionamento per a3 , . . . , ap si costruisce un nuovo set di variabili ottenute
trasformando linearmente il vettore x con gli autovettori relativi agli autovalori via via decrescenti
della matrice Cx . Il nuovo vettore sarà
   T 
z1 a1 x
 ..   .. 
z =  .  =  .  = AT x
zp aTp x
dove A è la matrice che ha gli autovettori di Cx disposti per colonna:
A = [a1 , . . . , ap ]

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 119


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7. Principal component Analysis

7.1 Proprietà delle componenti principali


Consideriamo la trasformazione ortonormale:
 
y1
y =  ...  = BT x
 

yq

dove B = [b1 .....bq ] possiamo elencare le seguenti proprietà:

Proprietá 1

La traccia tr(Cy ) è massima se B = Aq = [a1 .....aq ] che rappresenta la matrice dei primi q
autovettori disposti per colonna. Queste q variabili sono quelle che mantengono la massima varianza
delle variabili originali ovvero sono quelle che hanno il maggiore contributo informativo.
Questá proprietá si puó mostrare nel modo seguente. Sia bk una colonna di B; poiché le colonne
di A formano una base nello spazio p-dimensionale, si ha:
 
p c1k
cjk aj = [a1 , . . . , ap ]  ... 
X
bk =
 
j=1 cpk

pertanto si potrá scrivere B = AC dove C é la matrice p × q dei coefficienti {cjk }.


Si ha inoltre:

Cy = E[yyT ] = E[BT xxT B]


p
X
= BT Cx B = CT AT Cx AC = CT ΛC = λj cj cTj
j=1

dove cTj é la j-sima riga di C. Ora si ha1 :


p
X
tr(Cy ) = λj tr(cj cTj )
j=1
Xp
= λj tr(cTj cj )
j=1
p
X
= λj cTj cj
j=1
p
X q
X
= λj c2jk (7.1)
j=1 k=1

Osserviamo che C = AT B e quindi CT C = BT AAT B = Iq (poiché A é ortonormale e le


colonne di B ortonormali). Dunque le colonne di C sono ortonormali. Possiamo pensare a C come
1 La traccia é un operatore lineare, infatti:
tr(λA) = λtr(A)
tr(A + B) = tr(A) + tr(B)
inoltre, usando la notazione di Einstein:
tr(AB) = aij bji = bji aij = tr(BA)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 120


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
7.1. PROPRIETÀ DELLE COMPONENTI PRINCIPALI

T
alle prime q colonne di una matrice p × p ortonormale, diciamo D tale che
Pq DD2 = 1. Le righe di C
T
sono costituite dai primi q elementi delle righe di D. Pertanto cj cj = k=1 cjk ≤ 1. Quest’ultimo
termine é il coefficiente di λj nella eq. 7.1.
Allo scopo di massimizzare tr(Cy ) vorremo che questi termini fossero tutti uguali ad 1. Ció é
vero se B = Aq , infatti cjk = 1 per 1 ≤ j = k ≤ q e cjk = 0 altrove.

Proprietá 2

La traccia tr(Cy ) è minima se B = [aq+1 , . . . , ap ];

Proprietá 3

Cx si P
può decomporre in autovalori e autovettori mediante il teorema di decomposizione spettrale
p
Cx = k=1 λk ak aTk

Proprietá 4

Consideriamo la famiglia di ellissoidi nello spazio p-dimensionale

xT Cx−1 x = costante

le componenti principali definiscono gli assi principali di questi ellissoidi.


Quest’ultima proprietà può essere dimostrata come segue. Se definiamo la trasformazione z =
AT x con A ortonormale, possiamo considerare la trasformazione inversa x = Az sostituendo tale
valore di x nell’espressione xT C−1
x x otteniamo

zT AT C−1
x Az = costante

Ricordando che gli autovettori di C−1 x sono gli stessi di Cx e che gli autovalori di C−1
x sono i
reciproci di quelli di Cx possiamo scrivere2

zT AT AΛ−1 AT Az = zT Λ−1 z = costante

Quest’ultima equazione può essere riscritta


p
X 1 2
z = costante
λk k
k=1

è questa è l’equazione di un’ellissoide riferita ai suoi assi principali. Questo risultato è statisticamen-
te importante per un vettore alatorio che ha una distribuzione di probabilità congiunta gaussiana,
in questo caso la famiglia di ellissoidi

xT Cx−1 x = costante

definisce i contorni a probabilità costante nella distribuzione del vettore gausssiano.


2 Si ha:
1
Cx v = λv ⇔ v = C−1
x v
λ
Cx = AΛAT ⇔ C−1
x = AΛ
−1 T
A

essendo (AB)−1 = B−1 A−1 .

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 121


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7. Principal component Analysis

7.2 PCA di un campione di osservazioni


Se per ogni componente del vettore x abbiamo a disposizione n realizzazioni indipendenti e non
conosciamo la matrice di covarianza il problema si riformula in questo modo:

xT1
 

X =  ... 
 

xTn

dove xTj = [xj1 , . . . , xjp ] é la j-sima osservazione. Quindi calcolo le componenti principali in questo
modo
zi1 = aT1 xi

per i = 1, . . . , n . Devo calcolare tale componente principale sempre massimizzando la varianza ma


avendo detto che non conosciamo la matrice di covarianza adottiamo un approccio statistico ovvero
calcoliamo la varianza come segue
n
1 X
var[zi1 ] = (zi1 − mz1 )2
n − 1 i=1

ove la media delle osservazioni si calcola:


n
X 1 T
mz1 = a xi
i=1
n 1

Quindi:
n n n
1 X T 1X T 1 X T
var[zi1 ] = (a1 xi − a1 xk )2 = (a (xi − mx ))2
n − 1 i=1 n n − 1 i=1 1
k=1

Posso sempre ipotizzare variabili a media nulla (basa sottrarre la media) ed in tal caso:
n
1 X T
var[zi1 ] = (a xi xTi a1 )
n − 1 i=1 1
n
1 T
X
= a (xi xTi )a1
n − 1 1 i=1
xT1
 
1
= aT [x1 , . . . , xn ]  ...  a1
 
n−1 1
xTn
1
= aT XT Xa1
n−1 1

1
Ponendo S = n−1 XT X che rappresenta la matrice di covarianza dei dati ottengo che la varianza
di zi1 è pari ad aT1 Sa1 pertanto posso ripetere gli stessi ragionamenti fatti nel caso di p variabili
aleatorie e quindi ritroverò che a1 è l’autovettore della matrice S relativo all’autovalore massimo.
Ed in modo del tutto analogo calcolo le altre componenti principali ottenendo infine la seguente
matrice di componenti principali:
  T
xT1 ap
 
z11 ... z1p x1 a1 ...
 .. .. ..  =  .. .. ..  = XA
Z= . . .   . . . 
zn1 ... znp xTn a1 ... T
xn ap

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 122


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
7.3. APPROCCIO GEOMETRICO

7.3 Approccio geometrico


Supponiamo che le osservazioni x1 , ..., xn sono trasformate mediante la seguente trasformazione
yi = BT xi ove B è una matrice di dimensioni p × q con colonne ortonormali cosı̀ che y1 , . . . , yn
sono proiezione di x1 , . . . , xn nel sottospazio di q dimensioni. Se ad yi è associato mi nello spazio
di partenza ovvero mi denota la posizione di yi in termini di coordinate originarie si può definire
la distanza tra xi e mi come segue
ri = xi − mi
e questa è ortogonale ad mi
rTi mi = 0
Pn
Vogliamo dimostrare che la somma modulo quadro delle distanze perpendicolare ovvero i=1 (rTi ri )
è minima quando B = [b1 , . . . , bq ] = Aq . Essendo: xTi xi = (ri + mi )T (ri + mi ) = rTi ri + mTi mi si
ha:
X n n
X
(rTi ri ) = (xTi xi − mTi mi )
i=1 i=1
Pn T
Pn T
Siccome non possiamo minimizzare Pn i=1Txi xi dobbiamo massimizzare necessariamente i=1 mi mi
che corrisponde a massimizzare i=1 yi yi perchè le distanze non cambiano nell’effettuare delle
rotazioni nello spazio euclideo. Osserviamo che:
n
X n
X Xn
yiT yi = xTi BBT xi = tr( xTi BBT xi )
i=1 i=1 i=1

Sfruttando le proprietà della traccia si può riscrivere l’espressione come segue:


n
X n
X n
X
tr(xTi BBT xi ) = tr(BT xi xTi B) = tr(BT xi xTi B)
i=1 i=1 i=1
Pn
Ponendo S = i=1 xTi xi si ha:

tr(BT SB) = tr(BT AΛAT B)

e ponendo AT B = C otteniamo:
p
X p
X
T
tr(C ΛC) = tr( λk ck cTk ) = λk cTk ck
k=1 k=1

dove cTj é la riga j-sima di C Quindi in definitiva si devono massimizzare i termini cTk ck . Con-
sideriamo una matrice D ortonormale di dimensione p × p in cui le prime q colonne coincidono
con le colonne di C. Dovendo essere D ortonormale essa deve soddisfare la seguente espressione
DDT = Ip  T
c1 dT1

 
T  .. .
.  c1 . . . cp
DD =  . .  d1 . . . dp = Ip
cTp dTp
Questo significa che cTj cj ≤ 1 per j = 1, . . . , p. Se scelgo B = Aq ovvero la matrice dei primi q
autovettori disposti per colonna ottengo
 
 T  1 0 ... 0
a1  0 1 ... 0 
C = AT Aq =  ...  [a1 , . . . , aq ] =  .
   
.. .. ..
 ..

. . . 
aTp
0 0 ... 0

per cui cTj cj = 1 per j = 1, . . . , q.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 123


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7. Principal component Analysis

7.4 Decomposizione in valori singolari


Questo metodo consente di calcolare rapidamente le componenti principali: Consideriamo una
matrice X di dimensione n × p; una matrice U n × r tale che UT U = Ir ; L matrice diagonale
r × r ove r è il rango di X ovvero il numero di colonne o di righe linearmente indipendenti; A una
matrice p × r tale che AT A = Ir allora decomponendo XT X in autovalori e autovettori si ha:
p
X
XT X = lk ak aTk
k=1

se il rango è pari ad r vuol dire che abbiamo solo r autovalori non nulli e i restanti p − r autovalori
tutti nulli. Pertanto possiamo considerare la sommatoria fino ad r
r
X
XT X = lk ak aTk
k=1

Ponendo
a1 ar
U = X[ 1/2
,..., 1/2
]
l1 lr
A = [a1 . . . ar ]
 
1/2
l ... 0
 1. .. .. 
L  ..
=  . .


1/2
0 ... lr

Ottengo che
r
X
ULAT = X ak aTk = X
k=1

E posso calcolare le componenti principali come segue

Z = XA = UL

7.5 Trasformazione Karhunen-Loéve (KLT)


In questo caso il vettore x consiste degli ultimi p campioni di un segnale

x = [x(n).....x(n − p + 1)]T

Posso decomporre x in una base ortonormale di versori tali che posso considerare x come una
conbinazione lineare dei versori per opportuni coefficienti che risulteranno le proiezioni del segnale
lungo gli stessi versori, come segue:
Xp
x= φi wi
i=1

posta la matrice Φ pari ad Φ = [φ1 , . . . , φp ] essendo la base ortonormale si deve verificare l’e-
spressione ΦT Φ = I ovvero φT1 φk = δik . A questo punto voglio ridurre la dimensionalità della
base ovvero voglio proiettare x in un sottospazio di dimensione m < p. Quindi calcolo sotto quali
condizioni posso considerare una stima di x come combinazione lineare delle prime m funzioni di
base minimizzando l’errore quadratico medio.
m
X
x̂ = φi wi
i=1

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 124


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
7.6. ESEMPIO MATLAB

L’errore è la differenza tra x e x̂ e ne minimizzo il valore quadratico medio


Xp m
X p
X m
X
E[eT e] = E[( φi wi − φi wi )T ( φk wk − φk wk )]
i=1 i=1 k=1 k=1

p
X p
X
= E[ (φi wi )T (φk wk )]
i=m+1 k=m+1
p
X p
X
= φTi φk E[wiT wk ]
i=m+1 k=m+1

Essendo
E[wiT wk ] = E[φTi xxT φk ] = φTi Rx φk
Pertanto devo minimizzare la seguente quantità
p
X
φTk Rx φk
k=m+1

Usufruendo sempre dei moltiplicatori di lagrange sotto la condizione di vincolo che φTk φk = 1
ottengo
Rx φi = λφi

7.6 Esempio Matlab


In questo esempio si studia l’applicazione della PCA all’elaborazione dell’ECG. I risultati sono
mostrati nella fig. 7.3

% Principal Component Analysis


% applicazione all’elaborazione dell’ECG

clear all
close all

ecgt = true;
variabili = false;

if (ecgt)
p = 128; % istanti di tempo
N = 100; %battiti successivi della stessa persona o di persone differenti
e1 = ecg(p); % crea un ecg di p campioni
e1 = e1(:);
n = .1 * randn(p,N);
X1 = e1 * ones(1,N) + n ;

e2 = filter(ones(10,1),1,e1);
n2 = .1 * randn(p,N);
X2 = e2 * ones(1,N) + n2 ;

X = [X1 X2];

% =============================
% Analisi intra-battito
% KLT:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 125


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7. Principal component Analysis

% le variabili sono gli istanti di campionamento


% le osservazioni sono i singoli battiti
X = X’;

[U,L,A] = svd(X);
Z = U*L;

% dal punto di vista della trasformata di KLT


% in Z vi sono i coefficienti dello sviluppo
% ad esempio se uso un solo autovettore A(:,1)
% allora Z(:,1) sono i coefficenti dello sviluppo in serie di A(:,1)
% per cui
% X(1,:)’=Z(1,1)*A(:,1),
% X(2,:)’=Z(2,1)*A(:,1),
% X(3,:)’=Z(3,1)*A(:,1), e cosı̀ via

figure
subplot(2,1,1)
plot(X1)
title(’QRS - 1 ’)
subplot(2,1,2)
plot(X2)
title(’QRS - 2’)

figure
plot(X1(:,1),X1(:,5),’.’)
axis equal
hold
plot(X2(:,1),X2(:,2),’.r’)
title(’QRS - 2’)

figure
plot(Z(1:N,1),Z(1:N,2),’.’)
hold
plot(Z(N+1:end,1),Z(N+1:end,2),’.r’)
title(’Componenti principali’)
axis equal

figure
plot(diag(L),’*’)
title(’autovalori’)

figure
plot(A(:,1:2))
title(’autovettori’)

% =============================
% Analisi inter-battito
% PCA le variabili sono i singoli battiti
% le osservazioni sono gli istanti di tempo
% gli autovalori != 0 sono gli stessi del caso precedente

X2 = X’;
[U2,L2,A2] = svd(X2);

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 126


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
7.6. ESEMPIO MATLAB

Z2 = U2*L2;

figure
plot(X2(1:N,1),X2(1:N,2),’.’)
hold
plot(X2(N+1:end,1),X2(N+1:end,2),’.r’)
title(’DATI interbattito’)
axis equal

figure
plot(Z2(1:N,1),Z2(1:N,2),’.’)
hold
plot(Z2(N+1:end,1),Z2(N+1:end,2),’.r’)
axis equal
title(’Componenti principali 2’)

figure
plot(Z2(:,1:4))
title(’componenti principali’)

figure
plot(A2(:,1:2))
title(’autovettori 2’)
end;

Esempio Matlab

In questo esempio la PCA é applicata all’analisi di immagini DCE. I risultati sono in figura 7.4 e
7.5 e 7.7.

% Applicazione di PCA alla DCE-MRI


% creiamo una immagine artificiale
% in cui sono presenti 3 tipologie di voxel:
% 0. background
% 1. non-enhancing
% 2. enhancing

clear all
close all

N = 128;
MASK = zeros(N,N);
c1 = [50,70];
c2 = [40,55];
r1 = 40;
r2 = 15;
c3 = [55,65];
r3 = 10;

for m = 1:N
for n = 1:N
if (sqrt((m-c1(1))^2+(n-c1(2))^2))<r1
MASK(m,n) = 1;

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 127


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7. Principal component Analysis

QRS − 1 QRS − 2
2 4

1
3
0

−1 2

−2
0 20 40 60 80 100 120 140 1

QRS − 2
5
0

−1
0

−2

−5
0 20 40 60 80 100 120 140 −3 −2 −1 0 1 2 3 4 5

(a) (b)

Componenti principali autovalori


150
4

1 100
0

−1

−2

−3 50

−4

−5

−6
0
−14 −12 −10 −8 −6 −4 −2 0 20 40 60 80 100 120 140

(c) (d)

autovettori
0.5

0.4

0.3

0.2

0.1

−0.1

−0.2

−0.3

−0.4
0 20 40 60 80 100 120 140

(e)

Figura 7.3: analisi intrabattito. (a) ecg simulati (b) spazio delle misure (c) componenti principali
(d) autovalori (e) i primi due autovettori.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 128


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
7.6. ESEMPIO MATLAB

end
if (sqrt((m-c2(1))^2+(n-c2(2))^2))<r2
MASK(m,n) = 2;
end
if (sqrt((m-c3(1))^2+(n-c3(2))^2))<r2
MASK(m,n) = 3;
end
end
end

% ora simuliamo una acquisizione DCE-MRI


% per ciascun voxel simuliamo una curva DCE
% che corrisponde alla classe del voxel
Ktrans_non = 0.05;
ve_non = 0.01;

Ktrans_enh1 = 0.9;
ve_enh1 = 0.9;

Ktrans_enh2 = 0.7;
ve_enh2 = 0.9;

Ts = 0.3;%min
t = (0:Ts:10)’;%min

Ct_non = tofts([Ktrans_non ve_non],t);


Ct_enh1 = tofts([Ktrans_enh1 ve_enh1],t);
Ct_enh2 = tofts([Ktrans_enh2 ve_enh2],t);

% matrice ce contiene i dati spazio-temporali 3D


Im = zeros(length(t),N,N);

% reshape della MASK su un unica riga


% il reshape opera colonna per colonna
mask = reshape(MASK,1,N*N);

% sistema le curve siulate nella matrice 3D


im = reshape(Im,length(t),N*N);

im(:,find(mask==1)) = Ct_non * ones(1,length(find(mask==1)));


im(:,find(mask==2)) = Ct_enh1 * ones(1,length(find(mask==2)));
im(:,find(mask==3)) = Ct_enh2 * ones(1,length(find(mask==3)));

% aggiunge rumore
v = sum(Ct_non.^2)/10;
n = randn(size(im))*v;
imn = im + n;

Im = reshape(imn,length(t),N,N);

% visualizza le immagini 3D
L = floor(sqrt(length(t)));
IM = zeros(L*N,L*N);
k = 1;
for m = 1:L

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 129


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7. Principal component Analysis

for n = 1:L
IM(N*(m-1)+1:N*(m),N*(n-1)+1:N*(n)) = ...
[reshape(Im(k,:,:),N,N)];
k = k+1;
end
end

% applica le PCA
X = imn’;
[U,L,A] = svd(zscore(X),0);
Z = U*L;
imz = Z’;

IMZ = reshape(imz,length(t),N,N);

figure
imshow(IM,[])
title(’dati 3D’)

figure
subplot(3,2,1)
imshow(MASK,[])
title(’Classi simulate’)
subplot(3,2,2)
imshow(reshape(imz(1,:,:),N,N),[])
title(’PC 1’)
subplot(3,2,3)
imshow(reshape(imz(2,:,:),N,N),[])
title(’PC 2’)
subplot(3,2,4)
imshow(reshape(imz(3,:,:),N,N),[])
title(’PC 3’)
subplot(3,2,5)
hist(reshape(imz(1,:,:),1,N*N),100)
title(’Istogramma PC 1’)
subplot(3,2,6)
plot(imz(1,:),imz(2,:),’.’,’markersize’,1)
axis equal
%hist(reshape(imz(2,:,:),1,N*N),100)
title(’Spazio di PC1 PC2’)

figure
plot(t,[Ct_non Ct_enh1 Ct_enh2 A(:,1:2)])
xlabel(’time [min]’)
ylabel(’mmol/L’)
legend(’non enhancement’,’enhancement’,’Autovett 1’,’Autovett 2’)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 130


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
7.6. ESEMPIO MATLAB

Classi simulate PC 1

(a) (b)

PC 2 PC 3

(c) (d)
Spazio di PC1 PC2
Istogramma PC 1
1600 8

1400 6

1200 4

1000 2

800 0

−2
600

−4
400

−6
200

−8
0
−20 −15 −10 −5 0 5 −16 −14 −12 −10 −8 −6 −4 −2 0 2 4

(e) (f)

Figura 7.4: Applicazione della PCA alla DCE. (a) Classi simulate. (b) PC1 (c) PC2 (d) PC3 (e)
Istogramma di PC1 (f) Spazio di PC1 e PC2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 131


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7. Principal component Analysis

dati 3D

Figura 7.5: Dati simulati

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 132


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
7.6. ESEMPIO MATLAB

1
non enhancement
enhancement 1
0.8 enhancement 2
Autovett 1
Autovett 2
0.6

0.4
mmol/L

0.2

−0.2

−0.4
0 2 4 6 8 10
time [min]

Figura 7.6: Autovettori.

loadings
0.4

0.2

−0.2

−0.4

−0.6

−0.8

−1
0 5 10 15 20 25 30 35 40 45

Figura 7.7: Autovettori.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 133


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 7. Principal component Analysis

Figura 7.8: Scatter plot.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 134


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 8

Independent Component Analysis

8.1 Il problema del cocktail party


Per comprendere lo sviluppo della metodica ICA si usa il seguente problema denominato cocktail
party. Immaginiamo di essere in una stanza dove tre persone parlano simultaneamente. Imma-
giniamo di avere tre microfoni dislocati in posti diversi della stanza. I microfoni registreranno
tre segnali denominati x1 (t), x2 (t), x3 (t). Ciascuna delle tre registrazioni sarà una somma pesata
(con opportuni coefficienti che descrivono la distanza dai microfoni) dei segnali s1 (t), s2 (t), s3 (t) che
corrispondono ai vari oratori. Tutto ciò si può esprimere con un sistema di equazioni lineari:

x1 (t) = a11 s1 (t) + a12 s2 (t) + a13 s3 (t)


x2 (t) = a21 s1 (t) + a22 s2 (t) + a23 s3 (t)
x3 (t) = a31 s1 (t) + a32 s2 (t) + a33 s3 (t)

il problema consiste nel determinare le si (t) partendo dalle sole xi (t) senza conoscere le aij .
Nel contesto biomedico, si consideri l’EEG che consiste nella registrazione di potenziali elettrici
da varie posizioni sullo scalpo. I segnali EEG sono presumibilmente generati da una miscela di
attività cerebrale e muscolare. Quello che vogliamo è separare tra di loro i vari segnali senza avere
alcuna conoscenza del modo in cui sono miscelati. Applicazioni dell’ICA si trovano in molti contesti:
Event Related Potential (ERP), functional Magnetic Resonance Imaging (fMRI), DCE-MRI, ed
altre metodiche di imaging funzionale.

8.2 Concetti preliminari

8.2.1 Variabili congiuntamente gaussiane


La pdf di un vettore n-dimensionale congiuntamente gaussiano x è:
 
1 1 T −1
px (x) = exp − (x − m x ) C x (x − mx )
(2π)n/2 (detCx )1/2 2

La pdf gaussiana multivariata è definita completamente dalla media mx = E[x] e dalla matrice
di covarianza Cx = E[(x − mx )(x − mx )T ]. Questo vuol dire che i momenti di ordine superire non
portano alcuna nuova informazione.

135
Capitolo 8. Independent Component Analysis

Se x è un vettore gaussiano e y = Ax è una trasformazione lineare, anche y è gaussiano con


media my = Amx e matrice di covarianza Cy = ACx AT . Pertanto una qualunque combinazione
lineare di gaussiane e gaussiana. Per le ICA questo significa che è impossibile stimare il modello
ICA per variabili gaussiane.
Ricordiamo che l’incorrelazione equivale alla indipendenza per le variabili gaussiane. Se la ma-
trice di covarianza non è diagonale allora le componenti di x sono
Pncorrelate. Poichè Cx è simmetrica
e definita positiva può essere diagonalizzata Cx = EDET = i λi ei eTi dove E = [e1 , e2 , ..., en ] è
una matrice ortogonale costituita dagli autovettori della matrice di covarianza, mentre D è una ma-
trice diagonale costituita dagli autovalori. Applicando la rotazione u = ET (x − mx ) le componenti
diventano incorrelate e quindi indipendenti.
Pk
Ricordiamo il teorema del limite centrale. Poniamo xk = i=1 zi una somma di v.a. i.i.d..
xk −mk
Consideriamo le v.a. normalizzate yk = σk . Si può mostrare che la pdf di yk tende ad una
distribuzione gaussiana con media nullaPe varianza unitaria per k → ∞. Nel contesto dell’ICA si
m
osserva che una miscela dei dati xi = j=1 aij sj è praticamente gaussiana anche per un piccolo
numero di sorgenti ad.es. m = 4.
In generale se le v.a. n-dimesionali y e x sono legate da una trasformazione y = g(x) di cui
esista e sia unica la trasformazione inversa x = g−1 (y), si può mostrare che la pdf di y si può
ottenere da quella di x con la seguente formula:

1
py (y) = px (g−1 (y))
|detJg(g1 (y))|

dove Jg(x) è la matrice Jacobiana:

∂g1 (x) ∂g2 (x) ∂gn (x)


 
∂x1 ∂x1 ... ∂x1
∂g1 (x) ∂g2 (x) ∂gn (x)
...
 
 ∂x2 ∂x2 ∂x2 
Jg(x) =  .. .. .. ..

.
 
 . . . 
∂g1 (x) ∂g2 (x) ∂gn (x)
∂xn ∂xn ... ∂xn

1 −1
in particolare se la trasformazione e lineare y = Ax allora si ha py (y) = |detA| px (A y).

8.2.2 Non Gaussianitá e kurtosis

Consideriamo una v.a. x con pdf px (x). Il j-simo momento αj di x è definito da:

Z
αj = E[xj ] = ψ j px (ψ)dψ

mentre il j-simo momento centrale µj è dato da:

Z
µj = E[(x − α1 )j ] = (ψ − mx )j px (ψ)dψ

Si ha µ0 = 1, µ1 = 0, µ2 = σx2 ; α0 = 1, α1 = mx , α2 = E[x2 ].
Il terzo momento centrale si chiama skewnesse misura il grado di asimmetricità della pdf (è zero
pre pdf simmetriche rispetto al valor medio).
Il momento di quarto ordine α4 = E[x4 ] è applicato in alcuni algoritmi di ICA per la sua
semplicità. Il quarto momento centrale µ4 = E[(x − mx )4 ] non viene usato ed al suo posto si usa
la kurtosis che ha alcune proprioetà interessanti.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 136


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
8.2. CONCETTI PRELIMINARI

Per comprendere la kurtosis bisogna partire dalla funzione caratteristica di x cioè la sua trasfor-
mata di Fourier espansa in serie di Taylor

∞ ∞
xk (jω)k (jω)k
Z Z X X
φ(ω) = E[exp(jωx)] = exp(jωx)px (x)dx = px (x)dx = E[xk ]
k! k!
k=0 k=0

La funzione caratteristica è nota come funzione generatrice dei momenti. Dalla funzione carat-
teristica si ottiene la funzione generatrice dei cumulanti:


X (jω)k
Φ(ω) = ln(φ(ω)) = κk
k!
k=0

k
e quindi i cumulanti sono ottenuti come derivate κk = (−j)k d dω
Φ(ω)
k |ω=0
Da questa formula si ottiene il cumulante κ4 = E[x4 ] − 3(E[x2 ])2 che è la kurtosis.
La kurosis è additiva: se x e y sono due v.a. indipendenti allora kurt(x+y) = kurt(x)+kurt(y).
Non è però lineare infatti si ha kurt(βx) = β 4 kurt(x).
Il fatto più importante che riguarda la kurtosis è che è zero per variabili gaussiane. Le altre
variabili hanno kurtosis positiva (supregaussiane) o negativa (subgaussiane).

8.2.3 Entropia

L’entropia è il grado di informazione che ci da l’osservazione di una variabile aleatoria. Quanto più
la variabile è incerta e destrutturata, tanto maggiore è il grado di entropia. Ad esempio se tutti i
valori di una certa variabile avessero probabilità prossima a zero tranne uno che ha una probabilità
prossima ad 1, allora la variabile sarebbe poco incerta, pertanto la variabile avrà una entropia
piccola. Viceversa se tutti i valori hanno eguale probabilità di occorrenza allora la variabile è molto
incerta e perciò l’entropia dovrà essere alta.
Si può verificare che la seguente definizione di entropia di una variabile aleatoria discreta X
soddisfa alle precedenti considerazioni intuitive:

X
H(X) = − P (X = ai ) log P (X = ai )
i

dove ai sono i possibili valori di X.


Chiariamo con un esempio il significato di entropia. consideriamo una variabile aleatoria con
solo due valori a e b. Denotiamo p = P (X = a) e 1 − p = P (X = b). L’entropia sarà uguale a
H(X) = −p log p − (1 − p) log(1 − p). Si può vedere che è massima per p = 1/2.
L’entropia differenziale di una vettore aleatorio y ocn densità py (η) è definita da:

Z
H(y) = − py (η) log py (η)dη

Una variabile gaussiana ha la più alta entropia tra tutte le variabili aleatorie di pari varianza.
Pertanto al entropia può esser usata come misura di non gaussianità. La neg-entropia è definita
come J(y) = H(ygauss ) − H(y) dove ygauss è un vettore aleatorio di pari varianza. La negentropia
è sempre non negativa ed è zero solo per pdf gaussiane.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 137


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 8. Independent Component Analysis

8.2.4 Sbiancamento
Un vettore aleatorio z = [z1 , . . . , zn ] a media nulla si dice bianco se gli elementi sono incorrelati e
hanno varianza unitaria:
E[zzT ] = I

Lo sbiancamento di un vettore x può essere ottenuto mediante una trasformazione lineare


z = Vx. Se Cx è la matrice di covarianza e E = [e1 , . . . , en ] è la matrice degli autovettori di
Cx di norma unitaria, e D = diag(λ1 , . . . , λn ) la matrice diagonale degli autovalori corrispondenti,
allora V = D−1/2 ET è una matrice sbiancante, infatti:
E[zzT ] = VE[xxT ]VT = D−1/2 ET EDET ED−1/2 = I

L’operatore V non è unico infatti ogni operatore della forma UV con U ortogonale è una matrice
di sbianacamento, infatti:
E[zzT ] = UVE[xxT ]VT UT = UIUT

In particolare la matrice ED−1/2 E è sbiancante.

8.3 ICA
Ricordiamo il modello alla base dell’ICA. Siano s1 , . . . , sn delle sorgenti non osservabili di cui si
osservano le combinazioni x1 , . . . , xn ottenute come segue:
    
x1 a11 ... a1n s1
 ..   .. .. ..   .. 
 . = . . .  . 
xn an1 ... ann sn
dove i coefficienti non sono noti. In forma matriciale si può scrivere:

x = As

L’obiettivo dell’ICA è di determinare A ed s partendo dalla conoscenza delle sole x.


Per poter risolvere questo problema è necessario fare le seguenti ipotesi:

a) Le sorgenti sono indipendenti tra loro.


b) Le sorgenti non sono gaussiane
c) La matrice dei coefficienti è quadrata ed invertibile.

la ragione di tali ipotesi verrà spiegata nel seguito.


Le sorgenti sono determinabili a meno di alcuni fattori:

• Non è possibile determinare l’ordine delle componenti. Questo è chiaro in quanto lo scambio
di ordine tra due componenti corrisponde ad uno scambio delle corrispondenti colonne della
matrice A.
• Non è possibile determinare la varianza delle sorgenti. Questo dipende dal fatto che la mol-
tiplicazione della k-sima sorgente per un fattore di scalatura αk può essere compensata dalla
moltiplicazione della corrispondente colonna di A per il reciproco di αk :
n  
X 1
x= ak (sk αk )
αk
k=1

Per tale motivo si assume che le sorgenti abbiano varianza unitaria E[s2k ] = 1.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 138


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
8.3. ICA

8.3.1 Centraggio dei dati


Si assume che i dati siano a media nulla. Se questo non è , allora è necessario sottrarre la media.
Pertanto se la mixture originale è x0 , bisognerà effettuare x = x0 − E[x0 ]. Questo equivale a porre
anche E[s] = A−1 x = 0.

8.3.2 Lo sbiancamento dei dati è solo una metà di ICA


Supponiamo di aver sbiancato i dati come descritto precedentemente.
Questo significa che la matrice di miscela è cambiata come segue:

z = Vx = VAs = Ãs

bisogna osservare che lo sbiancamento, cioè la incorrelazione non equivale alla indipendenza,
infatti ogni altra trasformazione ortogonale di z produrrà dati bianchi, le componenti indipendenti
sono date a meno di una rotazione.
In effetti lo sbiancamento è utile perchè rappresenta un primo passo verso le componenti indipen-
denti. Ed inoltre semplifica il procedimento di ricerca poichè le componenti indipendenti dovranno
essere cercate a meno di una rotazione.
Notiamo che à è ortogonale:

E[zzT ] = ÃE[ssT ]ÃT = ÃÃT = I

pertanto la ricerca della matrice à richiede solo n(n − 1)/2 parametri contro i n2 della matrice di
mixing originaria.

8.3.3 Perchè le variabili gaussiane sono vietate


Supponiamo di avere due variabili gaussiane indipendenti con distribuzione congiunta:

1 s2 + s22 1 ksk2
p(s1 , s2 ) = exp(− 1 )= exp(− )
2π 2 2π 2

Considerando il fatto che la matrice à è ortogonale, la trasformazione delle variabili, secondo


la formula generale vista in precedenza, fornisce:

1 kAT xk2 1 kxk2


p(x1 , x2 ) = exp(− )|detAT | = exp(− )
2π 2 2π 2

avendo tenuto conto del fatto che la rotazione ortogonale non muta il modulo del vettore e che il
determinante di una matrice ortogonale è 1.
Pertanto la pdf originale e quella ruotata sono esattamente indistinguibili.

8.3.4 L’indipendenza equivale alla non gaussianità


Ripartiamo dal modello x = As. Avendo assunto che la matrice di miscela è invertibile avre-
mo s = A−1 x. Pertanto possiamo stimare le sorgenti usando una combinazione lineare dei dati
osservati.
Consideriamo quindi una combinazione lineare y = bT x = bT As = qT s dove b e q sono
incogniti. Se b fosse una riga dell’inversa di A allora bT x sarebbe una delle sorgenti. In tal caso q
sarebbe un vettore tale che solo uno dei suoi elementi è uguale ad 1 mentre gli altri sono 0.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 139


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 8. Independent Component Analysis

A questo punto ricordiamo il teorema del limite centrale, ed in particolare osserviamo che una
combinazione lineare di v.a. è ”più” gaussiana delle sue componenti. Questo vale anche per un
numero piccolo di componenti. In generale quindi, y = qT s diventa ”meno” gaussiana quando è
proprio uguale ad una delle componenti indipendenti.
Quindi è sufficiente far variare b facendo massimizzare la non gaussianità. In tal modo y = bT x
sarà una delle componenti indipendenti.

8.3.5 Implementazione dell’ICA


Come abbiamo visto per determinare le componenti indipendenti è necessario determinare una
misura di non gaussianità e quindi far variare il vettore b massimizzando la non gaussianità.
La procedura è quindi iterativa. In genere gli algoritmi iterativi di ottimizzazione si approcciano
con metodi del tipo ”gradient descent” oppure del tipo ”stochastic gradient descent”.
Negli algoritmi gradient descent abbiamo una funzione di costo da minimizzare J(w): si parte
da un certo punto w(0) e poi computando il gradiente di J(w) ci si muove nella direzione di massima
discesa. Pertanto la regola di update dei coefficienti è la seguente:

∂J(w)
w(t) = w(t − 1) − α(t) |w=w(t−1)
∂w
La convergenza può essere analizzata sviluppando al funzione di costo in serie di Taylor fino al
secondo ordine ottenendo quindi, dopo alcuni passaggi (H è l’Hessiano della funzione di costo):

w(t) − w0 ≈ [I − α(t)H(w0 )][w(t − 1) − w0 ]

In alternativa, la funzione di costo ha la forma J(w) = E[g(w, x)] dove x è il vettore aleatorio
delle osservazioni. Pertanto la regola di update diventa:

∂E(g(w, x))
w(t) = w(t − 1) − α(t) |w=w(t−1)
∂w
Tuttavia se le caratteristiche del segnale variano con il tempo, l’algoritmo deve esser in grado
di seguirle. Pertanto invece della media statistica si usa la seguente regola:
∂g(w, x)
w(t) = w(t − 1) − α(t) |w=w(t−1)
∂w

8.3.6 Misura della non gaussianità mediante kurtosis


Il gradiente della funzione costo è:

4sign(kurt(wT z))[E[z(wT z)3 ] − 3w|w|2 ]

e quindi l’algoritmo di update è:


∆w ≈ sign(kurt(wT z))z(wT z)3

noindent e w va normalizzata ad 1 dopo ogni passo (giace sulla sfera unitaria).

8.3.7 Misura della non gaussianità mediante negentropia


La funzione di costo si modifica :
1 1
J(y) =≈ E[y 3 ]2 + kurt(y)2
12 48

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 140


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
8.4. IMPLEMENTAZIONI DISPONIBILI

Classi simulate IC 1

IC 2 IC 3

Istogramma IC 1 Spazio di IC1 IC2


4000
0

2000 −1
−2
0
−6 −4 −2 0 2 −4 −2 0

Figura 8.1: Immagine simulata e IC.

8.4 Implementazioni disponibili


L’implementazione dell’algoritmo ICA non è una procedura banale. Una versione in Matlab è
disponibile presso il sito:
http://www.cis.hut.fi/projects/ica/fastica/
Il pacchetto è stato sviluppato presso il ”Laboratory of Computer and Information Scien-
ce (CIS)” del ”Department of Computer Science and Engineering” alla Helsinki University of
Technology.

8.5 Esempio Matlab


Applichiamo la ICA agli stessi dati DCE-MRI che abbiamo visto nel capitolo precedente per la
PCA. Usiamo il pacchetto Fast ICA.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 141


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 8. Independent Component Analysis

loadings
0.3

0.25

0.2

0.15

0.1

0.05

−0.05
0 5 10 15 20 25 30 35 40 45

Figura 8.2: Curve di enhancement IC.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 142


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
8.5. ESEMPIO MATLAB

Figura 8.3: Scatter plot.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 143


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 8. Independent Component Analysis

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 144


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 9

Clustering o unsupervised learning

In questo capitolo si illustreranno due approcci comunemente usati per il clustering di dati.

9.1 L’algoritmo Expectation-Maximization


Consideriamo una serie di osservazioni multivariate xj = [xj1 , . . . , xjr ] con j = 1, . . . , N . Supponia-
mo che le osservazioni siano estratte da K classi con differenti distribuzioni di probabilitá e sia p(ωk )
la probabilitá della k-sima distribuzione. La probabilitá di estrarre un valore xj condizionatamente
al fatto che xj ∈ ωk é p(xj |ωk ). Pertanto la probabilitá di estrarre un generico xj sará data da:

M
X
p(xj ) = p(xj |ωk )p(ωk ).
k=1

In genere si puó assumere che la forma della distribuzione p(xj |ωk , θ k ) sia nota e che dipenda
da certi parametri θ k = [θk1 , . . . , θkp ] il cui valore é ignoto; in genere anche le p(ωk ) sono ignote.
Si presenta il problema di stimare le p(ωk ) e θ k partendo dall’insieme dei dati misurati nel caso
in cui non sia nota la classe di appartenenza delle xj .
Per poter risolvere questo problema si deve ricorrere al concetto di dato mancante. Supponiamo
che zj sia una ulteriore variabile che ci dica da quale classe é stata estratta la j-sima osservazione,
cioé zj = k ⇐⇒ xj ∈ ωk . Questo é l’insieme dei dati mancanti (ed ovviamente non ci é noto).
L’insieme dei dati (zj , xj ) si dice allora insieme completo dei dati, mentre (xj ) è l’insieme dei dati
incompleti.
Un approccio possibile é quello della stima a massima verosimiglianza (Maximum Likelihood,
ML). Diciamo X = {x1 , . . . , xN } l’insieme di tutti i dati osservati; diciamo Θ l’insieme di tutti i
parametri (comprese le probabilitá a priori delle singole classi); diciamo Z = {z1 , . . . , zN } l’insieme
di tutte le variabili mancanti. Sia L(Θ|X , Z) = p(X , Z|Θ) la verosimiglianza (Likelihood) dei dati
completi. La verosimiglianza dei dati osservati sará pertanto la verosimiglianza marginale dei dati
osservati: X
L(Θ|X ) = p(X |Θ) = p(X , Z|Θ)
Z

La stima ML é determinata dall’equazione:

∂L ∂ log L
= 0 ⇐⇒ =0
∂Θ ∂Θ

In pratica questa quantitá é difficile da calcolare nella maggior parte dei casi.

145
Capitolo 9. Clustering o unsupervised learning

L’approccio Expectation-Maximisation (EM) rappresenta una elegante soluzione a tale problema


e consente simultaneamente di classificare i dati e di stimare i valori dei parametri e delle probabilitá
delle classi.
Le idee di base dell’algoritmo si possono riassumere come segue. Se l’insieme completo ci fosse
noto si possono fare le seguenti osservazioni, che costituiscono l’essenza del processo EM:

• Se fossero noti tutti i parametri delle varie classi (cioé le θ k ) si potrebbe attribuire ciascuna
osservazione ad una classe e precisamente a quella che presenta la massima probabilitá per
quella osservazione, cioé

xj ∈ ωk ⇐⇒ zj = k ⇐⇒ k = arg max p(zj = i|xj , ωi , θ i )


i

Questo processo é detto segmentazione dei dati. Si vede che é basato sulla massimizzazione
della probabilitá dei dati mancanti.
• Se fosse nota la classe di appartenenza di tutte le osservazioni (cioé zj ) si potrebbe usare
questa informazione per ottenere una stima ottima dei parametri θ k delle corrispondente
classi (stima dei parametri a massima verosimiglianza o Maximum Likelihood ML).

Partendo da queste osservazioni si puó mettere a punto una procedura iterativa costituita da
due passi che si ripetono fino alla convergenza del’algoritmo.
La prima osservazione conduce al primo step nel’algoritmo EM che viene detto passo E (Ex-
pectation) in cui i dati vengono segmentati partendo da una stima dei parametri ottenuta nella
iterazione precedente.
Il secondo passo viene detto passo M (Maximisation) in cui, nota la segmentazione dei dati
ottenuta nel passo precedente, si puó effettuare una stima ML dei parametri.
L’algoritmo iterativo EM prende dunque la seguente forma:

(0)
1. si parte da una stima iniziale dei parametri θ k per k = 1, ..., K;
(n−1)
2. Passo E: alla n-sima iterazione, usando i parametri θ k si segmentano i dati ottenendo un
insieme zj per j = 1, ..., N , che completa i dati;
3. Passo M: si determina un nuovo insieme di parametri θ nk usando l’approccio ML.

I passi si succedono iterativamente finche non si raggiunge una opportuna condizione di conver-
(n−1)
genza. In genere come condizione di convergenza si puó imporre che le stime dei parametri θ k
(n)
e θ k differiscano di poco tra un passo ed il successivo.
Cerchiamo di capire perché questo algoritmo garantisce di raggiungere una stima a massima
verosimiglianza dei parametri Θ. Consideriamo la verosimiglianza dei dati incompleti:
X
log L(Θ|X ) = log p(X |Θ) = log p(X , Z|Θ)
Z
X p(Z|X , Θ(n) )
= log p(X , Z|Θ)
Z p(Z|X , Θ(n) )
X p(X , Z|Θ)
≥ p(Z|X , Θ(n) ) log
Z p(Z|X , Θ(n) )
X X
= p(Z|X , Θ(n) ) log p(X , Z|Θ) − p(Z|X , Θ(n) ) log p(Z|X , Θ(n) )
Z Z
(n) (n)
= Q(Θ, Θ ) − H(Θ )

dove la diseguaglianza é valida tenendo conto della diseguaglianza di Jensen, spiegata nel seguito.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 146


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
9.2. GAUSSIAN MIXTURE

Nell’ultima equazione, il termine H(Θ(n) ) on dipenda da Θ, per cu inel processo di massimiz-


zazione della verosimiglianza possiamo massimizzare solo il primo termine Q(Θ, Θ(n) ). In effetti si
ha:
X p(X, Z|Θ(n) )
Q(Θ(n) , Θ(n) ) − H(Θ(n) ) = p(Z|X, Θ(n) ) log
Z p(Z|X, Θ(n) )
X
= p(Z|X , Θ(n) ) log p(X |Θ(n) ) = log p(X |Θ(n) )
Z

per cui effettivamente la massimizzazione del termine Q(Θ, Θ(n) ) comporta un aumento della
verosimiglianza log p(X |Θ(n) ).
Nel passo Expectation si calcola la verosimiglianza marginale dei dati osservati:

Q(Θ|Θ(n) ) = EZ [log L(Θ|X , Z)|X , Θ(n) ]

Quindi si trovano i parametri che massimizzano la quantitá:

Θ(n+1) = arg max Q(Θ|Θ(n) )


Θ

Dimostriamo la diseguaglianza di Jensen per la funzione log:


N
X N
X
log λi xi ≥ λi log xi
i=1 i=1

P P
P Infatti data una qualunque funzione f (x) convessa e i λi = 1 avremo che f ( i λ i xi ) ≤
i f (xi ).

Una funzione convessa é tale che f (λx1 + (1 − λx2 )) ≤ λf (x1 ) + (1 − λ)f (x2 ). Si vede che é
equivalente al fatto che f 00 (x) ≥ 0. Pertanto f (x) = − log x é convessa.
Si dimostra per induzione : per 2 é vera (vedi definizione di convessitá); se é vera per n allora
vediamo se é vera per n + 1:
n+1
X n
X
f( λi xi ) = f (λn+1 xn+1 + λi xi )
i=1 i=1
n
1 − λn+1 X
= f (λn+1 xn+1 + λ i xi )
1 − λn+1 i=1
n
1 X
≤ λn+1 f (xn+1 ) + (1 − λn+1 )f ( λ i xi )
1 − λn+1 i=1
n
X λi
≤ λn+1 f (xn+1 ) + (1 − λn+1 ) f (xi )
i=1
1 − λn+1
n
X n+1
X
= λn+1 f (xn+1 ) + λi f (xi ) = λi f (xi )
i=1 i=1

9.2 Gaussian Mixture


Specializziamo le precedenti osservazioni per la stima di una mistura di gaussiane. Le misture di
gaussiane (Gaussian Mixtures, GM) sono un modello statistico che può aiutare nella modellazione
di vari processi, ad esempio nel caso di segmentazione di immagini medicali.
Supponiamo di avere un insieme di N osservazioni [x1 , ..., xN ]T = x ciascuna delle quali sia
estratta da una tra K variabili gaussiane con parametri θ k = [µk , σk ] per k = 1, ..., K. Chiamiamo

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 147


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 9. Clustering o unsupervised learning

PK
πk la probabilità che un campione sia estratto dalla k-sima gaussiana (chiaramente k=1 πk = 1).
Sia inoltre Θ = [θ 1 , . . . , θ K , π1 , . . . , πK ] In definitiva la pdf della variabile aleatoria complessiva
(mistura) sarà data da:

K
X
p(x|Θ) = πk p(x|θ k )
k=1

La log-verosimiglianza dei dati incompleti é data da:


N
Y N
X K
X
log L(Θ|X ) = log p(xi |Θ) = log πk p(xi |θ k )
i=1 i=1 k=1

che in genere é di difficile trattabilitá.


Consideriamo ora i dati mancanti e precisamente Z = {zi }Ni=1 in modo tale che zi ∈ 1, . . . , M
e precisamente zi = k se il campione i-simo é stato estratto dalla k-sima distribuzione. La log-
likelihood diventa:
log L(Θ|X , Z) = log p(X , Z|Θ) (9.1)
N
X
= log p(xi |zi , Θ)p(zi |Θ)
i=1
N
X
= log πzi p(xi |zi , Θ)
i=1
(9.2)

Chiaramente i valori di zi non sono noti. Possiamo peró stimare la distribuzione delle zi .
Chiamiamo Θ(n) la stima dei parametri alla n-sima iterazione dell’algoritmo. Si ha, usando la
regola di Bayes:
(n)
p(xi |zi , Θ(n) )p(zi |Θ(n) ) πzi p(xi |zi , Θ(n) )
p(zi |xi , Θ(n) ) = =
p(xi |Θ(n) ) p(xi |Θ(n) )
(n)
πzi p(xi |zi , Θ(n) )
= PM (n) (n)
k=1 πk p(xi |k, Θ )
ed inoltre:
N
Y
p(Z|X , Θ(n) ) = p(zi |xi , Θ(n) )
i=1

come visto la verosimiglianza media sará data da:


X
Q(Θ|Θ(n) ) = p(Z|X , Θ(n) ) log L(Θ|X , Z)
Z

nel caso di variabili gaussiane con medie µ1 , . . . , µK e varianza σ12 , . . . , σK


2
le espressioni si sempli-
ficano come segue:
(xi − µzi )2
 
1
p(xi |zi , Θ(n) ) = p exp −
2πzi σz2i 2σz2i
e la eq. 9.2 si riscrive:
N
(xi − µzi )2
 
X 1
log L(Θ|X , Z) = log πzi p exp −
i=1
2πzi σz2i 2σz2i
N
X q (xi − µzi )2
= log πzi − log 2πzi σz2i −
i=1
2σz2i

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 148


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
9.2. GAUSSIAN MIXTURE

Si puó quindi vedere che:


K X
N
(xi − µzi )2
X  q 
(n) (n) 2
Q(Θ, Θ )= p(zi = k|xi , Θ ) log πzi − log 2πzi σzi −
2σz2i
k=1 i=1

PKOra derivando rispetto a πk ed introducendo il moltiplicatore di lagrange sulla condizione


k=1 πk = 1 otteniamo :
"K N #
2
 
∂ XX (n)
q (x i − µ z ) X
p(zi = k|xi , Θ ) log πzi − log 2πzi σz2i − i
+ λ( πm − 1) = 0
∂πk i=1
2σz2i m
k=1

e cioé:
N
X 1
p(zi = k|xi , Θ(n) ) + λ = 0
i=1
π k

da cui si ricava
K X
X N K
X
p(zi = k|xi , Θ(n) ) = − πk λ
k=1 i=1 k=1

che fornisce λ = −N e quindi:

(n+1) 1
πk = p(zi = k|xi , Θ(n) )
N
Analogamente per la media si ottiene;
PN
(n+1) xi p(zi = k|xi , Θ(n) )
µk = Pi=1
N
i=1 p(zi = k|xi , Θ(n) )

e perla varianza si ha:


PN
(n+1) i=1 p(zi = k|xi , Θ(n) )(xi − µk )2
σk = PN (n)
i=1 p(zi = k|xi , Θ )

9.2.1 Esempio Matlab


In questo esempio trattiamo la mistura di gaussiane con il metodo EM.

function [PK,k] = ms_GM_EM(Y,M,P0,delta,maxiter)


% [PK,k] = ms_GM_EM(Y,M,P0,delta,maxiter)
%
% Gaussian Mixture via Expectation Maximisation
%
% Y: vettore di osservazioni di dimensione [N x 1]
% M: numero gaussiane
% P0: valore iniziale dei parametri (opzionale) [M x 3]=[peso media std]
% P : stima finale dei parametri [M x 3]
% delta: differenza tra due verosimiglianze i iterazioni sucessive (opzionali)
% maxiter: numero massimo di iterazioni se non viene ragginta la
% convergneza in base a delta (opzionali)
% k: numero di iterazioni
%
% I valori Y=[y(1), y(2), ..., y(N)] sono estratti da una pdf di
% tipo Gaussian Mixture, cioè in cui il valore y(j) è estratto da una
% gaussiana scelta tra M possibili , ma si ignora quale.
% inoltre non sono noti i parametri delle varie gaussiane, e nemmeno la

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 149


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 9. Clustering o unsupervised learning

% probabilità di scegliere una determinata gaussiana.


% Per risolvere il problema si costruisce il cosidetto problema a dati
% completi in cui le y sono i dati osservati, e si introducono una
% variabile aleatoria indicatrice Z per cui z(j) = i significa che la
% j-sima oservazione è estratta dalla i-sima gaussiana.
% In questo modo X = (Z, Y) cotituisce l’insieme dei dati completo.
% A questo punto si può impostare la soluzione iterativa del problema
% mediante algoritmo EM:
% E-step: si stima la distribuzione a posteriori delle Z dati i dati
% osservati ed i parametri theta(k) stimati nella iterazione k;
% si calcola inoltre la media in distribuzione Z, condizionata ai dati
% osservati ed ai parametri theta(k), del logaritmo della verosimiglianza
% dell’insieme dei dati completi: questa verosimiglianza dipende da theta
% M-step: si massimizza la media calcolta al passo precedente rispetto a
% theta, ottenendo una nuovo insieme di parametri che costituiscono la
% stima theta(k+1) che verrà usata al passo succesisvo
% la’lgoritmo si ripete fino a convergenza cioè fino a quando la
% verosimiglianza corente differeisce di poco rispetto a quella precedente
%
% nella prima colonna di P0 i sono i pesi delle variabili non osservabili,
% nella seconda le medie delle gaussiqne, nella terza le sigma delle
% gaussiane
%
% by Mario Sansone, 20 giugno 2008

if (nargin < 2)
error(’Bisogna indicare almeno i dati e il numero di gaussiane’);
end
if (nargin < 5)
maxiter = 1000;
end
if (nargin < 4)
delta = 0.001;
end
if (nargin < 3)
% determina una stima iniziale dei parametri P0
P0 = [ones(M,1)*1/M, ...
((min(Y)+range(Y)/(M+1)):range(Y)/(M+1):(max(Y)-range(Y)/(M+1)))’ ...
ones(M,1)*std(Y)/M ];
end

N = length(Y);

% inizializzazione
PK = P0; %PK contiene la stima corrente dei parametri

fine = false;
k = 0;
while ( ~fine )

%E-step
% stima della distribuzione delle variabili non osservate indicatrici
% PZcond è NxM
% ogni riga contiene la distribuzione di probabilità della
% corrispondente osservazione

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 150


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
9.3. L’ALGORITMO K-MEANS

PZcond = normpdf(Y*ones(1,M),ones(N,1) * PK(:,2)’, ones(N,1) * ...


PK(:,3)’ ) .* (ones(N,1) * PK(:,1)’);
PZcond = PZcond ./ ( sum(PZcond’)’ * ones(1,M));

% M-step
% stima dei parametri che
% massimizzano la verosimiglianza
mu = sum(PZcond .* (Y*ones(1,M))) ./ sum(PZcond); % vettore riga
sigma = sqrt( sum (PZcond .* ...
(Y*ones(1,M) - ones(N,1) * mu).^2 ) ./ sum(PZcond) );% vettore riga
newPz = sum(PZcond) / N;% vettore riga

% memorizza per uso sucessivo


PK_OLD = PK;

% prepara i parametri per step successivo


PK = [newPz’, mu’ sigma’];

% verifica convergenza
norma = sum(sum((PK - PK_OLD).^2));

k = k + 1;

if ( norma < delta || k > maxiter)


fine = true;
end

end

% produce un plot dei dati e delle gaussiane


[NX,X] = hist(Y,100);
plot(X,NX/length(Y)/(X(2)-X(1)),’.’)
c = [’r’ ’g’ ’b’ ’y’ ’c’];
hold on
for m = 1:M
plot(X,PK(m,1)*normpdf(X’,PK(m,2),PK(m,3)),c(m))
h = line([PK(m,2) PK(m,2)],[0 max(NX(:)/length(Y)/(X(2)-X(1)))]);
set(h,’color’,’r’)
end
hold off

9.3 L’algoritmo k-means


Nel seguito si presenta un algoritmo il cui obiettivo é classificare gli individui senza alcuna co-
noscenza a priori (approccio non parametrico). Questo algoritmo non prevede un training set
(unsupervised learning). Il numero di classi deve esser noto, altrimenti si puó usare il numero di
classi che produce il migliore livello di confidenza eni risultati.
Il metodo é iterativo. Partiamo da un insieme di pattern che deve essere suddiviso in cluster. Nel
primo passo si scelgono a caso k pattern che vengono fissati come esemplari di partenza. Ciascuno

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 151


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 9. Clustering o unsupervised learning

dei pattern rimanenti viene assegnato ad un cluster sulla base della minima distanza. Quindi per
ogni cluster si calcola il nuovo esemplare effettuando la media dei pattern di quel cluster. A questo
punto tutti i pattern vengono ri-classificati: se nessun pattern cambia classe appartenenza allora
l’lgoritmo termina, altrimenti si calcolano i nuovi esemplari e si va avanti.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 152


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Parte III

Introduzione alle tecniche per il


trattamento della non
stazionarietá per segnali fisiologici

153
Capitolo 10

Analisi della non stazionarietá dei


segnali biomedici

In generale, nella letteratura scientifica concernente il trattamento di segnali aleatori sono state
sviluppate molte metodologie per il trattamento di segnali stazionari, cioé segnali le cui proprietá
statistiche sono invarianti per traslazione temporale. Non é, tuttavia, parimenti sviluppata una
metodologia per il trattamento della non-stazionarietá. Ció é dovuto al fatto che non é possi-
bile specificare la ‘natura’della non stazionarietá, ma é possibile solo individuare la mancanza di
stazionarietá.
Le proprietá di un processo casuale non-stazionario sono, in genere, funzioni tempo-varianti, che
possono essere determinate solo effettuando medie istantanee sull’insieme delle funzioni membro
che costituiscono il processo. Questo fatto ha impedito lo sviluppo di tecniche per il trattamento
di processi non-stazionari.
I segnali biomedici (ad es. EMG, ECG, HRV, EEG) sono non-stazionari in quanto riflettono
lo stato del sistema biologico, pertanto le loro caratteristiche non restano invariate per lunghi
intervalli di tempo. Tenendo conto delle premesse precedenti, una prima strategia per poter trattare
adeguatamente i segnali biologici e per poter sfruttare l’arsenale di metodologie avanzate esistenti
per l’analisi dei segnali stazionari, implica lo sviluppo delle metodiche per ‘segmentare’cioé dividere
il segnale biomedico in tratti in cui possa essere considerato stazionario.

10.1 Generalitá sui segnali non stazionari


Si possono individuare alcune classi di segnali non stazionari che presentano una caratterizzazione
ben definita:

• a valor medio tempo-variante: x(t) = a(t) + u(t)


• a valor quadratico medio tempo-variante: x(t) = a(t)u(t)

dove a(t) é deterministico mentre u(t) é un segnale stazionario a media nulla e nel secondo caso a
varianza unitaria.
I segnali a valor medio tempo-variante sono separabili nel senso che se la variazione di a(t) é
molto lenta rispetto alla frequenza piú bassa contenuta in u(t) allora é possibile stimare la media
mediante:

• filtraggio passa basso (separazione in frequenza);


• fitting polinomiale (interpolazione, corrisponde grossolanamente ad un filtraggio passa basso);

155
Capitolo 10. Analisi della non stazionarietá dei segnali biomedici

• stima dei valori medi su brevi segmenti (interpolazione lineare a tratti ).

Ricordiamo che per filtraggio si intende la stima del valore vero del campione n-simo di un
segnale x(n) sulla base dei valori passati del segnale x(n − 1), . . . , x(n − M ); per interpolazione
si intende la stima del valore n-simo del segnale sulla base dei campioni passati e di quelli futuri
x(n + 1), . . . , x(n + K).
In tal caso la stima sará polarizzata a causa di:

• frequenza di cut-off del filtro;

• grado del polinomio di fitting

• lunghezza del segmento

Ad esempio consideriamo un segnale x(t) = a(t) + u(t) e proviamo a fare delle stime delle medie
su brevi segmenti T :

Z t+T /2 Z t+T /2
1 1
µ̂x (t) = x(t)dt = a(t) + u(t)dt
T t−T /2 T t−T /2

si ha:

Z t+T /2 Z t+T /2 Z t+T /2


1 1 1
E[µ̂x (t)] = E[ x(t)dt] = a(t) + E[u(t)]dt = a(t)dt 6= a(t)
T t−T /2 T t−T /2 T t−T /2

e quindi la stima è polarizzata.


Un valore approssimato al primo ordine per il bias è (sviluppando in serie di Taylor nel punto t
e mantenendo i termini fino al secondo ordine):

t+T /2 t+T /2
(τ − t)2
Z Z
1 1
E[µ̂x (t)] = a(t)dt = a(t) + ȧ(t)(τ − t) + ä(t) dτ
T t−T /2 T t−T /2 2
2
T
= a(t) + ä(t)
24

Quindi l’errore di bias si riduce al diminuire di T e della derivata seconda di a(t): tuttavia
bisogna tenere conto che al diminuire di T l’errore nella stima di E[u(t)] aumenta. In definitiva la
scelta di T é basata su un compromesso.
Anche per segnali a valor quadratico medio tempo-variante la separabilitá é possibile se le
variazioni di a(t) sono molto lente rispetto alla piú bassa frequenza di u(t), il valore quadratico
medio si puó stimare dal segnale x2 (t) operando con gli stessi metodi esposti in precedenza; la
stima sará polarizzata per le medesime motivazioni.
Ad esempio si ha:

var[x(t)] = var[a(t)u(t)] = a2 (t)var[u(t)] = a2 (t)

e quindi si ha :
Z t+T /2 Z t+T /2
E[ a2 (τ )u2 (τ )dτ ] = a2 (τ )dτ 6= a2 (t)
t−T /2 t−T /2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 156


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
10.2. METODI PER TESTARE LA NON STAZIONARIETÁ

10.2 Metodi per testare la non stazionarietá


Dire che un segnale é stazionario significa dire che le proprietá (media e autocorrelazione) calcolate
su piccoli intervalli di tempo variano non significativamente da un intervallo all’altro. Per ‘non
significativitamente’si intende che le variazioni osservate sul segnale non sono maggiori di quanto ci
si attenderebbe in base alla semplice variabilitá statistica.
Per verificare la stazionarietá di un segnale si puó procedere in modi differenti. Un primo metodo
é quello di considerare la fisica del fenomeno: se i fattori che generano il fenomeno sono tempo-
varianti allora il segnale é non-stazionario. Un altro metodo é quello di accertare la non stazionarietá
da una singola realizzazione del processo, questo implica la validitá delle seguenti ipotesi:

• una qualunque funzione membro riflette le proprietá di non stazionarietá del processo;

• una qualsiasi funzione membro é molto piú lunga della componente a frequenza piú bassa,
cioé deve essere abbastanza lunga da permettere di discriminare i trend non stazionari da
fluttuazioni statistiche

Si puó assumere che le non-stazionarietá di interesse sono rivelate dai trend temporali del valore
quadratico medio dei dati.
Partendo da queste considerazioni si puó derivare un metodo generale per testare la stazionarietá:

1. dividere il segnale in N intervalli di uguale durata;

2. calcolare il valore quadratico medio per ciascun intervallo;

3. esaminare la sequenza ottenuta per verificare la presenza di variazioni che non siano dovute
al campionamento statistico. Se la distribuzione statistica è nota si possono applicare test
statistici

10.2.1 Runs test

Si tratta di un test sulla indipendenza dei dati che può essere usato per individuare non-stazionarietà
[5], [21].
Per capirne l’essenza facciamo le seguenti considerazioni. Consideriamo un processo aleatorio
x(k) i cui campioni siano estratti da una medesima pdf e siano indipendenti tra loro. A partire dal
processo formiamo una sequenza di simboli + o di − a seconda che il campione k-simo sia maggiore
o minore del valore mediano 1 della pdf. In questo modo i simboli hanno uguale probabilità di
occorrenza.
Si chiama run una sequenza di + o di −. Ad esempio nella sequenza seguente vi sono 3 runs:

+, +, +, −, −, −, −, −, +, +
| {z } | {z } | {z}
1 2 3

Sia n la lunghezza della sequenza e siano n+ ed n− il numero di + e di − rispettivamente.


Chiamiamo r+ ed r− il numero di runs positivi e negativi. Vogliamo determinare la distribuzione
di r+ ed r− quando siano fissati n, n+ ed n− .
Per fare ciò cominciamo con il calcolare in quanti modi possibili posso disporre gli n+ simboli
+ ed i n− simboli −. Per fissare la posizione del primo simbolo + nella sequenza ho a disposizione
n posti; per fissare il secondo ho n − 1 posti etc. Bisogna inoltre tenere conto che, fissata una
1 Ricordiamo che il valore mediano divide la pdf in due parti di uguale area

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 157


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 10. Analisi della non stazionarietá dei segnali biomedici

disposizione degli n+ simboli vi sono n+ ! permutazioni di questa disposizione tutte equivalenti tra
loro. Pertanto per posizionare n+ simboli + ho:
 
n(n − 1)...(n − n+ + 1) n! n! n
= = =
n+ ! n+ !(n − n+ )! n+ !(n− )! n+

disposizioni.
Ora calcoliamo il numero di modi in cui posso avere r+ runs fissati n+ e n− . Posso considerare
i runs di − come dei separatori dei runs di +. Posso rappresentare ad esempio:

+| + + + | + +| + | + ++ (10.1)

Pertanto per ottenere tutti i runs possibili posso pensare di trovare tutte le disposizioni delle
barre di separazione tra i runs positivi. Poichè vi sono n+ − 1 possibili separazioni e poichè devo
piazzare solo r+ −1 barre separatrici, allora il numero di runs positivi possibili sarà dato dal numero
di modi in cui posso disporre le r+ − 1 barre sulle n+ − 1 posizioni. Con ragionamento analogo ai
precedenti si vede che tale numero è :
 
n+ − 1 (n+ − 1)...(n+ − 1 − (r+ − 1) + 1) (n+ − 1)!
= =
r+ − 1 r+ − 1! (r+ − 1)!(n+ − r+ )!

Per ciascuna disposizione dei runs positivi bisogna fare un ragionamento analogo per i runs
negativi e pertanto il numero totale di disposizioni dei runs sara dato dal prodotto:

(n+ − 1)! (n− − 1)!


·
(r+ − 1)!(n+ − r+ )! (r− − 1)!(n− − r− )!

Infine osserviamo che il numero r+ può essere o uguale al numero di r− oppure differire di una
unità. Nel primo caso la sequenza deve iniziare con un simbolo e finire con un simbolo differente;
nel secondo caso deve iniziare e finire con lo stesso simbolo. Per tenere conto di ciò, nel caso che
r+ = r− il numero totale deve essere moltiplicato per 2.
La probabilità di ottenere un certo numero di runs r+ ed r− sarà data dal rapporto tra il numero
di sequenze con r+ e r− fissati ed il numero totale di sequenze :

(n+ −1)! (n− −1)!


(r+ −1)!(n+ −r+ )! (r− −1)!(n− −r− )!
P (r+ , r− |n+ , n− ) = C · n!
n+ !(n−n+ )!

dove la presenza del fattore C dipende dalle considerazioni precedenti ed é 1 per r+ 6= r− mentre é
2 per r+ = r− . Da questa espressione si può ricavare la distribuzione del numero totale u di runs
tenendo conto che u = 2r+ se r+ = r− mentre u = 2r− − 1 se r+ = r− − 1 oppure u = 2r+ − 1 se
r− = r+ − 1.
La media e la varianza di tale distribuzione sono:

2n+ n−
µu = +1
n
2n+ n− (2n+ n− − n)
σu2 =
n2 (n − 1)

Intuitivamente si capisce che se nella sequenza vi sono pochi runs oppure troppi runs, allora la
sequenza si discosta dall’ipotesi di campioni indipendenti estratti dalla stessa popolazione. Questa
considerazione è alla base del test.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 158


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
10.2. METODI PER TESTARE LA NON STAZIONARIETÁ

Figura 10.1: Applicazione del runs-test a vari tipi di serie temporali.

Per esempio (vedi fig. 10.1) se x(k) è un processo bianco il numero di runs osservati sarà molto
vicino al numero medio µu . D’altro canto se i dati sono relativi ad un trend (ad esempio crescente),
allora il numero di runs sarà molto più basso della media e l’ipotesi che x(k) è indipendente dai
valori precedenti dovrà essere rigettata.
In effetti il runs-test è un test sulla indipendenza e non sulla stazionarietà come si può osservare
dai seguenti due esempi (vedi fig.10.1). Come primo esempio consideriamo una serie temporale che
contiene solo una oscillazione ad alta frequenza (ad es. l’oscillazione del respiro sul tacogramma) in
questo caso il numero di runs sarà più alto del valore atteso. Come secondo esempio consideriamo il
ritmo chiamato 10-secondi sul tacogramma, si tratta di una oscillazione in bassa frequenza, pertanto
in tal caso il numero di runs sarà molto più basso del valore atteso. In entrambi i casi tuttavia le
condizioni del sistema cardiovascolare sono stazionarie.

Esempio

Consideriamo il caso di n+ = 3 e n− = 2 quindi n = 5 e tutte le possibili sequenze sono date dalla


tabella (10.2.1) costituita da 10 righe in quanto:

n! 5! 5·4·3·2·1 5·4
= = = = 10.
n+ !n− ! 3!2! 3·2·1·2·1 2

Ora consideriamo in quanti modi possiamo avere r+ = 2 e r− = 1: dalla tabella si vede che le
righe corrispondenti sono 3, 6. Infatti:
   
n+ − 1 n− − 1 2! 1!
C· · = = 2.
r+ − 1 r− − 1 1! 0!

Ora consideriamo il caso r+ = 1 e r− = 1: dalla tabella si vede che le righe corrispondenti sono
la 1 e la 8. In questo caso:
   
n+ − 1 n− − 1 1! 1!
C· · =2· = 2.
r+ − 1 r− − 1 0! 0!

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 159


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 10. Analisi della non stazionarietá dei segnali biomedici

Tabella 10.1: Runs-test: le possibili combinazioni nel caso n = 5 e n+ = 3.


1 + + + - -
2 + + - + -
3 + + - - +
4 + - + + -
5 + - + - +
6 + - - + +
7 - + - + +
8 - - + + +
9 - + + - +
10 - + + + -

Per il caso r+ = 2 e r− = 2 le righe sono 2,4,7,9. Infatti:


   
n+ − 1 n− − 1 2! 1!
C· · =2· = 4.
r+ − 1 r− − 1 1! 1!

10.2.2 Reverse arrangement test

Questo test é particolarmente potente nell’individuare trend monotonici in una sequenza di osser-
vazioni [5] [22].
Procediamo come segue:

1. dividiamo la sequenza in N intervalli di eguale durata tali che i dati in ciascun intervallo
possano essere considerati indipendenti.

1
R tk+1
2. calcoliamo il valore quadratico medio x2k = T tk
x2 (τ )dτ nell’intervallo k-simo e allineiamo
questi valori in sequenza x21 , x22 , ..., x2N

Supponiamo che la sequenza rappresenti misure di una v.a. stazionaria. Se questa ipotesi é vera
i valori della sequenza saranno random e non mostreranno nessun trend.
Per testare questa ipotesi usiamo il reverse arrangement test.
Contiamo il numero di volte che x2i > x2j per i < j. Ciascuna di queste diseguaglianze é detta un
reverse arrangement. Denotiamo il numero totale di reverse arrangement con A. Piú in dettaglio
si puó definire una matrice:


1 xi > xj
Hij =
0 otherwise

con questa notazione si ha:

N
X
ai = Hij
j=i+1
N
X −1
A= ai
i=1

Il numero di reverse arrangement é una variabile aleatoria con media e varianza date da:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 160


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
10.2. METODI PER TESTARE LA NON STAZIONARIETÁ

Tabella 10.2: Reverse arrangement: una sequenza di esempio


x21 x22 x23 x24 x25 x26 x27 x28 x29 x210
18 12 0 23 13 25 21 3 -3 9

N (N − 1)
µA =
4
2 N (2N + 5)(N − 1)
σA =
72

Esempio

Consideriamo la sequenza di tabella 10.2. La matrice H corrispondente é mostrata nell’equazione


(10.2). Inoltre il vettore a é mostrato in eq. (10.3). In questo caso A = 45.
 
0 1 1 0 1 0 0 1 1 1

 0 0 1 0 0 0 0 1 1 1 


 0 0 0 0 0 0 0 0 1 0 


 1 1 1 0 1 0 1 1 1 1 

 0 1 1 0 0 0 0 1 1 1 
H = Hij =   (10.2)

 1 1 1 1 1 0 1 1 1 1 


 1 1 1 0 1 0 0 1 1 1 


 0 0 1 0 0 0 0 0 1 0 

 0 0 0 0 0 0 0 0 0 0 
0 0 1 0 0 0 0 1 1 0
 
6

 4 


 1 


 8 

 5 
a = ai =   (10.3)

 9 


 7 


 2 

 0 
3

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 161


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 10. Analisi della non stazionarietá dei segnali biomedici

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 162


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 11

Analisi tempo-frequenza

La trasformazione di Fourier può essere interpretata come la decomposizione, nello spazio vettoriale
dei segnali, lungo una base di esponenziali complessi. Ad esempio:
Z ∞
x̂(ω) = F[x(t)]ω = x(τ )e−jωτ dτ =< x(t), exp(jωt) >
−∞

in effetti x̂(ω) sono i coefficienti dello sviluppo di x(t) in termini di esponenziali complessi:
Z ∞
1
x(t) = x̂(t)ejωt dω
2π −∞

Il grosso problema di questo approccio é che l’informazione temporale viene persa: il segnale
x(t) é correlato con una sinusoide che si estende ∀t ∈ R: l’informazione temporale é inclusa nella
fase della trasformata, ma non è facilmente interpretabile. Non è possibile, pertanto, conoscere la
posizione temporale di un certo evento.

11.1 Short Time Fourier Transform (STFT)


La STFT, detta anche spettrogramma, è un primo tentativo di superare la problematica descritta.
Consiste nel segmentare il segnale x(t) con un opportuna finestra w(t), e quindi effettuare la FT dei
vari segmenti. L’equazione base, per uno specifico segnale e per una specifica finestra, è la seguente:
Z
ST F Tx,w (f, t) = w(τ − t)x(τ )e−j2πf τ dτ

Le problematiche della STFt sono essenzialmente:

• selezionare una finestra ottima per un segnale contenente diverse caratteristiche può essere
difficile se non impossibile;
• trad-off tra tempo e frequenza: accorciando la durata delle finestra si ha una migliore risolu-
zione temporale ma una peggiore risoluzione in frequenza.

In particolare se la finestra è troppo corta, si perdono informazioni sulle basse frequenze che
non son più incluse nel segmento di segnale. Ciò è il contenuto del cosiddetto principio di inde-
terminazione di Heisenberg per cui il prodotto della risoluzione in frequenza (espressa in banda)
per il tempo deve essere più grande di una quantità fissata. In termini più rigorosi interpretiamo
|w(t)|2 come una distribuzione di probabilità calcoliamo il valor medio, analogo ragionamento lo
applichiamo alla FT |W (f )|2 :

163
Capitolo 11. Analisi tempo-frequenza

Z
1
t̄ = t|w(t)|2 dt
Ew
Z
¯ 1
f= f |W (f )|2 df
EW

dove Ew = EW = |w(t)|2 dt = |W (f )|2 df per il teorema di Parseval. Una misura di durata nel
R R

tempo ed ampiezza di banda in frequenza è data da:

Z
1
∆t2 = (t − t̄)2 |w(t)|2 dt = 0
Ew
Z
1
∆f 2 = (f − f¯)2 |W (f )|2 df = 0
EW

si può dimostrare che vale la relazione:


1
∆t∆f ≥

Questo significa che non si può ottenere una risoluzione arbitraria in frequenza e contempora-
neamente nel tempo.
Introducendo la funzione ht,f (τ ) = w(τ − t)ej2πf τ la STFT può esser vista come la decomposi-
zione di x(t) usando le funzioni base ht,f (τ )
Alcune proprietà della STFT sono:

• Invarianza per traslazione nel tempo

• Invarianza per traslazione in frequenza

• Il segnale può essere ricostruito:


Z Z
x(t) = c ST F Tx,w (τ, f )g(t − τ )ej2πf t dτ df

h(t)g ∗ (t)dt = 1
R
dove g(t) è una funzione che soddisfa

11.2 Generalised Short Time Fourier Transform (GSTFT)


Un primo tentativo di superare le limitaizoni della STFT consiste nel far variare la finestra con al
frequenza. Z
G(t, f ) = x(τ )w∗ (τ − t, f )e−j2πf τ dτ

La formula di ricostruzione è data da:

ej2πf t
Z Z
x(t) = G(τ, f )
aw (f )
R
dove aw (f ) = w(t, f )dt.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 164


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
11.3. WIGNER-VILLE

Se poniamo:  
α(f ) t
w(t, f ) = p wm
s(f ) s(f )

dove s(t) è definita dall’utente, allora si dimostra che la risoluzione in frequenza è proprio pari a
s(f ) .

11.3 Wigner-Ville

11.4 Atomi di Gabor


Gli atomi di Gabor si costruiscono traslando nel tempo ed in frequenza una funzione finestra g:

gu,ξ (t) = g(t − u)ejξt

la cui trasformata di Fourier é collegata alla trasformata ĝ di g:

ĝu,ξ (ω) = ĝ(ω − ξ)eju(ω−ξ)

L’energia di gu,ξ é concentrata in un intorno di u di dimensione σt cioé la deviazione standard


di |g|2 . Analogamente l’energia di ĝu,ξ é concentrata in un intorno di ξ di dimensione σω cioé la
deviazione standard di |ĝ|2 .
Per il teorema di indeterminazione σt σω ≥ 1/2. Quest’ultima diventa una eguaglianza se g é
una gaussiana, nel qual caso le g si chiama funzioni di Gabor.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 165


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 11. Analisi tempo-frequenza

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 166


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 12

Wavelet

12.1 Continuous Wavelet Transform


Da quanto detto nel paragrafo precedente si può concludere che con la STFT non è possibile
localizzare con la stessa precisione fenomeni che evolvono rapidamente (anomalies) e fenomeni che
invece evolvono lentamente (trend). Per ottenere un’analisi a risoluzione variabile occorre far in
modo che all’aumentare della frequenza f la banda ∆f aumenti in modo proporzionale. Ciò si può
ottenere costruendo un insieme di funzioni base mediante traslazione e cambiamento di scala di
un’unica funzione ψ(t) (vedi figura 12.1) [60, 61]:

1 t−b
ψa,b = √ ψ( )
a a

dove ψ(t) è detta wavelet madre, che deve soddisfare le seguenti proprietà (localizzazione nel tempo
ed in frequenza)

|ψ(t)| < c(1 + |t|)−1−


|ψ̂(ω)| < c(1 + |ω|)−1−

per  > 0 (qui ψ̂(ω) è la trasformata di Fourier), ed inoltre il fattore 1/ a assicura che la norma
sia costante |ψ(t)|2 .
A partire dalla mother wavelet è possibile definire la trasformata wavelet continua (CWT,

Figura 12.1: Esempi di atomi tempo-frequenza per la Wavelet

167
Capitolo 12. Wavelet

Continuous Wavelet Transform) del segnale f(t):

t−b
Z
1
T f (a, b) =< f, ψa,b >= √ f (t)ψ ∗ ( )dt
a a

La trasformazione inversa esiste se la seguente condizione è verificata:

|ψ̂(ω)|2
Z
Cψ = dω < +∞
|ω|

questa quantità decade rapidamente a zero grazie alla proprietà di localizzazione in frequenza della
wavelet. Quindi l’unica condizione da imporre per garantire che la costante Cψ non diverga è
ψ̂(0) = 0, che equivale a riconoscere che il valor medio della mother wavelet deve essere nullo dato
che:
Z +∞
ψ̂(0) = ψ(t)dt
−∞

Il segnale, in tal caso, può essere ricostruito:


Z +∞ Z +∞
da
f (t) = Cψ−1 T f (a, b)ψa,b (t)
0 a2 −∞

Valutiamo anche in questo caso la capacità di localizzazione tempo-frequenza della trasformata,


determinando ∆t e ∆f , tenendo presente che la funzione wavelet ha un comportamento passabanda.
Per la mother wavelet risulta:
Z +∞
(∆t)2 = t2 |φ(t)|2 dt
−∞
Z+∞
(∆f )2 = (f − f0 )2 |ψ̂(f )|2 df
−∞

Considerando un generico atomo centrato in b = b0 e a = a0, otteniamo per la durata:


Z +∞
(∆t)2a0 b0 = (t − b0 )2 |φa0 b0 (t)|2 dt
−∞
Z +∞
1 2 t − b0
= (t − b0 )2 φ ( )dt
−∞ a0 a0
Z +∞
= a20 τ 2 φ2 (τ )dτ = a20 (∆t)2
−∞

t−b0
Nella precedente è stato fatto il cambio di variabili: τ = a0 . In conclusione:

(∆t)a0 b0 = a0 ∆t

Analogamente si può far vedere che:

∆f
(∆f )a0 b0 =
a0

Questo significa che le celle di risoluzione per la trasformata Wavelet sono variabili nel piano
tempo-frequenza cosı̀ come è mostrato in figura 12.2.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 168


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
12.2. DISCRETE WAVELET TRANSFORM

Figura 12.2: Celle di risoluzione per la CWT.

12.2 Discrete Wavelet Transform


Siamo interessati alla versione discreta di tale trasformata. In questo caso, affinchè il piano tempo-
frequenza sia completamente coperto, la discretizzazione del parametro b deve essere legata a quella
del parametro a perchè funzioni compresse sull’asse temporale devono essere traslate con passo
piccolo per coprire l’intero range temporale, mentre funzioni espanse sull’asse dei tempi devono
essere traslate con passo grande. La discretizzazione quindi è la seguente:

a = a−m
0 se a0 > 1, m ∈ Z
b = n · b0 am
0 se b0 > 0, n ∈ Z.

Sostituendo nella formula delle funzioni wavelet continue i parametri cosı̀ definiti, si ottengono
le seguenti funzioni:

m/2
ψm,n (t) = a0 · ψ(am
0 (t) − n · b0 )

12.3 Analisi Multirisoluzione


In questo paragrafo descriviamo il legame tra la trasformata Wavelet e l’analisi multirisoluzione,
nel caso più semplice in cui le funzioni wavelet siano di tipo Haar (figura 12.3). Consideriamo una
funzione (detta di scaling) φ(t) = 1 per t ∈ (0, 1) e φ(t) = 0 per t ∈ / (0, 1). Consideriamo allora
un generico segnale f (t) e consideriamo una sua approssimazione grossolana, f 0 (t). Utilizzando la
seguente famiglia di funzioni costanti a tratti φ0,k (t) = φ(t − k). L’espansione in serie del segnale
f 0 (t) può essere scritta nella seguente forma:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 169


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 12. Wavelet

Figura 12.3: Funzioni di base ψ0,k (t).

X
f 0 (t) = c0,k φ0,k (t)
k

con i coefficienti c0,k dati dalla relazione:


Z +∞ Z k+1
c0,k =< f (t), φ0,k (t) >= f (t)φ0,k (t)dt = f (t)dt
−∞ k

Se volessimo ottenere una rappresentazione del segnale√f(t) a risoluzione maggiore dovremmo


considerare delle funzioni di scaling più strette: φ1,k (t) = 2φ(2t − k) in questo modo otteniamo
una versione più accurata di f(t):
X
f 1 (t) = c1,k φ1,k (t)
k

dove i coefficienti c1,k questa volta sono dati da:


k+1
Z +∞ Z 2
c1,k =< f (t), φ1,k (t) >= f (t)φ1,k (t)dt = f (t)dt
k
−∞ 2

La rappresentazione f 1 (t), a risoluzione maggiore, contiene sicuramente la rappresentazione


0
f (t), a risoluzione più bassa, il che ci consente di relazionare i coefficienti c0,k e c1,k . A tal fine
ricaviamo i coefficienti c1,2k e c1,2k+1 :

√ Z k+ 21
c1,2k = 2 f (t)dt
k
√ Z k+1
c1,2k+1 = 2 f (t)dt
k+ 21

da cui si ottiene

Z k+1 Z k+ 21 Z k+1
c1,2k + c1,2k+1
c0,k = f (t)dt = f (t)dt + f (t)dt = √
k k k 12 2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 170


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
12.3. ANALISI MULTIRISOLUZIONE

Più in generale, possiamo considerare la seguente famiglia di funzioni base per l’espansione del
segnale:

φj,k (t) = 2j φ(2j t − k)

con i coefficienti cj,k dati dalla relazione seguente:

Z k+1
j 2j
cj,k = 2 2 f (t)dt
k
2j

Le funzioni φj,k (t) sono dette funzioni di scaling, perchè, al variare di j = 0, . . . , n, forniscono
una rappresentazione del segnale f(t) a diverse risoluzioni: f0 (t), f1 (t), ..., fn (t), e generano i seguenti
spazi vettoriali:

V0 = span{φ0,k (t)}
V1 = span{φ1,k (t)}
..
.
Vn = span{φn,k (t)}

Il generico spazio Vj è quindi costituito da tutti quei segnali che possono essere espressi mediante
combinazione lineare, secondo opportuni coefficienti, delle funzioni φj,k (t). La sequenza di segnali
f0 (t), f1 (t), ..., fn (t) per come è stata costruita rappresenta una gerarchia di segnali a diversa riso-
luzione, che però risulta essere fortemente ridondante, essendoci una relazione di inclusione tra gli
spazi (figura 12.4):

V0 ⊂ V1 ⊂ . . . ⊂ Vn

In effetti è possibile ottenere una rappresentazione priva di ridondanza se facciamo il seguente


ragionamento. Supponiamo di avere un segnale f (t) appartenente allo spazio V1 , vale a dire:

f (t) ∈ V1 =⇒ f (t) ≡ f1 (t)


Risulta:

f (t) = f0 (t) + (f1 (t) − f0 (t))

Consideriamo allora la differenza D0 (t) = f1 (t) − f0 (t), e vediamo come può essere espressa
focalizzando l’attenzione all’intervallo [k, k + 1]:
 √
f1 (t) − f0 (t) = √2c1,2k − c0,k per k < t < k + 1/2
2c1,2k+1 − c0,k per k + 1/2 < t < k + 1
sostituendo nella precedente il valore di c0,k
(
√1 c1,2k − c1,2k+1 per k < t < k + 1/2
f1 (t) − f0 (t) = 2
√1 c1,2k+1 − c1,2k per k + 1/2 < t < k + 1
2

che possiamo riscrivere nel seguente modo:



d0,k , k < t < k + 1/2
f1 (t) − f0 (t) =
−d0,k , k + 1/2 < t < k + 1

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 171


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 12. Wavelet

Figura 12.4: Rappresentazione mediante gli spazi vettoriali.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 172


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
12.3. ANALISI MULTIRISOLUZIONE

Se definiamo: 
1 per k < t < k + 1/2
ψ0,k (t) =
−1 per k + 1/2 < t < k + 1
possiamo ricavare la differenza come:
X
D0 (t) = f1 (t) − f0 (t) = d0,k ψ0,k (t)
k

dove le funzioni ψ0,k (t) sono costituite dalle traslazioni della mother wavelet di Haar. Scopriamo,
in questo modo, che l’insieme delle funzioni base che genera D0 (t) sono rappresentate proprio dalle
funzioni wavelet ortogonali di Haar. In conclusione la rappresentazione f1 (t) risulta essere data da:
X X
f1 (t) = f0 (t) + D0 (t) = c0,k φ0,k (t) + d0,k ψ0,k (t)
k k
cioè il segnale è espresso attraverso la rappresentazione a risoluzione inferiore cui vanno aggiunti i
dettagli determinati proprio mediante un’espansione su base wavelet. Iterando questo procedimento
si ottiene la generica rappresentazione di fj+1 (t):

fj+1 (t) = fj (t) + Dj (t)


= fj−1 (t) + Dj−1 (t) + Dj (t)
...
= f0 (t) + D0 (t) + D1 (t) + ... + Dj (t)
= f0 (t) + D0 (t) + D1 (t) + ... + Dj (t)
XX
= f0 (t) + dj,k ψj,k (t)
j k

Questa rappresentazione non è ridondante e mostra che l’insieme di funzioni ψj,k (t) rappresen-
tano una base dello spazio vettoriale Wj , cioè

Wj = span{φj,k (t)}

Infine, notiamo che la funzione di scaling, detta anche father function, ψ(t) = ψ0,0 (t) ∈ V0 ⊂ V1
quindi può essere espressa come combinazione lineare secondo opportuni coefficienti indicati con hn
delle funzioni base che generano V1 :
X √ X
ψ(t) = hn ψ1,n = 2 hn ψ(2t − n)
n n

dove

√ Z +∞
hn =< ψ(t), ψ1,n (t) >= 2 ψ(t)ψ(2t − n)dt
−∞

In modo analogo, per la mother function si ha:


X √ X
φ(t) = gn ψ1,n = 2 gn ψ(2t − n)
n n

dove

√ Z +∞
gn =< φ(t), ψ1,n (t) >= 2 φ(t)ψ(2t − n)dt
−∞

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 173


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 12. Wavelet

Le due equazioni per ψ(t) e φ(t) rappresentano la prima e la seconda equazione dell’analisi
multirisoluzione (MRA), rispettivamente.

12.4 Banco di Filtri

In questo paragrafo determineremo la struttura mediante banco di filtri che ci permette di calcolare
con un algoritmo veloce i coefficienti wavelet per un segnale discreto, ottenendo in questo modo
ciò che è nota in letteratura come DWT (Discrete Wavelet Transform). Consideriamo, ancora una
volta, un segnale f (t) ≡ f 1 (t) ∈ V1 , per cui risulta:

X X X
f (t) = c1,n ψ1,n (t) = c0,n ψ0,n (t) + d0,n φ0,n (t)
n n n

Vogliamo ricavare la relazione tra i coefficienti c1,n ed i coefficienti c0,n e d0,n . Si ha:

X
c0,n =< f (t), ψ0,n (t) >=< c1,n ψ1,n (t), ψ0,n (t) >
n

X
= c1,n < ψ1,n (t), ψ0,n (t) >
n

dove:

Z +∞ p
< ψ1,n (t), ψ0,n (t) >= (2)ψ(2t − k)ψ(t − n)dt
−∞

Effettuando il cambio di variabili t → t + n si ottiene:

Z +∞ p
< ψ1,n (t), ψ0,n (t) >= (2)ψ(2t − (k − 2n))ψ(t)dt = hk−2n
−∞

In conclusione:

X X
c0,n = c1,k hk−2n = c1,k h̃2n−k
k k

dove abbiamo definito h̃n = h−n . Pertanto la sequenza di coefficienti c0,n si ottiene semplice-
mente mediante filtraggio e decimazione per 2 della sequenza c1,n . Utilizzando la II equazione MRA
e ripetendo i calcoli in maniera analoga, si ricava:

X X
d0,n = c1,k gk−2n = c1,k g̃2n−k
k k

Il legame tra i coefficienti è rappresentato nello schema a blocchi mostrato in figura 12.5.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 174


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
12.4. BANCO DI FILTRI

Figura 12.5: Implementazione con banco di filtri (fase di analisi)

A questo punto ripetiamo il ragionamento appena fatto nell’ipotesi in cui il segnale f (t) ≡
f 2 (t) ∈ V2 , per cui risulta:

X X X
f (t) = c2,n ψ2,n (t) = c1,n ψ1,n (t) + d1,n φ1,n (t)
n n n

e vediamo che tipo di relazione c’è tra i coefficienti c2,n ed i coefficienti c1,n e d1,n . Si ha:

X
c1,n =< f (t), ψ1,n (t) >=< c2,n ψ2,n (t), ψ1,n (t) >
n

X
= c2,n < ψ2,n (t), ψ1,n (t) >
n

dove:
Z +∞ √
< ψ2,n (t), ψ1,n (t) >= 2ψ(4t − k) 2ψ(t − n)dt
−∞

Effettuando questa volta il cambio di variabili t → (t + n)/2 si ottiene:

Z +∞ √
< ψ2,n (t), ψ1,n (t) >= 2ψ(2t − (k − 2n))ψ(t)dt = hk−2n
−∞

Scopriamo cosı̀ che anche modificando la scala non varia il legame tra i coefficienti:

X X
c1,n = c2,k hk−2n = c2,k h̃2n−k
k k

Si ottiene allora lo schema di decomposizione a due livelli riportato in figura 12.6. Ovviamente
lo schema può essere iterato fino al numero di livelli di decomposizione desiderati.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 175


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 12. Wavelet

Figura 12.6: Decomposizione wavelet su due livelli

Vediamo, adesso, quali sono i passi da seguire in fase di ricostruzione. Vogliamo cioè ricavare i
coefficienti c1,n a partire da c0,n e d0,n nell’ipotesi in cui f (t) ∈ V1 . Si ha:

X X
c1,n =< f (t), φ1,n (t) >=< c0,k ψ0,k (t) + d0,k φ0,k (t), ψ1,k (t) >=
k k

X X
= c0,k < ψ0,k (t), ψ1,k (t) > + d0,k < φ0,k (t), ψ1,k (t) >=
k k

dove:
Z +∞ √
< ψ0,k (t), ψ1,k (t) >= ψ(t − k) 2ψ(2t − n)dt = hn−2k
−∞

Z +∞ √
< φ0,k (t), ψ1,k (t) >= φ(t − k) 2ψ(2t − n)dt = gn−2k
−∞

In conclusione:

X X
c1,n = c0,k hn−2k + d0,k gn−2k
k k

Questa relazione mostra che è necessario realizzare un’espansione per 2 seguita da un filtraggio,
i cui coefficienti sono proprio quelli determinati dalle due equazioni MRA (figura 12.7). Lo schema
può essere iterato cosı̀ come già visto in fase di analisi all’aumentare del numero di livelli di decom-
posizione. Chiaramente è necessario imporre un vincolo alla lunghezza del segnale che deve essere
una potenza di 2.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 176


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
12.5. APPLICAZIONI IN CAMPO BIOMEDICO

Figura 12.7: Implementazione con banco di filtri(fase di sintesi)

12.5 Applicazioni in campo biomedico


Un’applicazione delle wavelete consiste nel loro utilizzo nella compressione dati: ovvero scartando
taluni coefficienti del dominio wavelet si può avere una compressione che può essere utilizzata nel
campo delle immagini [[59]].
Una delle prima applicazione della trasformata wavelet nell’imaging biomedico è stata la riduzio-
ne del rumore nelle immagini di Risonanza Magnetica [[58],[59]]. L’approccio proposto da Weaver
et al. è stato quello di calcolare una decomposizione wavelet ortogonale dell’immagine e applicare
la seguente regola di soft thresholding sui coefficienti ci,k =< f, φ(i, k) >:

 ci,k − ti , ci,k ≥ ti
c̃i,k = 0, | ci,k |≤ ti
ci,k − ti , ci,k ≤ −ti

dove ti è una soglia che dipende dal livello di rumore alla i-sima scala, l’immagine viene poi
ricostruito mediante la trasformata wavelet inversa. Questo algoritmo è estremamente semplice da
implementare e funziona bene per moderati livelli di rumore.
Le immagini di fMRI, che consentono una visualizzazione delle variazioni locali dell’ossigenazione
del sangue nel cervello indotta da attivazione neuronale sono estremamente rumorose e variabili, e la
loro interpretazione richiede l’uso di metodi di analisi statistica. In tal caso è utile usare le wavelet
per denoising e analisi dei dati: il vantaggio principale è che l’informazione è più discriminativa e
ben localizzata nello spazio, si concentra in un relativamente piccolo numero dei coefficienti, mentre
il rumore rimane equamente diviso tra tutti i coefficienti. Inoltre, il numero di prove statistiche
possono essere ridotte considerevolmente in primo luogo identificando i pochi canali di wavelet che
presentano notevoli differenze. Questa stessa operazione puo essere effettuata per diverse modalita
di imagin mediacale come PET, SPECT, ultrasuoni
La trasformata wavelet con risoluzione multiscale puo essere utilizzata otre che per la com-
pressione di segnali e immagini e per denosing, per risolvere problemi di enhancement grazie alla
separazione di segnale e rumore che puo essere raggiunta nel dominio trasformato.
Altra applicazione consta nell’utilizzo delle wavelet per Image Enhancement e segmentazione di
immgini. Infatti l’entità dei coefficienti wavelet misura la correlazione tra i dati dell’immagine e le
funzioni wavelet. Con la prima derivata basata su wavelet, l’entità dei coefficienti riflette la ”forza”
di variazione del segnale. Per le piccole onde sulla base della seconda derivata, la grandezza è legata
al contrasto locale intorno ad una variazione del segnale.
Con le proprieta della localizzazione spazio/frequenza, le funzioni wavelet consentono una rap-
presentazione ideale della tessitura delle immagini consentendo la massimizzazione dell-energia sia
nel dominio spaziale che nel dominio delle frequenze. In letteratura sono riportati alcuni studi

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 177


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo 12. Wavelet

che sfruttano le wavelet per la segmentazione basata sulla tessitura. Molti dei metodi presen-
ti in letteratura seguono tre step quali espansione multi scale, caratterizzazione delle feature e
classificazione.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 178


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Parte IV

Appendici

179
Appendice A

Notazioni e richiami

A.1 Notazioni
In queste dispense con le lettere minuscole in grassetto si intenderanno i vettori colonna N -dimensionali
1
:

 
x1
x =  ...  = [x1 , x2 , ..., xN ]T
 

xN

mentre con le lettere maiuscole in grassetto si intenderanno le matrici :

 
a11 a12 ··· a1N
 a21 a22 ··· a2N 
A=
 
.. .. .. .. 
 . . . . 
aM 1 aM 2 ··· aM N

Scriviamo esplicitamente alcune espressioni matriciali di uso comune 2 :

ar1
 
 ar2 
A = [ac1 , ac2 , · · · , acN ] = 
 
.. 
 . 
arM

ar1 x
 
 ar2 x 
Ax = 
 ... 

arM x

xT A = [xT ac1 , xT ac2 , · · · , xT acN ]

1 L’apiceT indica la trasposizione di un vettore o di una matrice. Per indicare l’operazione di trasposizione seguita
dalla coniugazione complessa si usa l’apice H (operatore Hermitiano)
2 ac vettore colonna, ar vettore riga

181
Capitolo A. Notazioni e richiami

   
a1 a 1 b1 a 1 b2 ··· a1 bN
 a2   a 2 b1 a2 b2 ··· a2 bN 
abT =   [b1 , b2 , · · · , bN ] = 
   
.. .. .. .. .. 
 .   . . . . 
aM aM b1 aM b2 ··· aM bN

Si ricorda che il prodotto matriciale é associativo (previa compatibilitá delle dimensioni matri-
ciali) ma non é commutativo ed in particolare si ha:

aT b 6= baT
(AB)T = BT AT

Valgono inoltre le seguenti espressioni3 :

   
a1 c1
 a2   c2 
abT c =     T
 ...  [b1 , b2 , ..., bM ]  ...  = (ab )c =
aN cM
T T
   
a1 b a1 b c
 a2 bT   a2 bT c 
= ...  c = 
  =
... 
T T
aN b aN b c
 
a1
 a2  T T
= ...  b c = a(b c)

aN

In alcune occasioni si potrá fare uso della notazione di Einstein sugli indici ripetuti:
X
ak xk = ak xk
k

ovvero quando in un termine compaiono due indici uguali si sottintende la sommatoria estesa a
tutti i valori possibili di quell’indice (indice muto).

A.2 Notazioni per il calcolo differenziale


La derivazione (gradiente) di una funzione f (x) scalare rispetto ad un vettore si indicherá con i
simboli:

∂f ∂f ∂f ∂f T
∇x f = =[ , , ..., ]
∂x ∂x1 ∂x2 ∂xN

Ad es. dato un vettore costante a e la funzione f (x) = ax = ak xk , si ha:

∂f
= [a1 , a2 , ..., aN ]T = a
∂x
Inoltre, data la matrice A si ha:
3 posto che a, b e c abbiano dimensioni compatibili tra loro

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 182


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
A.3. METODO DEI MOLTIPLICATORI DI LAGRANGE

f (x) = xT Ax = [ak1 xk , ak2 xk , ..., akN xk ]x = akj xk xj

(dove si é fatto uso della convenzione di Einstein)per cui:

∂f
= [a1j xj + ak1 xk , a2j xj + ak2 xk , ..., aN j xj + akN xk ]
∂x
= Ax + AT x

A.3 Metodo dei moltiplicatori di Lagrange


Un metodo molto utile nelle applicazioni é il metodo dei moltiplicatori di Lagrange che serve per
trovare punti stazionari (cioé dove la funzione non cresce né decresce) di una funzione, con il vincolo
che tali punti appartengano ad una certa curva o superficie multi-dimensionale. Piú specificamente,
data la funzione z = f (x) si vuole trovare i punti stazionari soggetti ad un determinato vincolo
sulle x descritto dall’equazione g(x) = 0.
Cominciamo col ricordare che il gradiente di f (x) é ortogonale alle ipersuperfici isolivello della
funzione stessa (cioé le ipersuperfici lungo cui il valore della funzione non cambia). Infatti, la
derivata lungo una generica direzione n é data dalla proiezione del gradiente lungo quella direzione

∂f
= ∇x f · n
∂n
in particolare lungo la direzione t tangente alla sipersuperficie isolivello si deve avere

∂f
= ∇x f · t = 0
∂t
proprio perch’e la funzione é costante lungo la isolivello.
Osserviamo anche che se consideriamo la funzione z = g(x) ed applichiamo l’osservazione pre-
cedente, otteniamo che ∇x g é ortogonale alla ipersuperficie g(x) = 0 che é appunto una isolivello
(il livello é 0).
Infine basta osservare che i punti che cerchiamo sono dei punti stazionari per f (quindi appar-
tenenti alle isolivello) che facciano parte della ipersuperifice g(x) = 0. Pertanto si deve avere che
lungo la ipersuperficie g(x) = 0 la funzione f (x) deve essere stazionaria. Cioé il gradiente di f deve
essere ortogonale alla ipersuperficie g(x) = 0. In definitiva si deve avere che di due gradienti devono
essere diretti lungo la medesima direzione, cioé ∇x f = λ∇x g
Per risolvere il problema si procede come segue: si costruisce la funzione:

L(x, λ) = f (x) − λg(x)

Effettuiamo il gradiente rispetto all’insieme di variabili aumentato (x, λ).

∂L ∂L
∇L = ( , ) = (∇x f − λ∇x g, g(x))
∂x ∂λ
Eguagliando a zero tale derivata, la prima componente esprime il fatto che i gradienti siano
paralleli, mentre la seconda componente assicura il soddisfacimento dei vincoli.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 183


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo A. Notazioni e richiami

A.4 Richiami su probabilitá e processi aleatori


Si ritiene opportuno richiamare brevemente alcune formule riguardanti la probabilitá e le principali
caratteristiche dei processi aleatori [8], [23], [5], [13]. Nel seguito si considerano segnali reali, le
formule si possono estendere ai segnali complessi con opportune modifiche.

A.5 Probabilitá
Richiamiamo alcune formule utili riguardanti la probabilitá.
Se Bk sono eventi mutuamente esclusivi la cui unione sia l’intero spazio di probabilitá allora:
K
X K
X
P (A) = P (A ∩ Bk ) = P (A|Bk )P (Bk ) (A.1)
k=1 k=1

detta regola della probabilitá marginale. Da questa consegue la regola di Bayes:


P (A|Bj )P (Bj ) P (A|Bj )P (Bj )
P (Bj |A) = = PK (A.2)
P (A) k=1 P (A|Bk )P (Bk )

A.6 Caratterizzazione di processi aleatori


Sia {x(t)} un processo (segnale) aleatorio ed indichiamo con xk (t) la k-sima realizzazione del proces-
so. Fissati due istanti di tempo t1 e t2 possiamo esprimere la media e la autocorrelazione statistica
del processo come segue:

N
1 X
µx (t1 ) = lim xk (t1 )
N →∞ N
k=1
N
1 X
rx (t1 , t2 ) = lim xk (t1 )xk (t2 )
N →∞ N
k=1

Il processo si dice stazionario al primo ordine se la media non dipende da t1 ; stazionario al


secondo ordine se la autocorrelazione dipende solo dalla differenza t1 − t2 ; stazionario in senso lato
se é stazionario al primo e al secondo ordine.

µx (t) = µx
rx (t, t − τ ) = rx (τ )

Se tutti i momenti di qualunque ordine n sono indipendenti dal tempo, cioé se:

N
1 X
µnx (t1 , t2 , ..., tn ) = lim xk (t1 )xk (t2 )...xk (tn ) = µnx (t1 + τ, t2 + τ, ..., tn + τ )
N →∞ N
k=1

allora il segnale si dice stazionario in senso stretto. Se non é stazionario nememno al primo ordine
il processo si dice non stazionario.
Nella pratica non sono disponibili tutte le realizzazioni del processo, ma si ha a che fare con una
singola realizzazione. In questo caso é utile il concetto di ergodicitá: un segnale si dice ergodico se
le caratteristiche statistiche coincidono con quelle di una singola realizzazione:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 184


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
A.7. SEGNALE E RUMORE

Z T
1
µx (k) = µx = lim xk (t)dt
T →∞ 2T −T
Z T
1
rx (τ, k) = rx (τ ) = lim xk (t)xk (t − τ )dt
T →∞ 2T −T

Finora abbiamo considerato segnali a tempo continuo. Considerazioni analoghe alle precedenti
possono essere fatte per segnali a tempo discreto. Sia {x(n)} un segnale a tempo discreto si hanno le
seguenti espressioni per la media, la varianza, l’autocorrelazione, e l’autocovarianza (consideriamo
segnali reali):

µx (n) = E[x(n)]
σx2 (n) = E[|x(n) − µx (n)|2 ]
rx (k, l) = E[x(k)x(l)]
cx (k, l) = E[(x(k) − µx (k))(x(l) − µx (l))]

e si hanno le seguenti relazioni tra autocorrelazione e autocovarianza:

cx (k, l) = rx (k, l) − µx (k)µx (l)


cx (k, k) = σx2 (k).

Per due processi aleatori {x(n)} e {y(n)} possiamo definire la cross-correlazione e la cross-
covarianza e le relative relazioni:

rxy (k, l) = E[x(k)y(l)]


cxy (k, l) = E[(x(k) − µx (k))(y(l) − µy (l))]
cxy (k, l) = rxy (k, l) − µx (k)µy (l).

Due processi aleatori si dicono incorrelati se la cross-correlazione é uguale al prodotto delle


medie o equivalentemente se la loro cross-covarianza é zero, inoltre si dicono ortogonali se la cross-
correlazione é zero:

rxy (k, l) = µx (k)µy (l)


cxy (k, l) = 0
rxy (k, l) = 0

A.7 Segnale e rumore


Nella pratica i segnali sono ottenuti con procedimenti di misura che sono soggetti ad errori. Tipi-
camente questi errori possono essere schematizzati come un processo a media nulla incorrelato con
il segnale di interesse. Pertanto detto x(n) il segnale di interesse, {w(n)} il rumore suddetto, il
procedimento di misura fornisce il processo aleatorio {y(n)} dato da y(n) = x(n) + w(n).
Per l’autocorrelazione del processo {y(n)} si ottiene l’espressione seguente:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 185


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo A. Notazioni e richiami

ry (k, l) = E[y(k)y(l)] = E[(x(k) + w(k))(x(l) + w(l))]


= E[x(k)x(l)] + E[w(k)w(l)] + E[x(k)w(l)] + E[x(l)w(k)]
= rx (k, l) + rw (k, l) + rxw (k, l) + rxw (l, k)
= rx (k, l) + rw (k, l)

per l’ipotesi di incorrelazione e dato che w(n) ha media nulla.


Come esempio si consideri il seguente segnale, somma di rumore aleatorio e di sinusoidi a fase
aleatoria indipendenti tra di loro ed uniformi tra −π e +π:

M
X
x(n) = Am sin(nωm + φm ) + v(n)
m=1

Per questo segnale l’autocorrelazione é la seguente:

M X
X M
rx (k, l) = Am Aj E[sin(kωm + φm ) sin(lωj + φj )] + rv (k, l)
m=1 j=1
M
X
= A2m E[sin(kωm + φm ) sin(lωm + φm )] + rv (k, l)
m=1
M
1 X 2
= A E[cos((k − l)ωm ) − cos((k + l)ωm + 2φm )] + rv (k, l)
2 m=1 m
M
1 X 2
= A cos((k − l)ωm ) + rv (k, l)
2 m=1 m

A.8 Processi gaussiani


Ricordiamo che una variabile aleatoria x si dice gaussiana se la pdf é la seguente:

1 (x − µx )2
fx (x) = √ exp{− }.
σx 2π 2σx2

Dato un vettore x = [x1 , x2 , ..., xn ]T si dice che le xi sono congiuntamente gaussiane se

1 1
fx (x) = exp{− (x − µx )T Cx −1 (x − µx )}
(2π)n/2 |Cx |1/2 2

dove µx = [µ1 , µ2 , ..., µn ]T e µi = E[xi ] ed inoltre cij = (xi − µi )(xj − µj ).


Un processo si dice gaussiano se ogni collezione di campioni é congiuntamente gaussiana.
Per un processo gaussiano la stazionarietá in senso stretto coincide con la stazionarietá in senso
lato, in quanto media e varianza caratterizzano completamente il processo.

A.9 Proprietá dei processi stazionari in senso lato


L’autocorrelazione é simmetrica:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 186


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
A.10. MATRICE DI AUTOCORRELAZIONE

rx (k) = E[x(n + k)x(n)] = E[x(n)x(n + k)] = E[x(m − k)x(m)] = rx (−k)

Il valore massimo é in k = 0, infatti, tenendo conto che la media di una quantitá non negativa
é non negativa:

0 ≤ E[|x(n + k) − x(n)|2 ] = rx (0) + rx (0) − 2rx (k)


= 2rx (0) − 2rx (k) = rx (0) − rx (k)

A.10 Matrice di autocorrelazione


Dato un vettore aleatorio x = [x(0), x(1), ..., x(p)]T costituito da p campioni del segnale stazionario
in senso lato x(n), si puó definire il seguente prodotto:
 
x(0)x(0) x(0)x(1) ··· x(0)x(p)
 x(1)x(0) x(1)x(1) ··· x(1)x(p) 
xxT = 
 
.. .. .. .. 
 . . . . 
x(p)x(0) x(p)x(1) · · · x(p)x(p)

La media di tale matrice é detta matrice di autocorrelazione di estrema importanza nelle


applicazioni:
 
rx (0) rx (−1) ··· rx (−p)
 rx (1) rx (0) ··· rx (−p + 1) 
Rx = E[xxT ] = 
 
.. .. .. .. 
 . . . . 
rx (p) rx (p − 1) · · · rx (0)

Analogamente si definisce la matrice di autocovarianza:

Cx = E[(x − µx )(x − µx )T ]
Cx = Rx − µx µT
x

La matrice di autocorrelazione gode delle seguenti proprietá:

• é simmetrica4 RT
x = Rx

• é toeplitz 5 : Rx = T oep{rx (0), rx (1), ..., rx (p)}


• é semidefinita positiva: Rx > 0, infatti detto a un vettore qualunque, si ha aT Rx a =
aT E[xxT ]a = E[aT (xxT )a] = E[aT x(aT x)] = E[(aT x)2 ] ≥ 0
• gli autovalori sono non negativi, infatti detto v un autovettore, essendo definita positiva si
ha: 0 ≤ vT Rv = λvT v = λ|v|2 → λ ≥ 0
• autovalori differenti corrispondono ad autovettori ortogonali, infatti detti λ1 , λ2 due autovalori
e v1 , v2 i corrispondenti autovettori, tenendo conto che aT Rb é uno scalare, si ha:
λ1 v2T v1 = v2T Rv1 = (v2T Rv1 )T = v1T RT v2 = v1T Rv2 = λ2 v1T v2
pertanto (λ1 − λ2 )v1T v2 = 0 ed essendo gli autovalori distinti deve essere v1T v2 = 0.
4 Piú
precisamente se si fa riferimento a processi aleatori complessi allora la matrice di autocorrelazione é
Hermitiana RHx = Rx
5 Una matrice si dice toeplitz se ciascuna diagonale é costituita da elementi tutti uguali

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 187


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo A. Notazioni e richiami

• si puó diagonalizzare (teorema di decomposizione spettrale):


sia V = [v1 , ..., vn ] la matrice costituita dagli autovettori di modulo unitario ed ortogonali
tra loro si ha

RV = R[v1 , ..., vn ] = [λ1 v1 , ..., λn vn ]


 
λ1 0 · · · 0
 0 λ2 · · · 0 
= [v1 , ..., vn ]  .  = VD
 
.. .. ..
 .. . . . 
0 0 ··· λn

per cui  
λ1 0 ··· 0 v1T

 0 λ2 ··· 0  T  P
  v2  n
R = VDVT = [v1 , ..., vn ]  = k=1 λk vk vkT

.. .. .. .. 
... 
 . . . . 
0 0 ··· λn vnT

A.11 Stima delle principali quantitá

Se disponiamo delle osservazioni [x1 , . . . , xN ] di una variabile aleatoria X allora possiamo stimare
media e varianza con le seguenti formule.

1
PN
media µx = N k=1 xk

1
PN
varianza σx2 = N −1 k=1 (xk − µx )2

A.12 Filtraggio di segnali aleatori

Ricordiamo le principali formule che esprimono le relazioni tra ingresso ed uscita di un filtro LTI,
per segnali aleatori:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 188


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
A.13. IL PROCESSO DI POISSON

y(n) = x(n) ∗ h(n)


µy (n) = E[y(n)] = E[x(n) ∗ h(n)] = E[x(n)] ∗ h(n) = µx (n) ∗ h(n)
X
ryx (l, k) = E[y(l)x(k)] = E[ h(m)x(l − m)x(k)]
m
X X
= h(m)E[x(l − m)x(k)] = h(m)rx (l − m − k)
m m
= rx (l − k) ∗ h(l − k)
X X
ry (l, k) = E[y(l)y(k)] = E[ h(m)x(l − m) h(j)x(k − j)]
m j
XX
= E[ h(m)h(j)x(l − m)x(k − j)]
m j
XX
= h(m)h(j)E[x(l − m)x(k − j)]
m j
XX
= h(m)h(j)rx (l − m − k + j)
m j
!
X X
= h(j) h(m)rx (l − k + j − m)
j m
X
= h(j)ryx (l − k + j)
j
= ryx (k − l) ∗ h(k − l)

A.13 Il processo di Poisson


Il processo di Poisson é frequentemente usato per modellare l’occorrenza di eventi in istanti di
tempo aleatori. Nel contesto bio-ingegneristico, il processo di Poisson é usato in vari contesti, tra
cui ad esempio, nella modellazione del processo di scarica dei moto-neuroni, per modellare il rumore
quantistico su radiografie, e per modellare il conteggio degli eventi rilevati in uno scanner PET.
Consideriamo un intervallo di tempo T . Distribuiamo casualmente n punti all’interno di questo
intervallo. Sia ∆t un intervallo incluso in T . La probabilitá che un punto cada all’interno di ∆t é
p = ∆t
T . Vogliamo calcolare la probabilitá che k punti cadano all’interno di ∆t [13].
Tale evento puó essere visto come la ripetizione per k volte dello stesso evento di probabilitá p,
in una sequenza di n ripetizioni.
Come noto una tale probabilitá é data da 6 :
 
n
P (k occorrenze su n ripetizioni) = pk q n−k
k

dove q = 1 − p é la probabilitá dell’evento ‘il punto cade all’esterno dell’intervallo ∆t’, e quindi

k n−k n
p q é la probabilitá di una particolare sequenza di punti con k punti in ∆t, mentre é il
k
numero di tali sequenze.
6 Dati n elementi da disporre su k posti, per trovare il numero di combinazioni senza ripetizioni si puó procedere

come segue: scelto l’elemento per la prima posizione restano n − 1 elementi per la seconda posizione; fissato il
secondo restano n − 2 per la terza posizione, e cosı́ via. Pertanto abbiamo n(n − 1)(n − 2)...(n − k + 1) modi
di scegliere gli elementi. In questo ragionamento, peró, uno stesso elemento puó, in distribuzioni differenti, essere
posto in posizioni differenti e quindi possiamo avere distribuzioni che sono una permutazione l’una dell’altra. Poiché il
n(n−1)(n−2)...(n−k+1)
numero di permutazioni di k elementi é k! allora il numero di combinazioni senza ripetizioni é k!
=
 
n! n
k!(n−k)!
=
k

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 189


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo A. Notazioni e richiami

Figura A.1: Processo di Poisson e sua derivata

Se n é molto grande rispetto a k allora n(n − 1)(n − 2)...(n − k + 1) ≈ nk , supponendo inoltre


p  1 → 1 − p ≈ e−p

nk k n (np)k q n (np)k e−np


 
n n(n − 1)(n − 2)...(n − k + 1) k n−k
pk q n−k = p q ≈ p q = =
k k! k! k! k!

Quindi in definitiva tenendo conto della definizione di p:

(λ∆t)k e−λ∆t
P (k occorrenze su n ripetizioni) =
k!

n
dove λ = T é numero medio di punti nell’unitá di tempo.
Diciamo ora x(t, t + ∆t) il numero di eventi che occorrono tra gli istanti t e t + ∆t. Si ha che
k −λ∆t
P (x(t, t + ∆t) = k) = (λ∆t)k!e . Il processo aleatorio x(t) = n(0, t) é detto processo di Poisson.
La media di tale processo é λt, infatti:

∞ ∞
X (λt)k e−λt X (λt)k
µx (t) = E[x(t)] = k = e−λt k =
k! k!
k=0 k=1
∞ ∞
X (λt)k X (λt)k−1
= e−λt = λte−λt =
(k − 1)! (k − 1)!
k=1 k=1
∞ m
−λt
X (λt)
= λte = λte−λt eλt = λt
m=0
(m)!

Si puó calcolare facilmente anche il valore quadratico medio:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 190


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
A.13. IL PROCESSO DI POISSON


X (λt)k
E[x2 (t)] = e−λt k2
k!
k=0

X (λt)k
= e−λt k
(k − 1)!
k=1

−λt
X (λt)k−1
= λte k
(k − 1)!
k=1
∞ ∞
!
−λt
X (λt)k−1 X (λt)k−1
= λte (k − 1) +
(k − 1)! (k − 1)!
k=1 k=1
∞ ∞
!
X (λt)m X (λt)n
= λte−λt m +
m=0
(m)! n=0
n!
= λte−λt λteλt + eλt = (λt)2 + λt


Per quanto riguarda l’autocorrelzione si ha, se t1 ≤ t2 (essendo x(t1 ) e x(t2 ) − x(t1 ) indipendenti
perché gli intervalli temporali sono disgiunti):

rx (t1 , t2 ) = E[x(t1 )x(t2 )]


= E{x(t1 )[x(t1 ) + x(t2 ) − x(t1 )]}
= E[x2 (t1 )] + E{x(t1 )[x(t2 ) − x(t1 )]}
= (λt1 )2 + λt1 + λt1 λ(t2 − t1 ) = λt1 + λ2 t1 t2

Analogamente se t2 ≤ t1 :

rx (t1 , t2 ) = rx (t2 , t1 ) = λt2 + λ2 t1 t2

e quindi in definitiva:

rx (t1 , t2 ) = λ min(t1 , t2 ) + λ2 t1 t2

Quindi il processo non é stazionario. Si puó visualizzare il processo di Poisson come una serie
di gradini di ampiezza unitaria e durata aleatoria (fig. A.1).
Consideriamo ora il processo ∂x(t) che si ottiene filtrando il processo di Poisson x(t) con un
filtro derivatore. Poiché la derivata é un operatore lineare potremo usare le formule stabilite per i
filtri LTI. In particolare avremo:

∂µx (t)
µ∂x (t) = µx (t) ∗ h(t) = =λ
∂t
Il processo ∂x(t) puó essere espresso come:

X
∂x(t) = δ(t − tk )
k=0

dove tk sono gli istanti (aleatori) di occorrenza degli eventi.


Per quanto riguarda l’autocorrelazione del processo ∂x(t), si puó calcolare conoscendo l’auto-
correlazione del processo di Poisson e ricordando che va calcolata usando due filtri derivatori in
cascata in due passi:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 191


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo A. Notazioni e richiami

∂ 2 rx (t1 , t2 ) ∂ 2 λ min(t1 , t2 ) + λ2 t1 t2
r∂x (t1 , t2 ) = =
∂t1 ∂t2 ∂t1 ∂t2
2
∂λu(t1 − t2 ) + λ t1
= = λδ(t1 − t2 ) + λ2
∂t1

Un ultima utile considerazione é che la distanza tra due punti del processo di Poisson y =
tn − tn−1 é una variabile esponenziale di parametro λ:

P (y < (tn − tn−1 ) < y + dy) = p(y) = λe−λy (A.3)

Infatti la probabilità che la durata dell’intervallo (tn−1 , tn ) sia > y é uguale alla probabilità che
durante questo intervallo il numero di eventi sia 0 e cioé:

(λ∆t)0 e−λ(tn −tn−1 )


P (Y > y) = P (n(tn−1 , tn ) = 0) = = e−λy .
0!

Per cui la funzione cumulativa di probabilità (CDF) sará:

F (y) = P (Y < y) = 1 − P (Y > y) = 1 − e−λy

e quindi la PDF:
∂F
p(y) = = λe−λy .
∂y

A.13.1 Esempio in Matlab


% Generiamo un processo di Poisson

Ts = 0.01; % tempo di campionamento


lambda = 1; % numero medio di eventi al secondo
mu = 1 / lambda; % prametro della distribuzione esponenziale

% genera intervalli
M = 10;
r = exprnd(mu,M,1);

% numero di intervalli di campionamento che corrispondono a ciascun


% intervallo
% di Poisson
rr = round(r/Ts);

% genera un vettore con il treno di impulsi


time = [];
for k = 1:length(rr)
time = [time; zeros(rr(k),1); 1];
end

% processo di poisson = somma degli eventi


c = cumsum(time);

% vettore dei tempi


t = Ts*(0:length(time)-1)’;

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 192


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
A.13. IL PROCESSO DI POISSON

Figura A.2: esempio di processo di Poisson generato con il sorgente Matlab.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 193


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo A. Notazioni e richiami

% media teorica del processo


y = lambda*t;

% visualizza
plot(t,[c y])
xlabel(’time [s]’)
ylabel(’number of events’)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 194


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Appendice B

Stima spettrale per applicazioni


biomediche - Metodi non
parametrici

Le tecniche di analisi spettrale o stima dello spettro di potenza di segnali vengono utilizzate per
determinare il contenuto energetico di un segnale in ogni intervallo di frequenza significativo. Sono
particolarmente utili nell’analisi dei segnali biomedici per estrarre periodicità nascoste.
Lo spettro di potenza di un processo casuale stazionario in senso lato, è dato dalla trasformata
di Fourier della sequenza di autocorrelazione:


X
Sx (ejw ) = rx (k)e−jkw
k=−∞

L’autocorrelazione per un processo ergodico è data dalla seguente relazione:

N
1 X
rx (k) = lim x(n + k)x(n)
N →∞ 2N + 1
n=−N

Nell’applicazione pratica si presentano le seguenti limitazioni:

• il numero di campioni N del processo misurato è finito;


• i campioni della sequenza misurata sono affetti da rumore.

I metodi disponibili possono essere suddivisi in due classi:

• metodi non parametrici: non si fa alcuna ipotesi sui possibili modelli del segnale conside-
rato;
• metodi parametrici: si suppone che il segnale sia ottenuto mediante l’uso di un opportuno
modello i cui parametri devono essere determinati.

B.1 Metodi non parametrici


Questi metodi sono basati sull’idea di stimare la sequenza di autocorrelazione di un processo casuale
usando una singola realizzazione del processo, e di farne poi la trasformata di Fourier, ottenendo
cosı̀ una stima della densità spettrale di potenza.

195
Capitolo B. Stima spettrale per applicazioni biomediche - Metodi non parametrici

B.1.1 Periodogramma
Una prima approssimazione della funzione di autocorrelazione é la seguente (stima polarizzata):

N −1
1 X
r̂x (k) = x(n + k)x(n)
N n=0

La seguente formula offre una stima non polarizzata dell’autocorrelazione:

−1−k
NX
1
r̂x (k) = x(n + k)x(n)
N n=0

I valori di r̂x (k) per k < 0 sono definiti usando la simmetria per la quale r̂x (−k) = r̂x (k).
Una stima della densità spettrale di potenza (periodogramma) può quindi calcolarsi come la
trasformata di fourier della stima della sequenza dell’autocorrelazione come segue:

N
X −1
P̂per (ejw ) = r̂x (k)e−jkw
k=−N +1

In realtà possiamo esprimere il Periodogramma direttamente in termini della sequenza del pro-
cesso aleatorio; a questo scopo il segnale troncato ai suoi primi N campioni si puó pensare ottenuto
moltiplicando il processo per un’opportuna finestra (finestra rettangolare o finestra di Bartlett) che
azzera i campioni per n ≥ N come segue:

xN (n) = x(n)wR (n)

In termini di xN (n) la stima della sequenza dell’autocorrelazione si calcola:


1 X 1
r̂x (k) = xN (n + k)xN (n) = xN (k) ∗ xN (−k)
N n=−∞ N

Effettuandone la trasformata i Fourier otteniamo il Periodogramma:

1 ∗ 1
P̂per (ejw ) = XN (ejw )XN (ejw ) = |XN (ejw )|2
N N

Dove XN (ejw ) è la trasformata discreta di fourier della sequenza xN (n):


X N
X −1
XN (ejw ) = xN (n)e−jnw = x(n)e−jnw
n=−∞ n=0

Prestazioni del periodogramma

Uno stimatore consistente é uno stimatore per il quale la polarizzazione e la varianza tendono
entrambe a zero al crescere del numero di osservazioni. La bontá della stima infatti si ritiene
usualmente legata alla bontá della sua media (accuratezza) e della sua varianza (precisione). Per
quantificare tali caratteri si introducono le seguenti grandezze:

• Polarizzazione: é la differenza tra il valore vero α del parametro ed il valore atteso della stima
α − E[α̂];

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 196


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
B.1. METODI NON PARAMETRICI

• Varianza: E[(α̂ − E[α̂])2 ].

Pertanto una stima consistente della densità spettrale di potenza, ovvero una stima non pola-
rizzata deve verificare le seguente uguaglianze:

lim E[P̂per (ejw )] = Px (ejw )


N →∞

lim V ar[P̂per (ejw )] = 0


N →∞

Idealmente all’aumentare della lunghezza della sequenza, il periodogramma deve convergere alla
PSD. Si può dimostrare che la media del periodogramma è data da:

1
E[P̂per (ejw )] = Px (ejw ) ∗ WB (ejw )

Dove WB (ejw ) è la trasformata di Fourier della finestra di Bartlett:

1 sin(N w/2) 2
WB (ejw ) = [ ]
N sin(w/2)

Dunque il Periodogramma è polarizzato, ma asintoticamente non-polarizzato perchè al tendere


di N all’infinito WB (ejw ) tende ad un impulso:

lim E[P̂per (ejw )] = Px (ejw )


N →∞

Il periodogramma non è uno stimatore consistente, in quanto è possibile mostrare che la sua
varianza non va a zero al tendere di N all’infinito. Infatti per un processo casuale gaussiano a media
nulla si ha:

V ar[P̂per (ejw )] = Px2 (ejw )

Lo smoothing introdotto dalla finestra di bartlett limita la capacità del periodogramma di risol-
vere componenti a banda stretta ravvicinate (sinusoidi a frequenza poco differente). Per quantificare
questo potere risolutivo si usa l’ampiezza del lobo principale della DFT della finestra del bartlett,
ottenendo:

Res[P̂per (ejw )] = 0.892π/N

Interpretazione come banco di filtri

Il periodogramma può essere visto come una stima spettrale ottenuta con un banco di filtri passa
banda. A tale scopo consideriamo un filtro FIR dato da:

1 jnωi
hi (n) = e wR (n) (B.1)
N

la cui risposta in frequenza è data da:


N −1
X sin(N (ω − ωi )/2)
Hi (ejω ) = hi (n)ejnω = e−j(ω−ωi )(N −1)/2 (B.2)
n=0
N sin((ω − ωi )/2)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 197


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo B. Stima spettrale per applicazioni biomediche - Metodi non parametrici

che è un filtro passa banda con frequenza centrale di ωi e banda ∆ω = 2π/N . Si ha :


n n
X 1 X
yi (n) = x(n) ∗ hi (n) = x(k)hi (n − k) = x(k)ej(n−k)ωi (B.3)
N
k=n−N +1 k=n−N +1

poichè |Hi (ejω )|ω=ωi = 1 allora Px (ωi ) = P y(ωi ) la potenza in uscita dal filtro è :
Z π
1 ∆ω 1
E[|yi (n)|2 ] = Px (ω)|Hi (ω)|2 dω ≈ Px (ωi ) = Px (ωi ) (B.4)
2π −π 2π N

usando come stima della potenza una media su un punto Ê[|yi (n)|2 ] = |yi (N − 1)|2 allra si ha:
N −1
1 X
P̂ (ωi ) = N Ê[|yi (n)|2 ] = N |yi (N − 1)|2 = | x(k)e−jkωi |2 (B.5)
N
k=0

B.1.2 Periodogramma modificato


É possibile modificare le caratteristiche spettrali dello stimatore impiegando finestre diverse da quel-
la rettangolare. Cambiando finestra bisogna cercare di migliorare il trade-off tra ampiezza del lobo
principale, corrispondente alla risoluzione spettrale, e ampiezza dei lobi laterali. Il periodogramma
di un processo finestrato con una finestra generica è caratterizzato dalla seguente relazione:


1 X
P̂M (ejw ) = | x(n)w(n)e−jnw |2
N U n=−∞

dove N é la lunghezza della finestra ed U é un fattore di normalizzazione che tiene conto della
potenza introdotta dalla finestra:

N −1
1 X
U= |w(n)|2
N n=0
1
E[P̂M (ejw )] = Px (ejw ) ∗ |W (ejw )|2 V ar[P̂M (ejw )] = Px2 (ejw )
2πN U

dove W (ejw ) è la trasformata di Fourier della finestra generica;


La risoluzione in frequenza dipende dal tipo di finestra utilizzato:

Res[P̂M (ejw )] = (∆w3db )

B.1.3 Metodo di Bartlett


La media della stima del periodogramma tende allo spettro del segnale all’aumentare del numero
di campioni N su cui viene calcolata la media stessa:

lim E[P̂per (ejw )] = Px (ejw )


N →∞

Pertanto un metodo classico per ridurre la varianza della stima è quello di calcolare la me-
dia di numerose stime indipendenti; l’applicazione di questo concetto alla stima dello spettro è
comunemente attribuita a Bartlett: che introdusse il concetto di poter migliorare il metodo del
periodogramma cercando uno stimatore della sua media. Considero K realizzazioni di un processo

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 198


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
B.1. METODI NON PARAMETRICI

i
casuale x(n), xi (n) per i =1,2,...,K ed n = 0,1,...,L-1 scorrelate fra loro. Indico con P̂per (ejw ) il
periodogramma dell’ i-sima realizzazione:
L−1
1 X
i
P̂per (ejw ) = | xi (n)e−jnw |2 ; i = 1, 2, ..., K
L n=0

la media di questi periodogrammi è:


K
1 X i
P̂x (ejw ) = P̂ (ejw )
K i=1 per

Calcolando il valore atteso di P̂x (ejw ) abbiamo:


1
E[P̂x (ejw )] = E[P̂per
i
(ejw )] = Px (ejw ) ∗ WB (ejw )

Dunque P̂x (ejw ) è asintoticamente non polarizzato. In aggiunta, con l’assunzione che i set di dati
sono scorrelati, è possibile dimostrare che la varianza di P̂x (ejw ) è:
1 1
V arP̂x (ejw ) = i
V arP̂per (ejw ) ≈ Px2 (ejw )
k k
che tende a zero al tendere per k → ∞. Dunque P̂x (ejw ) è una stima consistente della densità
spettrale di potenza al tendere di K ed L all’infinito. Purtroppo K realizzazioni di un processo non
sono in genere disponibli. Disponendo di una singola realizzazione di lunghezza N, la si suddivide
in K segmenti non sovrapposti di lunghezza L:
xi (n) = x(n + iL); n = 0, 1, ...., L − 1, i = 0, 1, .....K − 1
Dunque la stima di Bartlett è:
k−1 L−1
1 X X
P̂B (ejw ) = | x(n + iL)e−jnw |2
N i=0 n=0

La differenza rispetto al caso ideale di più realizzazioni è che non posso, a priori, considerare le
sotto-sequenze cosi ottenute scorrelate fra loro. Le prestazione del periodogramma di Bartlett sono
elencate di seguito:
1
E[P̂B (ejw )] = Px (ejw ) ∗ WB (ejw )

ovvero il suo valore atteso è la convoluzione dello spettro vero Px (ejw ) con la trasformata di Fourier
della funzione finestra triangolare corrispondente ad un periodogramma calcolato su N campioni,
dunque P̂B (ejw ) è asintoticamente non polarizzato; la varianza assumendo che le sequenza di dati
sono approssimativamente scorrelate si calcola
1 1
V ar[P̂B (ejw )] ≈ i
V arP̂per (ejw ) ≈ Px2 (ejw )
K k
Questa espressione evidenzia che la varianza di P̂B (ejw ) è inversamente proporzionale al numero di
periodogrammi mediati e che quando K diventa grande la varianza tende a zero, ovverosia che la
stima di Bartlett è una stima consistente. Tale risultato è corretto solo se i periodogrammi sono
incorrelati; in realtà le sequenze sono blocchi contigui di una stessa realizzazione (quindi difficilmente
incorrelate) da cui consegue una riduzione della varianza di un fattore inferiore a K. La risoluzione
spettrale infine è
2π 2π
Res[P̂B (ejw )] = 0.89 = 0.89K
L N
Per una lunghezza fissata della sequenza da analizzare, al crescere del numero dei periodogrammi,
diminuisce la varianza e anche L e quindi la risoluzione dello spettro; pertanto diminuire le dimen-
sioni delle sottosequenze comporta una corrispondente diminuzione della risoluzione dello spettro
stimato. Quindi nel metodo di Bartlett si deve raggiungere un compromesso tra il bias (o risoluzione
dello spettro) e la varianza della stima.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 199


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo B. Stima spettrale per applicazioni biomediche - Metodi non parametrici

B.1.4 Metodo di Welch


Welch ha proposto due modifiche al metodo di Bartlett:

• sovrapposizione (overlap) delle sequenze;

• finestratura delle sequenze.

Assumendo che sequenze successive sono separate da D punti e che ogni sequenza ha lunghezza
pari ad L, l’i-sima sequenza è data da:
xi (n) = x(n + iD), n = 0, 1, ...., L − 1
Le sequenze si sovrappongono quindi di L-D punti e se dagli N valori della sequenza d’origine
x(n) si ottengono K sequenze: N=L+D(K-1). Pertanto senza sovrapposizione abbiamo K=N/L
sequenze di lunghezza L (metodo di Bartlett). Mentre con una sovrapposizione del 50 per cento
(D=L/2) abbiamo k = 2N L −1 sequenze di lunghezza L. Dunque manteniamo la stessa risoluzione del
metodo di bartlett(stessa lunghezza) mentre raddoppiamo il numero di periodogrammi modificati
mediati, riducendo la varianza. Comunque con una sovrapposizione del 50 per cento possiamo anche
assumere K = N L − 1 sequenze di lunghezza 2L, ciò consente di migliorare la risoluzione spettrale
mantenendo la varianza analoga a quella della stima di bartlett. La stima del periodogramma di
Welch è:

k−1 L−1
1 X X
P̂W (ejw ) = | x(n + iD)w(n)e−jnw |2
KLU i=0 n=0

Dunque il valore atteso della stima di Welch è:

1
E[P̂W (ejw )] = E[P̂M (ejw )] = Px (ejw ) ∗ |W (ejw )|2
2πLU

Come con il periodogramma modificato la risoluzione spettrale è definita come la banda a 3 db


della finestra applicata ai dati. É possibile mostrare che con una sovrapposizione del 50 per cento
e per un numero di sottosoquenze pari ad K, la varianza dello stimatore vale:

9 L 2 jw
V ar[P̂W (ejw )] ≈ P (e )
16 N x

B.1.5 Metodo di Blackman-Tukey


Nei metodi precedenti abbiamo calcolato la stima dello spettro di potenza direttamente dalla tra-
sformata di Fourier. Un altro approccio alla stima dello spettro di potenza è di stimare prima la
sequenza di autocorrelazione, e poi trasformarla usando la trasformata di Fourier.
Ricordando che per una sequenza di dati di lunghezza N, la varianza della stima dell’autocor-
relazione r̂x (k) sarà tanto più grande per quei valori di k vicini ad N, l’unico modo per ridurre la
varianza del periodogramma è ridurre la varianza di queste stime o ridurre il contributo che esse
danno al periodogramma. Nel metodo di Blackman-tukey la varianza del periodogramma è ridotta
applicando una finestra ad r̂x (k). La stima dello spettro è:

M
X
P̂BT (ejw ) = r̂x (k)w(k)e−jkw
k=−M

Dove w(k) ad esempio è una finestra rettangolare che va da -M a M con M < N − 1. Usando
il teorema della convoluzione, lo spettro di blackman-tukey può essere riscritto nel dominio della

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 200


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
B.1. METODI NON PARAMETRICI

frequenza come segue:


Z π
jw 1 1
P̂BT (e )= P̂per (ejw ) ∗ W (ejw ) = P̂per (eju ) ∗ W (ej(w−u) )du
2π 2π −π

Per analizzare le prestazioni di tale metodo si calcola il valore atteso e la varianza della stima dello
spettro:
1
E[P̂BT (ejw )] = Px (ejw ) ∗ W (ejw )

M
1 2 jw X 2
V ar[P̂BT (ejw )] ≈ Px (e ) w (k)
N
k=−M

Pertanto per ridurre il valore atteso occorre scegliere M grande allo scopo di minimizzare l’altezza
del lobo principale di W (ejw ), mentre occorre scegliere M piccolo per minimizzare la somma nel-
l’equazione che determina la varianza della stima dello spettro. Generalmente è raccomandato un
valore di M=N/5.

B.1.6 Stima dello spettro a minima varianza


L’idea e quella di filtrare il segnale con un banco di filtri a banda stretta. Le motivazioni di questo
approccio possono essere capite osservando gli effetti su un processo causale stazionario in senso lato
sottoposto ad un filtraggio con un banco di filtri a banda stretta. Dunque dato x(n) un processo
aleatorio stazionario in senso lato a media nulla con densità spettrale di potenza Px (ejω ) e dati
gi (n) filtri passa-banda ideale aventi banda paria a ∆ e frequenza centrale ωi :

|Gi (ejω )| = 1 : |ω − ωi | < ∆/2

Se x(n) è filtrato con gi (n) lo spettro di potenza dell’uscita del filtro è la seguente:

Pi (ejω ) = Px (ejω )|Gi (ejω )|2

e la potenza:
Z π Z π
1 1
E[|yi (n)|2 ] = Pi (ejω )dω = Px (ejω )|Gi (ejω )|2 dω =
2π −π 2π −π

Z ωi +∆/2
1
Px (ejω )dω
2π ωi −∆/2

Se ∆ è sufficientemente piccola cosı̀ che si può ritenere in tale banda Px (ejω ) approssimativa-
mente costante, la potenza del segnale all’uscita dell’ i-simo filtro diventa:

E[|yi (n)|2 ] = Px (ejωi )

Dunque è possibile stimare la densità spettrale di potenza del processo x(n) alla frequenza
ω = ωi come rapporto tra la potenza dell’uscita dell’i-simo filtro e la banda normalizzata ∆/2π:

E[|yi (n)|2
Px (ejωi ) =
∆/2π

Siccome non si può ottenere realmente un filtro ideale a banda stretta si considera un banco di
filtri gi (n) aventi frequenza centrale ωi tali da lasciare passare la componente a frequenza ωi e da
rigettare il piú possibile la potenza fuori banda. Filtrando x(n) con ciascuno di tali filtri la densità
spettrale di potenza alla frequenza ωi sará pari alla potenza di yi (n) divisa per l’ampiezza della
banda.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 201


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo B. Stima spettrale per applicazioni biomediche - Metodi non parametrici

Consideriamo filtri FIR gi (n) di ordine p che non alterino il segnale alla frequenza ωi :
p
X
ωi
Gi (e ) = gi (n)e−jnωi = 1
n=0

poniamo:
gi = [gi (0), gi (1), ..., gi (p)]T
ed ei il vettore di esponenziali complessi eωi :

ei = [1, ejωi , ..., ejpωi ]T

Allora la condizione precedente diventa:


eH
i gi = 1 (B.6)

Vogliamo che il filtro rigetti il piu possibile la potenza fuori banda e che consenta di misurare
accuratamente la potenza del segnale x(n) alla frequenza ωi pertanto deve verificarsi la condizione
di cui sopra.
Dobbiamo minimizzare pertanto la potenza in uscita del filtro:

E[|yi (n)|2 ] = giH Rx gi

soggetta al vincolo giH ei = 1. per fare ció usiamo il metodo dei moltiplicatori di Lagrange, per cui
dobbiamo minimizzare la seguente funzione:

L(gi , λ) = giH Rx gi − λ(giH ei − 1)

Ponendo il gradiente rispetto giH pari a 0 otteniamo:

∇giH (L(gi , λ)) = Rx gi − λei = 0

Allora :
gi = λR−1
x ei

E il valore di λ si ricava dalla condizione di vincolo B.6:


1
λ= −1
eH
i Rx ei

Ed infine:
R−1
x ei
gi =
ei R−1
H
x ei

Pertanto il minimo valore della potenza dell’uscita dell’i-simo filtro è:


1
min E[|yi (n)|2 ] = −1
gi eH
i Rx ei

Il ragionamento che abbiamo fatto non dipende dalla frequenza per cui vale per tutte le frequenze.
Dunque il filtro ottimo per la stima della potenza di x(n) alla frequenza ω è:

R−1
x e
g=
e R−1
H
x e

e la stima della potenza è:


1
σx2 =
eH R−1
x e

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 202


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
B.1. METODI NON PARAMETRICI

Adesso dobbiamo stimare la densità spettrale di potenza del processo x(n) dividendo la stima della
potenza per la banda del filtro. Ci sono diversi criteri per definire la banda, il più semplice è usare il
valore di ∆ che produce il corretto valore della densità spettrale di potenza di un rumore gaussiano
bianco. Essendo per un rumore bianco la minima potenza pari ad

E[|yi (n)|2 ] = σx2 /(p + 1)

otteniamo che la PSD è:



Px (ejw ) = σx2 /(p + 1)

e che quindi la banda deve essere:

∆=
p+1

In conclusione la densità spettrale di potenza del segnale sarà:


p+1
Px (ejw ) =
eH R−1
x e

Maggiore è l’ordine del modello p più stretta è la banda. Ma per stimare la matrice Rx di ordine
p dobbiamo conoscere almeno p campioni del segnale x(n). Pertanto l’ordine massimo p è limitato
da N . Inoltre bisogna tener conto che le stime di correlazione vicine ad N sono affette da una più
grande varianza, per cui l’ordine p ≪ N .

B.1.7 Stima dello spettro a massima entropia


Una delle limitazioni degli approcci classici per la stima della densità spettrale di potenza è che
per una sequenza x(n) lunga N , la autocorrelazione può essere stimata solo per |k| < N . Le
stime spettrali viste finora pongono a zero l’autocorrelazione per |k| > N . Sarebbe auspicabile,
soprattutto per processi a banda stretta, estrapolare la stima dell’autocorrelazione per |k| > N .
Data l’autocorrelazione rx (k) di un processo stazionario in senso lato nell’intervallo |k| < p il
problema che ci proponiamo di risolvere è quello di estrapolare rx (k) per |k| > p. Denotando il
valore estrapolato re (k), è chiaro che qualche vincolo dovrà essere imposto su re (k). Per esempio,
posto che
Xp X
Px (ejw ) = rx (k)e−jkw + re (k)e−jkw
k=−p |k|>p

è la densitá spettrale di potenza del processo, il vincolo che si impone è che questa deve essere reale
e non-negativa. In genere questo vincolo non è sufficiente a garantire un’unica estrapolazione.
Nel metodo MEM (proposto da Burg, 1975) si cerca di estrapolare rx (k) per |k| > p massi-
mizzando l’entropia del processo. L’entropia è una misura della aleatorietà del processo, cioé della
quantità di incertezza e di informazione presente in un segnale aleatorio 1 . Pertanto massimizzare
l’entropia equivale a rendere lo spettro il più piatto (bianco) possibile ovvero equivale a cercare le
sequenze dell’autocorrelazione di un processo aleatorio che risulta un processo gaussiano bianco.
Per un processo gaussiano l’entropia è:
Z π
1
H(x) = ln Px (ejw )dw
2π −π
1 Il concetto di entropia nasce nella fisica statistica. In quel contesto é una misura del grado di disordine di un

sistema. Dato ad esempio un gas composto di N molecole, ciascuna di queste molecole sará in uno stato energetico.
La somma delle energie (trascurando l’interazione mutua) fornisce l’energia del sistema in toto. Se l’energia com-
plessiva del sistema é mantenuta costante e fissata ad un valore noto, allora le singole molecole potranno assumere
configurazioni energetiche la cui somma totale sia quella nota. Chiaramente il numero di configurazioni possibili
aumenta rapidamente all’aumentare del numero di molecole e dell’energia complessiva. Il numero di configurazioni
possibili per un sistema che si trova in uno stato energetico compreso tra E0 ed E0 + dE rappresenta il numero degli
stati accessibili Γ. Si definisce entropia del sistema la quantitá S = lnΓ.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 203


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo B. Stima spettrale per applicazioni biomediche - Metodi non parametrici

Pertanto l’obiettivo è quello trovare una funzione di correlazione che coincide con quella del processo:
Z π
1
Px (ejkw )ejkw dw = rx (k); |k| < p
2π −π
E che massimizza l’entropia per |k| > p. Il valore di re (k) che massimizza l’entropia per |k| > p può
essere trovato effettuando la derivata di H(x) rispetto ad re∗ (k) e ponendola uguale a zero:
Z π
∂H(x) 1 1 ∂Px (ejw )
= dw; |k| > p
∂re∗ (k) 2π −π Px (ejw ) ∂re∗ (k)
Essendo
∂Px (ejw )
= ejkw
∂re∗ (k)
otteniamo Z π
1 1
ejkw dw = 0; |k| > p
2π −π Px (ejw )
1
Definendo Qx (ejw ) = Px (ejw ) abbiamo:
Z π
1
qx (k) = Qx (ejw )ejkw dw = 0; |k| > p
2π −π

Dunque
p
1 X
Qx (ejw ) = = qx (k)e−jkw
Px (ejw )
k=−p

e segue che lo spettro che massimizza l’entropia per un processo gaussiano, che denotiamo P̂mem (ejw )
è dato da:
1
P̂mem (ejw ) = Pp −jkw
k=−p x (k)e
q
Usando il teorema di fattorizzazione spettrale possiamo esprimere lo spettro di potenza come segue:
|b(0)|2
P̂mem (ejw ) = Pp −jkw |2
|1 − k=1 ap (k)e

Alternativamente, in termini dei vettori ap = [1, ap (1), ap (2), .....ap (p)]T ed e = [1, ejw , .....ejpw ]T lo
spettro MEM può essere riscritto come:
|b(0)|2
P̂mem (ejw ) =
|eH ap |2
Avendo determinato la forma dello spettro MEM non rimane che determinare i coefficienti ap (k)
e b(0). Questi coefficienti devono essre scelti in modo che l’inversa della trasformata di fourier a
tempo discreto di P̂mem (ejw ) produca una sequenza di autocorrelazione che uguagli il valore dato
di rx (k) per |k| < p. Pertanto i coefficienti ap (k) sono soluzione dell’equzione seguente in forma
matriciale:
R̄āp = r̄
ove
rx∗ (1) rx∗ (p)
 
rx (0) .....


 rx (1) rx (0) ..... rx (p − 1) 

R̄ = 
 . . . . 

 . . . . 
rx (p) rx (p − 1) ..... rx (0)
e b(0) si ottiene dall’equazione detta di Yule-Walker:
p
X
|b(0)|2 = ap (k)rx∗ (k)
k=0

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 204


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
B.1. METODI NON PARAMETRICI

Esiste un’interessante relazione che lega la stima dello spettro MEM alla stima dello spettro MV:
lo spettro MV è la media armonica di spettri MEM fino all’ordine p.
p
1 1 X 1
(p)
= (k)
P̂M V (ejw ) p+1 P̂mem (ejw )
k=0

A causa di questo smoothing lo spettro MEM fornisce in genere una migliore risoluzione rispetto
allo spetttro MV.

B.1.8 Periodogramma di Lomb


XXXXXXXXXXXXXXXXX

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 205


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo B. Stima spettrale per applicazioni biomediche - Metodi non parametrici

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 206


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Appendice C

Stima spettrale per applicazioni


biomediche - Metodi parametrici

Incorporando una conoscenza a priori nella stima dello spettro, cioé ipotizzando che il segnale in
oggetto sia modellabile opportunamente, si puó ottenere una migliore accuratezza e risoluzione dello
stesso.
Il primo passo é scegliere un modello appropriato in base alle informazioni disponibili sul processo
in esame (nel caso biomedico si intende un qualche modello fisiologico sottostante); oppure in base
a risultati sperimentali che indicano che il modello ‘funziona’. Una volta scelto il modello bisogna
stimarne i parametri. É importante tenere presente che un modello puó portare ad una stima errata
o fuorviante se il modello non rappresenta bene il processo che si vuole analizzare.
Nel seguito si considera il modello autoregressivo (Auto Regressive, AR) che risulta di particolare
importanza nel contesto dei segnali biomeidici.

C.1 Modello autoregressivo


Si dice che un segnale stazionario a media nulla x(n) é modellabile mediante un modello autore-
gressivo di ordine p se esso soddisfa la seguente equazione:

p
X p
X
x(n) = bk x(n − k) + w(n) → ak x(n − k) = w(n) (C.1)
k=1 k=0

2
dove w(n) é un processo aleatorio a media nulla, autocorrelazione impulsiva, di potenza σw (rumore
T T
bianco); ak = −bk e a0 = 1 o equivalentemente a = [1, a1 , ..., ap ] = [1, −b ].
Il segnale x(n) si puó veder pertanto come l’uscita di un filtro lineare di coefficienti ak al cui
ingresso sia w(n) (fig. C.1).

Figura C.1: Modello Auto Regressivo

207
Capitolo C. Stima spettrale per applicazioni biomediche - Metodi parametrici

Per calcolare i coefficienti ak determiniamo la autocorrelazione del segnale moltiplicando l’eq.


C.1 per x(n − l) e prendendo la media statistica (vedi [9]):
p
X
E[ ak x(n − k)x(n − l)] = E[w(n)x(n − l)]
k=0
p
X
ak E[x(n − k)x(n − l)] = E[w(n)x(n − l)]
k=0
p
X
ak rx (l − k) = 0, l > 0
k=0

avendo riconosciuto che E[w(n)x(n − l)] = 0 per l > 0 infatti il campione x(n − l) é incorrelato al
campione ‘futuro ’w(n).
Pp
Ponendo l = 1, 2, ..., p abbiamo p equazioni del tipo rx (l) = k=1 bk r(l − k) che possono essere
riassunte nel seguente sistema matriciale:
    
rx (0) rx (−1) ... rx (1 − p) b1 rx (1)
 rx (1)
 rx (0) ... rx (2 − p) 

 b2   rx (2) 
= 
 ... ... ... ...   ...   ... 
rx (p − 1) rx (p − 2) ... rx (0) bp rx (p)

Ponendo rx = [rx (1), rx (2), ..., rx (p)] e b = [b1 , b2 , ..., bp ], e riconoscendo che a primo membro cé
la matrice di autocorrelazione Rx si ha il sistema di equazioni di Yule-Walker :

Rx b = rx → b = R−1
x rx

2
Per calcolare σw ripartiamo dall’eq. C.1 e moltiplichiamola per w(n):

p
X p
X
2
E[w(n)x(n)] = E[w(n)( bk x(n − k) + w(n))] = bk E[w(n)x(n − k)] + E[w(n)w(n)] = σw
k=1 k=1

quindi ponendo l = 0 nell’eq. ?? si ha:

p  
X
2 1
ak rx (−k) = σw ⇔ [rx (0), rTx ] = [rx (0), rTx ]a = σw
2
−b
k=0

Pertanto il sistema di Yule-Wlaker si puó scrivere in forma aumentata:

rTx rTx 2
      
rx (0) 1 rx (0) σw
= a=
rx Rx −b rx Rx 0

C.2 Stima dello spettro


Una volta calcolati i coefficienti del modello autoregressivo occorre determinare lo spettro del segnale
stocastico modellato. Con riferimento alla figura C.1 la trasformazione ingresso uscita del filtro é:

p
X
ak x(n − k) = w(n)
k=0

Z-trasformando otteniano:

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 208


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
C.3. PREDIZIONE LINEARE IN AVANTI

p
X p
X
−k
X(z) z ak = W (z) ⇔ X(z)[1 + z −k ak ] = W (z)
k=0 k=1

Pertanto la risposta in frequenza del filtro é:

X(z) 1
H(z) = = Pp
W (z) 1 + k=1 z −k ak

Adesso possiamo calcolare la stima dello spettro mediante la formula:

Sx (w) = Sw (w)|H(w)|2

Ove Sx (w) è la densità spettrale di potenza dell’uscita del filtro, Sw (w) è la densità spettrale di
potenza dell’ingresso del filtro, ed |H(w)|2 è la risposta in ampiezza del filtro. L’espressione dello
spettro, quindi, in funzione dei parametri del modello è la seguente:

2
σw
P̂AR (ejw ) = Pp −jkw |2
|1 + k=1 ak e

C.3 Predizione lineare in avanti


Nella modellazione autoregressiva si stimano i parametri del modello mediante le equazioni di Yule-
Walker. Il problema maggiore in queste equazioni é quello di stimare la matrice di autocorrelazione.
Infatti avendo a disposizione una unica realizzazione del segnale la stima sará affetta da un errore
piú o meno grande a seconda dell’espressione usata per stimarla.
La predizione lineare in avanti (Forward Linear Predicton, FLP) costituisce un modo alterna-
tivo di considerare il problema della modellazione autoregressiva. Partendo da un punta di vista
differente si arriva alle stesse equazioni di Yule-Walker. Tuttavia l’approccio é fruttuoso poiché
fornisce lo spunto per migliorare la stima dei parametri del modello anche senza stimare la matrice
di autocorrelazione.
Il campione corrente del segnale é stimato mediante una combinazione lineare dei precedenti p
campioni per opportuni pesi:

p
X
x̂(n) = bk x(n − k)
k=1

Posto:

b = [b1 ........bp ]T
x(n − 1) = [x(n − 1)........x(n − p)]T

l’equazione precedente si riscrive:

x̂(n) = bT x(n − 1)

La quantità seguente é detta errore quadratico di predizione in avanti:

p
X
fP (n) = x(n) − x̂(n) = x(n) − bk x(n − k)
k=1

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 209


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo C. Stima spettrale per applicazioni biomediche - Metodi parametrici

Calcoliamo i coefficienti minimizzando l’errore quadratico di predizione in avanti (nel seguito si


usa il fatto che uno scalare é il trasposto di sé stesso):

p
X
E[|fP (n)|2 ] = E[|x(n) − bk x(n − k)|2 ] = E[(x(n) − bT x(n − 1))(xT (n) − xT (n − 1)b)] =
k=1

= E[|x(n)|2 + bT x(n − 1)xT (n − 1)b − bT x(n − 1)xT (n) − x(n)xT (n − 1)b] =


= σx2 + bT Rx b − bT rx − rTx b

Nell’ultima espressione rx é l’ autocorrelazione del campione corrente del segnale con i p cam-
pioni precedenti ed Rx é la matrice di autocorrelazione. Per calcolare i coefficienti che rendono
minimo l’errore quadratico medio occorre porre a zero il gradiente dell’errore calcolato rispetto ad
b (ricordando che la matrice di autocorrelazione é simmetrica):

∂fP
= 2Rx b − 2rx
∂b
pertanto ottengo che i coefficienti della predizione lineare in avanti sono pari ad:

b = R−1
x rx

Sostituendo tale espressione nell’espressione di E[|fP (n)|2 ]:

E[|fP (n)|2 ] = σx2 − bT rx

Quindi l’errore di predizione in avanti gioca il ruolo del rumore w(n)nel contesto del modello
autoregressivo.

C.4 Metodo dei minimi quadrati


L’approccio della predizione lineare ina vanti fornisce uno spunto per stimare i coefficienti dle
modello autoregressivo partendo direttamente dai dati senza passare per la stima della matrice di
autocorrelazione.
Come prima, il segnale x(n), é modellato come combinazione lineare dei p campioni agli istanti
precedenti:

p
X
x(n) = bk x(n − k) + e(n)
k=1

dove bk sono i parametri non conosciuti del modello e e(n) rappresenta l’errore di misura che é
dovuto alla natura statistica del fenomeno. L’errore si puó scrivere:

p
X
e(n) = x(n) − bk x(n − k) = x(n) − bT x(n − 1)
k=1

Nel metodo dei minimi quadrati (Least Squares) i pesi bk sono determinati minimizzando la
funzione di costo che consiste nella somma degli errori quadratici:

N
X N
X N
X
ξ= |e(n)|2 = e(n)eT (n) = [x(n) − bT x(n − 1)][x(n) − bT x(n − 1)]T
n=p n=p n=p

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 210


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
C.4. METODO DEI MINIMI QUADRATI

N
X N
X N
X N
X
= |x(n)|2 + bT x(n − 1)xT (n − 1)b − x(n)xT (n − 1)b − bT x(n − 1)x(n)
n=p n=p n=p n=p

Quindi poniamo a zero il gradiente rispetto a b:

N N
∂ξ X X
= bT x(n − 1)xT (n − 1) − x(n)xT (n − 1) = 0
∂b n=p n=p

ponendo

N
X
Φ= x(n − 1)xT (n − 1)
n=p

ed

N
X
r= x(n)x(n − 1)
n=p

si ha:

Φb = r

dove si é tenuto conto della simmetria di Φ. Le altre proprietá della matrice Φ sono elenca-
te di seguito e sonno facilmente dimostrabili, inoltre si rileva la similitudine con la matrice di
autocorrelazione:

• simmetrica : ΦT = Φ;
• definita non negativa : xT ΦT x = 0;
• gli autovalori sono reali e non negativi;

Introducendo la matrice A pari ad:


 
x(p − 1) x(p) ..... x(N − 1)
. . . .
AT = 
 

 . . . . 
x(0) x(1) ..... x(N − p)

e il vettore d :

d = [x(p), x(p + 1), ..., x(N )]T

Possiamo riscrivere Φ ed r come segue:

Φ = AT A
r = AT d

I parametri del modello si ottengono quindi come segue:

b = Φ−1 r = (AT A)−1 AT d

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 211


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo C. Stima spettrale per applicazioni biomediche - Metodi parametrici

C.5 Metodo FBLP


Possiamo anche effettuare una predizione lineare all’indietro, in altre parole il campione x(n − p)
é una combinazione lineare dei p campioni futuri . Si denota in questo caso l’errore di predizione
all’indietro che è pari:

p
X
bp (n) = x(n − p) − bk x(n − p + k)] = x(n − p) − x(n)b
k=1

dove xn è pari:
x(n) = [x(n − p + 1), ..., x(n)]

Pertanto, con operazione analoghe possiamo calcolare i coefficienti b che minimizzino l’errore
di predizione all’indietro. Per ottenere una stima migliore dei coefficienti possiamo minimizzare il
valore dell’errore seguente relativo ad una predizione sia in avanti che all’indietro (Forward and
Backwar Linear Prediction, vedi [9]):

N
X
ξ= [|fM (n)|2 + |bM (n)|2 ]
n=p+1

In questo caso i coefficienti b sono pari ad:

b = (AT A)−1 AT d

Ove AT è la seguente matrice:

 
x(p) ... x(N − 1) x(2) x(3) ... x(N − p + 1)
T
 . . . . . . . 
A =
 .

. . . . . . 
x(1) ... x(N − p) x(p + 1) x(p + 2) ... x(N )
e d il seguente vettore:
dT = [x(p + 1), ..., x(N ), x(1), ..., x(N − p)]

C.5.1 Selezione dell’ordine del modello


Se l’ordine è troppo piccolo lo spettro sarà smussato ed avrà una risoluzione povera. Se l’ordine è
troppo elevato ci possono essere dei picchi spuri. Un approccio potrebbe essere quello di aumentare
l’ordine del modello fintanto che l’errore non è minimizzato. Tuttavia l’errore è una funzione non
decrescente del modello per cui l’errore tende a zero quando l’ordine tende ad infinito. Per superare
questo problema si aggiunge una funzione di penalità per non far crescere troppo l’ordine del
modello:
C(p) = N log p + f (N )p

dove N è la lunghezza della sequenza dei dati, p è l’errore, è una costante dipendente da N . L’idea
quindi è selezionare il valore di p che minimizza C(p).
Sono stati proposti vari criteri in letteratura per la scelta dell’ordine ottimo p:

• Akaike Information Criterion: N log p + 2p

• Minimum Description Length: N log p + p log(N )

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 212


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
C.6. STIMA DI FREQUENZA

Questi criteri sono basati sulla minimizzazione dell’errore quadratico medio. Il criterio di Akaike da
una stima inferiore quando è applicato a processi non AR e tende a sovrastimare l’ordine quando N
cresce. Il criterio MDL è uno stimatore consistente, cioè tende al vero valore di p quando N tende
all’infinito. Nessuno dei criteri funziona bene con sequenze brevi.

C.6 Stima di frequenza


Il segnale x(n) puó essere modellato come somma di p esponenziali complessi con l’aggiunta di un
rumore bianco a media nulla ed incorrelato con il segnale,

p
X
x(n) = Ak ejnωk + w(n)
k=1

ove le ampiezze degli esponenziali complessi sono pari ad Ak = |Ak |ejφk con φk variabili aleatorie
incorrelate ed uniformemte distribuite in [−π, +π]. Le frequenze e le ampiezze sono incognite ma
deterministiche.

C.6.1 Caso di una sinusoide


Consideriamo prima il caso di una sola sinusoide

x(n) = A1 ejnω1 + w(n)

la sequenza di autocorrelazione di x(n) é

rx (k) = P1 ejkω1 + σ 2 δ(k)

con P1 = |A1 |2 potenza dell’esponenziale complesso. La matrice di autocorrelazione di ordine M


di x(n) é la somma della matrice di autocorrelazione di ordine M del segnale, Rs , e la matrice di
autocorrelazione del rumore, Rw ,

Rx = Rs + Rw

dove la matrice di autocorrelazione del segnale é

e−jω1 ... ej(1−M )ω1


   
rs (0) rs (−1) ... rs (1 − M ) 1
 rs (1) rs (0) ... rs (2 − M )   ejω1 1 ... ej(2−M )ω1 
Rs =   = P1  
 ... ... ... ...   ... ... ... ... 
rs (M − 1) rs (M − 2) ... rs (0) ej(M −1)ω1 ej(M −2)ω1 ... 1

Questa ha rango pari ad uno (moltiplicando la prima riga per ejnω con n = 1, ..., M − 1 si
ottengono le altre righe) mentre la matrice di autocorrelazione del rumore é Rw = σ 2 I ha rango
pieno. Ponendo e1 = [1, ejω1 , .......ej(M −1)ω1 ]T la matrice Rs si puó riscrivere come segue:

Rs = P1 e1 eH
1

Come noto il rango della matrice é pari al numero degli autovalori non nulli. Essendo il rango di
tale matrice pari ad uno questa ha solamente un autovalore non nullo che si puó individuare come
segue

Rs e1 = P1 e1 eH
1 e1 = P1 e1 M

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 213


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo C. Stima spettrale per applicazioni biomediche - Metodi parametrici

pertanto l’unico autovalore non nullo è pari ad M P1 ed e1 é l’autovettore corrispondente. Essendo


la matrice Rs hermitiana i rimanenti autovettori v2 , v3 , ...., vM sono tutti ortogonali ad e1 ,

eH
1 vi = 0; i = 2, ..., M

Possiamo calcolare gli autovalori e autovettori di Rx

Rx vi = (Rs + σ 2 IM )vi = λsi vi + σ 2 vi

Dunque gli autovettori di Rx sono gli stessi di Rs ;

λi = λsi + σ 2

Il piu alto autovalore di Rx é λmax = M P1 + σ 2 mentre i rimanenti M − 1 sono uguali a σ 2 .


Dunque é possibile estrarre tutti i parametri di interesse di x(n) dagli autovalori e dagli autovettori
di Rx come segue:

• λmin = σ 2
λmax −λmin
• P1 = M

• w1 = arg[vmax (1)]

Poiché Rx non é nota, ma solo una sua stima, allora gli autovalori saranno soltanto ‘vicini’a
quelli teorici. Pertanto per stimare la frequenza conviene procedere come segue. Ricordiamo che
e1 é ortogonale allo spazio degli autovettori associati all’autovalore nullo, pertanto se calcoliamo la
trasformata di Fourier di vi (k) come segue:

M
X −1

Vi (e ) = vi (k)e−jkω = eH vi
k=0

questa avrá un nullo alla frequenza ω = ω1 , frequenza alla quale si verifica la condizione eH
1 vi = 0.
Quindi una stima dello spettro puó essere calcolata introducendo la seguente funzione

1
P̂i (ejω ) = PM −1
| k=0 vi (k)e−jkω |2

che ha un picco alla frequenza ω = ω1 . Infine per migliorare la stima é possibile mediare sugli
autovettori

1
P̂i (ejω ) = PM
i=2 αi |eH vi |2

dove gli αi sono scelti arbitrariamente costanti.

C.6.2 Caso di p sinusoidi


Consideriamo il caso di p sinusoidi piú rumore bianco, l’autocorrelazione si scrive:

p
X
rx (k) = Pi ejkωi + σ 2 δ(k)
i=1

Dunque la matrice di autocorrelazione puó essere scritta come segue

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 214


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
C.6. STIMA DI FREQUENZA

p
X
Rx = Pi ei eH 2
i +σ I
i=1

Possiamo riscrivere la matrice di autocorrelazione come segue

Rx = EPEH + σ 2 I

dove E = [e1 , e2 , ......, ep ] P = diag[P1 , ......., Pp ]. Anche in questo caso gli autovettori di Rx sono
quelli di Rs : poiché Rs ha rango p i primi p autovalori saranno maggiori di σ 2 e gli altri M − p
saranno uguali a σ 2 . Per cui gli autovettori si possono dividere in due classi: segnale e rumore. Per
il teorema spettrale si può scrivere:
p
X M
X
Rx = (λsi + σ 2 )vi viH + σ 2 vi viH
i=1 i=p+1

Gli autovettori del segnale v1 , ..., vp non sono, come nel caso di una sinusoide, e1 , ..., ep , tuttavia
questi ultimi giacciono nel sotto-spazio vettoriale generato dagli autovettori del segnale, e quindi
saranno ancora ortogonali agli autovettori legati al rumore eH i vk per i = 1, ......, p e k = p+1, ...., M .
Per cui la funzione di stima della frequenza sarà
1
P̂i (ejω ) = PM
i=p+1 αi |eH vi |2

C.6.3 Metodo di Pisarenko


Pisarenko (vedi [8]) ha proposto il seguente metodo basato sulle premesse precedenti: supponiamo
di conoscere il numero p di sinusoidi e costruiamo la matrice di correlazione di ordine p+1.Sappiamo
che vi sará soltanto un autovalore (il minimo) legato al rumore, ortogonale agli autovalori di segnale.
La funzione per la stima dello spettro sará:

1
P̂i (ejω ) =
|eH vmin |2

questo avrá dei picchi alle frequenze dei p esponenziali complessi.

C.6.4 MUSIC
L’acronimo sta per MUltiple SIgnal Classification. Sia Rx la matrice di ordine M > p + 1. Ar-
rangiamo gli autovalori in ordine decrescente. Avremo p autovettori associati agli autovalori piú
grandi (che corrispondono agli autovalori del segnale) e gli altri M − p di rumore. Per stimare la
varianza del rumore possiamo mediare gli autovalori di rumore:

M
1 X
σ2 = λi
M − p i=p+1

La funzione di stima delle frequenze:

1
P̂i (ejω ) = PM
i=p+1 |eH vi |2

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 215


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo C. Stima spettrale per applicazioni biomediche - Metodi parametrici

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 216


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Appendice D

Filtri adattativi per applicazioni


biomediche

I filtri adattivi possono essere ottenuti dalla struttura generale del filtro di Wiener. Pertanto nel
seguito si esamina prima il filtro di Wiener e da esso si derivano considerazioni sui filtri adattativi.

D.1 Filtro di Wiener


L’obiettivo del filtraggio di Wiener é ottenere la migliore stima possibile di un segnale secondo un
opportuno criterio di ottimo.
I filtraggio di Wiener é caratterizzati dalle seguenti assunzioni (vedi figura D.1 ):

• il segnale in ingresso al filtro u(n) é SSL a media nulla

• il filtro é di tipo FIR

• il segnale d(n) é SSL a media nulla

• é nota la matrice di autocorrelazione di u(n)

• é nota la mutua correlazione tra u(n) e d(n)

• il criterio di ottimo é il minimo errore quadratico medio.

Per ricavare i coefficienti del filtro di Wiener ottimo, consideriamo un segnale u(n) in ingresso ad
ˆ (l’accento
un FIR di ordine M e con coefficienti w0 , w1 , ..., wM −1 l’uscita del filtro, indicata con d(n)
circonflesso indica che si tratta di una stima del segnale desiderato) é data dall’espressione:

Figura D.1: Filtro di Wiener

217
Capitolo D. Filtri adattativi per applicazioni biomediche

M
X −1
ˆ =
d(n) wk u(n − k)
k=0
.
Si assume che sia l’ingresso u(n), sia la risposta desiderata d(n) siano processi stazionari in senso
lato a media nulla. Poniamo:

w = [w0 , w1 , ..., wM −1 ]T
u(n) = [u(n), u(n − 1), ..., u(n − M + 1)]T

la stima della risposta desiderata si scrive come prodotto scalare del segnale u(n) con i coefficienti
del filtro di Wiener, secondo la relazione:

ˆ = wT u(n) = uT (n)w
d(n)

L’errore é definito come la differenza tra il segnale desiderato d(n) e l’uscita del filtro come
segue:
ˆ = d(n) − wT u(n)
e(n) = d(n) − d(n)

Si sceglie di cercare la soluzione ottima del problema minimizzando la funzione di costo:

J = E[|e(n)|2 ]

Possiamo, dunque, definire la funzione di costo come l’errore quadratico medio. Il problema,
quindi, consiste nel determinare le condizioni operative per le quali si ottiene il valore minimo per
J.
Consideiamo l’espressione di J in funzione di w:

J = E[e(n)eT (n)] = E[{d(n) − wT u(n)}{d(n) − uT (n)w}] =


= E[|d(n)|2 ] − wT E[u(n)d(n)] − E[d(n)uT (n)]w + wT E[u(n)uT (n)]w =
= σd2 − wT p − pT w + wT Rw

ove il vettore p denota la cross-correlazione tra il segnale d’ingresso u(n) e la risposta desiderata
d(n):

p = E[u(n)d(n)]

Nella forma estesa, abbiamo:

p = [p(0), p(−1), ....., p(1 − M )]T

Mentre R denota la matrice di correlazione degli ingressi u(n), u(n − 1), .....,u(n − M + 1):

R = E[u(n)uT (n)]

Nella forma estesa, abbiamo:


 
r(0) r(1) ..... r(M − 1)

 r(−1) r(0) ..... r(M − 2) 

R=
 . . . . 

 . . . . 
r(1 − M ) r(2 − M ) ..... r(0)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 218


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
D.1. FILTRO DI WIENER

che é simmetrica in quanto r(n) = r(−n) Calcoliamo il minimo della funzione di costo effet-
tuandone il gradiente e calcolando dove esso si annulla.
∂J
= −2p + 2Rw = 0
∂w

wo = R−1 p

Tale equazione viene detta di Wiener-Hoptf ; wo , denota il vettore dei pesi ottimi :

wo = [wo0 , wo1 , ...., woM −1 ]T

Pertanto la realizzazione del filtro ottimo di Wiener richiede la conoscenza di due quantitá:

• la matrice di correlazione R;
• il vettore di cross-correlazione p.

D.1.1 Il principio di ortogonalitá


Un’ importante osservazione riguarda il cosiddetto principio di ortogonalitá per il quale l’errore
del filtro ottimo di Wiener é ortogonale sia ai dati che alla stima. Infatti si puó dimostrare che la
correlazione tra l’errore e i dati e tra l’errore e la stima é nulla:

E[u(n)eo (n)] = E[u(n)(d(n) − uT (n)wo )] = p − Rwo = 0


ˆ
E[eo (n)d(n)] = E[(d(n) − wT u(n))uT (n)wo ] = pT wo − wT Rwo
o o
T T
= (p − wo R)wo =0

D.1.2 Comportamento del filtro in presenza di rumore


É importante capire come si comportano i coefficienti dei filtro quando all’ingresso vi é segnale u(n)
piú rumore additivo η(n) incorrelato col segnale u(n) = d(n) + η(n).
Per osservare il comportamento del filtro in queste circostanze possiamo derivare un’espressione
della densitá spettrale di potenza tra il segnale e la risposta desiderata.
Ricordando che
p = Rwo
é possibile derivare la seguente espressione per la sequenza di cross-correlazione:
M
X −1
p(k) = wom r(k − m)
m=0

pertanto trasformando secondo Fourier otteniamo

Sud (ω) = Suu (ω)Wo (ω)

Sfruttando l’ipotesi di segnale e rumore incorrelati si ha:

ruu (m) = rdd (m) + rηη (m) → Suu (ω) = Sdd (ω) + Sηη (ω)

inoltre sempre grazie all’incorrelazione segnale rumore ho:

rud (m) = rdd (m) → Sud(ω) = Sdd (ω).

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 219


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo D. Filtri adattativi per applicazioni biomediche

Grazie a tali espressioni ricaviamo

Sud (ω) Sdd (ω)


W (ω) = =
Suu (ω) Sdd (ω) + Sηη (ω)

Quest’ultima eguaglianza ci mostra che se il contributo del rumore é trascurabile allora i coef-
ficienti del filtro ottimo sono tali che la loro trasformata di Fourier é unitaria. Quindi il segnale é
filtrato con un filtro di guadagno unitario ed rimane inalterato.
Se invece il contributo di rumore é alto allora il filtro di Wiener si comporta da filtro equalizzatore
con risposta in frequenza circa pari ad
1
W (ω) '
Sηη (ω)

In modo da ridurre il piú possibile il contributo di rumore.

D.1.3 Superficie di errore


Siamo interessati ad analizzare la superficie di errore, cioé il valore che assume la funzione costo J
al variare dei pesi w. Posto Jmin = σd2 − woH Rwo possiamo scrivere:

J(w) = Jmin + (w − wo )H R(w − wo )

Scrivendo quindi la matrice di autocorrelazione come


R = QΛQT
otteniamo:

J = Jmin + (w − wo )QΛQH (w − wo ) = Jmin + vH Λv

dove v = QH (w − wo )

M
X −1
J = Jmin + λ(k)vk vk∗
k=0

La superficie di errore é descritta da una forma quadratica ove le componenti del vettore vk
ne rappresentano gli assi principali. Il minimo del paraboloide é raggiunto in corrispondenza dei
coefficienti del filtro di Wiener.

D.1.4 Legame con il modello autoregressivo e la predizione lineare


Nella predizione lineare in avanti l’obiettivo é trovare i coefficienti del filtro AR in modo da stimare
il campione futuro sulla base di p campioni precedenti.
Infatti se assumiamo che la risposta desiderata coincida con il campione futuro che dobbiamo
stimare nel modello AR il calcolo dei coefficienti che minimizzano l’errore quadratico medio sono
ottenibile mediante l’equazione di Wiener-Hopf:

M
X −1
ˆ = u(n) − d(n)
e(n) = d(n) − d(n) ˆ = u(n) − wk u(n − k)
k=0

= u(n) − wT u(n) = fM (n)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 220


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
D.2. L’ALGORITMO STEEPEST DESCENT

Quindi si ottiene la seguente equazione da cui si ricavano i parametri del modello:

Rw = r

Ove r in questo caso è il vettore di autocorrelazione del segnale. Infine possiamo esprimere in
forma estesa l’equazione di Wiener-Hopf come segue se calcoliamo la potenza del segnale quando il
filtro è ottimizzato

P m = Jmin = E[|e(n)|2 ] = σd2 − woH Rwo = r(0) − rH wo


r(0) rH
    
1 Pm
=
r R −w 0

D.2 L’algoritmo Steepest Descent


Si vuole cercare una soluzione numerica all’equazione Wiener-Hopf Rwo = p. Una soluzione
deterministica al problema può essere data dal metodo steepest descent. Il metodo consiste nella
creazione di una successione di vettori w(n) che tendono alla soluzione ottima t.c. J(wo ) 5 J(w).
La successione w(n) dell’algoritmo è generata nel seguente modo:

w(n + 1) = w(n) − µ∇J(n)

dove e µ è chiamato step-size parameter ed è utilizzato per controllare il passo di avanzamendo del
metodo. Sia dato un ingresso u(n) stazionario in senso lato con media nulla e matrice di correlazione
R. Dal momento che il gradiente risulta essere ∇J(n) = −2p+2Rw(n). L’equazione diviene quindi:

w(n + 1) = w(n) + µ[p − Rw]

n = 0,1, . . .Volendo investigare le condizioni di convergenza dell’algoritmo iterativo si può procedere


come segue: sottraiamo ambo i memmbri w0 e poniamo

c(n) = w(n) − wo

Otteniamo c(n + 1) = (I − µR)c(n) e scomponendo agli autovalori la matrice di autocorrelazione


si ottiene:
c(n + 1) = (I − µQH ΛQ)c(n)
Siccome QH Q = I questà è una proprietà delle matrici ortogonali ed Q essendo la matrice degli
autovettori della matrice di autocorrelazione è ortogonale. Pertanto

c(n + 1) = (I − µQH ΛQ)c(n) = (QH Q − µQH ΛQ)c(n) = Q(I − µΛ)QH c(n)

posto v(n) = QH c(n) l’espressione precedente diventa

v(n + 1) = (I − µΛ)v(n)

quest’ultima rappresenta un’equazione alle differenze centrali pertanto

vk (n + 1) = (1 − µλk )vk (n)

Iterando otteniamo
vk (n + 1) = (1 − µλk )n vk (0)
Si evince quindi la condizione di convergenza: la ragione della successione vista prima deve essere
in valore assoluto minore di 1. Quindi:

−1 < 1 − µλk < 1


2
0<µ<
λmax

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 221


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo D. Filtri adattativi per applicazioni biomediche

D.3 Filtro LMS


LMS è un algoritmo stocastico per la soluzione del problema di Wiener in modo adattativo men-
tre lo steepest descent è un algoritmo che usa un gradiente deterministico per avvicinarsi a wo .
L’LMS è particolarmente interessante perchè risulta molto semplice. Sfrutta il concetto di processo
adattativo: variazione dei pesi del filtro in funzione dell’errore e(n).
Tale algoritmo nasce per l’impossibilità, in generale di conoscere le caratteristiche spettrali del
segnale ovvero conoscerne la matrice di autocorrelazione R e il vettore, p, di cross-correlazione
tra il segnale in ingresso e la risposta desiderata. Necessariamente il gradiente deve essere stimato
a partire dai dati stessi. Per sviluppare una stima del vettore gradiente ∇(J(n)), la più ovvia
strategia è sostituire delle stime della matrice di autocorrelazione e del vettore di cross-correlazione
nella formula che segue:
∇(J(n)) = −2p + 2Rw(n)
La scelta più semplice per stimare R e p è usare stime istantanee che sono basate sui valori assunti,
istante per istante, dal segnale d’ingresso u(n) e dalla risposta desiderata d(n):

R̂(n) = u(n)uT (n)

p̂(n) = u(n)d∗ (n)


Conseguentemente otteniamo che il gradiente si calcola come segue:

∇(J(n)) = −2u(n)d∗ (n) + 2u(n)uT (n)ŵ(n)

Pertanto la relazione ricorsiva che permette di calcolare i pesi all’ istante n+1 noti i coefficienti
all’istante n è la seguente:

ŵ(n + 1) = ŵ(n) + µu(n)[d∗ (n) − uT (n)ŵ(n)]

L’algoritmo LMS può quindi essere riassunto come segue:

• Uscita del filtro y(n) = ŵT (n)u(n);


• Stima dell’errore e(n) = d(n) − y(n);
• Pesi del filtro adattativo ŵ(n + 1) = ŵ(n) + µ(u(n))e∗ (n).

Volendo investigare le condizioni di convergenza in questo caso dobbiamo procedere in altro modo
ovvero dobbiamo calcolare necessariamente la media dei w(n + 1) come segue

E[ŵ(n + 1)] = E[ŵ(n)] + µE[u(n)d∗ (n)] − µE[u(n)uT (n)ŵ(n)]

= E[ŵ(n)] + µp − µRE[ŵ(n)]
In quest’ultima espressione abbiamo assunto che u(n) ed w(n) siano incorrelati di modo che la
media del prodotto di questi è il prodotto delle medie. Se sottraiamo ambo i membri wo e posto
c(n) = E[w(n) − wo ] otteniamo
c(n + 1) = c(n)[I − µR]
Pertanto effettuando gli stessi passaggi fatti per lo steepest descent riotteniamo che per garantire
la convergenza dell’algoritmo
2
0<µ<
λmax
però in questo caso la convergenza è in media ovvero al tendere di n ad infinito otteniamo

E[w(n)] → wo

Però essendo la convergenza in media l’algoritmo oscilla intorno al valore minimo della superficie
di errore.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 222


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
D.4. FILTRO RECURSIVE LEAST-SQUARES O RLS

D.4 Filtro Recursive Least-Squares o RLS


Dalla teoria dei filtri least squares discende un particolare filtro noto come Recursive Least Square o
RLS. Partendo dalle equazioni base dei least squares è possibile applicare il matrix inversion lemma
per ottenere un filtro least squares ricorsivo. L’RLS possiede una velocità di convergenza un ordine
di grandezza maggiore di quella di un comune LMS. L’idea di base dell’RLS è quella di rendere
ricorsivo un filtro LS, altrimenti applicato a blocchi: si vuole partire dalle condizioni iniziali per poi
aggiornare, con i nuovi campioni, le vecchie stime dei parametri calcolati. La funzione costo che si
vuole minimizzare è:
Xn
E(n) = β(n, i)|e(i)|2
i=1

dove e(i) è la differenza tra la risposta desiderata d(i) e l’uscita y(i) prodotta da un filtro trasversale
con ingressi uguali ad u(i), u(i-1),....,u(i-M+1),come mostrato in figura 3; ed 0 < β(n, i) ≤ 1 con i
= 1,2,...,n, che rappresenta il fattore peso.
Assunzioni:

• i pesi w(n) rimangono fissi nell’intervallo di osservazione e(i) = d(i) − wH (n)u(i), 1 ≤ i ≤ n;


• il fattore peso β(n, i) viene usato come forgetting factor per poter inseguire più efficacemente
i cambiamenti in ambiente non stazionario;
• normalmente β(n, i) = λn−i con i=1,2,....,n. Quando λ = 1 ritorniamo al metodo ordinario
dei least squares.

Il problema LS è un problema ”mal posto”. Per ottenere una stima ”ben posta” è necessario variare
la funzione costo da minimizzare:
Xn
E(n) = λn−i |e(i)|2
i=1

Il valore ottimo dei valori degli elementi del vettore ŵ(n), per il quale la funzione costo assume il
suo valore minimo è definito dall’equazione scritta nella forma matriciale come segue:

Φ(n)ŵ(n) = z(n)

ove la matrice di correlazione Φ(n) è definita come segue


n
X
Φ(n) = λn−i u(i)uH (i)
i=1

e il vettore di cross-correlazione z(n) tra gli ingressi del filtro trasversale e la risposta desiderata
come
X n
z(n) = λn−1 u(i)d∗ (i)
i=1

L’idea è ora di poter aggiornare il valore di Φ e di z mano a mano che in ingresso si presentano dei
nuovi campioni. Isolando il termine per i=n dal resto delle sommatorie si può riscrivere:
n−i
X
Φ(n) = λ λn−i−1 u(i)uH (i) + u(n)uH (n)
i=1

ove
n−1
X
λn−i−1 u(i)uH (i) = Φ(n − 1)
i=1

pertanto si ottine la seguente forma ricorsiva:

Φ(n) = λΦ(n − 1) + u(n)uH (n)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 223


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo D. Filtri adattativi per applicazioni biomediche

Similmente
z(n) = λz(n − 1) + u(n)d∗ (n)
Per calcolare la stima dei coefficieni del filtro ŵ(n) occorre determinare l’inversa della matrice Φ(n).
La soluzione a questo problema viene ottenuta applicando il matrix inversion lemma per il quale:

A = B −1 + CD−1 C H

A−1 = B − BC(D + C H BC)−1 C H B


Imponendo quindi che A = Φ(n), B −1 = λΦ(n − 1), C = u(n) e D=1 otteniamo:

λ−2 Φ−1 (n − 1)u(n)uH (n)Φ−1 (n − 1)


Φ−1 (n) = λ−1 Φ−1 (n − 1) −
1 + λ−1 uH (n)Φ−1 (n − 1)u(n)

Ponendo per semplicità


P(n) = Φ−1 (n)
e
λ−1 P(n − 1)u(n)
k(n) =
1 + λ−1 uH (n)P(n − 1)u(n)
Usando questa definizione otteniamo:

P(n) = λ−1 P(n − 1) − λ−1 k(n)uH (n)P(n − 1)

Riarrangiando la definizione del vettore k(n) si ottiene:

k(n) = P(n)u(n) = Φ−1 (n)u(n)

Non manca che ottenere l’espressione ricorsiva per il calcolo di ŵ(n)

ŵ(n) = Φ−1 (n)z(n) = P(n)z(n) = λP(n)z(n − 1) + P(n)u(n)d∗ (n)

Sostituendo l’espressione di P nell’equazione appena ottenuta e sviluppando i calcoli:

ŵ(n) = ŵ(n − 1) + k(n)[d∗ (n) − uH (n)ŵ(n − 1)] = ŵ(n − 1) + k(n)ξ ∗ (n)

dove ξ(n) è la stima dell’errore a priori ed è definito come segue:

ξ(n) = d(n) − uT (n)ŵ∗ (n − 1) = d(n) − ŵH (n − 1)u(n)

L’algoritmo RLS in breve:

• Inizializzazione dell’algoritmo imponendo:

ŵ(0) = 0

P (0) = δ −1 I
con δ piccolo per elevati valori di SNR e grande per valori bassi.

• Ad ogni passo dell’algoritmo occorre calcolare:

λ−1 P(n − 1)u(n)


k(n) =
1 + λ−1 uH (n)P(n − 1)u(n)

ξ(n) = d(n) − ŵH (n − 1)u(n)


ŵ(n) = ŵ(n − 1) + k(n)ξ ∗ (n)
P(n) = λ−1 P(n − 1) − λ−1 k(n)uH (n)P(n − 1)

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 224


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
D.5. ADAPTIVE NOISE CANCELING

D.5 Adaptive Noise Canceling


I filtri adattativi possono essere usati per inseguire le non stazionarietd́el segnale. Per tale aspetto
vengono usati nelle stime spettrali, in tal caso invece di suddividere il segnale in segmenti in cui puó
essere ritenuto stazionario e se ne calcola lo spettro in questi segmenti si calcola la stima spettrale
istante per istante con un filtro che si adatta alle variazione del segnale. Inoltre questi filtri sono
anche usati per la cancellazione adattativa del rumore. Usualmente il metodo per stimare un segnale
corrotto da rumore è sottoporlo ad un filtraggio che tende a sopprimere il rumore e lasciare il segnale
relativamente inalterato. I filtri a tale scopo possono essere fissi ed adattativi. I primi si basano su
una conoscenza a priori del segnale e del rumore, i secondi aggiustano i parametri automaticamente
e il loro disegno richiede poca o nessuna conoscenza a priori sul segnale e sul rumore. Supponiamo
che al segnale s è sommato un rumore n0 incorrelato col segnale stesso per eliminare tale contributo
si utilizza un filtro adattativo al cui ingresso è posto il rumore n1 proporzionale ad n0 ed anch’ esso
incorrelato con il segnale. Se sottraiamo l’uscita del filtro alla risposta desiderata che è la somma
del segnale ed n0 dovremmo ottenerla presumibilmente il segnale senza rumore.
Infatti un filtro adattativo si basa sulla minimizzazione dell’errore quadratico medio che in questo
caso rappresenta il segnale
z = s + n0 − y
Supponedo che sia s che n0 che n1 siamo stazionari in senso lato ed a media nulla la quantità da
minimizzare è la seguente:
E[z 2 ] = E[s2 ] + E[(n0 − y)2 ]
Pertanto la quantità da minimizzare in realtà è E[(n0 − y)2 ] non potendo minimizzare E[s2 ], que-
sto porta ad avvicinare l’uscita y al rumore pertanto avremo che z è presumibilmente vicino al
segnale vero. Tale approccio può essere utilizzato in due situazioni di interesse. La prima riguarda
l’eliminazione dell’interferenza di rete dal segnale elettrocardiogramma.
La seconda applicazione d’interesse riguarda la cancellazione adattativa del rumore nel contesto
della separazione dell’ecg fetale dall’ecg materno piú fetale. In questo caso il segnale all’ingresso del
filtro é l’ecg materno mentre la risposta desiderata é la somma dell’ecg fetale piú l’ecg materno.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 225


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Capitolo D. Filtri adattativi per applicazioni biomediche

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 226


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
Bibliografia

[1] Marchesi C., Tecniche numeriche per l’analisi dei segnali biomedici, Pitagora Editrice
Bologna, 1992
[2] Tompkins W.J., Biomedical Digital Signal Processing, Prentice Hall, 1993
[3] Semmlow J.L., Biosignal and Biomedical Image Processing - Matlab application,
Marcel Dekker, 2004
[4] Malmivuo J., Plonsey R., Bioelectromagnetism - Principles and Applica-
tions of Bioelectric and Biomagnetic Fields http://butler.cc.tut.fi/ malmi-
vuo/bem/book/index.htm
[5] Bendat J, Piersol A., Random data - Analysis, Measurement, Procedures, Wiley
Interscience , 1986
[6] Kay S.M., Marple S.L., Spectrum analysis: a modern perspective, IEEE, 1981, 69
(11):1 380-419
[7] Oppenheim A.V., Willsky A.S., Nawab S.H., Signal and Systems, Prentice Hall
[8] Hayes M., Statistical Digital Signal Processing And Modelling, Wiley Interscience,
1996
[9] Haykin S., Adaptive Filter Theory, Prentice Hall International Editions, 1996
[10] Jolliffe I.T., Principal components Analysis, Springer, 2002
[11] Hyvarinene, A, Karhunen J., Oja E., Independent component analysis Wiley
Interscience Publiucations, 2001
[12] Shwedik E, Balasubramamian R, Scott RN, A non stationary model for the
electromyogram IEEE Trans on Biomedical Engineering, vol-24, settembre 1977
[13] Papoulis A, Probability, Randome Variables and Stochastic Processes, Mc-Graw Hill,
1991
[14] Savitzky A. and Golay M., Smoothing and Differentiation of Data by simplified Least
Squares Procedures Analytical Chemistry, vol. 36, no.8, july 1964
[15] Pan J and Tompkins WJ, A Real Time QRS detection algorithm IEEE Trans on
Biomed Engineering, vol. 32, no. 3, march 1985
[16] Task Force of ESC and NASPE, Heart rate variability, standards of measurements,
physiological interpretation and clinical use, European Heart Journal (1996) 17, 354-
381
[17] Merri M, Farden DC, Mottley JG, Titlebaum EL, Samplimng frequency of the electro-
cardiogram for spectral analysis of the heart rate variability IEEE Trans on Biomedical
Engineering, vol.37, n.1 january 1990

227
BIBLIOGRAFIA

[18] Brennan M, Palaniswami M, Kamen P, Do Existing Measures of poincaré Plot Geo-


metry Reflect Nonlinear Features of Heart Rate Variability?, IEEE Trans Biomed eng,
vol. 48, no. 11, november 2001, pp1342-1347

[19] Agarwal GC, Gottlieb GL, An Analysis of the Electromyogram by Fourier, Simulation
and Experimental Techniques, IEEE Transactions on Biomedical Engineering, Volume
BME-22, Issue 3, May 1975 Page(s):225 - 229

[20] Vander, Sherman, Luciano, Human physiology - the mechanisms of nody function,
Internationa Edition, McGraw-Hill, 1994

[21] Castiglioni P, Di Rienzo M, How to check steady-state condition from cardiovascular


time series Physiool. Meas. 25 (2004) 985-996

[22] Beck TW, Housh TJ, Weir JP, Cramer JT, Vardaxis V, Johnson GO, coburn JW,
Malek MH, Mielke M, An examination of the runs test, reverse arrangement test
and modified reverese arrangement test for assessing surface EMG signal stationarity
Journal of Neuroscience Methods, 156 (2006) 242-248

[23] Manolakis DG, Ingle VK, kogon SM, Statistical and adaptive signal processing Artech
House, 2005

[24] Hoel PG, Introduction to mathematical statistics John wiley and Sons, 1966

[25] Lessard CS, Signal processing of random physiological signals Morgan & Claypol
Publisher, 2006

[26] Cohen A, Kovacevic J, Wavelets: The Mathematical Background Proceedings of The


IEEE, vol. 84, no.4, April 1996

[27] unser M, Aldroubi A, A review of wavelets in biomedical applications Proceedings of


The IEEE, vol. 84, no.4, April 1996

[28] A. Jackson, D. L. Buckley, G. J. M. Parker et al. Dynamic Contrast-Enhanced


Magnetic Resonance Imaging in Oncology. Springer 2005

[29] AR Padhani “Dynamic contrast-enhanced MRI studies in human tumours”, Br J


Radiol , vol. 72, pp. 427-431, 1999.

[30] AR Padhani “Dynamic contrast-enhanced MRI in clinical oncology: current status


and future directions”, J Magn Reson Imaging, vol. 16, pp. 407-422, 2002.

[31] L. Choyke, A. J. Dwyer, M. V. Knopp “Functional Tumor Imaging With Dynamic


Contrast-Enhanced Magnetic Resonance Imaging”, Journal of Resonance Imaging,
vol. 17, pp. 509-520, 2003.

[32] P. Tofts, BA. Berkowitz “Measurement of capillary permeability from the Gd enhan-
cement curve: a comparison of bolus and constant infusion injection methods” Magn
Reson Imaging, vol. 12, pp. 81-91, 1994.

[33] P. Tofts, G. Brix, DL. Buckley, JL. Evelhoch, E. Henderson,MV. Knopp,et al. “Esti-
mating kinetic parameters from dynamic contrast enhanced T1-w MRI of a diffusible
tracer: standardized quantities and symbols”, J Magn Reson Imaging, vol. 10, pp.
223-232, 1999.

[34] JU. Harrer, GJ. Parker,HA. Haroon,DL. Buckley, K. Embelton, C. Roberts, et al.
“Comparative study of methods for determining vascular permeability and blood
volume in human gliomas”, J Magn Reson Imaging, vol. 20, pp. 748-757, 2004.

[35] DL. Buckley “Uncertainty in the analysis of tracer kinetics using dynamic contrast
enhanced T1-weighted MRI”, Magn Reson Med, vol. 47, pp. 601-606, 2002.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 228


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
BIBLIOGRAFIA

[36] D. De Lussanet, H. Backes, et al. “Dynamic Contrast-Enhanced Magnetic Resonance


Imaging of Radiation Therapy-Induced Microcirculation Changes In Rectal Cancer”,
J. Radiation Oncology Biol. Phys., vol. 63, pp. 1309-1315, 2005.
[37] S. Walker-Samual, M. O Lench and D. J Collins “Reference tissue quantification of
DCE-MRI data without a contrast agent calibration ”, Phys. Med. Biol, vol. 52, pp.
589-601, 2007.
[38] L. Choyke, J. Dwyer, V. Knopp “Functional Tumor Imaging With Dynamic
Contrast-Enhanced Magnetic Resonance Imaging”, JOURNAL OF MAGNETIC
RESONANCE IMAGING, vol. 17, pp. 509-520, 2003.
[39] M. Muller-Schimpfie, G. Brix, G. Layer, P. Schlag, R. Engenhart, et al. “Recurrent
Rectal Cancer: Diagnosis with Dynamic MR Imaging”, Radiology, vol. 189, pp. 881-
889, 1993.
[40] P. Tofts “Modeling Tracer Kinetics in Dynamic Gd-DTPA MR Imaging”, JMRI, vol.
7, pp. 91-101, 1997.
[41] P. Tofts “Accuarate Estimation of Pharmacokinetic Contrast-Enhanced Dynamic
MRI Parameters of the Prostate”, Journal of Magnetic Resonance Imaging, vol. 13,
pp. 607-614, 2001.
[42] G. Tofts et al. “Pharmacokinetic Parameters in CNS Gd-GDTA enhanced MR
imaging”, CompuAssist Tomogr, vol. 15, pp. 621-628, 1991.
[43] B. Larson et al. “Myocardial Perfusion Modeling Using MRI”, MRM, vol. 35, pp.
716-726, 2001.
[44] St. Lawrence, TY. Lee et al. “An adoabatia approximation to the tissue homogeneity
model for water exchange in the brain”, J Cereb Bllod Flow Metab, vol. 18, pp.
1365-1377, 1998.
[45] HB.Larsson, M. Stubgaard, JL. Frederiksen, M. Jensen, O. Henriksen, OB. Paul-
son “ Quantitation of blood-brain barrier defect by magnetic resonance imaging and
gadolinium-DTPA in patients with multiple sclerosis and brain tumors”, Magn Reson
Med, vol. 16, pp. 117-131, 1990.
[46] G.Parker, I. Baustert, S. Tanner, M. Leach “ Improving image quality and T1
measurements using saturation recovery turboFLASH with an approximate K-space
normalisation filter”, Magnetic Resonance Imaging, vol. 18, pp. 157-167, 2000.
[47] A.Parker, T. Redpath, F. Gilbert, A. Murray, R. Staff “ Accuracy of T1 Measurement
in Dynamic Contrast-Enhanced Breast MRI Using Two- and Three-Dimensional Va-
riable Flip Angle Fast Low-Angle Shot”, JOURNAL OF MAGNETIC RESONANCE
IMAGING, vol. 9, pp. 163-171, 1999.
[48] G.Parker, S. Tanner, M. Leach et al. “Probing Tumor Microvascularity by Measure-
ment, Analysis and Display of Contrast Agent Uptake Kinetics”, JMRI, vol. 7, pp.
564-574, 1997.
[49] NE. Simpson,JL. Evelhoch “Deuterium NMR tissue perfusion measurements using
the tracer uptake approach: I. Optimization of methods”, Magn Reson Med, vol. 42,
pp. 42-52, 1999.
[50] E. Smith, H. Barret “Hotelling trace criterion as a figure of merit for the optimization
of imaging systems”, Image Science, vol. 3, pp. 717-725, 1986.
[51] F. DeVries, J. Griebel, C. Kremser, W. Judmaier, T. Gneiting, A. Kreczy, D. Öf ner,
K. Pfeiffer, G. Brix, P. Lukas “Tumor Microcirculation Evaluated by Dynamic Magne-
tic Resonance Imaging Predicts Therapy Outcome for Primary Rectal Carcinoma”,
Cancer Research, vol. 61, pp. 2513-2516, 2001.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 229


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
BIBLIOGRAFIA

[52] MO. Leanch et al. “The assessment of antiangiogenic and antivascular thera-
pies in early-stage clinical trials using magnetic resonance imaging: issues and
recommendations”, BR J Cancer, vol. 92, pp. 1599-1610, 2005.

[53] L. Daniel et al. “Breast Disease: Dynamic Spiral MR Imaging”, Radiology, vol. 209,
pp. 499-509, 1998.

[54] JPB O’Connor, A. Jackson, GJM Parker, GC Jayson “DCE-MRI biomarkers in the
clinical evaluation of antiangiogenic and vascular disrupting agents”, British Journal
of Cancer, vol. 96, pp. 189-195, 2007.

[55] R. Beets, G. Beets “Rectal Cancer: Review with Emphasis on MR Imaging”,


Radiology, vol. 232, pp. 335-346, 2004.

[56] C. Rodel et al. “Prognostic Significance of Tumor Regression After Preoperative Che-
moradiotherapy for Rectal Cancer”, JOURNAL OF CLINICAL ONCOLOGY, vol.
34, pp. 8688-8696, 2005.

[57] G. Atkin, N. J. Taylor, F. M. Daley, J. J. Stirling, P. Richman, R. Glynne-Jones, J.


A. d’Arcy, D. J. Collins and A. R. Padhani “Dynamic contrast-enhanced magnetic
resonance imaging is a poor measure of rectal cancer angiogenesis”, British Journal
of Surgery, vol. 93, pp. 992-1000, 2006.

[58] Weaver J.B., Yansun X. , Healy D.M. et al. “Filtering noise from images with wavelet
transforms”, Magnetic Resonance in Medicine, vol. 21, pp. 288-95, 1991.

[59] Yinpeng J., Angelini E., Laine A. “Wavelets in Medical Image Processing¿ De/noising,
Segmentation, and Registration”,

[60] Cohen A., and Kovacevic J. “Wavelets The Mathematical Background”, IEEE, vol.
84, pp. 514-522, 1996.

[61] Rioul O., and Vetterli M. “Wavelets and Signal Processing”, IEEE, vol. October, pp.
14-38, 1991.

[62] Widrow B., Glover J. et al. “Adaptive Noise Cancelling: Principles and Applications”,
IEEE, vol. 63 no. 12 December, pp. 1692-1715, 1975.

[63] Grouiller F., Vercueil L. et al. “A comparative study f different artefact removal
algorithms for EEG signals acquired during functional MRI”, Neuroimage, vol. 38
pp. 124-137, 2007.

[64] Sansone M., Mirarchi L. et al. “Adaptive removal of gradients -induced artefacts
on ECG in MRI: a preformance analysis of RLS filtering”, Medical and Biological
Engineering and Computing, vol. 48 pp. 475-482, 2010.

[65] Sansone M, Fusco R, Petrillo A, Petrillo M, Bracale M. An expectation-maximisation


approach for simultaneous pixel classification and tracer kinetic modelling in dy-
namic contrast enhanced-magnetic resonance imaging. Med Biol Eng Comput. 2011
Apr;49(4):485-95.

[66] Sansone M, Zeni O, Esposito G. Automated segmentation of comet assay images using
Gaussian filtering and fuzzy clustering. Med Biol Eng Comput. 2012 May;50(5):523-
32.

[67] Roberta Fusco, Mario Sansone, Mario Petrillo, Antonio Avallone, Paolo Delrio and
Antonella Petrillo (2011). Dynamic Contrast Enhanced Magnetic Resonance Imaging
in Rectal Cancer In: Rectal Cancer - A Multidisciplinary Approach to Management,
Dr. Giulio A. Santoro (Ed.), ISBN: 978-953-307-758-1, InTech,

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 230


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli
BIBLIOGRAFIA

[68] Roberta Fusco, Mario Sansone, Silvio Maffei, Nicola Raiano, Antonella Petrillo Dyna-
mic contrast-enhanced MRI in breast cancer: A comparison between distributed and
compartmental tracer kinetic models Journal of Biomedical Graphics and Computing,
Vol 2, No 2 (2012)

[69] Roberta Fusco, Mario Sansone, Mario Petrillo, Antonella Petrillo Influence of para-
meterization on tracer kinetic modeling in DCE-MRI J. Med. Biol. Eng., In Press
Uncorrected Proof, Available online 7 Sep 2012 doi: 10.5405/jmbe.1097
[70] Keinosuke fukunaga, Introduction to Statistical Pattern Recognition, Academic Press,
1990
[71] Starmer CF, Clark DO. Computer computations of cardiac output using the gamma
function. J Appl Physiol 1970;28:219-220
[72] Ostergaard, L. et al., 1996. High resolution measurement of cerebral blood flow using
intravascular tracer bolus passages. Part I: Mathematical approach and statistical
analysis. Magnetic Resonance in Medicine: Official Journal of the Society of Magnetic
Resonance in Medicine / Society of Magnetic Resonance in Medicine, 36(5), pagg.715-
725.

Analisi di Segnali Biomedici per Applicazioni Cliniche - a.a. 2015/2016 231


A cura del Prof. Mario Sansone e dell’Ing. Roberta Fusco
Universitá degli Studi ‘Federico II’di Napoli

Potrebbero piacerti anche